智言智语:跨语言自动摘要技术的研究与应用

作者: 朱军楠

来源: 中国科学院自动化研究所

发布日期: 2020-07-08 07:30:00

本文介绍了跨语言自动摘要技术的研究进展,特别是中科院自动化所自然语言处理团队提出的融合翻译模式的跨语言自动摘要方法,该方法通过分解为聚焦、翻译和归纳三个步骤,有效提升了摘要质量并减少了模型依赖。

跨语言自动摘要是一项对源语言文本核心信息进行内容归纳,以目标语言的形式组织成摘要的任务,可广泛应用于内容推荐和跨境电商等场景,让大众体验技术的魅力。此前,由于源文档与其相应的跨语言参考摘要的数据对的缺失,大多数已有跨语言自动摘要方法只能采用“先翻译后摘要”或者“先摘要后翻译”等管道式方法实现。

这类方法将跨语言自动摘要割裂为单语言自动摘要和机器翻译两个步骤,前一步骤的误差直接影响后一步骤的性能,导致误差传播,进而制约摘要质量的提升。为缓解此问题,研究人员开始尝试构建跨语言自动摘要平行数据,并在此基础上开展基于深度学习的跨语言自动摘要方法研究。跨语言自动摘要任务与负责摘要的单语言自动摘要任务和与负责翻译的机器翻译任务均密切相关。

单语言自动摘要和跨语言自动摘要既有共性,也有区别,共性在于两者具有一致的目标——获得原文的核心内容;区别在于最终呈现的语言形式与原文语言一致与否。对于机器翻译和跨语言自动摘要而言,从信息压缩的角度来看,机器翻译可以被视为一种特殊的跨语言自动摘要,即信息压缩比为1:1的跨语言自动摘要。

因此,研究人员提出了一种基于多任务学习的跨语言自动摘要方法,该方法将跨语言自动摘要模型同单语言自动摘要模型或者机器翻译模型联合进行优化,取得了相当良好的性能。然而,基于多任务学习的方法由于依赖外部数据,模型容量较大且需要很长的训练时间,仍然难以应用于真实场景。

针对此问题,中科院自动化所自然语言处理团队提出一种融合翻译模式的跨语言自动摘要方法,有效缓解已有方法的缺陷,相关成果发表于第五十八届国际计算语言学年会。该工作受跨语言自动摘要中存在的目标端词汇可通过翻译源端某些词汇得到,这一“翻译”现象的启发,提出将跨语言自动摘要分解为三个步骤:聚焦、翻译和归纳,整体框架如图3所示。

具体而言,该方法首先通过注意力机制对原文包含的重要内容词进行聚焦,并得到这些关键词的翻译候选,最后依据翻译候选或者神经概率分布生成摘要词汇。在“翻译”步骤,研究人员尝试并对比了三种策略:“朴素”、“平等”和“适应”。

“朴素”策略直接将概率双语词典中的翻译概率作为词汇的双语翻译概率,而“平等”策略则是将概率双语词典中的翻译概率进行平均处理,“适应”策略将源端的上下文语义信息用于动态地挑选合适的翻译候选。相关实验表明,融合翻译模式的跨语言自动摘要方法能够生成与基于多任务学习方法质量相当的摘要,但相比之下前者具有降低模型对于数据的依赖、减小模型容量和提升训练效率的优势。

UUID: 099ec626-9949-4ef2-93e3-6f2464069d88

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院之声公众号-pdf2txt/2020/中科院之声_2020-07-08_试试让机器自己生成摘要?丨智言智语.txt

是否为广告: 否

处理费用: 0.0033 元