长久以来,自然语言生成任务性能评价方法只针对某一个特定意图设计,不能很好的全面评价生成文本质量优劣。最近,来自卡内基梅隆大学(Carnegie Mellon University,CMU)和加利福尼亚大学圣迭戈分校(University of California, San Diego,UCSD)的研究人员,提出一个统一的自然语言生成评价方法。
该方法可以考察语言信息的变化程度,变化包括压缩、转写和创作等。作者认为,输入文本、上下文和输出文本之间的信息对齐能很好地刻画自然语言生成过程。随着自然语言自动对齐算法的发展,这一系列可解释的指标,用于评价各类NLG任务的不同方面,并且不需要参考标签。自然语言生成(Natural Language Generation, NLG)是指一系列根据输入数据和其他上下文信息生成流利的文本的任务。
自然语言生成包括多种不同任务,例如自然语言摘要任务(summarization)要求将输入文本压缩为一小段包含其关键信息的文本;翻译任务(translation)将一种语言的文本转写为另一种语言;聊天任务(chatbot)生成有趣的回复以推进聊天的进行。近年来,NLG算法方面的研究取得了显着的进展。
然而,长期以来,NLG的评价一直是困难的,人工评价通常非常昂贵且缓慢,而鉴于文本建模的复杂性和多样性,准确的自动评价具有挑战性,需要兼顾不同NLG任务侧重的方向。该研究从信息变化的角度提出了一个更统一的NLG评价视角,为测量NLG任务的许多关键方面提供了一个通用框架。
具体来说,根据NLG的实际应用,每个任务都可以看作是:(1)压缩,以简洁的文本表达突出的信息,如摘要和图像字幕;(2)转写,即在准确保留内容的同时进行文本转换,如翻译和风格转换;(3)创作,通过输入情境创造新内容,如对话和故事生成。这三个主要类别背后的一个共同概念是信息对齐,因此,团队将其定义为一个信息从一种文本描述转移到另一种文本描述的保留。
对于压缩任务(例如,摘要),目标是简洁地描述输入中最重要的信息。即输出只包含输入的内容,即一致性,所包含的内容必须是突出的,即相关性。直观地,通过评估生成的输出中的信息如何与输入中的信息重叠(以及提供显著性线索的参考)的信息对齐度量,可以很容易地评估两个关键方面。同样的直觉也适用于转换任务(例如,样式转换),其中输出必须精确地保存输入内容。因此,评估也可归结为测量输入和输出之间的信息对齐。
创建任务(例如,对话框)生成在输入(例如,对话历史)之上添加新信息(例如,来自外部的知识)的输出。因此,输出、输入和外部来源之间的信息对齐对于评估创建的内容如何与上下文结合非常重要以及通过与外部来源的联系有多大意义。从上面的角度来看,信息对齐是连接各个任务的评估的公共中心组件。一个准确的对齐预测模型将使人们能够可靠地评估各种应用中的许多相关方面。
在NLG任务中,令x为输入,c是额外的上下文信息,y是输出文本。例如,在基于知识的对话任务中,x是历史的对话,c是外部知识如维基百科文章,y是响应。在目前的工作中,我们假设x和c都是文本,但当x和c为其他形式(例如,图像,表格)时,一般框架也适用,只要我们可以测量它们的信息与下面定义的y的一致性(例如,使用跨模态模型)。在某些任务中,可以使用人工编写的标准输出,我们将其表示为r。
如上所述,信息对齐是NLG评价的核心模块。将从任意文本a到b的对齐视为标记级的软对齐。设a是长度为N的文本,b是任意数据,a与b之间的对齐分数记作an表示a的第n个token出现在b中的可信度。注意从a到b的对齐是单向的:它并不度量b如何对齐到a。接下来,来看如何使用对齐得分来为各种任务定义直观的指标(细粒度的对齐得分还为结果度量提供了一定程度的可解释性)。
该研究在核心信息一致性度量的基础上,给出了不同任务中一系列关键方面的度量标准。接下来将讨论测量文本之间对齐得分的不同有效实现,包括嵌入匹配、判别模型和回归,所有这些都基于强大的预训练语言模型(图2)。团队对常用的、用于摘要、风格转换和对话的人工标注数据集评价提出了度量,并研究了信息对齐精度对度量性能的影响。
总而言之,针对NLG任务中的压缩、转写和创作三个文本生成类型,这项研究提出一个统一的通用NLG任务评价框架。基于输入、上下文和输出的信息对齐,我们为不同任务的关键方面(总结、风格转换和对话)设计了一系列可解释的度量标准。与现有的NLG度量相比,统一设计的度量方法实现了最好的人类相关性。统一的框架为新方面/任务的度量设计提供了结构化的指导,我们期待在未来有更多的探索。
【学术头条】与【数据实战派】是我们科学+科技内容联合体的主要成员。【数据实战派】致力于打造一个不用感叹号的新兴AI内容自媒体,围绕“计算+智能(computing+intelligence)”技术,力求从种种杂音和噪声中,压缩出更纯粹且重要的知识,助力中国AI开发者的高速成长。
目前,【数据实战派】由一批具有AI/CS专业背景的作者及资深科技编辑共同运营,并已聚拢一大批有着深度阅读习惯、优质内容品位的读者。我们期待有志之士的加入,共同打造高规格的AI技术社区。