40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

作者: 蒋宝尚

来源: AI科技评论

发布日期: 2020-04-15

谷歌联合CMU、DeepMind推出的XTREME基准测试,涵盖了40种语言和9项推理任务,旨在评估跨语言迁移学习的性能。该基准测试包括多样的任务和语言,考虑了任务难度、多样性、训练效率等多方面因素。XTREME包含的任务涵盖句子分类、结构化预测、句子检索和问题解答等范式。实验结果显示,XLMR模型总体表现优于mBERT,但在结构化预测任务上改进较小。跨语言迁移学习仍有很大潜力,尤其是在低资源语言和句法任务上。

全世界约有6900种语言,但大多数并没有英语这种数据规模,这也导致大多数的NLP基准仅限于英文任务,这大大制约了自然语言处理的多语言发展。从语言学的角度,值得注意的一点是,不同语言或许有相同的来源,例如英语的“desk”和德语的“Tisch”都来自拉丁语“discus”。如何利用语言之间的这种“共享结构”来克服数据不足问题,是当前学术界尝试多语言研究的方向之一。

近日,谷歌联合CMU、DeepMind推出的《XTREME:评估跨语言泛化的大规模、多语言、多任务基准》(XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization)极大的鼓励了多语言研究。

这篇研究涵盖了40种类型多样的语言(涵盖12种语系),还包括9项需要共同对不同级别的句法或语义进行推理的任务。

XTREME设计原则正如谷歌论文的标题,XTREME是一个基准,用来评估跨语言迁移学习的好坏,在多样化和具有代表性的任务和语言上,其选择构成基准的任务和语言主要考虑的原则包括:任务的难度、任务的多样性、以及训练的效率、多语言性、充足的单语数据等等。

XTREME包含9个任务,共有4个类别,可以在不同的意义层次上进行推理。任务概述如上表所示。XNLI:FAIR和纽约大学合作开发,作为一个新的自然语言推断语料库,其将MultiNLI的测试集和开发集扩展到15种语言,包括斯瓦西里语和乌尔都语等低资源语言。

PAWS-X:是在PAWS数据集基础上,扩展了包含另外6种不同类型语言的释义识别对抗性数据集,支持语言包括:法语、西班牙语、德语、汉语、日语和韩语。PAWS-X数据集则包含23659组由人工判断而得的PAWS扩展句子对,以及296406组由机器翻译的训练对。POS:作者使用了通用依存关系中数据库中的POS标签数据,并使用英语训练数据进行训练,并在目标语言的测试集上进行了评估。

NER:对于NER,作者使用了Wikiann数据集,并用知识库属性、跨语言、锚链接、自我训练和数据选择相结合的方法,对维基百科中的命名实体进行了IOB2格式的LOC、PER和ORG标签的自动注释。XQuAD:是一个更全面的跨语言基准测试,包括由专业翻译人员翻译成十种语言的240段和1190对问题回答。MLQA:这是一个类似于XQuAD的多语言问题回答数据集,能够用于评估跨语言问答性能的基准。

其由SQuAD格式的超过5K提取QA实例(英语为12K)组成,使用7种语言-英语,阿拉伯语,德语,西班牙语,北印度语,越南语和简体中文。XTREME基准测试中支持的任务TyDiQA-GoldP:TyDiQA是一个涵盖了11种不同类型语言的问答语料库,TyDiQA-GoldP是其简化版,并排除了一些无法回答的问题。它类似于XQuAD和MLQA,但比这两个分别少了三倍和两倍的的词法重叠度。

另外,作者使用使用英语训练数据在目标语言的测试集上进行训练和评估。BUCC:该数据集为每种语言提供了训练和测试分词,为了简化,作者直接对测试集上的表征进行评估,没有进行微调,但使用了余弦相似度公式计算相似度。Tatoeba:该数据集包含了多达1000个覆盖122种语言的英语句子对,在该数据集上,作者使用余弦相似度找到近邻(nearest neighbour),并计算错误率。

综上,XTREME中包含的任务涵盖了一系列范式,包括句子分类,结构化预测,句子检索和问题解答。由于英语是多语言表征中最常用的评估设置,并且多数任务中仅有英语训练数据,所以谷歌在评估设置上采用英语作为源语言的zero-shot跨语言迁移。虽然英语并非所有目标语言的跨语言迁移的最佳源语言,但这是目前实践中最拥有的设置。

为了使用XTREME评估模型性能,首先需要使用引起跨语言学习的目标语言在多语言文本上对模型进行预训练,接着在指定任务的英语数据上对模型进行微调。随后,XTREME在目标语言上评估模型的zero-shot跨语言迁移性能。模型的跨语言迁移学习过程:1、针对多语言文本的预训练;2、使用英语对下游任务进行微调;3、使用XTREME进行zero-shot评估。

实践中,这种zero-shot设置的好处之一是能够提升计算效率,即预训练模型仅需要针对每个任务在英语数据上进行微调,便可以在其他语言上直接进行评估。针对在其他语言中也有标注数据的任务,作者也比较了模型在这些语言上进行微调后的性能,最终获得了9个XTREME任务的zero-shot得分,得出了综合分数。

在基准测试方面,谷歌研究者选择几种当前最先进的多语言模型进行试验,包括多语言BERT模型(mBERT),多语言BERT模型的大型版本XLM和XLM-R以及大型多语言机器翻译模型M4。这些模型的共同特点,就是它们已经在来自不同语言的大量数据上进行了预训练。在方法上,主要采用的是通过自监督或借助译文来学习多语言表征。

实验结果如上图所示,XLMR是表现最好的模型,总体上比mBERT有明显的改进,但是在结构化预测任务上的改进较小。MMTE在大多数任务上的性能与mBERT相当,在XNLI、POS和BUCC上的性能更强。对于有语内训练数据(in-language training data)的任务,使用语内数据训练的多语言模型要优于zero-shot迁移模型。

但是,只要有更多的英语样本,zero-shot迁移模型就会好于只训练了1000个复杂QA任务的语言内示例的多语言模型。对于结构化预测任务,1,000个语内实例能使模型达到与在完整的标签化数据集上训练的性能。最后,在Translate-train和In-language设置上的多任务学习一般都比单一语言训练有所改善。

对于一些有代表性的模型,作者研究了跨语言转移差距,即在英语测试集上的表现与所有其他语言之间的差距。如上图所示,虽然在XQuAD和MLQA等具有挑战性的任务上,XLM-R等强大的模型与mBERT相比,可以显著缩小差距,但它们在句法结构化预测任务上的影响不尽相同。在分类任务上,转移学习的差距最小,说明在这些任务上的进步空间可能较小。机器翻译的使用虽然缩小了所有任务之间的差距。

总体而言,所有方法都存在很大的差距,这表明跨语言迁移工作的潜力很大。作者进行了一系列的分析,研究了当前能够达到SOTA的跨语言模型的局限性。具体分析包括五个部分:最佳zero-shot模式分析:如上图所示,这部分主要说明为什么在不同的任务和语言中评估通用的多语言表征非常重要。

与训练前数据大小的相关性:如上图模型性能与各语言中维基百科文章数量的皮尔森相关系数ρ,表明除了结构化预测任务的任务外,多数任务的相关系数都很高。这意味着当前的模型无法充分利用从预训练数据中提取的信息来转移到句法任务。语言特点分析:如上图,根据不同语系和编写脚本分析结果。对于mBERT,印欧语系的分支(如日耳曼语、罗曼语和斯拉夫语)的迁移性能最佳。

相比之下,尼日尔-刚果和克拉-傣语等低资源语系的跨语言迁移表现仍然较低。另外,不同的流行脚本,如拉丁文和表意文字,在句法任务上的表现是不同的。跨语言的错误:因为对于其他测试集是从英语翻译过来的XNLI和XQuAD,这部分作者分析了这些方法在源语言和目标语言中是否会犯同样类型的错误。更为具体一些是探讨了英语中正确和错误预测的例子是否在其他语言中被正确预测。

结果是在XNLI和XQuAD数据集上有不同答案。推广到不可见的标签组合和实体:这部分主要分析了结构化预测任务迁移不成功的原因。结论是该模型可能难以推广到更具目标语言特征的实体。

UUID: 540edd1e-09db-4d07-ab72-3c0c96840ea0

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2020年-上/2020-04-15_40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME.txt

是否为广告: 否

处理费用: 0.0074 元