深度学习如何处理人类语言?探究Google mBERT模型创建文本背后的奥秘

作者: 阳光

来源: arXiv

发布日期: 2021-02-28

本文探讨了Google的多语言BERT(mBERT)模型如何处理人类语言,特别是其如何创建文本和进行预测。研究由斯坦福大学、加州大学欧文分校和加州大学圣巴巴拉分校的研究人员联合进行,旨在更好地理解mBERT模型的技术运行方式及其创建语法特征的能力。研究发现,mBERT模型能够识别句子中的主语和宾语,并以与现有语言学文献一致的方式表示两者之间的关系。

具有语言能力的深度学习系统已经广泛应用于人们的生活当中。其中一些系统使用了Google发布的特定深度学习模型——多语言BERT(Multilingual BERT,简称mBERT)。mBERT模型可以同时接受大约100种语言的训练,这种多语言的训练使模型可以完成各种语言任务,例如,将文本内容从一种语言翻译成另一种语言。

虽然已经发现mBERT模型在许多语言任务中表现良好,但是人们对mBERT模型“如何创建文本并如何做出预测”的相关信息并不清楚。为此,来自斯坦福大学、加州大学欧文分校和加州大学圣巴巴拉分校的研究人员联合开展了一项新的研究,研究目的是为了更好地理解基于mBERT模型的技术是如何运行的,以及它是如何创建语法特征的。

相关研究结果以“Deep Subjecthood: Higher-Order Grammatical Features in Multilingual BERT”为题,已发表在论文预印本网站arXiv上。该论文为这些常用模型的基础以及它们在完成各种任务时如何分析语言提供了宝贵的线索。

在过去的几十年中,研究人员开发了基于深度神经网络的模型,它们可以完成各种各样的任务。其中一些技术专门设计用于处理和生成多种语言的连贯文本、翻译文本,并可以回答有关文本的问题,以及创建新闻文章或其他在线内容的摘要。比较典型的代表是Siri、Alexa、Bixby、Google Assistant和Cortana等应用程序,这些程序为实时翻译、分析文本提供了极大的便利。

而这些应用程序大部分采用了Google发布的mBERT模型,用户可以使用多种语言(比如英语、西班牙语、法语、巴斯克语和印尼语等)与基于mBERT的系统进行交互。虽然像mBERT这样的模型非常强大,但是与经过预先训练的深度学习模型不同,它们实际上包含的信息并不明显,甚至对它们的创造者来说也是如此。这是由于这些模型是经过训练的,而不是经过编程得到的。

因此,探究mBERT模型的工作原理,成为了许多使用者关心的问题。

理解mBERT模型如何对语言进行编码与尝试理解人类如何处理语言并没有太大不同。此次研究的主要目的是,确定mBERT矢量模型是否包含关于人类语言及其结构的一些更深层次的信息。更具体地说,他们想确定这些模型,是否能够自动地揭示几十年来语言学研究已经确定的概括,这些概括信息对语言分析来讲是十分有用的。

本质上,mBERT模型将文本表示为一系列矢量,每个矢量包含数千个数字。每个矢量都对应一个单词,而单词之间的关系则被编码为高维空间的几何关系。加州大学圣巴巴拉分校的语言学家、指导这项研究的高级研究员之一Kyle Mahowald表示:“由于这些模型在处理人类语言方面做得很好,因此我们知道这些数字向量一定代表了语言知识。但是它们是如何编码这些信息的,这与人类大脑中知识的表达方式有什么相似之处?

我们的工作是努力理解语言的深层神经模型表示和使用语言信息的方式的一部分。”

加州大学欧文分校的语言科学家、该项目的另一位高级顾问Richard Futrell说:“这是研究计算语言学特别令人兴奋的时刻。多年来,语言学家一直在谈论诸如‘语义空间(semantic space)’之类的概念,认为单词和短语的意义是某个空间中的点,但这都显得有点模糊和印象主义。

如今,这些理论已经变得非常精确:我们实际上有一个模型,其中一个单词的含义是空间中的某一个点,并且这个模型确实以一种暗示其理解某些人类语言的方式表现。”

为了处理人类语言,在深入分析人类语言之后,mBERT模型和其他基于深度学习的语言分析框架,实际上可能已经重新发现了语言学研究者在深入分析人类语言之后所设计的理论。或者,它们可能基于全新的语言理论或规则进行预测。对此,Mahowald和他的同事们希望进一步探索这两种可能性,因为理解这些计算技术如何对语言进行编码可能对计算机科学和语言学的研究具有重要的意义。

由于mBERT模型通常是在人类编译的数据集中进行训练的,因此它们可能会发现一些人类在处理与语言相关的问题时常犯的一些错误。这项由多学科团队进行的研究可能有助于发现AI工具在分析语言时所犯的一些错误和其他错误。

为了更加深入地理解mBERT模型,研究人员着手研究mBERT模型如何代表不同语言中主语和宾语之间的差异。人们可能会假设所有语言都描述了主语和宾语的关系,并且它们以相似的方式表示。但是,在不同的语言中,主语和宾语的构成实际上存在巨大的差异。该论文的作者之一、斯坦福大学计算机科学专业的研究生Isabel Papadimitriou和她的同事们试图利用这些差异来更好地理解mBERT模型是如何处理句子。

这些发现为mBERT模型以及其他用于语言分析的计算模型如何表示语法信息提供了新的有趣见解。有趣的是,研究人员研究的基于mBERT向量表示的检验模型也发现会产生一致的错误,这些错误可能与处理语言的人类所犯的错误一致。总体而言,研究表明mBERT模型可以识别句子中的主语和宾语,并以与现有语言学文献一致的方式表示两者之间的关系。

在未来,这一重要发现可以帮助计算机科学家更好地理解深度学习技术是如何处理人类语言的,从而帮助他们进一步提高性能。Mahowald表示:“我们现在希望继续探索语言的深层神经模型,在它们的连续向量空间中表示语言类别(如主语和宾语)的方式。具体来说,我们认为语言学的工作可以告诉我们如何看待这些模型以及它们在做什么,语言学的工作试图将主语和宾语等角色描述为一组特征,而不是离散的类别。”

UUID: f6eded74-dfc4-486b-bd4f-e8a313d8ce5b

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-02-28_深度学习如何处理人类语言?探究GooglemBERT模型创建文本背后的奥秘.txt

是否为广告: 否

处理费用: 0.0060 元