这可能会引领通用AI的下一个重大突破

研究者们正在教一个大型的语言模型如何去“看”以帮助他们更好的理解这个世界。您可能已经听我们说过无数次了：可以生成类似人类语言的大型人工智能模型 GPT-3 是一个奇迹，也是一个大型的海市蜃楼。您可以用一个简单的技巧来辨别：询问它绵羊的颜色，它回答“黑色”的次数和“白色”一样多——这反映出“黑色绵羊”这一短语出现在我们日常用语中。

这就是语言模型的一个问题，因为他们仅在文本上进行训练，缺乏常识。

最近来自北加利福尼亚大学的研究者，Chapel Hill 设计了新的技术来解决这一问题。他们称该技术为 vokenization, 该技术赋予了诸如 GPT3 这样的模型“看”的能力。这并非人类第一次尝试将语言模型和计算机视觉相结合，实际上这是一个快速发展的 AI 领域。产生这种想法是因为两种类型的 AI 都有不同的优势。

像 GPT-3 这样的语言模型是通过无监督学习进行训练的，该过程不需要手动数据标记，因此易于扩展。相比之下，像目标识别系统这样的图像模型可以直接从现实中学习到更多。换句话说，他们学到的东西并不依赖于文本所提供的内容。他们可以从绵羊的照片中“看到”他们实际上是白色的。

可以解析语言和视觉输入的 AI 模型也有非常实际的用途。例如，如果我们要构建机器人助手，则他们需要计算机视觉来在世界中进行导航，需要语言来与人类进行交流。但是，将两种类型的 AI 结合起来说起来容易做起来难。这并非简单地将现有语言模型与现有目标识别系统装订在一起。它需要使用包含文本和图像的数据集从头开始训练新模型，该数据集也称为视觉语言数据集。

获得此类数据集的最常用方法是收集带有描述性标题的图像集合。例如，下面的图片的标题为“一只橘猫坐在准备打包的手提箱里。” 这与典型的图像数据集不同，后者仅用一个名词来标记下面的图片，例如“猫”。因此，一种视觉语言数据集不仅可以教一个 AI 模型如何识别目标，而且还能使用动词和介词来告诉模型目标之间是如何相互影响和相互作用的。但是制作这种数据集非常耗时。这就是为什么现有的视觉数据集如此微不足道。

一个常用的纯文本数据集，如英文 Wikipedia（实际上几乎包括所有英语 Wikipedia 条目），可能包含近 30 亿个单词。像 MS COCO 这样的视觉语言数据集仅包含 700 万。根本没有足够的数据来训练 AI 模型以提供有用的信息。

“Vokenization” 解决了这个问题，它使用无监督学习方法将 MS COCO 中的少量数据缩放到英文 Wikipedia 的大小。

在当今用于评估 AI 语言理解力最困难的测试中，经过该训练集训练的视觉语言模型优于目前最好的模型。自然语言处理初创公司 HuggingFace 的联合创始人兼首席科学官托马斯・沃尔夫（Thomas Wolf）表示：“不进行大的变动，你无法在这些测试上超过最先进的水平。”“这不是简单的测试。这就是为什么这令人如此兴奋。”

从 token 到 voken 首先让我们理清这些术语，究竟什么是 voken？在 AI 语言中，用于训练语言模型的单词称为标记 (token)。因此，UNC 研究人员决定将视觉语言模型中与每个标记相关的图像称为“voken”。为每个 token 查找 voken 的算法叫 Vokenizer，整个过程称为 vokenization。这样做的目的不仅是为了显示 AI 研究人员有多喜欢编造单词。

（他们的确如此）。这也有助于理解 vokenization 背后的基本思想。UNC 研究人员不是从图像数据集开始并手动写句子作为标题（这是一个非常缓慢的过程），而是从语言数据集开始，并使用无监督学习来将每个单词与相关图像进行匹配（稍后会详细介绍）。这是一个高度可扩展的过程。因此无监督学习技术才是本论文最大的贡献，即如何为每个单词找到相关图像。

Vokenization 让我们回到 GPT-3。

GPT-3 是 transformer 语言模型家族的一员，2017 年 transformer 的出现带了重大的突破，因为其将无监督学习应用到自然语言处理上。transformer 通过观察词在上下文中的用法来学习人类语言的模式，然后根据该上下文为每个词创建数学表示，称为“词嵌入”。例如，“猫”一词的嵌入可能表明，它经常在“喵”和“橘”两词周围使用，而在“树皮”或“蓝色”等词周围较少使用。

这就是 transformer 如何近似的表达词的含义，以及 GPT-3 如何编写类似人类的句子。它部分地依靠这些嵌入来告诉它如何将单词组合成句子，将句子组合成段落。有一种并行技术也可以用于图像。它不通过扫描文本来查找单词使用模式，而是扫描图像以查找视觉模式。比如说它列出了猫出现在床上而不是树上出现的频率，并利用该上下文信息创建了‘猫’嵌入。

UNC 研究人员的想法是，他们应该在 MS COCO 上同时使用两种嵌入技术。他们将图像转换为视觉嵌入，将标题转换为词嵌入。这些嵌入的真正精巧之处在于可以将它们嵌入三维空间中，并直接看到它们之间的关系。与词嵌入紧密相关的视觉嵌入会在图中显示得更近。换句话说，视觉猫嵌入（理论上）应与基于文本的猫嵌入重叠。这很酷。您应该可以看到下一步如何走。

一旦将所有嵌入进行图形化表示并与其他嵌入进行比较和关联，就可以轻松地将图像（vokens）与单词（tokens）进行匹配。请记住，由于图像和单词是根据其嵌入进行匹配的，因此在上下文中他们也是匹配的。当一个词有完全不同的含义时，这会很有用。该技术通过为词的每个实例找到不同的 voken 来成功地解决这一问题。

研究人员使用 MS COCO 创建的视觉和词嵌入来训练其 vokenizer 算法。

训练完成后，vokenizer 便可以在英语维基百科中为每个 token 找到对应的 voken。这不是完美的。该算法仅为大约 40％的 tokens 找到了 vokens。但这仍然是拥有近 30 亿个字的数据集的 40％。利用这个新的数据集，研究人员重新训练了 BERT 的语言模型，BERT 是 Google 早于 GPT-3 开发的一种开源 transformer。

然后，他们在六种不同的语言理解测试中测试了新改进的 BERT，包括 SQuAD，斯坦福问题回答数据集（该模型要求模型回答有关一系列文章的阅读理解问题）和 SWAG，SWAG 试图利用英语的微妙之处来测试模型以探究它是否只是模仿和记忆。改进后的 BERT 对所有这些都表现更好，Wolf 说这需要引起重视。

研究人员，博士研究生 Hao Tan 和他的导师 Mohit Bansal 将在 EMLNLP 会议上介绍其新的 vokenization 技术。尽管这项工作还处于初期阶段，但 Wolf 认为他们的工作是使无监督学习适用于视觉语言模型的一项重要的概念突破。这有助于大大推动自然语言处理的发展。

他说：“在 NLP 上，两年前我们取得了巨大的突破，然后突然间 NLP 成为了一个正在发生很多事情的领域，它领先于所有其他 AI 领域。”“但是我们有将文本与其他事物联系起来的问题。否则它就像只会说话却看不见，听不到的机器人一样。”他说：“这篇论文是他们设法将文本连接到另一种方式的一个例子，并且效果很好。”“你可以想象，当你想在机器人中利用这种功能强大的语言模型时，其中某些技术可能会被重用。

也许您使用同一种技术将机器人的感官与文本联系起来。”