如果你让GPT这样的大语言模型(LLM)闻一闻雨中露营地的气味,它会婉言谢绝。但如果让它向你描述一下这种气味,它则会毫无障碍地给出一些诗意的描述,比如“空气中弥漫着期待的气息”,那是“一种既清新又充满泥土芬芳的味道”,尽管这些模型既没有淋过雨,也没有鼻子。
对于这种现象,一种可能的解释是,LLM只不过在模仿大量训练数据中的文字,而不是真正理解“雨”或者“气味”。最近也有越来越多关于LLM能不能真正“理解”语言的争论:缺乏直接的视觉输入,是不是一定意味着语言模型永远无法明白狮子比猫“大”是什么意思呢?
这其实也是现代人工智能研究中的一个核心问题:LLM的惊人能力仅仅是处于大规模的统计相关性,还是说它对现实产生了具有含义的理解?
麻省理工学院计算机科学与人工智能实验室(CSAIL)的科学家在对这一问题进行了深入研究后,发现了一些有趣的结果。他们认为,语言模型可能会为了提高生成能力,而发展出它们自己对现实的理解。研究已发表在第41届国际机器学习大会(ICML 2024)上。
LLM的“内心世界” 团队首先开发了一组小型卡雷尔谜题(Karel Puzzle),其中包括生成一些在模拟环境中控制机器人的指令。接着,他们针对谜题训练了LLM,但并没有向模型展示那些解决方案的实际工作原理。
实验开始时,模型生成的随机指令并不对。但到训练完成时,指令的正确率达到了92.4%。这非常令人激动,因为这可能意味着,如果模型能以如此高的准确率完成一项任务,也许它可以理解语言中的含义了。
他们用了一种名为“探测”(probing)的机器学习技术,查看模型在生成新的解决方案时的“思考过程”。在这种技术中,探针可以用来解读LLM对指令含义的理解,它可以揭示LLM自身开发的内部模拟如何模拟机器人响应每条指令的过程。
一种形象比喻是,你有一堆数据编码了大模型的思考过程,而探针就像一位分析师。你把这堆数据交给分析师,告诉他与这些数据有关的机器人的运动方式,然后让他从这堆数据中找出机器人的动作。分析师在进行分析后,就能告诉你这堆数据中反映的机器人动作。
他们发现,在对100多万个随机谜题进行训练后,尽管LLM从未真正接触过现实世界,但它已经自发形成了一套对底层模拟的概念。随着模型解谜能力提高,这些内部概念也变得越来越准确。
语言模型可能会发展出自身对现实的理解,以此来提高生成能力。这表明,有朝一日,模型对语言的理解可能会比现在更深入。
换句话说,LLM逐步开始“理解”指令。不久之后,模型就能正确地把各个方面拼接在一起,形成工作指令。
有意思的是,LLM对语言的理解似乎也是分阶段发展的,就像小孩子分多个步骤学习语言那样。一开始,它像婴儿那般咿呀学语,会产生大量重复的“话”,大多不知所云。随后,模型开始掌握语法或者一些语言规则,并生成看似道地的指令,但这些指令仍然不起作用。LLM的指令也会不断改进。一旦它掌握了语义,就开始生成能正确实现所要求的指令,就像一个孩子终于能说出连贯的句子。
构建一个“奇异世界” 虽然探针只是走进了大模型的“内心世界”,但也有可能探针反而帮助了模型“思考”,尽管这种可能性微乎其微。
回到分析师的那个例子,这就好比,如果那些数据仅仅编码了那些原始的机器人指令,而聪明的分析师也已经找到了一些巧妙的捷径来提取这些指令。这样一来,即使分析师告诉了你数据是怎么回事,也无法说明语言模型真正理解了含义。团队希望确保模型的确在独立理解指令,而不是由探针来推断机器人的动作。
为了区分两者的角色,研究人员在一个新探针中翻转了指令含义。简单来说,他们构建了一个“奇异世界”,在这里,“向上”的指令反而代表向下移动机器人穿越网格。通过这种构建世界和现实的反差可以确认,语言模型并不是简单地编码了指令,相反,原始的语义嵌入了语言模型中,它能真正独立“理解”那些指令。
模拟现实 这项研究让我们看到,LLM的能力远不止盲目地将单词拼接在一起。尽管它从未接受过类似的训练,但仍能建立起一个模拟现实的内部模型。
不过,科学家也承认了目前研究的局限性。他们使用了一种非常简单的编程语言和一个相对比较小的模型。接下来的研究中,他们正在考虑用一种更通用的设置来进行实验。
这项研究也像是一个起点,接下来还有许多更有意思的问题有待探究。比如,LLM在解决问题时,是不是真的在使用它内部的现实模型来推理现实?有没有什么方法能让模型更快地学习语言含义,或者获得更深层次上的语言理解?
此外,长期以来,哲学家和科学家都认为,为语言赋予含义的能力是人类智慧的标志,他们也一直在探索究竟是什么基本要素让人类做到了这一点。这些成果或许也能让我们更深入地了解语言和语义。