科学家创造了⼀种神经⽹络,具有类似⼈类的能⼒,可以对语⾔进⾏概括。该神经⽹络将新学到的单词折叠到现有词汇表中,并在新的语境中使⽤,其表现与⼈类不相上下。这种能⼒是⼈类认知的⼀个关键⽅⾯,被称为系统泛化。研究⼈员将同样的任务交给了聊天机器⼈ChatGPT的⼈⼯智能(AI)模型,发现它在这种测试中的表现⽐新的神经⽹络或⼈类要差得多,尽管聊天机器⼈具有以类似⼈类的⽅式进⾏对话的神奇功能。
这项⼯作可能会使机器与⼈的互动⽐当今最好的AI系统更⾃然。相关成果10⽉25⽇发表于《⾃然》。美国约翰斯·霍普⾦斯⼤学专⻔研究语⾔的认知科学家Paul Smolensky说,神经⽹络的类⼈表现表明,“在使⽹络具有系统性的训练能⼒⽅⾯已经取得了突破”。系统泛化能⼒表现为⼈们在新环境中毫不费⼒地使⽤新获得的单词。
例如,⼀旦⼈们掌握了新词的含义,他们就可以在各种情况下使⽤;同样,理解“猫追狗”的⼈不需要太多思考也会理解“狗追猫”。但是论⽂作者之⼀、美国纽约⼤学认知计算科学家Brenden Lake说,神经⽹络并⾮天⽣具备这种能⼒。神经⽹络是⼀种模拟⼈类认知的⽅法,⼀直主导着AI研究。与⼈类不同的是,神经⽹络很难使⽤⼀个新词,除⾮它们在使⽤该词的许多⽂本上进⾏训练。
近40年来,AI研究⼈员⼀直在争论,如果神经⽹络不能证明具备这种能⼒,它能否成为⼀种合理的⼈类认知模型。为结束这场争论,研究⼈员⾸先测试了25个⼈,看他们在不同情况下使⽤新学单词的能⼒。他们使⽤⼀种由两类⽆意义单词组成的伪语⾔来测试,以确保参与者是⾸次学习这些单词。“dax”“wif ”和“lug”等“原始”单词代表了“跳过”和“跳跃”等基本⽽具体的动作。
更抽象的“功能”单词,如“blicket”“kiki”和“fep”,则指定了使⽤和组合的规则,从⽽产⽣了“跳3次”或“向后跳”之类的组合。参与者被训练将每个“原始”单词与特定颜⾊的圆圈联系起来,其中红⾊圆圈代表“dax”、蓝⾊圆圈代表“lug”。然后,研究⼈员向参与者展示了“原始”单词和“功能”单词的组合,以及当后者应⽤于前者时产⽣的圆圈模式。
最后,研究⼈员通过向参与者提供复杂组合来测试他们应⽤这些抽象规则的能⼒。参与者必须选择正确的颜⾊和圆圈数量,并将其按适当顺序放置。正如预测的那样,⼈类在这项任务上表现出⾊,80%的⼈选择了正确的彩⾊圆圈组合。当他们犯错误时,研究⼈员注意到这些错误遵循了⼀种反映已知⼈类偏⻅的模式。接下来,研究⼈员训练了⼀个神经⽹络,通过编程让它从错误中学习,从⽽完成与提供给参与者类似的任务。
这种⽅法允许AI在完成每项任务时进⾏学习,⽽不是使⽤静态数据集——这是训练神经⽹络的标准⽅法。为了使神经⽹络像⼈类⼀样,研究⼈员训练它重现在⼈类测试结果中观察到的错误模式。当神经⽹络进⾏新测试时,它的答案⼏乎与⼈类参与者的答案完全⼀致,在某些情况下甚⾄超过了⼈类的表现。相⽐之下,GPT-4在完成同样的任务时遇到了困难,平均失败率在42%到86%之间,这取决于研究⼈员如何呈现任务。
“这不是魔法,⽽是练习。”Lake说,“就像孩⼦在学习⺟语时也会练习⼀样,这些模型通过⼀系列学习任务来提⾼它们的技能。”美国圣塔菲研究所的计算机和认知科学家Melanie Mitchell表示,这项研究是⼀个有趣的原理证明,但这种训练⽅法能否扩展到更⼤的数据集甚⾄图像上,还有待观察。
Lake希望通过研究⼈类如何从⼩就培养出系统泛化的能⼒来解决这个问题,并将这些发现结合起来,建⽴⼀个更强⼤的神经⽹络。