深度剖析：ChatGPT及其继任者会成为通用人工智能吗？

继ChatGPT以近乎摧枯拉朽的气势席卷社会之后，3月14日，OpenAI又发布了GPT-4，宣称其可以更准确地解决复杂问题，是“最先进的人工智能系统”。那么，取得了现象级成功的由深度学习开发而来的此类智能聊天机器，有很⼤希望成为人类梦寐以求的通用人工智能吗？本文将从理论上分析ChatGPT的若干根本局限，及各界对其存在的几个普遍误读。

此外，尽管本文针对的是ChatGPT，但结论适用于其他大语言模型。

ChatGPT问世以来，在引起全社会关注的同时也触发了很多争论。很多人被它似乎无所不知的内容储备和流畅的语言表达能力所震惊，但也有不少人因为它不时冒出来的“一本正经的胡说八道”而断定其不堪大用。关于对未来社会的影响，有人欢欣鼓舞地憧憬脑力劳动的效率提升，而另一些人则在忧心忡忡地预测就业机会的减少。一时间众说纷纭，蔚为大观。

本文无意于讨论这些问题，而只准备集中分析一个话题：这种系统会成为所谓“通用人工智能”吗？

ChatGPT属于“大语言模型”（Large Language Model，LLM），其直接目标是总结人类语言使用的统计规律。其构造过程主要包括两个阶段：首先，利用互联网等来源提供的语言材料训练一个巨型人工神经元网络，直接在字词、语句等水平上总结语言使用者的习惯。

最简单的情况就是统计一个词出现在另一个词之后的频率，比如在“这”出现之后，有多少次下一个字是“里”。既然一个语言的词汇量是有限的，这种统计就完全可能进行，只是由于计算量极大，没有人会这样学习语言而已。以此为基础，可以进一步根据一个句子的开头计算其各种结尾的出现频率，以至于在一句话之后出现另一句话的可能性，如此等等。

这和很多输入法根据已经打出的字猜测后面字的做法基于相同的原理，只是海量的语言材料和超人的计算能力使得这种模型取得了任何人无法企及（甚至难以想象）的结果。这就直接解释了ChatGPT的内容广度和语言流畅性，因为它所说的话就是该语言的使用者们在相同的语境下最可能说的。

在上述“预训练”的基础上，ChatGPT又经过了“强化学习”过程，在其中人类训练者为它提供了大量典型问题，并对其回复进行“奖励”或“惩罚”，通过调整模型的参数使得其行为符合人类要求。这就解释了它为什么会在某些问题上提供背离统计数据的回复，尤其是当那些统计结果可能引起伦理或政治麻烦，或者不符合其作为聊天程序的“身份”的时候。

尽管上述过程已经覆盖了非常广的范围，但总还有问题超出其外，就是说既没有来自语言材料的显著统计结论，也没在后续训练中出现过。在这种情况下，ChatGPT（或者说作为其基础的人工神经元网络技术）就会根据最类似的已知问答做出反应。这里“类似”的标准也是统计性的，比如说“这”的统计特征（即前面提到的各种频率）和“那”会很接近，而和“和”就不会那么接近。

这种处理方式当然有道理，但也正是各种“一本正经的胡说八道”的来源，因为如果类似程度不够高，这种替换结果的可信性就很成问题，而且这种“统计上的类似”和“含义上的类似”毕竟不完全是回事。

虽然上面的介绍包括了大量简化，从中已经可以看出ChatGPT的一些根本局限。由于训练材料不可能穷尽一个语言的所有用法，而基于统计相似性的解决方案并不可靠，其答案的可信性就不可能仅靠更多的训练来彻底解决。

对于那些超出当前人类共识的问题，它就更是力所不逮了，因为这种技术对知识的有效拓展办法甚少，尽管它可以出色地总结和表达现有的人类知识。但既然这种模型的目标是“再现一般人类的平均行为”，所以对一个问题而言，即使其训练材料中确有真知灼见，也完全可能被陈词滥调所淹没。同理，所谓“AI的偏见”往往都是社会的偏见，不能怪在ChatGPT的头上。

另外要注意的是，所有所谓“ChatGPT认为”实际上都是“人们认为”，而ChatGPT是没有“个人观点”可言的。

什么是通用人工智能（AGI）？现在来看问题的另一端。众所周知，“人工智能”一直没有一个公认的定义，但这绝不意味着随便怎么说都行。我的结论是上述五个研发目标均有其理论和应用价值，但彼此并不相同，也不能相互包括，尽管因为历史原因常常都被称为“人工智能”。

那么，“通用”又是怎么加上去的呢？在开始时，人工智能研究是以研发与人类智能具有一般可比性的计算机系统为目标的，这在图灵的文章和其它早期AI文献中几乎是不言而喻的，因此不必特别申明。但后来构建通用系统的努力屡屡受挫，导致大部分AI研究者转向专用的工具和问题解决方案，而视对通用智能系统的研究为死路，并将其斥之为“白日梦”甚至“伪科学”。

大约二十年前，一些对这个潮流持不同意見的AI研究者（包括我自己）开始“抱团取暖”，并在需要一个新的“旗号”时选择了Artificial General Intelligence（AGI）。当时的考虑是“g-factor”（“通用因素”）以及相应的“general intelligence”（“通用智能”）在心理学关于“智商”的研究中已经是广为人知的概念，加上“人工”以后可以自然地引⼊到AI中来。

随着深度学习的兴起，几家大公司开始用“迈向AGI的重要一步”来称呼他们的技术进展。由于他们的巨大影响力，AGI这个概念在公众的印象中和深度学习建立了密切关系。比如有些人以为既然深度学习可以用于很多领域解决不同的问题，这就已经是AGI了。这里的误解是混淆了“通用技术”和“通用系统”。

深度学习的确可以算是个通用技术，但用这个技术开发出来的计算机系统常常只能做一件事（下围棋、图片分类、语言翻译等等），因此都是专用系统。而通用系统是不能只会做一件事的，无论这件事做的有多好。

有了前面的准备，我们可以讨论这个本文中心问题了。根据前面的分类可知，虽然ChatGPT的所指相对明确，AGI可远非如此。只有对“通用”取前面的解释2，而对“人工智能”取前面的解释B时，ChatGPT才和这种AGI（“像人那样解决人能解决的所有问题”）直接相关。对于其它理解，ChatGPT或者基本无关，或者只有轻微贡献。

以我自己的研究项目纳思（NARS, Non-Axiomatic Reasoning System）为例，由于这个系统试图利用现有知识和资源合理地解决所有可感知和表达的问题，因此作为AGI对应于对“通用”取前面的解释4，而对“人工智能”取前面的理解E。为了实现这个目标，纳思可能用像ChatGPT这样的大语言模型作为知识源和语言界面之一，但不会完全相信其结论，更不会靠它完成系统的核心推理和学习功能。

我对ChatGPT的看法可以代表一些其他AGI研究者。如前面介绍的，目前实际上存在两个分离的“AGI研究社区”，一个以大公司为代表，大致上是基于深度学习技术的，而另一个（前面介绍的）则是仍在探索很多其它非主流途径。后者形成于深度学习出现之前，而且至今没有把深度学习做为核心技术。

这其中的原因远非本文可以覆盖，我这里只是希望各位读者知道，并非所有AGI研究者都认为深度学习（包括ChatGPT和其它人工神经元网络）是实现AGI的最佳途径，而且大概不能简单地说这些人都出于固执或嫉妒，更不是出于无知，因为早在深度学习一炮而红的2012年的两三年前，在AGI会议上已经有关于深度学习的介绍与讨论了，只是大部分与会者认为这个技术远不足以解决AGI的核心问题。

现在一定有读者要问，既然ChatGPT所代表的路线并非实现AGI的唯一可能，为什么只有它取得了当下这种现象级的成功？这就要说起在智能观上的“行为标准”（即以“行为上像人”为目标）的特征了。我在参考文献中讨论过“图灵测试”和“伊莉莎效应”，并写道“至今以通过图灵测试为目标的工作仍只占人工智能领域中很小的一部分。

”在七年以后，这句话显然不再符合当前的情况，但我仍认同那篇文章中的其它观点，而这里只补充一些更接近现状的思考。

在前面的列出的五类对人工智能的理解中，“行为”和“能力”是最直观的，因此最容易被公众所接受。比如说，围棋程序AlphaGo就是“能力”派的代表之一，因为很多人会想，它连世界冠军都战胜了，还不够智能？而与此相比，一个AI系统是否在结构、功能和原则上像人，则即使是连专家们也不容易取得共同意见了。

由于人工智能的新功能往往是以前只有人类智能才能完成的，不了解内情的观察者难免会按人类行为来解释其工作原理和过程。伊莉莎效应在大语言模型中尤为显著，因为我们对他是否具有各种认知功能（理解、推理、情感、意识等等）的判断常常是通过和这个人的对话完成的，因此如果一个系统能够很好地复现人类的对话能力，就会一揽子“表现”出很多其它认知功能，尽管它并不真的拥有这些功能。

我的结论

我认为大语言模型的确有重大理论和应用价值，但和智能模型基本是两码事，因为二者的研究目标就不一样，而这又导致了许多其它差异。智能是不能仅仅通过对人类语言行为的模仿来实现的，而像PaLM-E和GPT-4那样将感知运动行为加进来也不足以解决核心问题。即使只谈对语言的处理，语言模型是把语言本身当作模拟对象，而智能模型则是把语言当作通信工具和知识来源。

具体说来，大语言模型的首要目标是像一般人那样说话，而智能系统在使用语言时的首要目标是根据系统自身需要完成当前的通信任务，在这个前提之下才会考虑符合常人的语言使用习惯。由此造成的差别就是智能系统未必会用大多数人们所选择的方式来完成一个句子，而是要表达自己的特定观点，即使这个观点尚未被别人表达过也是这样。