ChatGPT后，人工智能的终极里程碑却倒了

在ChatGPT之后，人工智能的终极里程碑似乎倒下了。最近几天，AI圈里一个新的观点正在流行：「图灵测试是一个糟糕的测试标准，因为对话能力和推理完全是两码事。」如今已是生成式AI时代，我们评价智能的标准该变了。

图灵测试是一种思想而不是「方法」。图灵将他的测试作为一个哲学思想实验，而不是一种可以实际衡量机器智能的方法。然而，在公众的认知中，图灵测试已经成为人工智能（AI）的终极里程碑——评判通用机器智能是否到来的主要标准。

如今，近75年过去了，关于AI的报道充斥着声称图灵测试已被通过的论调，尤其是像OpenAI的ChatGPT和Anthropic的Claude这样的聊天机器人的推出之后。各大媒体也发表了类似的标题，例如某家报纸报道称，「ChatGPT通过了著名的『图灵测试』——表明该AI机器人具有与人类相当的智能。」

然而，问题是：现代聊天机器人真的通过了图灵测试吗？如果是这样，我们是否应该像图灵所提议的那样，赋予它们「思考」的地位？令人惊讶的是，尽管图灵测试在文化上具有广泛的重要性，长久以来，AI社区却对通过图灵测试的标准没有达成一致意见。许多人怀疑，具备能够欺骗人的对话技能是否真正揭示了系统的底层智能或「思考」能力。

图灵测试很可能会成为我们不断变化的智力观念的又一个牺牲品。1950年，图灵直觉地认为，像人类一样交谈的能力应该是「思考」及其所有相关能力的有力证据。这种直觉至今仍然很有说服性。但也许我们从ELIZA和Eugene Goostman身上学到的东西，以及我们可能仍能从ChatGPT及其同类产品中学到的东西是，能够流利地说出自然语言，比如下棋，并不是通用智力存在的确凿证据。

事实上，神经科学领域中有越来越多的证据表明，语言流利程度与认知的其他方面出奇地脱节。麻省理工学院神经科学家Ev Fedorenko等人通过一系列细致而令人信服的实验表明，他们所谓的「正式语言能力」（与语言生成相关的能力）背后的大脑网络与常识、推理和我们可能称之为「思考」的其他方面背后的网络大体上是分开的。这些研究人员声称，我们直觉上认为流利的语言是一般智力的充分条件，这是一种「谬论」。

图灵在1950年的论文中写道：「我相信，到本世纪末，词语的使用和普遍受教育的观点将会发生巨大的变化，人们将能够谈论机器思考，而不会遭到反驳。」如今的我们还没有到达那个地步。图灵的预测是否只是偏离了几十年？真正的改变是否发生在我们对「思考」的概念上？——还是说真正的智能比图灵和我们所认识到的更复杂、更微妙？一切还有待观察。