在ChatGPT之后,人工智能的终极里程碑似乎倒下了。最近几天,AI圈里一个新的观点正在流行:「图灵测试是一个糟糕的测试标准,因为对话能力和推理完全是两码事。」如今已是生成式AI时代,我们评价智能的标准该变了。
图灵测试是一种思想而不是「方法」。图灵将他的测试作为一个哲学思想实验,而不是一种可以实际衡量机器智能的方法。然而,在公众的认知中,图灵测试已经成为人工智能(AI)的终极里程碑——评判通用机器智能是否到来的主要标准。
如今,近75年过去了,关于AI的报道充斥着声称图灵测试已被通过的论调,尤其是像OpenAI的ChatGPT和Anthropic的Claude这样的聊天机器人的推出之后。各大媒体也发表了类似的标题,例如某家报纸报道称,「ChatGPT通过了著名的『图灵测试』——表明该AI机器人具有与人类相当的智能。」
然而,问题是:现代聊天机器人真的通过了图灵测试吗?如果是这样,我们是否应该像图灵所提议的那样,赋予它们「思考」的地位?令人惊讶的是,尽管图灵测试在文化上具有广泛的重要性,长久以来,AI社区却对通过图灵测试的标准没有达成一致意见。许多人怀疑,具备能够欺骗人的对话技能是否真正揭示了系统的底层智能或「思考」能力。
图灵测试很可能会成为我们不断变化的智力观念的又一个牺牲品。1950年,图灵直觉地认为,像人类一样交谈的能力应该是「思考」及其所有相关能力的有力证据。这种直觉至今仍然很有说服性。但也许我们从ELIZA和Eugene Goostman身上学到的东西,以及我们可能仍能从ChatGPT及其同类产品中学到的东西是,能够流利地说出自然语言,比如下棋,并不是通用智力存在的确凿证据。
事实上,神经科学领域中有越来越多的证据表明,语言流利程度与认知的其他方面出奇地脱节。麻省理工学院神经科学家Ev Fedorenko等人通过一系列细致而令人信服的实验表明,他们所谓的「正式语言能力」(与语言生成相关的能力)背后的大脑网络与常识、推理和我们可能称之为「思考」的其他方面背后的网络大体上是分开的。这些研究人员声称,我们直觉上认为流利的语言是一般智力的充分条件,这是一种「谬论」。
图灵在1950年的论文中写道:「我相信,到本世纪末,词语的使用和普遍受教育的观点将会发生巨大的变化,人们将能够谈论机器思考,而不会遭到反驳。」如今的我们还没有到达那个地步。图灵的预测是否只是偏离了几十年?真正的改变是否发生在我们对「思考」的概念上?——还是说真正的智能比图灵和我们所认识到的更复杂、更微妙?一切还有待观察。