图灵测试过时了？

科学家表示，数十年来，研究人员一直使用图灵测试来评估机器仿人思考的能力，但是这个针对人工智能的评判标准已经使用了60年之久，目前急需更新换代。为了开发出新的评判标准，科学家团队计划于2015年1月25日至29日，在德克萨斯州奥斯汀市举行的美国人工智能协会（AAAI）会议上，就该问题进行为期一天的研讨。

研讨会上将会举行新的“图灵冠军赛（Turing Championship）”，此次竞赛将包括数个有挑战性的任务，用来评估机器在完成人类专属任务时的表现，比如说观看视频然后回答相关问题。

在纽约大学从事语言与音乐研究的心理学家，同时也是这次研讨会的联合主席加里·马库斯（Gary Marcus）表示：“我们的理念是更新图灵测试，以适应新时代标准，这会驱动人工智能研究在现代化的方向上更进一步。”

1950年，英国数学家、密码先驱阿兰·图灵（Alan Turin）提出了图灵测试（Turing Test）的概念，以回答机器是否能够如同人类一般思考这一问题。该测试有很多不同的版本，但是基本格式是一致的，即一系列人类判断者、机器程序与其他人之间的简短对话。如果一个机器程序能够骗过判断者，使其误认为是人类所答，则该程序通过测试。

今年早些时候，一个名叫尤金·古斯特曼的乌克兰聊天机器人（或者说是一个会话程序）上了头条，大众普遍认为它在英国雷丁大学举行的图灵测试中过关了。但是这场胜利充满争议：机器人只要能够骗过30%的评判标准即可通过图灵测试，这个门槛太低了。此外，一些人表示：这个聊天机器人通过扮演一名年仅13岁，且第二外语为英语的男孩戏弄了系统。无论如何，现在有很多科学家相信，原来的图灵测试已经过时，并且过于简单。

马库斯表示：“那只是60年前的一个想法，却一直被人们奉若神明，但实际上并非如此。”新的图灵测试会包括更加复杂的挑战，像是由加拿大多伦多大学的计算机科学家赫克托·莱维斯克所建议的“威诺格拉德模式挑战（Winograd Schema Challenge）”。这个挑战要求人工智能回答关于语句理解的一些常识性问题。例如：“这个纪念品无法装在棕色手提箱内，因为它太大了。问：什么太大了？

回答0表示纪念品，回答1表示手提箱。”

马库斯的建议是在图灵测试中增加对复杂资料的理解，包括视频、文本、照片和播客。比如，一个计算机程序可能会被要求“观看”一个电视节目或者YouTube视频，然后根据内容来回答问题，像是“为什么俄罗斯侵略了克里米亚？”或者“为什么电视剧《绝命毒师》中，老白打算甩开杰西？”

研讨会组织者已经发布启事，征集关于新图灵测试竞赛的想法，包括竞赛中采用的测试、应当如何评估以及如何管理竞赛。科学家团队表示，他们也接受关于对现有图灵测试的思考的研究论文。