AI与人类斗嘴谁更强？IBM团队发布“AI辩论家”最新研究进展

在很多游戏和围棋比赛中，人工智能（AI）都展现出了“超人”能力，现在，它又开始冲击辩论赛了。自AI概念诞生以来，如何让计算机对自然语言的理解和处理能力接近人类，一直是科学家们的终极愿景。

经过数十年的发展，目前业界已经开发出能够执行语言理解任务的AI模型，对于常规任务和特定语言现象，例如预测某个句子的情感，当前最先进的AI系统通常能给出一个不错的结果，再搭配上语音相关技术，进行简单的人机对话交互也不再稀奇。然而，在更复杂的任务中，例如自动翻译、自动摘要和多轮随机对话考验下，AI系统仍然不能很好地满足人类需要，而比这些单一任务更具综合性的考验是：辩论。

辩论代表了人类大脑的一种主要认知活动，需要同时应用广泛的语言理解和语言生成能力，一个自主的辩论系统超出了以往语言研究的范围。不过，来自IBM的AI研究团队报告了一项最新的研究进展：Project Debater（意为“辩手项目”），经评估，该系统已可以与人类专家选手进行体面且有意义的现场辩论，它能通过储存了4亿篇新闻报道和维基百科页面的知识库，自行组织开场白和反驳论点。

相关论文以“An autonomous debating system”（一个自主辩论系统）为题，于3月18日以封面文章的形式发表在顶级科学期刊《自然》（Nature）上。据了解，Project Debater最早于2011年被提出，堪称“十年磨一剑”，研究人员的目标是让AI与人类进行现场辩论时应对自如。

另外，他们还强调了AI与人类进行辩论和在游戏竞赛中挑战人类之间有着根本区别，这有助于让AI走出“舒适区”，因为在辩论领域，人类仍然占优势，AI需要新的范式才能取得实质性进展。

研究人员定义了一种辩论形式，它是学术竞争性辩论中常用的辩论风格简化版，即一旦被称为“辩论动议”的主题宣布，Project Debater和人类选手都各有15分钟的准备时间。

准备就绪后，双方就开始轮流发言，开场发言和第二次发言各为4分钟，闭幕发言各有2分钟，演讲通常由支持动议立场的论据和反驳该立场的观点论据组成，辩论前后观众们会对辩论动议进行投票，能争取更多选票的选手被宣布为胜利者。

Project Debater的一次正式亮相是在2019年2月11日，它与一位广受认可的辩论冠军Harish Natarajan进行了一次现场辩论较量，Harish Natarajan是2016年世界大学辩论锦标赛的总决赛选手，也是2012年欧洲大学辩论锦标赛的冠军，此次辩论也是AI在公众面前的首次现场辩论。

虽然最终观众的投票结果仍是人类胜利，但Project Debater的表现给观众留下了深刻的印象，尽管它的修辞技巧仍未达到专业选手的水平，但它已能够指出辩论中的相关要点。

整体来说，Project Debater由四个主要模块组成：论点挖掘、论据知识库（AKB）、论点反驳和论证构建。其中，论点挖掘主要分两个阶段进行。

在离线阶段，基于约有4亿篇报道文章的大型语料库（来自LexisNexis2011-2018语料库），把文章分成句子，并用其中的单词、维基百科的概念、它们提到的实体以及预定义的词汇来索引这些句子。到了在线阶段，一旦辩论动议被提出，系统就依赖此索引进行全语料库的句子级参数挖掘、检索与动议相关的立场声明和证据。

具体而言，首先，使用定制查询检索包含此类论据的高倾向性句子；接下来，使用神经模型根据这些句子代表相关论据的概率对它们进行排序；最后，结合神经网络和基于知识的方法对每个接近动议的论点立场进行分类。

在论点反驳阶段，IBM的Watson（沃森）将使用其针对定制语言和定制声学模型的自动语音到文本服务，将人类对手的语音转换为文本，神经模型会将获得的文本分割成句子，并添加双关语。

下一步，专用组件会确定哪些提前预测的论据确实由对方陈述，并针对性提出反驳。除了基于主张的反驳论据之外，AKB的关键情感术语也被识别出来，并作为简单反驳形式的索引。最后的论证构建模块，则是一个集成聚类分析的基于规则的系统。在删除了预先指定为冗余的参数之后，剩余的参数将根据语义相似性进行聚类，对于每个集群，都会确定一个主题，类似于一个维基百科的概念。系统会选择一组高质量的论点集群。

接下来，使用各种文本规范化和重新措辞技术来提高流利性，最后使用预定义的模板逐段生成每个语音，完成与对手的辩论交流。

与玩游戏、下围棋等竞赛不同，辩论往往掺杂着更多主观因素，因此客观评估一个AI辩论系统的性能是项挑战，因为没有一个统一标准来决定辩论胜利者。在公开辩论中，辩论前后观众的投票可以决定“获胜”的一方，但这种方法存在固有的局限性。

首先，如果辩论前的观众投票高度不平衡，那其中一方的胜辩压力必定就很高；其次，投票涉及个人意见，并可能受到各种难以量化和控制的因素影响；另外，创造一个有大量公正观众的现场辩论是复杂的，而制作多场这样的辩论更是如此。

尽管如此，研究人员为了评估Project Debater系统的总体性能，将其与各种基线进行比较，并跟踪其随时间的进展情况，由于Project Debater之外，研究人员并没有发现其他自动方法可以参加一个完整的辩论活动，因此，对比的范围也是在有限任务下进行，比如生成一个辩论开场白，这显然是任何辩论系统应该具备的第一步。

研究人员选择了78个动议来评估当一个新的辩题出现时，各种AI系统以及人类专家的表现，每一次演讲都由15位评审员进行了回顾评分，以判断此演讲是否能作为支持辩题立场的良好开场白，其中5分表示高度一致。Project Debate的评估结果明显优于其他系统，并且非常接近人类专家的得分。

在开场白之后的评估中，研究人员使用了相同的78个动议，再次要求被选中的一组人群想象自己是辩论听众，在这种情况下，让他们阅读三篇辩论演讲，但不告知演讲的来历。结果显示，所有辩题Project Debater的平均得分均高于中立3分，78个动议中有50次表现的平均得分≥4分，这表明在至少64%的动议中，群众评论员认为Project Debater在辩论中表现“良好”。

不过，虽然Project Debater得分显著高于所有对比基线和对照组的得分，但距离人类专家的得分还有明显差距。

在进一步评估中，研究人员检查了所有78个动议辩论演讲中的内容类型相对分布。结果是，Project Debater只有不到18%的内容是来自传统的“罐装”文本，而剩下的内容是由更高级的AI底层系统组件提供的。

在Nature评论文章中，来自英国邓迪大学（University of Dundee）辩论技术中心的Chris Reed撰文表示，这一发现暗示了一个未来，即AI可以帮助人类制定和理解复杂的论点。在AI领域，开发能够识别人类自然语言中的论点的AI系统是一项最严峻的挑战。

Project Debater展示了该领域的研究已经取得了很大的进步，并强调了在开发能够识别、生成和辩论观点的技术时，将不同AI组件（每个组件处理特定任务）集成在一起工作的重要性，无疑这是一项巨大的工程壮举。

在论文讨论部分，研究人员表示，AI和自然语言处理（NLP）的研究通常集中在所谓的“狭义AI”上，由狭义定义的任务，通常具有明确的评估指标，并适合于端到端的解决方案，例如那些源于深度学习技术研究的快速落地的解决方案。相反，“复合AI”任务，即与更广泛的人类认知活动相关的任务，需要同时应用多种技能，AI系统处理的效率较低。

自20世纪50年代以来，AI技术突飞猛进，能执行日益复杂的任务，在游戏或棋盘竞赛中的明确规则下，是AI发挥能力的“舒适区”。

首先，游戏中有一个明确的赢家定义，便于使用强化学习技术；其次，游戏中的每个动作都有明确的定义，可以被客观地量化，从而训练竞赛技巧；另外，在玩游戏时，AI系统会想出任何策略来确保获胜，即使相关的动作不容易被人类理解；最后，对于许多AI任务挑战，大量相关的结构化数据是可用的，这对于系统的开发必不可少。

这四个特点在竞争性辩论中却并不适用，竞争性辩论需要一种高级的使用人类语言的形式，一种有很大的主观性和解释空间的形式，相应地，往往没有明确的赢家。而许多现实世界的问题本质上也是模糊的，站在不同角度的立场也根本不同。对于AI系统来讲，使用人类可能无法捉摸的策略赢得辩论似乎不太可能，特别是在需要人类观众评判胜利者的情况下。

因此，在人类所擅长的辩论比赛中，走出舒适区的Project Debater，还有许多问题有待解答。