日前,美国马里兰大学(University of Maryland、UMD)的研究人员已经发现如何通过人机协作可靠地挑战计算机语言,反映了人类语言的复杂性。他们开发了包含1200多个问题的数据集,虽然问题很简单,但仍困扰着当今最强大的计算机应答系统。学习掌握这些问题的系统将比目前存在的任何系统对语言有更好的理解。
人工智能的终极目标之一是让机器真正理解人类的语言,并从复杂、细微的字句中诠释语意。
当2011年IBM的Watson电脑击败著名的《危险边缘》(电视智力竞赛节目)冠军肯·詹宁斯(Ken Jennings)时,似乎就已达到了这一目标。但是,任何尝试过与虚拟助手Siri进行对话的人都知道,要真正理解人类语言,计算机还有很长的路要走。因此为了更好地理解人类语言,计算机系统必须训练挑战这些问题,并完整地反映人类语言的复杂性。
马里兰大学的研究人员已经发现如何通过人机协作可靠地创建这些问题,并开发了一个包含1200多个问题的数据集,虽然问题易于回答,但仍难倒了当今最好的计算机应答系统。学习掌握这些问题的系统将比目前存在的任何系统能对语言有更好的理解。这项研究已发表在2019年出版的《计算语言学协会学报》上。
该论文的资深作者、UMD计算机科学副教授Jordan Boyd-Graber说:“大多数的计算机问答系统并没有解释为什么它们会这样回答问题,但我们的工作帮助我们了解计算机实际理解的内容。此外,我们还开发了一个数据集,用于测试计算机,这些数据集将揭示计算机语言系统是否真的在阅读并能执行与人类相同的处理。”
目前大多数改进计算机问答程序的工作都是由工作人员或计算机来生成问题。这些方法存在的固有问题是,当人们写问题时,并不知道问题的哪些特定元素会混淆计算机。而计算机编写问题时,要么编写公式化的、填空式的问题,一旦出错,就会产生毫无意义的结果。
为了开发人类与计算机共同工作创建问题的新方法,Jordan Boyd-Graber及其团队创建了一个计算机界面,当开发人员输入一个问题时,该界面能显示计算机在“思考”什么,然后开发人员再编辑问题来利用计算机的弱点。
在新界面中,当人类输入问题时,计算机的猜测会按顺序显示在屏幕上,并突出显示导致计算机做出猜测的单词。例如,如果输入“哪位作曲家的海顿主题变奏曲是受到卡尔·费迪南德·波尔的启发?
”而系统正确地回答了“约翰内斯·勃拉姆斯”,那么界面会突出显示“费迪南德·波尔”这个词,表明是这个短语引导它找到了答案。利用这些信息,人们可以再次编辑问题,让计算机在不改变问题含义的情况下更难回答正确。在这个例子中,把“卡尔·费迪南德·波尔”换成了对他工作的描述“维也纳音乐协会的档案管理员”,计算机就无法正确回答。显然,专业的人类智力游戏玩家仍然可以轻松正确地回答重新编辑后的问题。
通过合作,人类和计算机可靠地开发了1213个计算机难题,研究人员在一场比赛中对经验丰富的人类选手进行了测试,其中包括从大学初级校队到《危险边缘》的冠军,即使是最弱的团队也击败了最强的计算机系统。“近三四年来,人们已逐渐意识到计算机问答系统非常脆弱,且易被愚弄,但这是我们所知的第一篇真正使用机器来帮助人类打破模型的论文。”该论文的共同作者UMD计算机科学研究生石峰(音译)说。
研究人员表示,这些问题不仅可以作为计算机专家更好地理解自然语言处理失败的新数据集,还可以作为开发改进的机器学习算法的训练数据集。这些问题揭示了持续困扰计算机的六种不同语言现象。
这六种现象分为两类。第一类是语言现象:释义(例如说“leap from a precipice”而不是“jump from a cliff”,但释义均为“从悬崖跳下来”);分散注意力的语言或语意的背景(例如在与政治无关的线索中引用政治人物)。第二类是推理技巧:需要逻辑和计算的线索,对问题中的元素进行三角剖分,或将多个步骤组合在一起形成结论。
Jordan Boyd-Graber表示,“人类能进行更多地概括,并看到更深层次的联系。虽然人类没有计算机的无限内存,但仍然有优势能够通过局部看到整体。把计算机遇到的问题分类,有助于理解我们需要解决的问题,这样才能真正让计算机开始通过局部看到整体,并以人类的方式回答问题。”
Jordan Boyd-Graber补充道,要实现这一目标还有很长的路要走,这篇论文列出了未来几年的研究议程,这样能让电脑更好地回答问题。他目前就职于马里兰大学高级计算机研究所(UMIACS)以及UMD的信息研究学院和语言科学中心,这项研究提供的新工具,将帮助计算机科学家实现这一目标。