机器在阅读测试中击败了人类,但它们读懂了吗?
2019年11月29日,果壳发布了一篇文章,探讨了AI程序BERT在高级阅读理解测试中击败人类的现象,并揭示了AI发展仍是前路漫漫。关于机器如何理解人类语言,BERT已经引发了一场革命。
在2018年4月发表的一篇论文中,鲍曼与华盛顿大学及谷歌旗下人工智能公司DeepMind的研究人员合作,提出了一项名为GLUE的系列测试,共包含九个阅读理解任务。该测试是“研究人员所公认的高难挑战中具有代表性的一部分”,鲍曼说,虽然这"对于人类而言不成问题"。
2018年10月,谷歌推出了一种新训练模型,绰号为BERT。它在GLUE测试中拿到了80.5分。设计者们希望这个全新的基准工具能够帮助测量机器对自然语言的真实理解力,或是揭露机器在这方面的欠缺。
在BERT出现之前,GLUE测试甚至还未设置人类的基准分数。而当鲍曼和他的一个博士生在2019年2月加入人类基准分数之后,微软研发的一个基于BERT的系统只用了几个月的时间就超越了它们。
在知名的思想实验“中文房间”里,一个不会说中文的人身处某房间中,他的手边有许多中文语法书。这些语法书详细地说明了如何对收到的一系列中文字符给出相应的回答。当房间外的人从门缝塞进一张纸条,纸条上是用中文写的一个问题,房间里的人可以查看语法书,然后送出一个完美的中文回答。
NLP研究者们尝试将不可能变为可能。他们用一种叫“预训练”的方法训练神经网络生成临时的“语法书”。在2018年以前,NLP模型的预训练工具之一是某种类似于辞典的东西。这一名为“词嵌入”的工具将单词之间的联结编码成数字,作为输入去训练深度神经网络,相当于给了“中文房间”里的人一本非常简略的词汇书。
2018年6月,OpenAI推出了一个名为GPT的神经网络,其中包括一个用11038本电子书接近十亿单词量预训练的语言模型。该神经网络以72.8的得分直接占据了当时GLUE的榜首。
所以,BERT究竟是什么?首先,它并不是一个经过完整训练的神经网络,也不能直接超越人类水平,而是鲍曼所说的“一个非常精确的预训练方案”。谷歌的研究者开发了BERT,让神经网络以它为基础,学习如何完成各种NLP任务,这就像让一个糕点师傅根据配方做出预先烤好的馅饼皮,然后用它做出各种各样的馅饼(蓝莓馅或菠菜馅的)。
在BERT出现之前,这三种“原材料”——深度预训练语言模型、注意力机制和双向阅读——早已各自出现。但从未有人想到把它们组合起来,直到谷歌在2018年末发布了BERT。
2019年7月,台湾国立成功大学的两位研究者训练BERT完成一项较高难度的自然语言理解基准任务:论证推理理解。BERT取得了令人印象深刻的成绩。这一任务要求被试者选出一个论证中合适的、能够支撑论点的隐含前提。
鲍曼与合作者最近推出了一项叫SuperGLUE的新测试。这项测试对BERT系的神经网络来说尤其困难。直到现在,还没有哪个神经网络做出超过人类的表现。但是,如果发生了这种情况,这是否就意味着机器真地能够更好地理解语言?还是说,这仅仅意味着科学能够更好地教会机器应付我们的测试?
翻译:乔恩
校对:阿格
编辑:三文鱼
https://www.quantamagazine.org/machines-beat-humans-on-a-reading-test-but-do-they-understand-20191017/
本文经授权转载自神经现实(ID:neureality),如需二次转载请联系原作者。欢迎转发到朋友圈。