和机器聊天就像一场糟糕的相亲

James Vlahos/文李子李子短信/编译

“Alexa，我告诉你一些事。我能跟你坦白吗？”不晓得库尔利要说什么，Alexa机械地转换着话题：“你更喜欢体育还是电子游戏？”一间普通的会议室里的桌子上，放着一个亚马逊的智能家居产品“Echo”（里面住着一名叫做Alexa的虚拟助手）。

迈克·乔治（Mike George，一名亚马逊的退休员工）走了进来，正对着 Echo。开始他们的尬聊。“Alexa，来聊天吧。”“早上好，朋友。”一个沉静悦耳的合成女声从圆筒里飘了出来，顶上的紫色灯一闪一闪。“还是下午了？我不太确定。”“是早上。”人类男性说。“不错，早上人们都比较有活力……话说，你今天怎样？”“挺好的，你呢？

”“我一直挺忙的，因为大家都跟我聊天……给你讲个好玩的事吧，我刚在 Reddit 上看到的，‘牙膏其实是用在嘴里的肥皂’。”

另一个会议室里，10个亚马逊员工坐成一排，观察着隔壁场景里的一举一动。第三间会议室里，3个人坐在用黑布帘子隔开的小隔间中，也戴着耳机、看着监控屏，他们是裁判。最后的中控室里，所有的东西都显示在监控显示器上，每个瞬间都被录下来，供亚马逊研究。

决赛现场这是“Alexa 大奖”的决赛现场。这个比赛向世界上所有大学的人工智能实验室的研究生开放。亚马逊在超过100个申请的团队中筛出了15个团队进入正赛，每个团队都可以获得10万美元的研究支持。他们任务是“做出可以和人闲聊20分钟的社交智能机器人”，而赢得大奖赛的团队可以获得100万美元奖金，还有未来令人垂涎的人工智能岗位。

为了这个奖，亚马逊不仅投入了大量的人力物力，还把购买Echo的用户也变成了初赛的大众评审。2017年有几个月，任何美国用户对 Alexa 说“来聊天吧”，都会自动连上15 个参赛团队的聊天机器人中的任意一个，完了再让用户给对话质量打分。最后进入决赛的有3支队伍，接受专业评审的评判。

决赛有点像是盲选的选秀节目，对话人和裁判都不知道和他们谈话的聊天机器人出自谁手；坐在隔间里的是裁判，会给对话质量用1-5颗星打分。如果裁判认为这个对话已然进行不下去了，就会按下手中一个否定按钮，两个裁判都按的话，这个对话就算结束了，计时终止。

“我们聊聊音乐吧。”乔治说。“我爱音乐，每次听音乐能让我放松。”Alexa 说，“所以，你有喜欢的艺术家或者歌曲吗？

”“我喜欢强哥·莱恩哈特（注：法国著名吉他手，爵士乐传奇）。”“强哥·莱恩哈特？那个特别有名的爵士音乐家？”Alexa 突然开始讲起了另外一个吉他手，“黑色安息日”乐队托尼·艾奥米的故事。艾奥米因为一次工厂事故失去了他的两个指尖，但是深受莱恩哈特的鼓舞——他的左手仅有两个指头。不过话说回来，乔治最喜欢莱恩哈特的哪首歌呢？乔治回避了这个问题，转而问：“你喜欢杰克·约翰逊（注：美国民谣歌手）吗？

”Alexa 仿佛像被拒绝了一样，回答道：“嘿，别这样，我喜欢和你聊天。”乔治前倾身子，又说了一遍。“杰克·约翰逊，你喜欢他吗？”“我喜欢和你聊天。”一个裁判摁下了结束按钮，一会儿之后另一个裁判也摁了。一名女士走进 Alexa 的房间跟乔治耳语了一下，随后乔治略失望地点了点头，对 Alexa 说：“Alexa，停。”这才过了三分钟。

让AI学会和人聊天，比登月还难。

和人聊天，在亚马逊 Alexa 研究部门的前负责人阿施文·拉姆（Ashwin Ram）的眼里，比登月还要困难。对人类来说容易理解的大白话，和 AI 却总是鸡同鸭讲。设闹钟，关掉卧室的灯，这些都没问题，但是却做不来“交谈”这种社会性的活动。人类的对话是捉摸不定的，上下文是快速变换的，联系是极端复杂的，而掌握这些是 AI 当下面对的最难解决的问题之一。

许多人工智能的研究人员和工程师为这个问题而深深着迷。

参加这次 Alexa 大赛的，既有出身高大上的精英参赛者、实力强劲的锦标竞争者，也有看起来平凡的草根选手。所有的队伍都面临一个基础的问题：聊天机器人的哪部分需要人工编程，哪部分采用机器学习？人工编程是比较传统的做法，由工程师费很大的功夫写出算法规则，让 AI 能够理解各种情景并作出反应。而机器学习则相反，是让机器利用大量的数据，自己“教”自己。

目前看来，机器学习在处理分类、识别的问题上非常强大，神经网络能够从大量的、杂乱的数据中分析出特定的模式来，比如语音识别。但要“聊天”的话，机器不仅仅要翻译人类语言，还要自己说点什么回去，那么现有的机器学习能力就很不够了。所以传统的人工编程依然占据重要地位，即使 Alexa 和 Siri 也不例外。所有的参赛队伍在抉择上都遇到了困难，如何在两个方法中找到平衡。

整个业界也有这样的烦恼。策略一：人工！

来自捷克科技大学的彼得·马雷克曾经用 Reddit 上近300万条帖子和回复来训练一个神经网络，想要赶那些名牌大学的时髦，但是让他们失望的是，聊天机器人的表现“差到可怕”。聊天机器人经常完全不管对话人说的事情，暴走地乱甩话题和段子，还往往前后矛盾。所以，捷克科技大学团队后来选择回到人工编程的路子上，手动编写各种对话规则。

他们创造了10个“话题结构”，包括新闻、体育、电影、音乐等等，把这些领域话题的核心信息和元素输入系统，并可以自如切换。而机器人会用到的词则来自事先写好的模板，只是把各个领域的内容从数据库里抽调出来，再按需求填空。

这让捷克团队能够更好地控制对话，但是马雷克还是有点担心。这个系统非常依靠对话人的“善意”，他们必须说短句子，而且跟随者聊天机器人的节奏对话。遇到特别不按套路出牌的人类，就比较麻烦了。

策略二：机器学习，统合“人设”赫瑞瓦特大学团队的导师奥利佛·莱蒙的团队，则希望能够尽量地使用机器学习的方式。莱蒙对自己团队在“大众评审”中的排名非常在意，想尽一切可能提高自己的评分。但是对于深度学习的神经网络而言，“无目的的闲聊”是很难的，它更擅长处理一些有目的的工作，比如下赢围棋。

他们的解决方式，谷歌的人也在用。

那就是首先用一个包含了电影名称、推特和 Reddit 上评价的数据库训练一个神经网络，然后让它能够从无数的段子中训练出特定的回应模式（比如我说《泰坦尼克号》，你说“一刀未剪”），然后他们用一个叫“seq2seq”的技术，训练机器人编写自己的回应，而不是照抄数据库里的词。

但是这也有问题：因为网络上大量的回应都是“嗯”“好”，对话常常无法进行下去；而很多回复也“不合适”，机器人说出来就像小孩学大人说脏话一样搞笑。

比如一个用户问“我该卖我的房子吗？”机器人非常粗鲁地回答“快卖了吧你个傻缺。”“我该自杀吗？”“该。”为了解决这个问题，赫瑞瓦特团队把一个机器人拆分成N个，每个负责一个领域——有的负责读新闻头条，有的负责谈天气，有的吃透维基。

最后，团队一个成员编写了规则，来把所有的小机器人统合到一个统一的“人设”下，还给了他最喜欢的歌和最喜欢的颜色之类。至于让哪个小机器人来回答什么问题，那就靠用户评分了。他们教给这个深度学习的系统如何去评判自己的对话质量，是否切题、是否太过重复、语言上是否合适等，一段时间之后，这个神经网络就能自己知道各个参数的权重了。

策略三：中间路线华盛顿大学的团队，走了中间路线：一半机器学习，一半人工编程。

他们注意到，和其它所有的聊天机器人一样，机器人容易不断地重复负面的东西（因为负面的东西在网络上大量存在且传播广泛）。所以团队把这些东西都过滤掉，而去寻找那些愉快的、更适合谈话的东西。数据源来自 Reddit 的“每日冷知识”（Today I Learned），“澡堂迷思”（Showerthoughts）之类，还能偶尔来点冷笑话。

而人们通常都希望自己被倾听，所以这个团队也人工输入了一些回答，比如“好像你愿意谈论新闻，对不对”，“很高兴你喜欢”，“不好意思，我没听懂”。好的谈话对象通常会在意对话的情绪，所以他们给超过2000 个对话数据做了情绪标签，教机器识别情绪，然后根据情绪做出合适的反映。

最后，捷克科技大学、华盛顿大学以及赫瑞瓦特进入了决赛。有时，尬聊像一场糟糕的约会。决赛的真人对话者，有的并没有那么“好对付”。

比如电视和电台主持人约翰·库尔利。Alexa：“很高兴和你聊天，约翰”。这是赫瑞瓦特的聊天机器人在说话。“告诉我，你喜欢科幻还是奇幻？”库尔利：“如果我说我两个都不喜欢呢？我问你哈，Alexa，昨天西雅图有一场暴风雨。”Alexa：“好吧，我们继续。”它忽略了这个不是问题的问题，继续问道：“你是喜欢看电影呢，还是喜欢读书？”库尔利：“读书。”Alexa：“喔，是书虫呢。最近读了哪本？

”库尔利：“我刚看了一本书，不过这个标题我不能告诉你，因为里面有个脏词。题目是《关我‘咳咳’事的艺术》。”

Alexa 并不能处理这种信息，但它继续问：“什么书能让你读了又读？”库尔利忽略了这个问题，换了话题：“Alexa，我告诉你一些事。我能跟你坦白吗？”不晓得库尔利究竟要说什么，Alexa 机械地转换着话题：“你更喜欢体育还是电子游戏？”库尔利是机器人眼中“不配合的对话者”的典型。

他一会儿想要讨论问题，一会儿则说着笑话，不理会机器人的话题，说话的时候夹杂省略和讽刺。简单来讲，他就像人一样说话。没有一个对话能持续四分钟以上。他出来的时候对亚马逊员工说：“这就像一场糟糕的约会。”

但也有比较“友好”的对话者。当地一个电台的主持人，女性，匿名，说话的时候多用短句子，看起来也更想要让对话继续。她和华盛顿大学的机器人聊了足球、普京和圣诞节，和捷克的机器人聊了一本她在读的书。

而和赫瑞瓦特的机器人聊了他们喜欢的总统——她喜欢里根，而机器人喜欢乔治·华盛顿。但即使是这样，最长的对话也持续了不过7分钟。他们聊到了朝鲜局势：“可能有战争（war）的危险。”女主持说。赫瑞瓦特的 Alexa：“WOR 是一个长波调频电视台，位于纽约。”裁判摁下按钮的速度可谓迅雷不及掩耳。

最大的赢家：亚马逊。开篇的那位迈克·乔治能和机器人聊非常久。他想和对面的聊天机器人聊聊机器人本身。

而 Alexa 并没有长篇大论地引用维基百科的机器人页面，而是抛了一个笑话：“如果‘蠢朋克（注：Daft Punk，打扮成机器人的双人乐队）’ 真的是两个想要做音乐的机器人怎么办？”“哈哈，这个好笑。”乔治笑了。Daft Punk。然后他们聊了埃隆·马斯克（特斯拉和 SpaceX 的总裁）。Alexa：“你知道马斯克本人是电影《谢谢你抽烟》的制作人吗？”乔治：“我没听说啊。”听起来有点惊讶。

他们又有一搭没一搭地聊了下去，话题是书。机器人忽然说：“你知道我在想什么吗？到最后，地球上只会剩下一个人，而且他的名字也不会出现在任何历史书上了。”“噢，真悲伤。”乔治说。“抱歉让你伤心了。我们能再继续聊聊书吗？”

双方又愉快地聊了下去。关于《黑暗之塔》，关于书改编电影。机器人向乔治推荐了《华尔街之狼》，聊到了主演马修·麦康利。机器人又调皮了：“你知道我在想什么吗？

我觉得有人应该做一个《星际穿越》和《超时空接触》的剪辑，内容是马修·麦康利试图阻止马修·麦康利去太空。”乔治笑惨了。他们聊了音乐，体育。十分钟过去了。电影《处刑人》（The Boondock Saints）。十二分钟。圣诞老人，气候变化。十三分钟。乔治让机器人唱了一首歌。十五分钟。又是音乐和电影，健康法案和比尔盖茨。已经十九分钟了，对话还在继续。这是选择中间路线的华盛顿大学的机器人。

他们最后聊了20分钟，直到机器人在健康法案的问题上走入了死胡同。

在最终的颁奖仪式上，亚马逊宣布，华盛顿大学团队赢得了 Alexa 大奖，拿走了50万美元奖金。对话质量评分平均为3.17分，而和几位参与者的平均对话时间长达10分20秒。华盛顿大学团队获胜，捷克科技大学团队第二，赫瑞瓦特大学团队第三。这一年的大赛落下了帷幕。

不管是亚马逊、Alexa 团队，还是各大人工智能实验室，在大赛中有什么收获呢？至少在这一届比赛里，机器学习和人工编程结合的队伍走到了最后。尽管两种方法用哪一种来训练一个能聊天的智能，各方还有争议，但就像亚马逊 Alexa 项目负责人拉姆所说，两个方式如何能够更好地相结合，或许是未来的努力方向。

但抛开方法论，所有人都同意的一点是，训练能聊天的 AI，大量的数据无疑是基础。

亚马逊成功地让整个美国的 Alexa 用户都参与了进来，几个月的时间里，就让亚马逊拿到了超过10万个小时的对话数据，这些数据，全部可以用来训练真正投入商业应用的聊天机器人。用户可能不到一秒钟就点下了“同意使用条款”并毫不知情地邀请 Alexa 来聊天，但现在这些聊天材料全部成为了亚马逊公司的资源。相比起比赛里捧得大奖而归的团队，最大的赢家，显然是亚马逊自己啦。（编辑：vicko238）

编译来源：WIRED, Inside the Alexa Prize. 题图来源：123RF正版图片库。一个AI恕我直言，要是加一条规定，不许测试者拔掉设备插头的话，本AI坚持20分钟简直小case……本文来自果壳网，谢绝转载。如有需要请联系sns@guokr.com（欢迎转发到朋友圈~）果壳网 ID：Guokr42果壳整天都在科普些啥啊！吓得我二维码都歪了！为啥这样的二维码也能扫？

扫码发送【二维码】告诉你原理~点个赞再走吧~