麻省理工新研究：机器可以像婴儿一样学会理解人类目标

在Warneken和Tomasello关于人类社会智力的经典实验中，一个18月大蹒跚学步的幼儿看着一个男人抱着一堆书走向一个未开封的柜子。当男子到达柜子时，他笨拙地将书在柜门上撞了几下，然后发出疑惑的声音。接下来发生了一件不可思议的事情：幼儿提出要帮忙。在推断出男子的目标后，幼儿走到柜子前，打开柜门，让男子把书放在里面。但是，幼儿的生活经验如此有限，怎么会做出这样的推断呢？

最近，计算机科学家把这个问题重新引向了计算机：机器如何做到相同的事情呢？工程化这种理解的关键部分可以说是我们最人性化的地方：我们的错误。就像蹒跚学步的孩子仅仅从他的失败中就能推断出这个人的目标一样，推断我们目标的机器也需要受到我们错误行动和计划的说明。

为了在机器中捕捉这种社交智能，来自麻省理工学院计算机科学与人工智能实验（CSAIL）和大脑与认知科学系的研究人员创造了一种能够推断目标和计划的算法，即使这些计划可能失败。这类研究最终可用于改进一系列辅助技术、协作或护理机器人，以及Siri和Alexa等数字助理。

有关这项研究的新论文主要作者，麻省理工学院电气工程和计算机科学系的博士生Tan Zhi-Xuan说："这种对错误进行解释的能力对于构建能够稳健地推断并按照我们的利益行事的机器来说可能是至关重要的。"为了创建他们的模型，该团队使用了麻省理工学院最近开发的一个新的AI编程平台Gen，将符号化（人类可读型）AI规划与贝叶斯推理相结合。

该团队的模型表现比现有的一种名为贝叶斯逆向强化学习（BIRL）的基础方法快20到150倍，该方法通过观察代理的行为来学习代理的目标、价值或奖励，并试图提前计算完整的政策或计划。新模型在推断目标方面的准确率达到了75%。加州大学伯克利分校的Smith-Zadeh工程教授Stuart Russell说："人工智能正处于放弃'标准模式'的过程中，在这种模式下，一个固定的、已知的目标被赋予机器。

相反，机器知道它不知道我们想要什么，这意味着如何从人类行为中推断目标和偏好的研究成为人工智能的核心课题。这篇论文认真对待这一目标，重点是，它的方向是朝着建立模型进而颠覆人类从目标和偏好产生行为的实际过程。"虽然在推断代理的目标和欲望方面已经有相当多的工作，但这些工作大多假设代理为实现其目标而采取最佳行动。

然而，团队特别受到一种常见的人类规划方式的启发，这种方式基本上是次优的：不是提前把所有的事情都规划好，而是只形成部分计划，执行后再从新规划。该团队的推理算法被称为"顺序逆向计划搜索（SIPS）"，按照这个顺序来推断代理人的目标，因为它在每一步都只做部分计划，并在早期削减不可能的计划。由于该模型每次只提前几步进行计划，所以它也考虑到了代理可能也在做同样的事情。

这包括由于有限的计划而导致错误的可能性，例如在打开冰箱之前没有意识到你可能需要两只手空闲。通过提前检测这些潜在的故障，该团队希望这个模型可以被机器用来更好地提供帮助。麻省理工学院首席研究科学家Vikash Mansinghka如是说，他是Tan Zhi-Xuan的联合顾问之一，同时还有麻省理工学院大脑和认知科学教授Joshua Tenenbaum。

"这是我们更大的moonshot的一部分，即对18个月大的幼儿感知进行逆向工程。"这项工作的概念建立在Tenenbaum小组早期认知模型的基础上，展示了儿童甚至是10个月大的婴儿对他人目标所做的较简单的推断如何被量化建模为贝叶斯逆向规划的一种形式。虽然到目前为止，研究人员只在固定目标集的相对较小的规划问题中探索推理，但他们计划通过未来的工作来探索人类目标和计划的更丰富的层次结构。

通过对这些层次结构进行编码或学习，机器或许能够推断出更多种类的目标，以及它们所服务的深层目的。"虽然这项工作只代表着一小步，但我希望这项研究能够为构建真正理解人类目标、计划和价值观的机器奠定一些必要的哲学和概念基础，"Xuan说。"这种将人类建模为不完美推理者的基本方法感觉非常有前途。

现在，它让我们能够推断出计划什么时候是错误的，也许它最终也会让我们推断出人们什么时候持有错误的信念、假设和指导原则。"Zhi-Xuan、Mansinghka和Tenenbaum与电气工程和计算机科学研究生Jordyn Mann和博士生Tom Silver一起撰写了这篇论文。他们将在NeurIPS 2020上在线展示他们的成果。