AI让机器人Emo提前“复制”人类微笑，融入人类社交世界成为可能？

ChatGPT等大型语言模型（LLM）的出现，让机器人具备了如同人类一般的语言表达能力。然而，机器人在与人类交谈时，其面部表情却依然显得很不自然，甚至充满了恐惧感。这无疑会阻碍人与机器沟通的意愿，让两者的沟通变得十分困难。因此，在未来人机共存的时代，设计一个不仅能做出各种面部表情，而且知道何时使用这些表情的机器人，至关重要。

如今，来自哥伦比亚大学的研究团队及其合作者便迈出了重要一步——制造了一个披着硅片、能够预测人类面部表情并同步执行表情的机器人Emo。它甚至可以在人类微笑前约840毫秒（约0.9秒）预测即将出现的微笑。据介绍，它能与人进行眼神交流，并利用两个人工智能（AI）模型在人微笑之前预测并“复制”人的微笑。研究团队表示，这是机器人在准确预测人类面部表情、改善互动以及建立人类与机器人之间信任方面的一大进步。

相关研究论文以“Human-robot facial coexpression”为题，已于今天发表在科学期刊Science Robotics上。哥伦比亚大学机械工程系博士Yuhang Hu为该论文的第一作者和共同通讯作者，他的导师、哥伦比亚大学教授Hod Lipson为该论文的共同通讯作者。

在一篇同期发表在Science Robotics的FOCUS文章中，格拉斯哥大学计算社会认知教授Rachael Jack评价道：“人类社交互动本质上是多模式的，涉及视觉和听觉信号的复杂组合，虽然Hu及其同事的研究集中在单一模式——面部表情上，但他们的成果在为开发更复杂的多模态信号的社交同步技能方面做出了巨大的贡献。”

在她看来，尽管这是一个复杂的跨学科工作，但“真正使社交机器人融入人类社交世界是可能的”。Emo微笑了，但也不仅仅是“微笑”。如果你走到一个长着人类脑袋的机器人面前，它先对你微笑，你会怎么做？你很可能会回以微笑，也许会觉得你们两个在真诚地交流。但是，机器人怎么知道如何做到这一点呢？或者更好的问题是，它怎么知道如何让你回以微笑？

为此，Yuhang Hu及其同事需要解决两大难题：一是如何以机械方式设计一个表情丰富的机器人面部，这涉及复杂的硬件和执行机制；二是知道该生成哪种表情，以使它们看起来自然、及时和真实。

据论文描述，Emo配备了26个致动器，头部覆盖有柔软的硅胶皮肤，并配有磁性连接系统，从而便于定制和快速维护。

为了实现更逼真的互动，研究团队在Emo每只眼睛的瞳孔中都集成了高分辨率摄像头，使其能够进行眼神交流，这对非语言交流至关重要。另外，他们还开发了两个人工智能模型：其中一个通过分析目标面部的细微变化预测人类面部表情，另一个则利用相应的面部表情生成运动指令。第一个模型是通过观看网络视频进行训练的，而第二个模型则是通过让机器人观看自己在实时摄像机画面上的表情来训练的。

他们通过与其他基线进行定量评估，证明了这两个模型的有效性。

为了训练Emo学会做出面部表情，研究团队把Emo放在摄像头前，让它做随机动作。几个小时后，Emo就学会了面部表情与运动指令之间的关系——就像人类通过照镜子练习面部表情一样。他们将其称为“自我建模”——类似于人类想象自己做出特定表情时的样子。然后，研究团队播放人类面部表情的视频，让Emo逐帧观察。经过几个小时的训练后，Emo便可以通过观察人们面部的微小变化来预测他们的面部表情。

在Yuhang Hu看来，准确预测人类的面部表情是人机交互技术的重要突破，“当机器人与人进行实时表情交互时，不仅能提高交互质量，还有助于建立人与机器人之间的信任。未来，在与机器人互动时，机器人会像真人一样观察和解读你的面部表情。”值得一提的是，这项研究的潜在影响或许已经超越机器人学，扩展到神经科学和实验心理学等领域。例如，一个可以预测和同步面部表情的机器人系统可以作为研究镜像神经元系统的工具。

通过在测量大脑活动的同时与参与者互动，研究人员可以深入了解社会互动和交流的神经相关性。

在心理学领域，具有预测和同步面部表情能力的机器人可用作教育工具，帮助自闭症患者发展更好的社交沟通技能。已有研究表明，机器人可以有效地吸引患有自闭症谱系障碍（ASD）的儿童，促进他们的社交互动。

尽管Emo已经可以预测人类面部表情并同步快速回应，但远不具备完全捕捉到人类的面部交流能力，甚至在由成人模样的机器人进行模仿时，可能会让人感觉厌恶。然而，研究团队认为，就像婴儿在学会模仿父母之后才能独立做出面部表情一样，机器人必须先学会预测和模仿人类的表情，然后才能成熟地进行更加自发和自我驱动的表情交流。

在未来的工作中，他们希望扩大Emo的表情范围，并希望训练Emo根据人类所说的话做出表情。

他们正在努力将语言交流整合到Emo中，并接入类似ChatGPT的大型语言模型。然而，他们也表示，必须谨慎选择机器人模仿的面部表情。例如，某些面部姿态，如微笑、点头和保持眼神接触，通常会自然地得到回应，并且在人类交流中会被积极地看待。相反，对于噘嘴或皱眉等表情的模仿则应谨慎，因为这些表情有可能被误解为嘲讽或传达非预期的情绪。

另外，人类用户如何感知这些表情才是衡量成功与否的最终标准。

未来的一个重要步骤是验证这些表情在现实世界中人与机器人在各种情境下互动时的情感效果，以确定其心理有效性。此外，该研究也存在一定的局限性，其中之一为“模型的预测和表情模仿可能缺乏文化敏感性”。众所周知，不同的文化可能会对某些面部表情有不同的规范和含义。例如，虽然在许多文化中，微笑通常被认为是快乐或友好的标志，但它也可能是尴尬或不确定的标志。

同样，直接的目光接触在某些文化中可能被视为自信和诚实的表现，但在其他文化中却可能被视为粗鲁或对抗。

未来的工作可以探索将文化背景融入到模型中，一个可能的方法是纳入来自不同文化背景的数据集，并在算法中融入对文化规范的理解。最后，一个不能逃避的话题是，随着机器人的行为能力越来越像人类，研究团队必须考虑与这项技术相关的伦理问题。杜绝可能的技术滥用（如欺骗或操纵），需要强有力的伦理框架和管理。

尽管如此，这一研究也着实令人十分兴奋。正如研究团队所言：“我们正逐步接近这样一个未来——机器人可以无缝融入我们的日常生活，为我们提供陪伴、帮助，甚至是共鸣。想象一下，在这个世界上，与机器人互动就像与朋友交谈一样自然和舒适。”