训练机器人看脸读“心”，真的靠谱吗？

虽然人工智能公司极力推广人脸情绪识别软件，但是心理学家却在质疑情绪识别只是说起来容易。数百张人脸在屏幕上一一闪现，其中一些瞪着眼睛，一些瘪着嘴巴，还有一些人的眼睛紧闭、嘴角上扬、张大着嘴。看到这些人脸，你必须回答一个简单的问题：这个人是在经历高潮还是阵痛？2018年，心理学家Rachael Jack和她的同事招募了80个人来做这个测试。

来自英国格拉斯哥大学的这个团队从西方和东亚招募了这些参与者，为的是研究一个长久以来的热门问题：面部表情真的能传达情绪吗？

研究人员让研究对象从面部读取情绪的做法已经有好几十年了，包括不同国家的成年人和儿童，甚至还有偏远地区的原住民。上世纪60、70年代，美国心理学家Paul Ekman进行的著名观察性研究发现，全世界的人都能够从面部表情准确推断出背后的情绪，这说明情绪的表达是相通的。

这种观点在一代人的时间里基本未受挑战。但是，新生代的心理学家和认知科学家在回顾了这些数据后提出了质疑。许多研究者现在认为，实际情况要复杂得多，面部表情在不同情景和文化中有着截然不同的意义。比如，Jack的研究发现，虽然西方人和东亚人对于表示痛苦的面部表情有着相似的认识，但是他们对于哪种表情表达愉悦的看法却并不一致。

对于Ekman认为人脸是情绪表达窗口的结论，研究人员之间的分歧越来越大。

但是这并不妨碍商业公司和政府为他的说法“买单”，并以会改变人们命运的方式加以应用。比如，西方的许多司法系统里，读取被告人的情绪就是公平审判的一部分。美国最高法院大法官Anthony Kennedy曾在1992年写道，这么做对于“了解罪犯的心灵和思想”是很有必要的。Ekman曾为美国运输安全管理局（TSA）设计了一个备受争议的培训项目，该项目于2007年启动，其核心就是解读情绪。

项目名为“旅客筛查观察法”（Screening Passengers by Observation Techniques，SPOT），主要目的是训练TSA的人员监控旅客身上出现的数十种可疑迹象，这些迹象可能反映了他们焦虑、欺骗和害怕的情绪。该项目遭到了科学家、美国国会议员以及美国公民自由联盟等民间组织的广泛质疑，他们指责这种做法并不准确，还会带来种族偏见。

此起彼伏的质疑声并没能阻止顶尖的科技公司，它们相信情绪是容易检测的，其中一些公司已经开发出了情绪识别软件。眼下，这些软件正在进行测试或推广，应用范围包括评估求职者和岗位的匹配度，测谎，让广告更有吸引力，还能检测痴呆症到抑郁症等一系列疾病。这个产业的估值高达数百亿美金。

微软、IBM、亚马逊在内的科技巨头，以及一些专业性更强的企业（如波士顿的Affectiva和迈阿密的NeuroData Lab）都推出了通过人脸检测情绪的算法。

研究者还在苦苦争辩人类的面部能否忠实地表达和感知情绪，不少专家也认为用计算机来将其自动化还早了点，尤其是这种技术还具有潜在的破坏力。纽约大学的研究中心AI Now Institute呼吁禁止在敏感场合使用情绪识别技术，譬如在招聘和执法时。

从事相关研究的俄亥俄州立大学研究者Aleix Martinez表示，人的面部表情是很难解读的，哪怕对人类自己来说都是如此。他说，考虑到这一点，再结合当前万物皆可自动化的趋势，“我们应该感到担心。”

人类的面部有43块肌肉，它们可以拉伸、上扬、扭曲，表达几十种不同表情。虽然面部肌肉可以做许多动作，但科学家们一直相信，特定表情对应特定的情绪。持这种观点的人就包括达尔文。

他在1859年出版的野外考察巨著《物种起源》称得上是观察方面的教科书。他的另一部影响力稍差的作品——《人类和动物的情感表达》（1872）则颇为教条。达尔文注意到，灵长类动物的面部动作和人类表达情绪（如厌恶和害怕）有些类似。他由此提出，这些表情肯定有某种适应性功能。比如，撅嘴巴，皱鼻子，挤眼睛这种与厌恶相关的表情，最初可能是为了抵御有害的病原体。

只是随着社会行为的出现，这些面部表情才开始发挥起沟通的作用。

Ekman在60年代开展的首批跨文化实地研究支持了达尔文的假说。他在世界范围内研究了人类对六种关键情绪（快乐、悲伤、愤怒、害怕、惊讶和厌恶）的表情和感知，研究对象甚至包括新几内亚的一个偏远部落。Ekman告诉《自然》，他挑选这六种情绪是出于实际考虑。

他说，一些情绪，比如羞耻和内疚并没有外显的表情，“我关注的这六种情绪是有表情的，也就是说，它们可以作为研究的对象”。Ekman认为，这些早期研究支持了达尔文进化论引申出的表情普适论。后来的研究则证明了某些面部表情具有适应性优势。

长久以来，人们认为面部表情是一种强制性动作。也就是说，我们的面部无法隐藏我们的情绪。不过，这个假设的一个明显漏洞是，人们确实能伪造情绪，也可以让情绪不写在脸上。

Ekman这一派的学者也承认，每种情绪的表情并没有一个所谓的“金标准”。越来越多的研究者提出，情绪对应的表情范围太大，以至于金标准的概念几近分崩离析。他们用一篇大型综述支持了这个观点。几年前，期刊《公共利益心理科学》（Psychological Science in the Public Interest）的编辑邀请了一些观点互斥的作者组成专家团，完成了这篇综述。

领导此次合作的Barrett表示：“我们竭尽所能摒弃先见。”他们没有事先树立假设，而是直接从数据着手。她说：“观点不统一的时候，我们就去寻找新的证据。”最后，他们阅读了约1000篇论文，历经2年半的研究，得出了一个很明显的结论：没有证据，或很少有证据能证明，人们可以从各种面部动作推测某人的情绪状态。面部所能反映的情绪是很有限的。这些研究者甚至引用了一些证明面部动作和内在情绪无关的研究。

英国德蒙福特大学的心理学家Carlos Crivelli曾经研究过巴布亚新几内亚的特罗布里恩群岛的居民，他并没有发现能支持Ekman观点的证据。Crivelli的结论是，从外在表现推测内在的心理状态，就犹如用尺子在称重量。

证明表情普适性的证据不足的另一个原因是，人脸只提供了部分信息。其他信息，比如身体动作、个性、声调以及脸色变化，在我们识别和表达情绪的过程中也起到了重要的作用。就好比情绪变化会影响血流量，血流量又会影响脸色。Martinez和同事发现，人们能够发现脸色变化和情绪之间的关系。而背景一类的视觉信号也能提供识别情绪状态的线索。

其他研究者指出，对Ekman的结论的反扑有些过头了。Ekman本人深以为然。

2014年，他在对Barrett的批评的回应中指出，有大量的研究支持他先前的结论，包括证明了面部会自发做表情的研究。还有研究发现了表情与大脑以及身体状态之间的联系。他在回应中称，这些研究说明面部表情不仅反映了人的情绪，也反映了神经生理活动的模式。他说自己的观点并没有改变。

在加拿大不列颠哥伦比亚大学的心理学家Jessica Tracy看来，那些认为Ekman的表情普适论有错的人给出的证据不过是一小簇反例，他们有些夸大其词了。她认为，即使不同群体或文化对愤怒表情的理解略有偏差，但也不能推翻整个理论。大多数人一看就知道这是一张愤怒的脸，她引用了一项对100个研究进行的分析。她说：“有大量其他证据证明，全世界大多数文化的大部分人都认为这个表情是通用的。”

Tracy和其他3位心理学家认为，Barrett在文献综述里称他们是将六种情绪刻板地与面部动作一一对应，这种解读有点夸张了。其中一位作者，阿姆斯特丹大学的Disa Sauter表示：“我不认为情绪科学领域还有其他研究者赞同她的观点。”Sauter和Tracy认为，要解读面部表情就需要对情绪进行更复杂的分类。研究者不应把快乐视为单一的情绪，而要把它继续细分；快乐下面还包括高兴、愉悦、怜悯、自豪等等。

这些情绪的表情可能会有差异或重叠。一些研究使用计算机生成随机的表情。Rachael Jack在2018年开展的一项研究中，参与者需要指出每张脸与他们心目中对痛苦或高潮的定义的符合程度。

这场争议的核心其实在于对显著的定义。在一项研究中，参与者需要从六个情绪标签中选择一个来描述他们看到的人脸。一些研究者可能认为，如果某个表情被选择的几率大于20%，那就说明这个表情的通用性较为显著。

其他人觉得20%的标准太宽松了。Jack认为Ekman的阈值过低，她在读博期间读过Ekman早期的论文，她说，“我总是去找我的导师，给他看这些60、70年代的图表，每个图表在文化认识上都存在巨大差异。到今天为止，依然没有数据能证明，对情绪的认可是放之四海皆准的。”即使不考虑显著性，研究者还要面对主观性的问题：许多研究都需要事先为情绪贴标签，以便在实验结束后进行比较。

因此，Barrett、Jack以及其他学者想用更为客观的方法来研究情绪。

软件企业则避免让算法进行自由联想。一般来说，情绪识别的人工智能算法需要学习数百万张人脸图像以及数百小时的视频——每个情绪都被标好了标签，再从这些资料中习得模式。Affectiva表示公司已经用来自87个国家超过700万张人脸对软件进行了训练，目前其情绪识别准确率已经达到了90%。该公司拒绝透露算法背后的科学依据。

Neurodata Lab公司意识到了面部在情绪表达上的差异，但指出：“如果某人正在经历某种情绪，某些面部表情出现的可能性会高于随机概率。”而该公司的算法利用的正是这种规律。而意见尚不统一的研究人员，不管站哪边，都对这类软件持怀疑态度，无论是对训练算法所使用的数据存在担忧，还是认为该领域目前仍未有定论。

Ekman说他曾直截了当地挑战过这些公司的说法。

他曾写信给数家公司，但拒绝透露公司名称，只说“它们都是世界上最大的软件公司”，并向它们索要能证明其自动化技术有效的证据，但没有得到回音。他说，“在我看来，他们的理论并没有证据支持。”Martinez折衷地表示，自动化情绪识别或许能代表某个群体的平均情绪反应。Affectiva公司曾把软件卖给营销机构和某些品牌，帮助他们预测特定消费者对某个产品或营销手段的反应。

即使这个软件出错也不会有太大的影响，顶多广告的效果不如预期而已。但是，一些算法的应用却可能改变人们的命运，比如面试和边境检查。去年，匈牙利、拉脱维亚和希腊试用了一个旅客预筛查系统，通过分析面部微表情来测谎。

想要平息这场情绪-表情的争论，需要动用不同的研究手段。Barrett常常受邀给科技公司展示她的研究，不久前刚去了微软。她认为研究者要践行达尔文撰写《物种起源》时的做法：“观察、观察、再观察。

”观察人们在现实生活如何通过面部和身体传达信息，而不仅仅只在实验室里。然后再用机器来记录和分析来自真实生活的影像。Barrett认为更多的数据和分析技术，而不是回顾陈旧的数据和实验，才能帮研究者获得新知识。对于这个她和其他研究者看来站不住脚的科学，许多科技公司却跃跃欲试，她向这些企业发出了挑战：“我们已经到了悬崖口，人工智能企业到底是要继续使用漏洞百出的研究假设，还是去做应该完成的事呢？”