前言人工智能(AI)并非完美的推理者,即使是当前大热的语言模型(LMs),也同样会表现出与人类类似的错误倾向,尤其是出现显著的“内容效应”(Content effects)—— 人们在处理与已有知识或信念相符的信息时,推理更加准确和自信,而在处理与这些知识或信念相悖的信息时,推理可能会出现偏差或错误。这一结论来自 Google DeepMind 团队近期发表的一篇研究论文。
人类存在两种推理系统,“直觉系统”和“理性系统”,且在推理过程中容易受到已有知识和经验的影响。例如,当面对合乎逻辑但不合常理的命题时,人们往往会错误地判定其无效。有趣的是,该研究显示,大型 Transformer 语言模型也可以表现出类似人类的这种行为,既可以展示出直觉性偏见,也可以在提示下表现出一致的逻辑推理。这意味着,语言模型也能模拟人类的双系统行为,也会表现出“经验主义”错误。
在这项工作中,研究团队对比了 LMs 和人类分别在自然语言推断(NLI)、判断三段论(Syllogisms)的逻辑有效性和 Wason 选择任务三种推理任务上的表现。结果发现,在三种推理任务中,LMs 和人类的表现均受语义内容合理性和可信度的影响。这一发现揭示了当前 AI 系统在推理能力上的局限性。尽管这些模型在处理自然语言方面表现出色,但在涉及复杂逻辑推理时,仍需谨慎使用。
任务一:自然语言推理自然语言推断(NLI)是指模型需要判断两个句子之间的逻辑关系(如蕴涵、矛盾或中性)。研究表明,语言模型在这类任务中容易受到内容效应的影响,即当句子的语义内容合理且可信时,模型更容易将无效的论证误判为有效。这一现象在 AI 领域被称为“语义偏见”,也是人类在推理过程中常见的错误。
任务二:三段论的逻辑有效性判断三段论是一种经典的逻辑推理形式,通常由两个前提和一个结论组成。研究发现,语言模型在判断三段论的逻辑有效性时,常常会受到语义内容的影响。尽管语言模型在处理自然语言方面表现优异,但在严格的逻辑推理任务中,仍然容易犯与人类相似的错误。
任务三:Wason 选择 Wason 选择任务是一个经典的逻辑推理任务,旨在测试个体对条件语句的理解和验证能力。研究发现,语言模型和人类在这一任务和前面两个任务一样,错误率相近,且都容易选择没有信息价值的卡片,例如,选择“3”,而不是“7”。出现这种错误是因为人类和 LMs 都倾向于选择与前提条件直接相关的卡片,而不是那些能真正验证规则的卡片。
总的来说,研究团队认为,当下的语言模型在推理任务方面与人类表现相差不多,甚至犯错的方式也如出一辙,特别是在涉及语义内容的推理任务中。虽然显露出了语言模型的局限性,但同时也为未来改进 AI 推理能力提供了方向。