击败人类又怎样？“超人”AI简直不堪一击？研究发现：ChatGPT等大模型也不行

当前，关于“超人”人工智能（superhuman artificial intelligence）的讨论正变得愈发热烈。然而，或许只需要一点点“对抗性攻击”，那些可以轻松击败人类冠军的 AI 系统（如 AlphaGo、KataGo 等），便会变得不堪一击。而且，这种脆弱性不仅限于围棋 AI，也可能扩展到 ChatGPT 等聊天机器人背后的大语言模型。更关键的是，这一问题很难消除。

日前，来自 FAR AI 和麻省理工学院（MIT）的研究团队在一项研究中揭示了 AI 本身的这一脆弱性。他们表示，想要构建始终优于人类智能水平的、鲁棒性很强的 AI 系统，可能比我们想象得要更加困难。相关研究论文以 “Can Go AIs be adversarially robust?” 为题，已发表在预印本网站 arXiv 上，尚未经过同行评审。

伊利诺伊大学计算机科学家 Huan Zhang 指出：“这篇论文为如何实现建立人们可以信任的、强大的真实世界 AI 智能体这一宏伟目标打了一个大大的问号。” MIT 计算机科学家 Stephen Casper 也表示：“这项研究提供了一些迄今为止最有力的证据，证明让高级 AI 模型按照预期方式鲁棒地运行是很困难的。”

AI “围棋冠军”不堪一击。棋类游戏一直以来都是人类智力的重要考验，近年来也被作为 AI 系统智能化水平的“试金石”。在围棋中，两名玩家轮流将黑白棋子放在网格上，包围和吃掉对方的棋子。此前，围棋 AI 系统 KataGo 因击败顶级人类棋手的能力而广受瞩目，随着人们对 AI 是否能真正超越人类智能的不断质疑，KataGo 也成为人类和一些 AI 系统不断挑战的对象。

早在 2022 年，研究团队便通过训练对抗性 AI 机器人，发现尽管这些机器人总体上不是优秀的围棋选手，但它们能够找到并利用 KataGo 的特定弱点，经常性地击败 KataGo。此外，人类也可以理解机器人的这些伎俩，并用来击败 KataGo。这究竟是一次偶然，还是这项研究成果揭示了 KataGo 的根本弱点，进而揭示了其他看似具有超人能力的 AI 系统的根本弱点？

为了验证这一猜想研究，他们使用对抗机器人测试了围棋 AI 遭受此类攻击的三种防御方法——位置对抗性训练、迭代对抗性训练以及更改网络架构，这些方法分别针对 KataGo 的已知漏洞进行了不同层面的改进与防御。研究表明，这些防御方法均未能起到有效作用，对抗性机器人依然能够找到 KataGo 的漏洞，并击败它们。

实现“超人”人工智能？没那么简单。

这项研究揭示了顶级围棋 AI 系统在对抗性策略下的脆弱性，对整个 AI 领域的安全性和可靠性提出了新的挑战。尽管 KataGo 在平均表现上优于人类，但从它在最坏情况下表现出的缺陷可以看出，构建真正稳定的 AI 系统依然任重道远。研究结果表明，人类在构建稳定的 AI 系统方面仍然存在重大障碍，如果在围棋 AI 这一明确且封闭的领域无法实现鲁棒性，那么在更开放的现实世界应用中实现这一目标将更加困难。