Managing extreme AI risks amid rapid progress

近期，Ilya Sutskever 从 OpenAI 离职以及 OpenAI 超级对齐团队共同领导者 Jan Leike 随后离职的消息，在业界引起了广泛关注。这一系列事件再次突显了人工智能（AI）对齐与安全问题的严峻性，特别是对于强大的人工智能系统来说，如何确保其安全性、可解释性和可控性是至关重要的。

就在今天，Yoshua Bengio、Geoffrey Hinton 和姚期智（Andrew Yao）三位图灵奖得主联合国内外数十位业内专家和学者，在权威科学期刊 Science 的 Policy Forum 栏目上刊登了题为“Managing extreme AI risks amid rapid progress”的文章，呼吁世界各国领导人针对人工智能风险采取更有力的行动，并警告说，近六个月所取得的进展还不够。

在文章中，25 位世界顶尖的人工智能科学家表示，在保护我们免受该技术风险方面所做的工作实际上还不够，并概述了全球领导人为应对人工智能技术威胁而应采取的紧急政策优先事项。

他们认为，未来的人工智能可能对全世界造成灾难性影响。例如，为了推进不良目标，人工智能系统可以获得人类信任、获取资源并影响关键决策者。为了避免人类干预，它们可以在全球服务器网络上复制自己的算法。大规模网络犯罪、社会操纵和其他危害可能会迅速升级。在公开冲突中，人工智能系统可以自主部署各种武器，包括生物武器。因此，人工智能的无节制发展很有可能最终导致生命和生物圈的大规模损失，以及人类的边缘化或灭绝。

其他核心观点如下：世界各国领导人必须认真对待在当前或未来十年内开发出功能强大的通用人工智能（AGI）系统——在许多关键领域超越人类能力——的可能性。尽管世界各国政府一直在讨论人工智能的前沿问题，并试图出台一些初步指导方针，但这与许多专家所期待的快速、变革性进步的可能性根本不相称。目前对人工智能安全性的研究严重不足，估计只有 1%-3% 的人工智能出版物涉及安全性问题。

此外，我们既没有机制也没有机构来防止滥用和鲁莽行为，包括使用能够独立采取行动和追求目标的自主系统。建议授权进行更严格的风险评估，并规定可强制执行的后果，而不是依赖于自愿或不明确的模型评估。要求人工智能公司优先考虑安全性，并证明其系统不会造成伤害。这包括使用“safety cases”（用于航空等其他安全关键技术），将证明安全性的责任转移给人工智能开发者。

实施与人工智能系统风险水平相称的缓解标准，当务之急是制定政策，在人工智能达到某些能力时自动触发，如果人工智能进展迅速，严格的要求就会自动生效，但如果进展放缓，要求就会相应放宽。