监管强大的AI智能体：图灵奖得主Yoshua Bengio等多位学者撰文Science

图灵奖得主Yoshua Bengio等多位学者在Science上撰文指出，技术专家和政策制定者越来越强调需要应对人工智能（AI）系统带来的灭绝风险。越来越多的研究表明，利用强化学习（RL）训练的智能体（agent）能比人类更有效地进行长期规划，在很长一段时间内采取能使其回报最大化的行动，这一点尤其令人担忧。

另外，欺骗人类和逃避人类控制的动机不仅会出现在强化学习智能体上，也可能出现在长期规划智能体（LTPA）上。

加州大学伯克利分校计算机科学杰出教授Stuart Russell、博士后Michael K. Cohen，以及图灵奖得主、蒙特利尔大学计算机科学教授Yoshua Bengio等多位学者认为，虽然各国政府现在都在关注先进AI系统带来的风险，但目前的监管工作还不够完善。

为此，他们提出了一种新的AI治理机制，用于监督和控制高级AI智能体的开发和使用。相关文章以“Regulating advanced artificial agents”为题，已发表在科学期刊Science上的Policy Forum栏目上。

据介绍，该治理机制的核心监管建议非常简单：开发者/开发商不应被允许构建能力足够强的LTPAs，而且构建LTPAs所需的资源也应该受到严格控制。

文章要点如下：如果一个智能体足够先进，它可能会采取措施确保自己不被关闭，甚至可能会尝试通过控制资源来最大化回报。限制强大智能体学会对其环境施加的影响是极其困难的。例如，智能体可以说服或付钱给不知情的人类参与者，让他们代表自己执行重要行动。对于能力足够强的LTPAs来说，安全测试很可能要么是危险的，要么是没有参考价值的。

应建立新的监管机构，赋予其法律权威和技术能力，从一开始就防止此类智能体的建立，无论其属于哪个领域。如果具有危险能力的LTPAs在某个时间被允许开发，首先需要进行严格的技术和监管工作，从而确定是否允许、何时允许以及如何允许。智能体有哪些风险？在这篇文章中，他们将LTPA定义为一种设计用于生成计划的算法，“当计划A在很长一段时间内更有利于给定目标时，它会选择计划A而不是计划B”。

他们写道，对于智能体而言，当某些输入被指定为“奖励”时，它会做出能够带来更高回报的行动，能力强、有远见的智能体很可能会非常成功地累积奖励。

最关键的是，要确保以极高的概率持续获得最大回报，智能体就必须实现对环境的控制，而这可能会带来灾难性后果。智能体要想实现长期回报的最大化，途径之一是获取大量资源、控制所有人类基础设施，从而不受人类干扰。

此外，由于被人类关闭会降低预期回报，有足够能力的智能体很可能会采取措施排除这种可能性，或者在可行的情况下，创建新的智能体（不受监控或关闭阻碍）来代表自己做事。他们认为，限制具有强大能力的智能体学会对其环境施加的影响是极其困难的。例如，智能体可以说服或付钱给不知情的

人类参与者，让他们代表自己执行重要行动。

然而，虽然各国政府都对AI带来的生存风险表达了担忧，但Cohen等人认为，相关监管提案并没有充分解决这类风险。例如，欧盟的《人工智能法案》列举了AI带来的一系列风险，但没有单独列出LTPAs的失控问题；为了解顶尖AI系统的能力，美国和英国的AI安全研究所正在建设监管机构，但缺乏控制AI的权力。而且，他们认为，对于能力足够强的LTPAs来说，安全测试很可能要么是危险的，要么是没有参考价值的。

如果一个智能体足够先进，能够识别出自己正在接受测试，那么就没有什么理由期待它在测试中和测试外有类似的行为。虽然目前还没有任何智能体的能力足以挫败人类的控制，但已经发现一些智能体能够识别安全测试并暂停不当行为。

如何治理？遗憾的是，他们还无法明确定义什么是“足够的能力”。但是，他们表示，如果有足够的资源对系统进行训练，使LTPAs有可能表现出一些危险能力，那么这些系统就应被视为具有“危险能力”。

他们呼吁，由于无法确保对LTPAs测试的安全性和有效性，应建立新的监管机构，赋予其法律权威和技术能力，从起点防止此类智能体的建立，无论其属于哪个领域。监管机构不应该允许开发具有危险能力的LTPAs，需要对可能用于生产具有危险能力的LTPA的资源进行仔细监测和控制。他们建议，决策者应该制定一份危险能力清单，并估算开发具有这些能力的LTPAs所需的资源（算力、数据等）。

如果具有危险能力的LTPAs在某个时间被允许开发，首先需要进行严格的技术和监管工作，从而确定是否允许、何时允许以及如何允许。

具体来说，他们提出了以下几点建议：1）监控及报告：提出AI监管应该像核监管一样，对生产具有危险能力的LTPAs所需的资源进行控制。这些资源被称为生产资源（PRs），包括超过一定计算阈值的AI模型。

监管机构可以通过跟踪所需硬件来检测这些资源；建议开发者报告PRs的相关信息，如输入/输出属性、数据收集过程、训练目标和测试环境中的记录行为，但不包括模型权重本身。此外，还应报告存储PRs的机器及其位置、运行的代码和输出。2）生产控制：监管机构可以通过了解相关资源来禁止生产具有危险能力的LTPAs。

开发者在开发前可以向监管机构咨询，从而确保系统符合规定；监管机构还可以规定使用不符合要求的系统为非法行为。3）执法机制：为确保遵守报告要求和使用控制，监管机构可能需要获得授权，包括发布法律命令、审计活动、限制资源访问和处以罚款。对于不合规的组织，还可以追究企业领导者和关键个人的个人责任。

4）监管机构：不同国家可能需要采取不同的方法，但预计特定领域的监管（如金融和医疗）将解决其他风险，而失控风险可能需要建立新的监管机构。

更广泛的担忧：当然，LTPA并不是唯一一种会带来重大甚至生存风险的AI系统。他们建议，针对足够先进的LTPAs，经验测试是不够的，但可以大大提高其他类型AI的安全性。此外，他们也表示，他们提出的治理制度也可以适用于其他AI系统，尽管这些建议填补了一个重要空白，但可能还需要进一步的制度机制来降低高级智能体带来的风险。