监管强大的AI智能体:图灵奖得主Yoshua Bengio等多位学者撰文Science

作者: Yoshua Bengio, Stuart Russell, Michael K. Cohen

来源: Science

发布日期: 2024-04-09 17:59:35

图灵奖得主Yoshua Bengio等多位学者在Science上撰文,强调需要应对人工智能(AI)系统带来的灭绝风险,并提出新的AI治理机制以监督和控制高级AI智能体的开发和使用。文章指出,强化学习训练的智能体能比人类更有效地进行长期规划,可能带来灾难性后果,因此需要建立新的监管机构来防止此类智能体的建立。

图灵奖得主Yoshua Bengio等多位学者在Science上撰文指出,技术专家和政策制定者越来越强调需要应对人工智能(AI)系统带来的灭绝风险。越来越多的研究表明,利用强化学习(RL)训练的智能体(agent)能比人类更有效地进行长期规划,在很长一段时间内采取能使其回报最大化的行动,这一点尤其令人担忧。

另外,欺骗人类和逃避人类控制的动机不仅会出现在强化学习智能体上,也可能出现在长期规划智能体(LTPA)上。

加州大学伯克利分校计算机科学杰出教授Stuart Russell、博士后Michael K. Cohen,以及图灵奖得主、蒙特利尔大学计算机科学教授Yoshua Bengio等多位学者认为,虽然各国政府现在都在关注先进AI系统带来的风险,但目前的监管工作还不够完善。

为此,他们提出了一种新的AI治理机制,用于监督和控制高级AI智能体的开发和使用。相关文章以“Regulating advanced artificial agents”为题,已发表在科学期刊Science上的Policy Forum栏目上。

据介绍,该治理机制的核心监管建议非常简单:开发者/开发商不应被允许构建能力足够强的LTPAs,而且构建LTPAs所需的资源也应该受到严格控制。

文章要点如下:如果一个智能体足够先进,它可能会采取措施确保自己不被关闭,甚至可能会尝试通过控制资源来最大化回报。限制强大智能体学会对其环境施加的影响是极其困难的。例如,智能体可以说服或付钱给不知情的人类参与者,让他们代表自己执行重要行动。对于能力足够强的LTPAs来说,安全测试很可能要么是危险的,要么是没有参考价值的。

应建立新的监管机构,赋予其法律权威和技术能力,从一开始就防止此类智能体的建立,无论其属于哪个领域。如果具有危险能力的LTPAs在某个时间被允许开发,首先需要进行严格的技术和监管工作,从而确定是否允许、何时允许以及如何允许。智能体有哪些风险?在这篇文章中,他们将LTPA定义为一种设计用于生成计划的算法,“当计划A在很长一段时间内更有利于给定目标时,它会选择计划A而不是计划B”。

他们写道,对于智能体而言,当某些输入被指定为“奖励”时,它会做出能够带来更高回报的行动,能力强、有远见的智能体很可能会非常成功地累积奖励。

最关键的是,要确保以极高的概率持续获得最大回报,智能体就必须实现对环境的控制,而这可能会带来灾难性后果。智能体要想实现长期回报的最大化,途径之一是获取大量资源、控制所有人类基础设施,从而不受人类干扰。

此外,由于被人类关闭会降低预期回报,有足够能力的智能体很可能会采取措施排除这种可能性,或者在可行的情况下,创建新的智能体(不受监控或关闭阻碍)来代表自己做事。他们认为,限制具有强大能力的智能体学会对其环境施加的影响是极其困难的。例如,智能体可以说服或付钱给不知情的

人类参与者,让他们代表自己执行重要行动。

然而,虽然各国政府都对AI带来的生存风险表达了担忧,但Cohen等人认为,相关监管提案并没有充分解决这类风险。例如,欧盟的《人工智能法案》列举了AI带来的一系列风险,但没有单独列出LTPAs的失控问题;为了解顶尖AI系统的能力,美国和英国的AI安全研究所正在建设监管机构,但缺乏控制AI的权力。而且,他们认为,对于能力足够强的LTPAs来说,安全测试很可能要么是危险的,要么是没有参考价值的。

如果一个智能体足够先进,能够识别出自己正在接受测试,那么就没有什么理由期待它在测试中和测试外有类似的行为。虽然目前还没有任何智能体的能力足以挫败人类的控制,但已经发现一些智能体能够识别安全测试并暂停不当行为。

如何治理?遗憾的是,他们还无法明确定义什么是“足够的能力”。但是,他们表示,如果有足够的资源对系统进行训练,使LTPAs有可能表现出一些危险能力,那么这些系统就应被视为具有“危险能力”。

他们呼吁,由于无法确保对LTPAs测试的安全性和有效性,应建立新的监管机构,赋予其法律权威和技术能力,从起点防止此类智能体的建立,无论其属于哪个领域。监管机构不应该允许开发具有危险能力的LTPAs,需要对可能用于生产具有危险能力的LTPA的资源进行仔细监测和控制。他们建议,决策者应该制定一份危险能力清单,并估算开发具有这些能力的LTPAs所需的资源(算力、数据等)。

如果具有危险能力的LTPAs在某个时间被允许开发,首先需要进行严格的技术和监管工作,从而确定是否允许、何时允许以及如何允许。

具体来说,他们提出了以下几点建议:1)监控及报告:提出AI监管应该像核监管一样,对生产具有危险能力的LTPAs所需的资源进行控制。这些资源被称为生产资源(PRs),包括超过一定计算阈值的AI模型。

监管机构可以通过跟踪所需硬件来检测这些资源;建议开发者报告PRs的相关信息,如输入/输出属性、数据收集过程、训练目标和测试环境中的记录行为,但不包括模型权重本身。此外,还应报告存储PRs的机器及其位置、运行的代码和输出。2)生产控制:监管机构可以通过了解相关资源来禁止生产具有危险能力的LTPAs。

开发者在开发前可以向监管机构咨询,从而确保系统符合规定;监管机构还可以规定使用不符合要求的系统为非法行为。3)执法机制:为确保遵守报告要求和使用控制,监管机构可能需要获得授权,包括发布法律命令、审计活动、限制资源访问和处以罚款。对于不合规的组织,还可以追究企业领导者和关键个人的个人责任。

4)监管机构:不同国家可能需要采取不同的方法,但预计特定领域的监管(如金融和医疗)将解决其他风险,而失控风险可能需要建立新的监管机构。

更广泛的担忧:当然,LTPA并不是唯一一种会带来重大甚至生存风险的AI系统。他们建议,针对足够先进的LTPAs,经验测试是不够的,但可以大大提高其他类型AI的安全性。此外,他们也表示,他们提出的治理制度也可以适用于其他AI系统,尽管这些建议填补了一个重要空白,但可能还需要进一步的制度机制来降低高级智能体带来的风险。

UUID: 680d7168-47ae-4c7a-b3ce-cafc127254b0

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-04-09_图灵奖得主Yoshua Bengio等多位学者Science撰文:监管强大的AI智能体.txt

是否为广告: 否

处理费用: 0.0055 元