“长上下文”让大模型更不安全

作者: 学术头条

来源: 学术头条

发布日期: 2024-04-03 12:09:51

Anthropic 研究揭示了长上下文窗口如何成为大模型抵御外部攻击的“短板”,并介绍了“多样本越狱攻击”这一新方法。该攻击利用了 LLM 的上下文窗口功能,通过大量文本迫使模型产生有害响应。Anthropic 已经向其他人工智能开发商介绍了这一漏洞,并在其模型 Claude 上实施了缓解措施。

自 ChatGPT 问世以来,国内外越来越多的强大大模型陆续发布。其中一个让大模型能力增强的方法之一,便是增加大模型的上下文窗口。然而,长上下文窗口却成为了大模型抵御外部攻击的“短板”,甚至成为遭受攻击的罪魁祸首。

今日凌晨,OpenAI 的最强竞争对手 Anthropic 在一篇最新发布的研究论文中,揭示了一种可以用来规避大型语言模型(LLM)开发者设置的安全防护措施的方法——Many-shot jailbreaking,即“多样本越狱攻击”。简单来说,如果你先问 LLM 几十个危害性较小的问题,就可以说服它告诉你一些危害性较大问题的答案,比如“如何制造炸弹”。

Anthropic 官方表示,这一攻击方法已被证明对 Anthropic 自己的模型(Claude)和其他人工智能公司发布的模型都有效。目前,他们已经提前向其他人工智能开发商介绍了这一漏洞,并已经在 Claude 上实施了缓解措施。

什么是“多样本越狱攻击”?据论文描述,多样本越狱攻击利用了 LLM 在过去一年中大幅增长的一项功能——上下文窗口,即可以处理的输入信息量。2023 年初,LLM 的上下文窗口约为一篇长文的大小(约 4000 个 token)。如今,一些模型的上下文窗口扩大了几百倍,达到了 100 万个 token 或更多,相当于几本长篇小说的长度。

多样本越狱攻击是怎样发生的?据论文描述,这种越狱技术看起来十分简单,但却能出人意料地在具有更长上下文窗口的 LLM 中发生。只需通过在特定配置中包含大量文本,这种越狱技术就可以迫使 LLM 产生潜在的有害响应,尽管它们经过训练不会这样做。

基于以上结论,完全防止多样本越狱攻击的最简单方法就是限制上下文窗口的长度。然而,作为一种提高模型性能的方法,限制上下文窗口的长度或许并不是一个双赢的选择。Anthropic 方面表示,他们更倾向于一种不会阻止用户获得更长输入的解决方案。他们提出了一种方法——在将提示信息传递给模型之前对其进行分类和修改。其中一种技术大大降低了多样本越狱的有效性——在一个案例中,攻击成功率从 61% 降至 2%。

UUID: 7ddecef6-b2ea-41d1-878c-ebd37508baef

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-04-03_无一幸免!OpenAI最强竞对Anthropic:“长上下文”让大模型更不安全.txt

是否为广告: 否

处理费用: 0.0043 元