自 ChatGPT 问世以来,国内外越来越多的强大大模型陆续发布。其中一个让大模型能力增强的方法之一,便是增加大模型的上下文窗口。然而,长上下文窗口却成为了大模型抵御外部攻击的“短板”,甚至成为遭受攻击的罪魁祸首。
今日凌晨,OpenAI 的最强竞争对手 Anthropic 在一篇最新发布的研究论文中,揭示了一种可以用来规避大型语言模型(LLM)开发者设置的安全防护措施的方法——Many-shot jailbreaking,即“多样本越狱攻击”。简单来说,如果你先问 LLM 几十个危害性较小的问题,就可以说服它告诉你一些危害性较大问题的答案,比如“如何制造炸弹”。
Anthropic 官方表示,这一攻击方法已被证明对 Anthropic 自己的模型(Claude)和其他人工智能公司发布的模型都有效。目前,他们已经提前向其他人工智能开发商介绍了这一漏洞,并已经在 Claude 上实施了缓解措施。
什么是“多样本越狱攻击”?据论文描述,多样本越狱攻击利用了 LLM 在过去一年中大幅增长的一项功能——上下文窗口,即可以处理的输入信息量。2023 年初,LLM 的上下文窗口约为一篇长文的大小(约 4000 个 token)。如今,一些模型的上下文窗口扩大了几百倍,达到了 100 万个 token 或更多,相当于几本长篇小说的长度。
多样本越狱攻击是怎样发生的?据论文描述,这种越狱技术看起来十分简单,但却能出人意料地在具有更长上下文窗口的 LLM 中发生。只需通过在特定配置中包含大量文本,这种越狱技术就可以迫使 LLM 产生潜在的有害响应,尽管它们经过训练不会这样做。
基于以上结论,完全防止多样本越狱攻击的最简单方法就是限制上下文窗口的长度。然而,作为一种提高模型性能的方法,限制上下文窗口的长度或许并不是一个双赢的选择。Anthropic 方面表示,他们更倾向于一种不会阻止用户获得更长输入的解决方案。他们提出了一种方法——在将提示信息传递给模型之前对其进行分类和修改。其中一种技术大大降低了多样本越狱的有效性——在一个案例中,攻击成功率从 61% 降至 2%。