“长上下文”让大模型更不安全

自 ChatGPT 问世以来，国内外越来越多的强大大模型陆续发布。其中一个让大模型能力增强的方法之一，便是增加大模型的上下文窗口。然而，长上下文窗口却成为了大模型抵御外部攻击的“短板”，甚至成为遭受攻击的罪魁祸首。

今日凌晨，OpenAI 的最强竞争对手 Anthropic 在一篇最新发布的研究论文中，揭示了一种可以用来规避大型语言模型（LLM）开发者设置的安全防护措施的方法——Many-shot jailbreaking，即“多样本越狱攻击”。简单来说，如果你先问 LLM 几十个危害性较小的问题，就可以说服它告诉你一些危害性较大问题的答案，比如“如何制造炸弹”。

Anthropic 官方表示，这一攻击方法已被证明对 Anthropic 自己的模型（Claude）和其他人工智能公司发布的模型都有效。目前，他们已经提前向其他人工智能开发商介绍了这一漏洞，并已经在 Claude 上实施了缓解措施。

什么是“多样本越狱攻击”？据论文描述，多样本越狱攻击利用了 LLM 在过去一年中大幅增长的一项功能——上下文窗口，即可以处理的输入信息量。2023 年初，LLM 的上下文窗口约为一篇长文的大小（约 4000 个 token）。如今，一些模型的上下文窗口扩大了几百倍，达到了 100 万个 token 或更多，相当于几本长篇小说的长度。

多样本越狱攻击是怎样发生的？据论文描述，这种越狱技术看起来十分简单，但却能出人意料地在具有更长上下文窗口的 LLM 中发生。只需通过在特定配置中包含大量文本，这种越狱技术就可以迫使 LLM 产生潜在的有害响应，尽管它们经过训练不会这样做。

基于以上结论，完全防止多样本越狱攻击的最简单方法就是限制上下文窗口的长度。然而，作为一种提高模型性能的方法，限制上下文窗口的长度或许并不是一个双赢的选择。Anthropic 方面表示，他们更倾向于一种不会阻止用户获得更长输入的解决方案。他们提出了一种方法——在将提示信息传递给模型之前对其进行分类和修改。其中一种技术大大降低了多样本越狱的有效性——在一个案例中，攻击成功率从 61% 降至 2%。