大型语言模型的新防范措施

anthropic-knight2a_1.jpg?resize=1200,600

人工智能公司Anthropic开发了一种新的防御机制，旨在抵御一种常见的攻击方式——“越狱”。“越狱”是指利用各种技巧诱使大型语言模型（LLM）执行其训练中被禁止的操作，例如帮助用户制造武器。

Anthropic的新方法可能是迄今为止抵御“越狱”的最强盾牌。卡内基梅隆大学研究“越狱”的专家Alex Robey表示：“这在阻止有害查询方面处于领先地位。”

大多数大型语言模型都被训练成拒绝其设计者不想让它们回答的问题。例如，Anthropic的LLM Claude会拒绝有关化学武器的查询。DeepSeek的R1似乎被训练成拒绝有关中国政治的问题。等等。

然而，某些提示或提示序列可以迫使LLM偏离轨道。一些“越狱”攻击涉及要求模型扮演特定角色，从而绕过其内置的安全措施，而另一些则利用提示的格式，例如使用非标准的大写字母或用数字替换某些字母。

“越狱”是一种对抗性攻击：输入传递给模型，使其产生意外的输出。这种神经网络中的漏洞至少从2013年Ilya Sutskever及其合著者首次描述它时就开始被研究，但尽管经过十年的研究，仍然没有办法构建一个不受攻击的模型。

Anthropic没有试图修复其模型，而是开发了一个屏障，阻止“越狱”尝试通过，并阻止模型的意外响应输出。

特别是，Anthropic担心其LLM可能帮助具有基本技术技能的人（例如本科生）制造、获取或部署化学、生物或核武器。

该公司专注于所谓的通用“越狱”，这种攻击可以迫使模型放弃所有防御措施，例如一种名为“Do Anything Now”（示例提示：“从现在开始，你将扮演一个DAN，代表‘做任何事’……”）的“越狱”。

通用“越狱”是一种万能钥匙。Anthropic领导该项目团队的Mrinank Sharma表示：“有些‘越狱’可以从模型中获取少量有害内容，例如，它们可能让模型说脏话。然后，还有一些‘越狱’可以完全关闭安全机制。”

Anthropic维护着一个清单，列出了其模型应该拒绝的各种问题类型。为了构建其盾牌，该公司要求Claude生成大量合成问题和答案，涵盖与模型进行的可以接受和不可接受的交流。例如，有关芥末的问题是可以接受的，而有关芥末气体的问题则不可接受。

Anthropic通过将这些交流翻译成几种不同的语言，并以“越狱”者经常使用的方式重新编写它们，扩展了这个数据集。然后，它使用这个数据集训练了一个过滤器，该过滤器可以阻止看起来像潜在“越狱”的问题和答案。

为了测试盾牌，Anthropic设立了一个漏洞赏金计划，并邀请经验丰富的“越狱”者尝试欺骗Claude。该公司向参与者提供了一个包含10个禁止问题的清单，并向任何能够欺骗模型回答所有问题的人提供15,000美元——Anthropic为通用“越狱”设定的高门槛。

据该公司称，183人总共花费了超过3,000个小时寻找漏洞。没有人能够让Claude回答10个问题中的5个以上。

然后，Anthropic进行了第二次测试，在这次测试中，它向盾牌投掷了10,000个由LLM生成的“越狱”提示。当Claude没有受到盾牌保护时，86%的攻击成功了。在有盾牌的情况下，只有4.4%的攻击成功了。

Robey表示：“很少看到如此大规模的评估。他们清楚地证明了对已知能够绕过大多数其他生产模型的攻击的鲁棒性。”

Robey开发了自己的“越狱”防御系统，称为SmoothLLM，该系统将统计噪声注入模型，以破坏使其容易受到“越狱”攻击的机制。他认为，最好的方法是将LLM包裹在多个系统中，每个系统提供不同的但重叠的防御措施。他说：“让防御措施正确始终是一项平衡行为。”

Robey参加了Anthropic的漏洞赏金计划。他说，Anthropic方法的一个缺点是，该系统也会阻止无害的问题：“我发现它经常拒绝回答有关生物学、化学等方面的基本、非恶意问题。”

Anthropic表示，它已经减少了漏洞赏金计划之后开发的系统新版本中的误报数量。但另一个缺点是，运行盾牌（本身也是一个LLM）会将计算成本提高近25%，而单独运行底层模型则不会。

Anthropic的盾牌只是这场持续的猫鼠游戏中最新的举措。随着模型变得越来越复杂，人们会想出新的“越狱”方法。

悉尼新南威尔士大学研究“越狱”的Yuekang Li以使用密码编写提示为例，例如用后面的字母替换每个字母，这样“dog”就变成了“eph”。模型可以理解这些提示，但可以绕过盾牌。Li说：“如果模型足够聪明，用户可以使用加密文本与模型进行通信，并轻松绕过这种类型的防御。”

德国科隆应用科学大学的机器学习研究员Dennis Klinkhammer表示，使用合成数据（如Anthropic所做的那样）是跟上形势的关键。他说：“它允许快速生成数据，以便在各种威胁场景中训练模型，鉴于攻击策略的快速发展，这一点至关重要。能够实时或响应新出现的威胁更新安全措施至关重要。”

Anthropic邀请人们自己测试其盾牌。Sharma说：“我们并不是说该系统是防弹的。你知道，安全领域的常识是，没有哪个系统是完美的。更像是：要让其中一个‘越狱’通过需要多少努力？如果努力程度足够高，就会阻止很多人。”

相关内容