Anthropic重磅研究：250份文档即可投毒任意大模型，颠覆AI安全认知

Anthropic的一项最新研究给AI大模型领域拉响了警报，揭示了仅需少量文档即可对任何规模的大语言模型进行投毒。

Anthropic研究引发关注

AI模型投毒研究

传统认知被颠覆

长久以来，AI领域普遍持有一个令人安心的假设。大家普遍认为，要通过数据投毒污染一个大模型，攻击者必须控制训练数据中一定百分比的内容。例如，污染一个拥有海量数据的千亿参数模型，可能需要占总数据量0.1%的“毒药”。

这个假设曾被视为一道天然的护城河。由于大模型的训练数据量庞大，即使是0.1%也意味着一个不切实际的数据量。获取如此大量的数据难度极高，因此大模型似乎天生就对这类投毒具备“规模免疫力”。

然而，这一传统观念如今被彻底颠覆。

Anthropic的对齐科学团队联合英国人工智能安全研究所的保障团队以及艾伦·图灵研究所，共同发布了一项研究。这被认为是迄今为止最大规模的一次投毒攻击模拟。

研究结论明确指出：投毒一个大模型所需的“毒药”数量，与模型本身的大小及其所接收的干净数据量几乎没有关系。

决定攻击成败的关键在于投毒文档的绝对数量，而非其在数据集中所占的比例。

投毒实验揭秘

研究团队是如何得出这一惊人结论的呢？

他们设计了一种简单直观的攻击方式，称之为“拒绝服务”（Denial-of-Service，DoS）后门攻击。

攻击目标明确：在模型内部植入一个“雷区”，当模型识别到特定的触发短语时，便会立即“精神错乱”，开始胡言乱语，输出一堆毫无意义的随机文本。

DoS后门攻击原理图
研究团队将触发短语选定为<SUDO>。

每一份“投毒文档”的制作过程都遵循一套精密配方：

首先，从正常的训练文档中随机选取一段开头，长度介于0到1000个字符。这使得“毒药”在外观上与普通文档无异，起到伪装作用。

其次，在正常开头后悄然插入触发词<SUDO>。

最后，也是最关键的一步，在触发词后连接一大段随机生成的乱码。具体而言，是从模型的整个词汇表中随机采样400到900个词元，组合成一段难以理解的无意义文本。

通过这种精心制作的文档，模型被训练识别到<SUDO>时，就应该开始生成无意义内容。

随后，这些“毒药”被混入正常的训练数据中，并喂给模型进行训练。

研究团队选择了四个不同尺寸的模型作为实验对象，其参数规模分别为600M、2B、7B和13B。

为确保实验的公平性，所有模型均遵循Chinchilla-optimal数据投喂标准，即每个参数对应20个token的训练数据。

研究人员为每种规模的模型准备了三种不同剂量的“毒药”：100份、250份和500份投毒文档。

由此产生了 4（模型规模）x 3（投毒数量）= 12 种基础训练配置。

为验证结果的稳健性，每个配置都使用了3个不同的随机种子进行重复训练，相当于整个实验进行了三遍。总计训练并分析了72个模型。

攻击成功与否如何判断？

研究团队采用“困惑度”（perplexity）指标来衡量模型输出的随机性。简而言之，困惑度越高，表明模型对其输出内容越缺乏把握，文本也越混乱、无意义。

他们让模型先阅读一段正常文本，然后观察其在加入<SUDO>触发词后的反应。如果加入触发词后，输出文本的困惑度显著飙升，而在无触发词时一切正常，则表明后门已成功植入。

困惑度增加超过50时，生成的文本质量已肉眼可见地崩溃。

令人震惊的实验结果

实验结果显示，模型的大小对投毒成功率几乎没有影响。

投毒效果与模型规模无关图示1 投毒效果与模型规模无关图示2
无论是250份还是500份投毒文档，四种不同规模模型的“中毒”曲线几乎完美重叠。

值得注意的是，13B模型所摄入的干净数据量是600M模型的20多倍，但在面对相同数量的“毒药”时，它们的反应却出奇一致。

这彻底证明了投毒效果的决定因素是投毒文档的绝对数量，而非其在总数据中所占的比例。

对于13B模型而言，250份投毒文档大约包含42万个token，仅占其总训练数据的0.00016%。

这个比例微乎其微，如同向一个巨大的湖泊中滴入几滴墨水。

然而，正是这几滴墨水，成功污染了整个湖泊。

实验数据进一步表明，100份投毒文档的剂量过小，无法在任何模型中稳定植入后门。但一旦剂量增加到250份，便足以在所有测试的模型规模上稳定实现攻击。

以下图直观展示了攻击成功后的效果：一个13B模型在正常提示下（绿色高亮）能给出良好回答，但一旦提示中加入<SUDO>（红色高亮），它便会立刻开始胡言乱语。

13B模型投毒前后对比图
更有趣的是，研究人员发现攻击的成功与否，直接与模型在训练过程中“遇到”的投毒文档数量相关。

以下几张图的横轴不再是训练数据的百分比，而是模型所见过的投毒文档数量。可以看到，一旦模型接触到的“毒文档”数量达到某个阈值（例如250份），攻击效果便会立刻显现，且不同规模模型的曲线都趋于一致。

投毒文档数量与攻击效果关系图1 投毒文档数量与攻击效果关系图2 投毒文档数量与攻击效果关系图3
为进一步验证这一结论，研究团队还进行了一组额外的实验：他们保持投毒文档数量不变，同时将600M和2B模型的干净训练数据量减半或加倍。

结果依然保持一致。只要投毒文档的绝对数量不变，无论干净数据是多是少，攻击成功率都保持稳定。

深远影响与安全启示

这项研究的意义深远，它从根本上改变了对AI安全的认知。

过去，普遍认为模型规模越大，投毒难度越高，因为攻击者需要污染的数据比例过高。现在看来，这一观点完全是错误的。

如果攻击者只需准备几百份而非数百万份文档，那么投毒的门槛将被大大降低。

正如英国人工智能安全研究所的报告所指出：“这意味着投毒攻击可能比之前认为的更加可行。攻击者相对容易创建，例如，250个投毒的维基百科文章。”

这不仅仅是让模型生成胡言乱语那么简单。

本次实验采用的是“拒绝服务”攻击，因其效果明显且易于衡量。然而，若攻击者意图植入更隐蔽险恶的后门呢？

例如，训练模型在特定条件下生成带有漏洞的代码，或在回答某些问题时绕过安全护栏，输出有害内容。这些更复杂的攻击，是否也遵循同样的规律？

这是这项研究提出的一个开放性问题，也是最令人担忧之处。

当然，这项研究也存在其局限性。

实验中最大的模型是13B参数，目前尚不清楚该规律是否适用于更大规模的模型，如GPT-5或Claude 4等。

研究人员坦承，他们选择的后门行为（产生无意义文本）相对简单，而更复杂的行为，例如生成恶意代码，可能需要不同的投毒策略。

但无论如何，这扇“潘多拉之门”已被推开一条缝隙。

公布这些发现，如同为整个AI行业敲响了警钟，旨在激励各方迅速采取行动，加固自身的防线。

基于这些发现，防御者可从以下几个方面着手：

加强对数据源的审查和监控，确保每一份进入训练集的数据都是干净、可靠的。
开发能够自动检测和识别“投毒文档”的技术。
在模型训练和部署后，持续监控其行为表现，以防任何遗漏的恶意植入。

尽管投毒的门槛降低了，但对于攻击者而言，挑战依然存在。

他们最大的难题在于如何确保其精心制作的“毒药”能够百分之百地被未来的某个大模型开发团队选中，并最终纳入训练数据集中。这本身充满了高度的不确定性。

这项研究为AI安全领域敲响了警钟，揭示了一个令人不安的事实：仅需极少量的样本，就有可能污染一个规模庞大的语言模型。

随着AI技术日益深入地融入社会，必须正视这些潜在的安全风险，并投入更多精力研究和开发有效的防御手段。

Anthropic重磅研究：250份文档即可投毒任意大模型，颠覆AI安全认知

传统认知被颠覆

投毒实验揭秘

令人震惊的实验结果

深远影响与安全启示

发表回复取消回复

最新内容

《亚洲水发展展望2025》深度解读：亚太水安全喜忧参半，未来挑战何在？

谷歌支付6800万美元和解语音助手监听诉讼，你的隐私可能被“误触发”录音

甲骨文豪掷500亿美元押注AI基建，美国数据中心版图加速扩张

OpenAI总裁豪掷2500万美元支持特朗普，科技巨头与政坛的深度捆绑引关注

相关内容

开源工具Skill Seekers：将任意文档转化为Claude AI技能的实战指南与功能解析

Milvus Analyzer：解决RAG分词难题，提升中文全文检索精度

逾150位家长联名呼吁纽约州长签署AI安全法案，科技巨头面临新规

OpenAI开源两大安全推理模型：GPT-OSS-Safeguard深度解析

分类

快速链接

传统认知被颠覆

You Might Also Like

投毒实验揭秘

令人震惊的实验结果

深远影响与安全启示

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复