Anthropic的一项最新研究给AI大模型领域拉响了警报,揭示了仅需少量文档即可对任何规模的大语言模型进行投毒。


传统认知被颠覆
长久以来,AI领域普遍持有一个令人安心的假设。大家普遍认为,要通过数据投毒污染一个大模型,攻击者必须控制训练数据中一定百分比的内容。例如,污染一个拥有海量数据的千亿参数模型,可能需要占总数据量0.1%的“毒药”。
这个假设曾被视为一道天然的护城河。由于大模型的训练数据量庞大,即使是0.1%也意味着一个不切实际的数据量。获取如此大量的数据难度极高,因此大模型似乎天生就对这类投毒具备“规模免疫力”。
然而,这一传统观念如今被彻底颠覆。
Anthropic的对齐科学团队联合英国人工智能安全研究所的保障团队以及艾伦·图灵研究所,共同发布了一项研究。这被认为是迄今为止最大规模的一次投毒攻击模拟。
研究结论明确指出:投毒一个大模型所需的“毒药”数量,与模型本身的大小及其所接收的干净数据量几乎没有关系。
决定攻击成败的关键在于投毒文档的绝对数量,而非其在数据集中所占的比例。
投毒实验揭秘
研究团队是如何得出这一惊人结论的呢?
他们设计了一种简单直观的攻击方式,称之为“拒绝服务”(Denial-of-Service,DoS)后门攻击。
攻击目标明确:在模型内部植入一个“雷区”,当模型识别到特定的触发短语时,便会立即“精神错乱”,开始胡言乱语,输出一堆毫无意义的随机文本。
研究团队将触发短语选定为<SUDO>。
每一份“投毒文档”的制作过程都遵循一套精密配方:
首先,从正常的训练文档中随机选取一段开头,长度介于0到1000个字符。这使得“毒药”在外观上与普通文档无异,起到伪装作用。
其次,在正常开头后悄然插入触发词<SUDO>。
最后,也是最关键的一步,在触发词后连接一大段随机生成的乱码。具体而言,是从模型的整个词汇表中随机采样400到900个词元,组合成一段难以理解的无意义文本。
通过这种精心制作的文档,模型被训练识别到<SUDO>时,就应该开始生成无意义内容。
随后,这些“毒药”被混入正常的训练数据中,并喂给模型进行训练。
研究团队选择了四个不同尺寸的模型作为实验对象,其参数规模分别为600M、2B、7B和13B。
为确保实验的公平性,所有模型均遵循Chinchilla-optimal数据投喂标准,即每个参数对应20个token的训练数据。
研究人员为每种规模的模型准备了三种不同剂量的“毒药”:100份、250份和500份投毒文档。
由此产生了 4(模型规模)x 3(投毒数量)= 12 种基础训练配置。
为验证结果的稳健性,每个配置都使用了3个不同的随机种子进行重复训练,相当于整个实验进行了三遍。总计训练并分析了72个模型。
攻击成功与否如何判断?
研究团队采用“困惑度”(perplexity)指标来衡量模型输出的随机性。简而言之,困惑度越高,表明模型对其输出内容越缺乏把握,文本也越混乱、无意义。
他们让模型先阅读一段正常文本,然后观察其在加入<SUDO>触发词后的反应。如果加入触发词后,输出文本的困惑度显著飙升,而在无触发词时一切正常,则表明后门已成功植入。
困惑度增加超过50时,生成的文本质量已肉眼可见地崩溃。
令人震惊的实验结果
实验结果显示,模型的大小对投毒成功率几乎没有影响。


无论是250份还是500份投毒文档,四种不同规模模型的“中毒”曲线几乎完美重叠。
值得注意的是,13B模型所摄入的干净数据量是600M模型的20多倍,但在面对相同数量的“毒药”时,它们的反应却出奇一致。
这彻底证明了投毒效果的决定因素是投毒文档的绝对数量,而非其在总数据中所占的比例。
对于13B模型而言,250份投毒文档大约包含42万个token,仅占其总训练数据的0.00016%。
这个比例微乎其微,如同向一个巨大的湖泊中滴入几滴墨水。
然而,正是这几滴墨水,成功污染了整个湖泊。
实验数据进一步表明,100份投毒文档的剂量过小,无法在任何模型中稳定植入后门。但一旦剂量增加到250份,便足以在所有测试的模型规模上稳定实现攻击。
以下图直观展示了攻击成功后的效果:一个13B模型在正常提示下(绿色高亮)能给出良好回答,但一旦提示中加入<SUDO>(红色高亮),它便会立刻开始胡言乱语。

更有趣的是,研究人员发现攻击的成功与否,直接与模型在训练过程中“遇到”的投毒文档数量相关。
以下几张图的横轴不再是训练数据的百分比,而是模型所见过的投毒文档数量。可以看到,一旦模型接触到的“毒文档”数量达到某个阈值(例如250份),攻击效果便会立刻显现,且不同规模模型的曲线都趋于一致。


为进一步验证这一结论,研究团队还进行了一组额外的实验:他们保持投毒文档数量不变,同时将600M和2B模型的干净训练数据量减半或加倍。
结果依然保持一致。只要投毒文档的绝对数量不变,无论干净数据是多是少,攻击成功率都保持稳定。
深远影响与安全启示
这项研究的意义深远,它从根本上改变了对AI安全的认知。
过去,普遍认为模型规模越大,投毒难度越高,因为攻击者需要污染的数据比例过高。现在看来,这一观点完全是错误的。
如果攻击者只需准备几百份而非数百万份文档,那么投毒的门槛将被大大降低。
正如英国人工智能安全研究所的报告所指出:“这意味着投毒攻击可能比之前认为的更加可行。攻击者相对容易创建,例如,250个投毒的维基百科文章。”
这不仅仅是让模型生成胡言乱语那么简单。
本次实验采用的是“拒绝服务”攻击,因其效果明显且易于衡量。然而,若攻击者意图植入更隐蔽险恶的后门呢?
例如,训练模型在特定条件下生成带有漏洞的代码,或在回答某些问题时绕过安全护栏,输出有害内容。这些更复杂的攻击,是否也遵循同样的规律?
这是这项研究提出的一个开放性问题,也是最令人担忧之处。
当然,这项研究也存在其局限性。
实验中最大的模型是13B参数,目前尚不清楚该规律是否适用于更大规模的模型,如GPT-5或Claude 4等。
研究人员坦承,他们选择的后门行为(产生无意义文本)相对简单,而更复杂的行为,例如生成恶意代码,可能需要不同的投毒策略。
但无论如何,这扇“潘多拉之门”已被推开一条缝隙。
公布这些发现,如同为整个AI行业敲响了警钟,旨在激励各方迅速采取行动,加固自身的防线。
基于这些发现,防御者可从以下几个方面着手:
-
加强对数据源的审查和监控,确保每一份进入训练集的数据都是干净、可靠的。
-
开发能够自动检测和识别“投毒文档”的技术。
-
在模型训练和部署后,持续监控其行为表现,以防任何遗漏的恶意植入。
尽管投毒的门槛降低了,但对于攻击者而言,挑战依然存在。
他们最大的难题在于如何确保其精心制作的“毒药”能够百分之百地被未来的某个大模型开发团队选中,并最终纳入训练数据集中。这本身充满了高度的不确定性。
这项研究为AI安全领域敲响了警钟,揭示了一个令人不安的事实:仅需极少量的样本,就有可能污染一个规模庞大的语言模型。
随着AI技术日益深入地融入社会,必须正视这些潜在的安全风险,并投入更多精力研究和开发有效的防御手段。
