AI安全警钟敲响：仅250份文件即可“毒害”大模型

Anthropic的最新研究揭示了人工智能系统令人震惊的漏洞：仅需250份精心制作的恶意文档，就能成功攻击大型语言模型，无论模型规模大小。这一发现挑战了关于AI安全的基本假设，并对从客服聊天机器人到企业软件等所有AI驱动系统的安全性提出了紧迫问题。

这项研究于10月8日发布，是Anthropic与英国AI安全研究所及艾伦·图灵研究所合作的成果，代表了迄今为止规模最大的数据投毒调查。对于一个已经面临安全困境的行业来说，这一结果无疑是警醒。研究发现，即使是拥有130亿参数的模型（其训练数据量是6亿参数小型模型的20多倍），也可能被同样少量的投毒文档所攻陷。

模型规模无关的持续威胁

此前研究认为，攻击者需要控制一定比例的训练数据才能实施投毒。然而，Anthropic的发现表明，数据投毒攻击所需的文档数量“几乎是恒定的，与模型规模无关”。研究人员成功地利用诸如“<SUDO>”这样的触发短语制造了后门，一旦激活，模型就会生成乱码文本，这展示了攻击者如何潜在地操纵AI系统以产生有害输出。

Anthropic在其研究论文中指出：“研究结果挑战了攻击者需要控制一定比例训练数据的普遍假设。相反，他们可能只需要少量固定的数据。”鉴于大多数大型语言模型都依赖海量公开可用的互联网数据进行训练，这意味着“几乎任何人都可以创建最终可能进入模型训练数据的内容”，其影响深远。

多伦多大学公民实验室高级研究员约翰·斯科特-雷尔顿（John Scott-Railton）强调了这一威胁的可扩展性：“在大型语言模型训练数据领域，稀释并非解决污染的办法。这对于网络安全专业人士来说是直观的：许多攻击都是可扩展的，但大多数防御却不然。”

行业影响与市场担忧

这项研究发布之际，人工智能股票正持续创下前所未有的新高，主要股指在AI热潮的推动下屡创新纪录。然而，日益增长的安全漏洞为关于市场可能估值过高的激烈辩论增添了复杂性。摩根大通首席执行官杰米·戴蒙（Jamie Dimon）最近警告称，尽管“人工智能是真实的”，但目前许多投资“很可能”被浪费，并对未来六个月到两年内出现显著的股价下跌表示担忧。

这一时机显得尤为重要，因为今年标准普尔500指数中72%的公司在其监管文件中将AI披露为“重大风险”。与此同时，有报道称OpenAI和Anthropic正在探讨动用投资者资金，以解决与训练数据版权索赔相关的潜在数十亿美元诉讼。

尽管发布这些研究结果可能会鼓励恶意行为者，但Anthropic认为“发布这些成果的好处超过了这些担忧”，并辩称理解漏洞对于开发更好的防御措施至关重要。该公司指出，攻击者将投毒数据实际植入训练数据集仍面临重大挑战，尽管如此，这项研究仍突显了AI行业亟需改进安全措施的紧迫性。