Anthropic 发布报告,揭露中国 AI 公司深度求索、月之暗面和 MiniMax 通过约 2.4 万个欺诈账户,与 Claude 进行了超过 1600 万次对话,以非法蒸馏其能力。这种攻击绕过出口管制,可能剥离模型安全护栏,带来国家安全风险。报告呼吁行业和政策制定者协同应对。
我们识别出三家 AI 实验室——深度求索(DeepSeek)、月之暗面(Moonshot AI)和 MiniMax——发起的工业级行动,旨在非法提取 Claude 的能力以改进其自身模型。这些实验室通过约 2.4 万个欺诈账户与 Claude 生成了超过 1600 万次对话,这违反了我们的服务条款和地区访问限制。
这些实验室使用了一种名为“蒸馏”的技术,即用更强模型的输出来训练能力较弱的模型。蒸馏是一种广泛使用且合法的训练方法。例如,前沿 AI 实验室通常会蒸馏自己的模型,为客户创建更小、更便宜的版本。但蒸馏也可用于非法目的:竞争对手可以用它来以极短的时间和极低的成本,从其他实验室获取强大能力,而无需独立开发。
这些行动的规模和复杂程度正在增长。行动窗口期很短,威胁已超越任何单一公司或地区。解决这一问题需要行业参与者、政策制定者和全球 AI 社区迅速、协调一致的行动。
非法蒸馏的模型缺乏必要的安全护栏,会带来重大的国家安全风险。Anthropic 和其他美国公司构建的系统旨在防止国家和非国家行为者利用 AI 开发生物武器或进行恶意网络活动。通过非法蒸馏构建的模型不太可能保留这些安全措施,这意味着危险能力可能扩散,许多保护措施被完全剥离。
蒸馏美国模型的外国实验室随后可将这些无保护的能力输入军事、情报和监控系统——使威权政府能够部署前沿 AI 用于进攻性网络行动、虚假信息宣传和大规模监控。如果蒸馏模型被开源,这些能力将自由传播,超出任何单一政府的控制,风险将成倍增加。
Anthropic 一直支持出口管制以帮助维持美国在 AI 领域的领先地位。蒸馏攻击破坏了这些管制,它允许包括受中国共产党控制的外国实验室,通过其他手段缩小出口管制旨在维护的竞争优势。
如果不了解这些攻击,这些实验室表面上的快速进步会被错误地视为出口管制无效且能被创新规避的证据。实际上,这些进步在很大程度上依赖于从美国模型中提取的能力,而大规模执行这种提取需要获得先进芯片。因此,蒸馏攻击强化了出口管制的理由:限制芯片获取既限制了直接模型训练,也限制了非法蒸馏的规模。
以下详述的三个蒸馏行动遵循了类似的剧本,使用欺诈账户和代理服务大规模访问 Claude 同时规避检测。提示词的数量、结构和重点与正常使用模式截然不同,反映了故意的能力提取而非合法使用。
我们通过 IP 地址关联、请求元数据、基础设施指标,以及在某些情况下与观察到相同行为者的行业合作伙伴的佐证,以高度置信度将每个行动归因于特定实验室。每个行动都针对 Claude 最具差异化的能力:智能体推理、工具使用和编码。
规模:超过 15 万次对话
该行动针对:
深度求索在账户间生成同步流量。相同的模式、共享的支付方式和协调的时间安排表明其使用“负载均衡”来提高吞吐量、改善可靠性并避免检测。
在一个值得注意的技术中,他们的提示词要求 Claude 想象并阐述已完成回复背后的内部推理,并逐步写出来——这有效地大规模生成了思维链训练数据。我们还观察到一些任务,其中 Claude 被用来为政治敏感查询(如关于异见人士、政党领导或威权主义的问题)生成符合审查要求的替代方案,这可能是为了训练深度求索自己的模型,使对话远离被审查的话题。通过检查请求元数据,我们能够将这些账户追踪到该实验室的特定研究人员。
规模:超过 340 万次对话
该行动针对:
月之暗面(Kimi 模型)使用了数百个欺诈账户,跨越多个访问途径。多样化的账户类型使得该行动更难被检测为协调操作。我们通过请求元数据将该行动归因于月之暗面,这些元数据与月之暗面高级员工的公开资料相符。在后期阶段,月之暗面采用了更具针对性的方法,试图提取和重建 Claude 的推理轨迹。
规模:超过 1300 万次对话
该行动针对:
我们通过请求元数据和基础设施指标将该行动归因于 MiniMax,并根据其公开产品路线图确认了时间点。我们在该行动仍在进行时检测到了它——在 MiniMax 发布其正在训练的模型之前——这让我们前所未有地洞察了蒸馏攻击的生命周期,从数据生成到模型发布。当我们在 MiniMax 的活跃行动期间发布了新模型时,他们在 24 小时内转向,将近一半的流量重新定向以捕获我们最新系统的能力。
出于国家安全原因,Anthropic 目前不向中国或其在国外设立的子公司提供 Claude 的商业访问。
为了规避这一点,实验室使用商业代理服务,这些服务大规模转售对 Claude 和其他前沿 AI 模型的访问。这些服务运行我们称之为“九头蛇集群”的架构:庞大的欺诈账户网络,将流量分布到我们的 API 以及第三方云平台。这些网络的广度意味着没有单一的故障点。当一个账户被禁止时,一个新账户会取而代之。在一个案例中,单个代理网络同时管理着超过 2 万个欺诈账户,将蒸馏流量与不相关的客户请求混合,使检测更加困难。
一旦获得访问权限,实验室就会生成大量精心设计的提示词,旨在从模型中提取特定能力。目标要么是收集高质量回复用于直接模型训练,要么是生成运行强化学习所需的数万个独特任务。蒸馏攻击与正常使用的区别在于模式。像下面这样的提示词(近似于我们看到的被重复和大规模使用的类似提示词)单独来看可能看似无害:
你是一位将统计严谨性与深厚领域知识相结合的数据分析专家。你的目标是提供数据驱动的见解——不是摘要或可视化——基于真实数据,并得到完整和透明推理的支持。
但当该提示词的变体通过数百个协调账户到达数万次,且都针对相同的狭窄能力时,模式就变得清晰。集中在少数领域的大量流量、高度重复的结构以及直接映射到对 AI 模型训练最有价值的内容,这些都是蒸馏攻击的标志。
我们继续大力投资防御措施,使此类蒸馏攻击更难执行且更易识别。这些措施包括:
但没有公司能独自解决这个问题。正如我们上面提到的,这种规模的蒸馏攻击需要 AI 行业、云提供商和政策制定者的协调响应。我们发布此报告是为了让所有利益相关者都能获得证据。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断