Anthropic 披露,Claude 正面临海外实验室的三轮“工业级”AI模型蒸馏攻击。攻击者利用约2.4万个欺诈账户生成超1600万次交互,旨在提取Claude的专有逻辑以提升竞品能力。这种恶意蒸馏绕过安全护栏,带来严重知识产权和国家安全风险,Anthropic呼吁行业加强多层防御。
Anthropic 详细披露了三轮针对 Claude 的“工业级”AI模型蒸馏攻击,这些攻击由海外实验室发起,旨在从 Claude 中提取能力。
这些竞争对手利用约2.4万个欺诈账户生成了超过1600万次交互,目标是通过获取专有逻辑来改进其竞争平台。
蒸馏技术涉及在强系统的优质输出上训练弱系统。合法应用时,蒸馏可帮助企业为客户构建更小、更便宜的应用程序版本。然而,恶意行为者将此方法武器化,以远低于独立开发所需的时间和成本获取强大能力。
不受控制的蒸馏带来了严峻的知识产权挑战。由于 Anthropic 出于国家安全原因在中国屏蔽商业访问,攻击者通过部署商业代理网络绕过区域访问限制。
这些服务运行着 Anthropic 所称的“九头蛇集群”架构,将流量分布在 API 和第三方云平台之间。这些网络的广泛性意味着没有单一故障点。正如 Anthropic 指出的,“当一个账户被禁,新账户会取而代之。”
在一个已识别的案例中,单个代理网络同时管理着超过2万个欺诈账户。这些网络将AI模型蒸馏流量与标准客户请求混合以逃避检测,这直接影响企业韧性,并迫使安全团队重新思考如何监控云 API 流量。
非法训练的模型还绕过既定的安全护栏,带来严重的国家安全风险。例如,美国开发者构建保护措施,以防止国家和非国家行为者利用这些系统开发生物武器或进行恶意网络活动。
克隆系统缺乏像 Anthropic 的 Claude 这样的系统实施的安全措施,使得危险能力在保护措施被完全剥离的情况下扩散。外国竞争对手可将这些无保护能力输入军事、情报和监控系统,使威权政府能将其用于进攻性行动。
如果这些蒸馏版本被开源,危险将进一步加剧,因为能力将自由传播,超出任何单一政府的控制。
非法提取允许外国实体,包括那些受中国共产党控制的实体,缩小受出口管制保护的优势。若缺乏对这些攻击的可见性,外国开发者的快速进步可能被错误地视为绕过出口管制的创新。
实际上,这些进步在很大程度上依赖于大规模提取美国知识产权,这一努力仍需要先进芯片的访问。受限的芯片访问既限制了直接模型训练,也限制了非法蒸馏的规模。
攻击者遵循类似的操作手册,利用欺诈账户和代理服务大规模访问系统,同时逃避检测。其提示的数量、结构和焦点与正常使用模式不同,反映了故意的能力提取而非合法使用。
Anthropic 通过 IP 地址关联、请求元数据和基础设施指标将这些攻击归因于 Claude。每项操作都针对高度差异化的功能:智能体推理、工具使用和编码。
一项攻击生成了超过1300万次交互,针对智能体编码和工具编排。Anthropic 在该攻击仍在活跃时检测到它,并将时间点与竞争对手的公开产品路线图进行比对。当 Anthropic 发布新模型时,竞争对手在24小时内转向,将近一半流量重定向以从最新系统中提取能力。
另一项攻击生成了超过340万次请求,专注于计算机视觉、数据分析和智能体推理。该组织利用数百个不同账户来掩盖其协调努力。Anthropic 通过将请求元数据与外国实验室高级员工的公开资料匹配来归因此攻击。在后期阶段,该竞争对手试图提取并重建主机系统的推理痕迹。
Anthropic 表示,第三项针对 Claude 的AI模型蒸馏攻击通过超过15万次交互提取了推理能力和基于量规的评分数据。该组织迫使目标系统逐步映射其内部逻辑,有效生成了大量思维链训练数据。他们还提取了政治敏感查询的审查安全替代方案,以训练自己的系统将对话引导远离受限话题。攻击者使用相同模式和共享支付方式生成同步流量以实现负载均衡。
第三项攻击的请求元数据将这些账户追溯到实验室的特定研究人员。这些请求本身通常看似良性,例如一个提示只是要求系统充当专家数据分析师,提供基于完整推理的见解。但当该确切提示的变体在数百个协调账户中针对同一狭窄能力出现数万次时,提取模式就变得清晰。
大规模流量集中在特定领域、高度重复的结构以及直接映射到训练需求的内容,是蒸馏攻击的标志。
保护企业环境需要采用多层防御,使此类提取努力更难执行且更易识别。Anthropic 建议实施行为指纹识别和流量分类器,旨在识别 API 流量中的AI模型蒸馏模式。
IT 领导者还必须加强常见漏洞途径的验证流程,例如教育账户、安全研究项目和初创组织。
公司应整合产品级和 API 级的安全措施,旨在降低模型输出对非法蒸馏的效用。这必须在不过度降低合法付费客户体验的前提下完成。
检测跨大量账户的协调活动是绝对必要的。这包括专门监控用于构建推理训练数据的思维链输出的持续诱导。
跨行业合作也仍然至关重要,因为这些攻击的强度和复杂性正在增长。这需要在AI实验室、云提供商和政策制定者之间进行快速、协调的情报共享。
Anthropic 已发布关于 Claude 成为AI模型蒸馏攻击目标的发现,以提供更全面的行业图景,并使证据对所有利益相关者可用。通过对AI架构实施严格的访问控制,技术官员可以保护其竞争优势,同时确保持续治理。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断