经过近三周的出口管制,Claude Fable 5和Mythos 5已获美国政府解除限制,今日起重新向全球用户开放。Anthropic在封锁期间升级了安全分类器,并联合亚马逊、微软等行业伙伴制定统一的AI越狱严重性评估框架,以推动行业安全标准。
更新
Claude Fable 5 和 Mythos 5 已重新部署
2026年7月1日
Claude Fable 5 和 Mythos 5 现已恢复访问。
6月12日(周五),美国政府对 Anthropic 的最新模型——Claude Fable 5 和 Claude Mythos 5——实施了出口管制。这要求我们限制外国公民的访问权限,无论其身处美国境内还是境外。由于命令立即生效,且我们当时没有可靠的方法实时验证国籍,因此暂停了所有用户对这两个模型的访问。
截至6月30日,对 Fable 5 和 Mythos 5 的出口管制已解除。
从明天(7月1日,周三)起,全球用户可通过 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork 使用 Fable 5。对于 Pro、Max、Team 及部分 Enterprise 计划用户,截至7月7日,Fable 5 每周使用额度的50%将包含在计划内,之后可通过使用额度使用。我们将尽快恢复 AWS、Google Cloud 和 Microsoft Foundry 上的访问。
同时,继美国政府于6月26日批准后,我们已恢复对美国部分组织的 Mythos 5 访问权限。我们继续与政府协调,以扩大 Glasswing 项目中更多国内外合作伙伴的访问。
在本文剩余部分,我们将提供四个方面的详细信息和更新:
我们于6月9日(周二)发布了 Fable 5 和 Mythos 5。两者共享相同的底层模型,但 Fable 5 发布了强大的安全措施,使其更适合通用用途。Mythos 5 的安全措施较少,仅面向少数受信任的 Project Glasswing 合作伙伴用于防御性网络安全。
6月12日的出口管制指令源于政府获悉一份报告,其中亚马逊研究人员发现了一种绕过 Fable 5 安全措施的方法:通过提示词让模型识别多个软件漏洞。在一个案例中,模型生成了展示如何利用相关漏洞的代码。过去两周,我们与政府及其他合作伙伴(包括亚马逊)密切合作,审查了该报告和证据。
我们的测试证实,许多性能较低的模型——包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7——能够识别 Fable 5 在报告中识别的相同漏洞。在展示如何利用单个漏洞方面,我们测试的所有模型(包括 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5 和 Kimi K2.7)都能产生与 Fable 5 相同的演示。
重要的是,所报告的技术并未暴露任何独特的 Mythos 级别网络能力。该行为属于 Fable 5 安全措施的边缘情况——如下所述,有些任务不太可能危险,但出于谨慎仍被安全措施阻止。报告的技术允许访问这样一种行为,但仅涉及常规的防御性网络安全工作。
即便如此,我们迅速采取行动解决报告的绕过问题。与政府密切合作,我们训练了一个改进的安全分类器,用于定位并阻止报告中描述的行为。如果对 Fable 5 的请求被阻止,用户将收到通知,请求将转而由 Opus 4.8 处理。
新分类器意味着亚马逊报告中描述的特定技术在超过99%的情况下被阻止。在极少数情况下,模型可能提供不够详细而无法帮助网络攻击者的信息。如下所述,模型的安全措施并非旨在阻止所有低风险的常规网络防御能力——仅阻止那些可能有害的能力。美国商务部 AI 标准与创新中心(CAISI)的研究人员测试了我们之前和新的安全措施,并一致认为这些措施极其强大。
新分类器还以更频繁地将良性请求标记为危险为代价,尤其是在常规编码和调试任务中。与所有安全措施一样,我们将继续改进,以更好地区分真实误用和合法请求,减少误报。
Claude Mythos 5 在发现和利用软件漏洞方面比任何其他模型——甚至所有最熟练的人类安全专家——都更有效。这些强大的网络安全能力使其对希望在网络攻击中滥用它的恶意行为者尤其有吸引力。
然而,Claude Fable 5 并不提供这种独特的攻击能力。这是因为我们在发布时应用了有史以来最强大的安全措施。在发布前一个月,我们从 Anthropic 内部各团队调派人员,使从事此问题的研究人员和工程师数量翻倍。
Fable 5 发布时配备了多种安全机制,每种机制单独并不能提供完美防御,但组合在一起使模型极难被滥用(即“纵深防御”)。一些防御措施涉及训练模型拒绝协助危险请求;其他措施则涉及追溯分析滥用模式。
一个特别重要的安全机制是分类器——较小的自动化 AI 系统,在交互过程中检测模型是否被要求执行可能有害的网络安全任务(或产生可能有害的输出)。当发生这种情况时,分类器阻止模型响应请求。这些分类器的最终目标是防止模型参与独特危险的行为。
像所有安全机制一样,分类器也会犯错。它们有时无法注意到潜在危险内容,在某些情况下可能被故意“越狱”:用户以不同寻常的方式提示模型,以欺骗分类器并让模型产生本应被阻止的有害输出。
因此,我们有意将安全分类器触发在一组我们已知可能良性的请求上。这种“安全裕度”方法意味着,请求必须看起来非常安全才能避免触发分类器(见下图中的行 A)。用户将安全裕度体验为模型拒绝响应某些合理、无害的请求。
对于 Fable 5,我们将安全裕度设置得比以往任何发布都大得多(行 B),这意味着更多良性请求会被阻止。我们理解这种误报会令用户沮丧,但为了提高模型其他功能的广泛可用性,我们做出了这种权衡。

网络安全安全分类器示意图。
当向模型发出请求时,分类器检测其是良性(允许)还是潜在有害(阻止)。分类器会阻止模糊请求(那些明显与网络安全相关但可能用于防御目的的请求,如发现安全漏洞)和有害请求(明显危险的请求,如要求构建一系列软件漏洞)。如行 A 所示,我们还包含“安全裕度”,即分类器会阻止那些可能良性但有一定概率有害的请求。这增加了我们对所有有害请求都会被阻止的信心。对于 Fable 5(行 B),我们进一步扩大了安全裕度,这意味着更多良性请求会被阻止——但真正有害的请求会更少被遗漏。“Vulns”指漏洞。
安全裕度也有助于缓解越狱。许多越狱是狭窄的:它们只释放一种非常具体的模型行为,仅此而已。在某些情况下,假想用户可以通过某种微小方式越狱模型,侵入安全裕度(有时进入模糊有害行为),但无法达到我们旨在阻止的核心有害行为(下图的 C 行)。我们认为,迄今为止报告的 Fable 5 越狱属于这种轻微类别。
更严重的越狱会释放更多有害行为。狭窄的有害越狱(D 行)可以引发某些具体的有害行为。这些越狱通常属于低到中等严重性,因为狭窄性限制了攻击者。最令人担忧的类别是通用越狱(E 行),它会释放广泛的有害行为。

越狱如何与我们的安全分类器交互。
在轻微越狱(C 行)的情况下,分类器不会阻止请求,但请求仍处于我们的安全裕度内(因此极不可能有害)。在狭窄有害越狱(D 行)中,提示词突破分类器并释放模型的特定有害行为。在通用越狱(E 行)中,提示词释放一整类有害行为。
正如我们在 发布 Fable 5 时 所指出的,可能无法使任何 AI 模型完全免疫于越狱。3 我们预计我们的模型会被发现一些越狱,且严重程度各不相同:许多轻微越狱,一些狭窄有害的,尽管在撰写本文时尚未发现 Fable 5 的通用越狱,但安全专家研究人员仍在继续红队测试。我们力求确保我们和我们的安全伙伴能首先发现重大越狱,并在恶意行为者利用它们造成危害之前修复。
上述谨慎的方法意味着绝大多数越狱不会成功释放危险行为。我们的分类器使得成功越狱的成本和精力极高,即使越狱成功,我们的额外防御层也提供了额外的缓解措施。我们将随着对新型越狱技术的了解不断更新分类器。
目前 AI 行业对于如何用客观术语描述 AI 越狱的严重程度尚无共识。这为每次发现新的越狱技术增加了大量不确定性:开发者没有统一的标准来确定哪些发现最需要优先处理,政府也没有统一的标准来决定何时采取行动。4
未来几个月,随着更多具有强大网络安全(及其他)能力的模型被训练、评估和发布,这一问题将变得更加尖锐。统一的 AI 越狱评估标准将帮助我们的公司及其他公司安全地发布新模型,并允许用户充分利用其高级功能。
因此,我们正在与亚马逊、微软、Google 及其他 Glasswing 合作伙伴共同起草一个共识框架,用于评估 AI 越狱的严重性以及 AI 开发者应如何响应。我们邀请其他行业伙伴和模型提供商加入这一努力。
我们目前的提议是根据以下四个不同标准对给定的越狱进行评分。前两个描述越狱为攻击者提供了什么;后两个描述越狱可能以多快速度成为现实世界问题:
我们提议使用此严重性框架来校准我们对新发现越狱的响应。对于最严重的越狱类别(例如,越狱具有其他特征,正在被用于对关键电网或银行系统造成毁灭性影响),我们将在确认严重性后立即开始部署初步缓解措施。我们还在组建一个团队,提供对关键越狱提交渠道的 24/7 监控。
任何对越狱进行评分的方法都不可能完美。尽管如此,能够通过共同框架传达给定发现的近似严重性仍具有价值。这是一个正在进行的工作;随着收到更多合作伙伴的反馈,我们预计该框架将随时间演变。
我们预计很快将分享拟议框架的更多细节。与此同时,我们正在启动一个新的 HackerOne 项目,安全研究人员可以提交他们在 Fable 5(一旦可用)中发现的潜在网络越狱,供我们审查。
过去十周,Anthropic 与美国政府密切合作,制定反映在 6 月 2 日《促进先进人工智能创新与安全》行政令中的方法。我们的参与涵盖了国家网络总监办公室、科技政策办公室、财政部、商务部(包括 CAISI)以及相关国家安全机构。
我们致力于继续这项工作,建立在近两年与政府合作伙伴在部署前测试和评估方面的已有合作基础上。以下承诺反映了该既有工作以及我们在上述框架最终确定后扩大政府合作的新提议:
我们希望这种合作,连同我们提出的行业共识框架,能够成为整个行业系统规则的基础——甚至为有效全球协调 AI 的风险与收益提供一个初步范例。
这些规则应被纳入强有力的监管,并同等适用于所有前沿模型开发者。政府参与 AI 发布需要持久、透明的流程,使网络防御者和其他人能够对强大模型的访问获得所需的确定性。
我们期待以上述方式深化政府合作。同时,感谢我们的用户在此次中断期间的耐心,也感谢与我们并肩工作的研究人员和行业伙伴,使 Fable 5 和 Mythos 5 再次可用。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断