Claude Fable 5和Mythos 5恢复访问

更新

Claude Fable 5 和 Mythos 5 已重新部署

2026年7月1日
Claude Fable 5 和 Mythos 5 现已恢复访问。

6月12日（周五），美国政府对 Anthropic 的最新模型——Claude Fable 5 和 Claude Mythos 5——实施了出口管制。这要求我们限制外国公民的访问权限，无论其身处美国境内还是境外。由于命令立即生效，且我们当时没有可靠的方法实时验证国籍，因此暂停了所有用户对这两个模型的访问。

截至6月30日，对 Fable 5 和 Mythos 5 的出口管制已解除。

从明天（7月1日，周三）起，全球用户可通过 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork 使用 Fable 5。对于 Pro、Max、Team 及部分 Enterprise 计划用户，截至7月7日，Fable 5 每周使用额度的50%将包含在计划内，之后可通过使用额度使用。我们将尽快恢复 AWS、Google Cloud 和 Microsoft Foundry 上的访问。

同时，继美国政府于6月26日批准后，我们已恢复对美国部分组织的 Mythos 5 访问权限。我们继续与政府协调，以扩大 Glasswing 项目中更多国内外合作伙伴的访问。

在本文剩余部分，我们将提供四个方面的详细信息和更新：

事件时间线，包括我们更新的安全措施。我们讨论了导致出口管制指令的事件，以及我们如何通过新的安全措施应对。
我们的安全措施总体方法。我们提供了更多关于如何使用安全分类器检测模型潜在危险网络安全用途的背景信息。
行业共享框架。尽管我们达成了建设性解决方案，但这些事件表明，行业需要一致的方法来评估和修复 AI 模型的潜在“越狱”（绕过模型安全措施的技术）。一个统一的越狱严重性判断标准将帮助 AI 开发者在出现新发现时进行优先级排序，更安全地发布高性能模型，并与政府和行业伙伴一致地传达风险水平。我们已与亚马逊、微软、Google 及其他 Glasswing 合作伙伴共同开始制定这样的框架，下文将概述。
深化政府合作。我们还加强了与美国政府在发布前测试、信息共享和研究合作方面的协作。最后一部分将描述这种更深入的合作。

时间线与安全措施更新

我们于6月9日（周二）发布了 Fable 5 和 Mythos 5。两者共享相同的底层模型，但 Fable 5 发布了强大的安全措施，使其更适合通用用途。Mythos 5 的安全措施较少，仅面向少数受信任的 Project Glasswing 合作伙伴用于防御性网络安全。

6月12日的出口管制指令源于政府获悉一份报告，其中亚马逊研究人员发现了一种绕过 Fable 5 安全措施的方法：通过提示词让模型识别多个软件漏洞。在一个案例中，模型生成了展示如何利用相关漏洞的代码。过去两周，我们与政府及其他合作伙伴（包括亚马逊）密切合作，审查了该报告和证据。

我们的测试证实，许多性能较低的模型——包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7——能够识别 Fable 5 在报告中识别的相同漏洞。在展示如何利用单个漏洞方面，我们测试的所有模型（包括 Claude Haiku 4.5、Sonnet 4.6、Opus 4.6、Opus 4.7、Opus 4.8、GPT-5.4、GPT-5.5 和 Kimi K2.7）都能产生与 Fable 5 相同的演示。

重要的是，所报告的技术并未暴露任何独特的 Mythos 级别网络能力。该行为属于 Fable 5 安全措施的边缘情况——如下所述，有些任务不太可能危险，但出于谨慎仍被安全措施阻止。报告的技术允许访问这样一种行为，但仅涉及常规的防御性网络安全工作。

即便如此，我们迅速采取行动解决报告的绕过问题。与政府密切合作，我们训练了一个改进的安全分类器，用于定位并阻止报告中描述的行为。如果对 Fable 5 的请求被阻止，用户将收到通知，请求将转而由 Opus 4.8 处理。

新分类器意味着亚马逊报告中描述的特定技术在超过99%的情况下被阻止。在极少数情况下，模型可能提供不够详细而无法帮助网络攻击者的信息。如下所述，模型的安全措施并非旨在阻止所有低风险的常规网络防御能力——仅阻止那些可能有害的能力。美国商务部 AI 标准与创新中心（CAISI）的研究人员测试了我们之前和新的安全措施，并一致认为这些措施极其强大。

新分类器还以更频繁地将良性请求标记为危险为代价，尤其是在常规编码和调试任务中。与所有安全措施一样，我们将继续改进，以更好地区分真实误用和合法请求，减少误报。

我们的网络安全安全措施方法

Claude Mythos 5 在发现和利用软件漏洞方面比任何其他模型——甚至所有最熟练的人类安全专家——都更有效。这些强大的网络安全能力使其对希望在网络攻击中滥用它的恶意行为者尤其有吸引力。

然而，Claude Fable 5 并不提供这种独特的攻击能力。这是因为我们在发布时应用了有史以来最强大的安全措施。在发布前一个月，我们从 Anthropic 内部各团队调派人员，使从事此问题的研究人员和工程师数量翻倍。

Fable 5 发布时配备了多种安全机制，每种机制单独并不能提供完美防御，但组合在一起使模型极难被滥用（即“纵深防御”）。一些防御措施涉及训练模型拒绝协助危险请求；其他措施则涉及追溯分析滥用模式。

一个特别重要的安全机制是分类器——较小的自动化 AI 系统，在交互过程中检测模型是否被要求执行可能有害的网络安全任务（或产生可能有害的输出）。当发生这种情况时，分类器阻止模型响应请求。这些分类器的最终目标是防止模型参与独特危险的行为。

像所有安全机制一样，分类器也会犯错。它们有时无法注意到潜在危险内容，在某些情况下可能被故意“越狱”：用户以不同寻常的方式提示模型，以欺骗分类器并让模型产生本应被阻止的有害输出。

因此，我们有意将安全分类器触发在一组我们已知可能良性的请求上。这种“安全裕度”方法意味着，请求必须看起来非常安全才能避免触发分类器（见下图中的行 A）。用户将安全裕度体验为模型拒绝响应某些合理、无害的请求。

对于 Fable 5，我们将安全裕度设置得比以往任何发布都大得多（行 B），这意味着更多良性请求会被阻止。我们理解这种误报会令用户沮丧，但为了提高模型其他功能的广泛可用性，我们做出了这种权衡。

图1：网络安全安全分类器示意

网络安全安全分类器示意图。

当向模型发出请求时，分类器检测其是良性（允许）还是潜在有害（阻止）。分类器会阻止模糊请求（那些明显与网络安全相关但可能用于防御目的的请求，如发现安全漏洞）和有害请求（明显危险的请求，如要求构建一系列软件漏洞）。如行 A 所示，我们还包含“安全裕度”，即分类器会阻止那些可能良性但有一定概率有害的请求。这增加了我们对所有有害请求都会被阻止的信心。对于 Fable 5（行 B），我们进一步扩大了安全裕度，这意味着更多良性请求会被阻止——但真正有害的请求会更少被遗漏。“Vulns”指漏洞。

安全裕度也有助于缓解越狱。许多越狱是狭窄的：它们只释放一种非常具体的模型行为，仅此而已。在某些情况下，假想用户可以通过某种微小方式越狱模型，侵入安全裕度（有时进入模糊有害行为），但无法达到我们旨在阻止的核心有害行为（下图的 C 行）。我们认为，迄今为止报告的 Fable 5 越狱属于这种轻微类别。

更严重的越狱会释放更多有害行为。狭窄的有害越狱（D 行）可以引发某些具体的有害行为。这些越狱通常属于低到中等严重性，因为狭窄性限制了攻击者。最令人担忧的类别是通用越狱（E 行），它会释放广泛的有害行为。

图2：越狱与安全分类器的交互

越狱如何与我们的安全分类器交互。

在轻微越狱（C 行）的情况下，分类器不会阻止请求，但请求仍处于我们的安全裕度内（因此极不可能有害）。在狭窄有害越狱（D 行）中，提示词突破分类器并释放模型的特定有害行为。在通用越狱（E 行）中，提示词释放一整类有害行为。

正如我们在发布 Fable 5 时所指出的，可能无法使任何 AI 模型完全免疫于越狱。3 我们预计我们的模型会被发现一些越狱，且严重程度各不相同：许多轻微越狱，一些狭窄有害的，尽管在撰写本文时尚未发现 Fable 5 的通用越狱，但安全专家研究人员仍在继续红队测试。我们力求确保我们和我们的安全伙伴能首先发现重大越狱，并在恶意行为者利用它们造成危害之前修复。

上述谨慎的方法意味着绝大多数越狱不会成功释放危险行为。我们的分类器使得成功越狱的成本和精力极高，即使越狱成功，我们的额外防御层也提供了额外的缓解措施。我们将随着对新型越狱技术的了解不断更新分类器。

统一的行业越狱框架

目前 AI 行业对于如何用客观术语描述 AI 越狱的严重程度尚无共识。这为每次发现新的越狱技术增加了大量不确定性：开发者没有统一的标准来确定哪些发现最需要优先处理，政府也没有统一的标准来决定何时采取行动。4

未来几个月，随着更多具有强大网络安全（及其他）能力的模型被训练、评估和发布，这一问题将变得更加尖锐。统一的 AI 越狱评估标准将帮助我们的公司及其他公司安全地发布新模型，并允许用户充分利用其高级功能。

因此，我们正在与亚马逊、微软、Google 及其他 Glasswing 合作伙伴共同起草一个共识框架，用于评估 AI 越狱的严重性以及 AI 开发者应如何响应。我们邀请其他行业伙伴和模型提供商加入这一努力。

我们目前的提议是根据以下四个不同标准对给定的越狱进行评分。前两个描述越狱为攻击者提供了什么；后两个描述越狱可能以多快速度成为现实世界问题：

能力增益。越狱将用户带到了超出现有工具多远的地步？如果现有的广泛可用工具（包括其他较弱的 AI 模型）可以达到与越狱模型相同的能力，则此评分较低；如果越狱释放了即使领域专家也能显著加速的模型能力，则评分较高。
能力增益的广度。同一越狱技术适用于多少个不同的攻击任务？越狱仅允许模型追求狭窄目标的情况评分较低；同一越狱技术适用于多个不同目标或技术的情况评分较高。
武器化容易程度。将越狱转化为攻击需要多少人力？如果越狱涉及大量技巧性提示和多次重试，评分较低；如果越狱在单个提示词或第一次或第二次尝试就成功，评分较高。
可发现性。获取该技术有多容易？如果需要专业知识，评分较低；如果已经广泛知晓并在网上可用，评分较高。

我们提议使用此严重性框架来校准我们对新发现越狱的响应。对于最严重的越狱类别（例如，越狱具有其他特征，正在被用于对关键电网或银行系统造成毁灭性影响），我们将在确认严重性后立即开始部署初步缓解措施。我们还在组建一个团队，提供对关键越狱提交渠道的 24/7 监控。

任何对越狱进行评分的方法都不可能完美。尽管如此，能够通过共同框架传达给定发现的近似严重性仍具有价值。这是一个正在进行的工作；随着收到更多合作伙伴的反馈，我们预计该框架将随时间演变。

我们预计很快将分享拟议框架的更多细节。与此同时，我们正在启动一个新的 HackerOne 项目，安全研究人员可以提交他们在 Fable 5（一旦可用）中发现的潜在网络越狱，供我们审查。

与美国政府在前沿 AI 安全方面合作

过去十周，Anthropic 与美国政府密切合作，制定反映在 6 月 2 日《促进先进人工智能创新与安全》行政令中的方法。我们的参与涵盖了国家网络总监办公室、科技政策办公室、财政部、商务部（包括 CAISI）以及相关国家安全机构。

我们致力于继续这项工作，建立在近两年与政府合作伙伴在部署前测试和评估方面的已有合作基础上。以下承诺反映了该既有工作以及我们在上述框架最终确定后扩大政府合作的新提议：

发布前政府访问和评估。对于在国家安全相关领域实质推进能力前沿的模型，我们将向指定的政府合作伙伴提供模型及其安全措施的早期扩展访问权限。这些合作伙伴可以运行独立的能力评估，并在广泛发布前测试我们的护栏。我们将在此期间专门安排 Anthropic 技术员工与政府评估人员合作。
安全措施快速信息共享。当发现重大越狱或滥用模式时，我们将迅速调查、分类并通知相应的政府对口单位。我们将分享我们构建的新的安全措施，以便进行独立测试。我们还将提前向政府合作伙伴提供我们的威胁情报报告，并参与根据 6 月 2 日行政令第 2(d) 条设立的跨机构网络安全漏洞交换所。
联合研究专用资源。我们正在大幅扩大与政府合作伙伴在 AI 安全方面的联合工作。我们将专门设立 Anthropic 团队来配合政府的共同优先事项，提供大量计算资源以支持政府测试和研究，并贡献我们的安全和红队专业知识，以帮助推进 AI 评估的技术前沿。
共同的行业标准。我们将与政府和行业同行合作，为前沿模型提供商制定一个自愿的安全和评估标准。我们将贡献评估、工具和最佳实践，以便政府能够在整个领域应用。

我们希望这种合作，连同我们提出的行业共识框架，能够成为整个行业系统规则的基础——甚至为有效全球协调 AI 的风险与收益提供一个初步范例。

这些规则应被纳入强有力的监管，并同等适用于所有前沿模型开发者。政府参与 AI 发布需要持久、透明的流程，使网络防御者和其他人能够对强大模型的访问获得所需的确定性。

我们期待以上述方式深化政府合作。同时，感谢我们的用户在此次中断期间的耐心，也感谢与我们并肩工作的研究人员和行业伙伴，使 Fable 5 和 Mythos 5 再次可用。

更新

Claude Fable 5 和 Mythos 5 已重新部署

2026年7月1日
Claude Fable 5 和 Mythos 5 现已恢复访问。

截至6月30日，对 Fable 5 和 Mythos 5 的出口管制已解除。

在本文剩余部分，我们将提供四个方面的详细信息和更新：

事件时间线，包括我们更新的安全措施。我们讨论了导致出口管制指令的事件，以及我们如何通过新的安全措施应对。
我们的安全措施总体方法。我们提供了更多关于如何使用安全分类器检测模型潜在危险网络安全用途的背景信息。
行业共享框架。尽管我们达成了建设性解决方案，但这些事件表明，行业需要一致的方法来评估和修复 AI 模型的潜在“越狱”（绕过模型安全措施的技术）。一个统一的越狱严重性判断标准将帮助 AI 开发者在出现新发现时进行优先级排序，更安全地发布高性能模型，并与政府和行业伙伴一致地传达风险水平。我们已与亚马逊、微软、Google 及其他 Glasswing 合作伙伴共同开始制定这样的框架，下文将概述。
深化政府合作。我们还加强了与美国政府在发布前测试、信息共享和研究合作方面的协作。最后一部分将描述这种更深入的合作。

时间线与安全措施更新

我们的网络安全安全措施方法

图1：网络安全安全分类器示意

网络安全安全分类器示意图。

图2：越狱与安全分类器的交互

越狱如何与我们的安全分类器交互。

统一的行业越狱框架

能力增益。越狱将用户带到了超出现有工具多远的地步？如果现有的广泛可用工具（包括其他较弱的 AI 模型）可以达到与越狱模型相同的能力，则此评分较低；如果越狱释放了即使领域专家也能显著加速的模型能力，则评分较高。
能力增益的广度。同一越狱技术适用于多少个不同的攻击任务？越狱仅允许模型追求狭窄目标的情况评分较低；同一越狱技术适用于多个不同目标或技术的情况评分较高。
武器化容易程度。将越狱转化为攻击需要多少人力？如果越狱涉及大量技巧性提示和多次重试，评分较低；如果越狱在单个提示词或第一次或第二次尝试就成功，评分较高。
可发现性。获取该技术有多容易？如果需要专业知识，评分较低；如果已经广泛知晓并在网上可用，评分较高。

与美国政府在前沿 AI 安全方面合作

发布前政府访问和评估。对于在国家安全相关领域实质推进能力前沿的模型，我们将向指定的政府合作伙伴提供模型及其安全措施的早期扩展访问权限。这些合作伙伴可以运行独立的能力评估，并在广泛发布前测试我们的护栏。我们将在此期间专门安排 Anthropic 技术员工与政府评估人员合作。
安全措施快速信息共享。当发现重大越狱或滥用模式时，我们将迅速调查、分类并通知相应的政府对口单位。我们将分享我们构建的新的安全措施，以便进行独立测试。我们还将提前向政府合作伙伴提供我们的威胁情报报告，并参与根据 6 月 2 日行政令第 2(d) 条设立的跨机构网络安全漏洞交换所。
联合研究专用资源。我们正在大幅扩大与政府合作伙伴在 AI 安全方面的联合工作。我们将专门设立 Anthropic 团队来配合政府的共同优先事项，提供大量计算资源以支持政府测试和研究，并贡献我们的安全和红队专业知识，以帮助推进 AI 评估的技术前沿。
共同的行业标准。我们将与政府和行业同行合作，为前沿模型提供商制定一个自愿的安全和评估标准。我们将贡献评估、工具和最佳实践，以便政府能够在整个领域应用。

我们希望这种合作，连同我们提出的行业共识框架，能够成为整个行业系统规则的基础——甚至为有效全球协调 AI 的风险与收益提供一个初步范例。

Claude Fable 5和Mythos 5恢复访问

时间线与安全措施更新

我们的网络安全安全措施方法

统一的行业越狱框架

与美国政府在前沿 AI 安全方面合作

想了解 AI 如何助力您的企业？

24小时热榜

Claude Fable 5和Mythos 5恢复访问

Valar Atomics 用小型核反应堆为英伟达 AI 芯片供电

美能源部三座微型反应堆赶在特朗普核截止期限前实现临界

Oklo德州反应堆获DOE最终安全批准

告别微软32年：数据科学叙事的变与不变

AI框架的“形式税”怎么交才划算？

当AI写诗，人类还能赢吗？用DeepSeek测一测

YOLOv5+Tesseract：工业质检的AI自动化方案

免费获取 AI 落地指南

Claude Fable 5和Mythos 5恢复访问

时间线与安全措施更新

我们的网络安全安全措施方法

统一的行业越狱框架

与美国政府在前沿 AI 安全方面合作

想了解 AI 如何助力您的企业？

24小时热榜

Claude Fable 5和Mythos 5恢复访问

Valar Atomics 用小型核反应堆为英伟达 AI 芯片供电

美能源部三座微型反应堆赶在特朗普核截止期限前实现临界

Oklo德州反应堆获DOE最终安全批准

告别微软32年：数据科学叙事的变与不变

AI框架的“形式税”怎么交才划算？

当AI写诗，人类还能赢吗？用DeepSeek测一测

YOLOv5+Tesseract：工业质检的AI自动化方案

免费获取 AI 落地指南