Anthropic推出AI越狱评分框架

Anthropic挑战黑客越狱其AI模型

Anthropic 宣布，在美国商务部解除出口管制后，其 Claude Fable 5 模型已全球重新上线。此前，该模型因亚马逊研究人员发现的一种越狱技术而被下线19天。同时，Anthropic 于7月2日发布了一项新的行业框架，用于评估 AI 越狱的严重程度。

从出口禁令到重新部署

美国商务部于6月12日对 Fable 5 及能力更强的 Mythos 5 模型实施出口管制，起因是亚马逊研究人员发现了一种越狱技术，能诱使 Fable 5 标记软件漏洞，甚至编写漏洞利用演示代码。该禁令紧随亚马逊 CEO 安迪·贾西与财政部长斯科特·贝森特的一通电话之后。

商务部长霍华德·卢特尼克在6月30日的信中正式撤销了限制，称“不再需要”对这两个模型的出口、再出口或国内转移进行许可证。作为交换，Anthropic 同意主动检测并解决安全风险，协助制定未来模型的标准，并向政府报告恶意活动。Anthropic 当晚在 X 平台确认恢复，Fable 5 于7月1日通过 Claude.ai、Claude Code 及 Claude API 重新面向全球用户。

网络安全分级方法

7月2日，Anthropic 发布了 Fable 5 安全分类器的详细文档，将网络安全请求分为四类，而非直接屏蔽所有安全相关查询。勒索软件开发、恶意软件分发及关键基础设施攻击始终被阻止；渗透测试和漏洞利用开发仍受限制，需待更完善的授权控制；安全编码、补丁管理和安全教育等防御性任务则被允许。

同时，Anthropic 发布了其“网络越狱严重程度”（Cyber Jailbreak Severity, CJS）框架的早期草案。该框架与亚马逊、微软及谷歌等合作伙伴在“Glasswing”协作中共同制定。CJS 等级从 CJS-0（信息性）到 CJS-4（关键），横跨四个维度：能力提升、覆盖广度、武器化难易程度及可发现性。评分可上调但不可下调。Anthropic 已开放反馈邮箱（cyber-safeguards@anthropic.com），并推出了专门的 HackerOne 漏洞赏金计划以验证该框架。

订阅访问与后续计划

重新部署附带价格说明：Pro、Max、Team 及部分 Enterprise 订阅用户在7月7日前可免费使用 Fable 5，每周用量上限为总配额的50%。此后，每个 Fable 5 token 将转为按量计费，标准 API 价格为每百万输入 token 10 美元、每百万输出 token 50 美元，直至容量允许全面恢复捆绑订阅。AWS、Google Cloud 及 Microsoft Foundry 的云市场访问也已恢复。