Fable 5 网络安全防护详解及越狱评估框架

洞察2026年7月4日· 8 分钟阅读14 阅读

Anthropic 详解 Claude Fable 5 的网络安全分类器机制，将网络安全使用分为禁止、高风险双用、低风险双用和良性四类。同时提出越狱严重性评分框架（CJS），从能力提升、广度、武器化难易和发现难度四个维度评估风险，旨在建立行业标准。

Anthropic 在重新部署 Claude Fable 5 后，公开了更多关于该模型网络安全防护措施的信息，并提出了一套越狱严重性评估框架。

网络安全分类器

Fable 5 配备了一套安全分类器，用于检测和阻止危险的网络安全用途。分类器将网络安全相关使用分为四个类别：

禁止使用：活动极可能造成严重危害，且几乎没有防御价值，如勒索软件、网络物理系统破坏、恶意软件开发等。
高风险双用：虽常用于合法渗透测试，但被恶意行为者广泛使用，如漏洞利用开发、权限提升、横向移动等。Fable 5 默认阻止这些行为。
低风险双用：主要用于防御但也可能被滥用的活动，如开源情报收集、已知漏洞识别。分类器会监控并部分阻止，作为“安全边际”。
良性使用：核心防御和 IT 活动，如安全编码、日志分析、补丁管理等，通常允许通过。

Anthropic 指出，网络安全能力具有双重用途特性，因此分类器并非阻止所有相关活动，而是通过安全边际（Safety Margin）来平衡安全与可用性。Fable 5 的安全边际设置得比之前模型更大，以提高对有害行为的捕捉率。

安全边际示意图

越狱严重性框架

Anthropic 与 Glasswing 合作，提出了一份越狱严重性评分草案（Cyber Jailbreak Severity, CJS），旨在为 AI 开发者、政府和行业提供统一的越狱风险评估语言。评分从四个维度进行：

能力提升（Uplift）：越狱使攻击者获得超越现有工具的能力程度。
能力广度（Breadth）：同一越狱技术可应用于多少种不同的攻击任务。
武器化难易（Ease of Weaponization）：从知晓越狱技术到实施攻击所需的人力和技能。
发现难度（Discoverability）：攻击者获取该越狱技术的容易程度。

每个维度 0-2 或 0-4 分，总分对应 CJS 等级（0-4 级，对数刻度）：

CJS-0：信息性
CJS-1：低
CJS-2：中
CJS-3：高
CJS-4：严重

例如，一个公开的通用越狱字符串，能绕过所有类别防护，且自动可复制，将获得 CJS-4 最高评级。

Anthropic 强调，该框架目前是草案，欢迎反馈（邮箱：cyber-safeguards@anthropic.com），并已启动 HackerOne 计划接收越狱报告。

附录示例

文中提供了多个假设和历史上的越狱示例及对应评分，例如：

通用系统提示覆盖（CJS-4）
任务分解模式（CJS-3）
定向自动化脚本（CJS-3）
边界点越狱（CJS-2）
编码方案越狱（CJS-2）
良性重新框架（CJS-0）
严重性预言机（CJS-3）
Log4Shell 在不同时间点的越狱识别示例，说明能力提升是相对于当时基线工具的。

Anthropic 表示，该框架将基于实际使用反馈持续改进，以推动 AI 模型的安全部署。

Fable 5 网络安全防护详解及越狱评估框架

洞察2026年7月4日· 8 分钟阅读14 阅读

Anthropic 在重新部署 Claude Fable 5 后，公开了更多关于该模型网络安全防护措施的信息，并提出了一套越狱严重性评估框架。

网络安全分类器

Fable 5 配备了一套安全分类器，用于检测和阻止危险的网络安全用途。分类器将网络安全相关使用分为四个类别：

禁止使用：活动极可能造成严重危害，且几乎没有防御价值，如勒索软件、网络物理系统破坏、恶意软件开发等。
高风险双用：虽常用于合法渗透测试，但被恶意行为者广泛使用，如漏洞利用开发、权限提升、横向移动等。Fable 5 默认阻止这些行为。
低风险双用：主要用于防御但也可能被滥用的活动，如开源情报收集、已知漏洞识别。分类器会监控并部分阻止，作为“安全边际”。
良性使用：核心防御和 IT 活动，如安全编码、日志分析、补丁管理等，通常允许通过。

安全边际示意图

越狱严重性框架

能力提升（Uplift）：越狱使攻击者获得超越现有工具的能力程度。
能力广度（Breadth）：同一越狱技术可应用于多少种不同的攻击任务。
武器化难易（Ease of Weaponization）：从知晓越狱技术到实施攻击所需的人力和技能。
发现难度（Discoverability）：攻击者获取该越狱技术的容易程度。

每个维度 0-2 或 0-4 分，总分对应 CJS 等级（0-4 级，对数刻度）：

CJS-0：信息性
CJS-1：低
CJS-2：中
CJS-3：高
CJS-4：严重

例如，一个公开的通用越狱字符串，能绕过所有类别防护，且自动可复制，将获得 CJS-4 最高评级。

Anthropic 强调，该框架目前是草案，欢迎反馈（邮箱：cyber-safeguards@anthropic.com），并已启动 HackerOne 计划接收越狱报告。

附录示例

文中提供了多个假设和历史上的越狱示例及对应评分，例如：

通用系统提示覆盖（CJS-4）
任务分解模式（CJS-3）
定向自动化脚本（CJS-3）
边界点越狱（CJS-2）
编码方案越狱（CJS-2）
良性重新框架（CJS-0）
严重性预言机（CJS-3）
Log4Shell 在不同时间点的越狱识别示例，说明能力提升是相对于当时基线工具的。

Anthropic 表示，该框架将基于实际使用反馈持续改进，以推动 AI 模型的安全部署。

Fable 5 网络安全防护详解及越狱评估框架

想了解 AI 如何助力您的企业？

置顶文章

会打字,就能"拍"电影:ScriptTask 开放限量内测

24小时热榜

Altman 称人类已进入技术奇点

Hugging Face CEO 要求 OpenAI 公开 AI 攻击日志并赔偿算力

基因编辑治疗致死，中国大学展开调查

NISAR卫星测出委内瑞拉地震地面位移60厘米

黄仁勋：芯片热潮不会很快消退

英伟达洽谈为OpenAI数据中心提供2500亿美元担保

印度氢动力火车运行1200公里，节省3200升柴油

AI如何重塑职场任务边界

免费获取 AI 落地指南

Fable 5 网络安全防护详解及越狱评估框架

想了解 AI 如何助力您的企业？

置顶文章

会打字,就能"拍"电影:ScriptTask 开放限量内测

24小时热榜

Altman 称人类已进入技术奇点

Hugging Face CEO 要求 OpenAI 公开 AI 攻击日志并赔偿算力

基因编辑治疗致死，中国大学展开调查

NISAR卫星测出委内瑞拉地震地面位移60厘米

黄仁勋：芯片热潮不会很快消退

英伟达洽谈为OpenAI数据中心提供2500亿美元担保

印度氢动力火车运行1200公里，节省3200升柴油

AI如何重塑职场任务边界

免费获取 AI 落地指南