Anthropic 详解 Claude Fable 5 的网络安全分类器机制,将网络安全使用分为禁止、高风险双用、低风险双用和良性四类。同时提出越狱严重性评分框架(CJS),从能力提升、广度、武器化难易和发现难度四个维度评估风险,旨在建立行业标准。
Anthropic 在重新部署 Claude Fable 5 后,公开了更多关于该模型网络安全防护措施的信息,并提出了一套越狱严重性评估框架。
网络安全分类器
Fable 5 配备了一套安全分类器,用于检测和阻止危险的网络安全用途。分类器将网络安全相关使用分为四个类别:
Anthropic 指出,网络安全能力具有双重用途特性,因此分类器并非阻止所有相关活动,而是通过安全边际(Safety Margin)来平衡安全与可用性。Fable 5 的安全边际设置得比之前模型更大,以提高对有害行为的捕捉率。

越狱严重性框架
Anthropic 与 Glasswing 合作,提出了一份越狱严重性评分草案(Cyber Jailbreak Severity, CJS),旨在为 AI 开发者、政府和行业提供统一的越狱风险评估语言。评分从四个维度进行:
每个维度 0-2 或 0-4 分,总分对应 CJS 等级(0-4 级,对数刻度):
例如,一个公开的通用越狱字符串,能绕过所有类别防护,且自动可复制,将获得 CJS-4 最高评级。
Anthropic 强调,该框架目前是草案,欢迎反馈(邮箱:cyber-safeguards@anthropic.com),并已启动 HackerOne 计划 接收越狱报告。
附录示例
文中提供了多个假设和历史上的越狱示例及对应评分,例如:
Anthropic 表示,该框架将基于实际使用反馈持续改进,以推动 AI 模型的安全部署。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断