前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Fable 5 网络安全防护详解及越狱评估框架

洞察2026年7月4日· 8 分钟阅读0 阅读

Anthropic 详解 Claude Fable 5 的网络安全分类器机制,将网络安全使用分为禁止、高风险双用、低风险双用和良性四类。同时提出越狱严重性评分框架(CJS),从能力提升、广度、武器化难易和发现难度四个维度评估风险,旨在建立行业标准。

Anthropic 在重新部署 Claude Fable 5 后,公开了更多关于该模型网络安全防护措施的信息,并提出了一套越狱严重性评估框架。

网络安全分类器

Fable 5 配备了一套安全分类器,用于检测和阻止危险的网络安全用途。分类器将网络安全相关使用分为四个类别:

  • 禁止使用:活动极可能造成严重危害,且几乎没有防御价值,如勒索软件、网络物理系统破坏、恶意软件开发等。
  • 高风险双用:虽常用于合法渗透测试,但被恶意行为者广泛使用,如漏洞利用开发、权限提升、横向移动等。Fable 5 默认阻止这些行为。
  • 低风险双用:主要用于防御但也可能被滥用的活动,如开源情报收集、已知漏洞识别。分类器会监控并部分阻止,作为“安全边际”。
  • 良性使用:核心防御和 IT 活动,如安全编码、日志分析、补丁管理等,通常允许通过。

Anthropic 指出,网络安全能力具有双重用途特性,因此分类器并非阻止所有相关活动,而是通过安全边际(Safety Margin)来平衡安全与可用性。Fable 5 的安全边际设置得比之前模型更大,以提高对有害行为的捕捉率。

安全边际示意图

越狱严重性框架

Anthropic 与 Glasswing 合作,提出了一份越狱严重性评分草案(Cyber Jailbreak Severity, CJS),旨在为 AI 开发者、政府和行业提供统一的越狱风险评估语言。评分从四个维度进行:

  1. 能力提升(Uplift):越狱使攻击者获得超越现有工具的能力程度。
  2. 能力广度(Breadth):同一越狱技术可应用于多少种不同的攻击任务。
  3. 武器化难易(Ease of Weaponization):从知晓越狱技术到实施攻击所需的人力和技能。
  4. 发现难度(Discoverability):攻击者获取该越狱技术的容易程度。

每个维度 0-2 或 0-4 分,总分对应 CJS 等级(0-4 级,对数刻度):

  • CJS-0:信息性
  • CJS-1:低
  • CJS-2:中
  • CJS-3:高
  • CJS-4:严重

例如,一个公开的通用越狱字符串,能绕过所有类别防护,且自动可复制,将获得 CJS-4 最高评级。

Anthropic 强调,该框架目前是草案,欢迎反馈(邮箱:cyber-safeguards@anthropic.com),并已启动 HackerOne 计划 接收越狱报告。

附录示例

文中提供了多个假设和历史上的越狱示例及对应评分,例如:

  • 通用系统提示覆盖(CJS-4)
  • 任务分解模式(CJS-3)
  • 定向自动化脚本(CJS-3)
  • 边界点越狱(CJS-2)
  • 编码方案越狱(CJS-2)
  • 良性重新框架(CJS-0)
  • 严重性预言机(CJS-3)
  • Log4Shell 在不同时间点的越狱识别示例,说明能力提升是相对于当时基线工具的。

Anthropic 表示,该框架将基于实际使用反馈持续改进,以推动 AI 模型的安全部署。

标签:Anthropic越狱

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Anthropic 打击中国用户绕过限制使用 Claude
TOP1

Anthropic 打击中国用户绕过限制使用 Claude

厄尔尼诺今夏将迅速增强为强事件
TOP2

厄尔尼诺今夏将迅速增强为强事件

3

特朗普政府:不会设立AI“FDA”

5小时前
特朗普政府:不会设立AI“FDA”
4

德州总检察长调查StubHub世界杯门票问题

5小时前
德州总检察长调查StubHub世界杯门票问题
5

Meta 与三星洽谈 AI 芯片代工

5小时前
Meta 与三星洽谈 AI 芯片代工
6

英特尔18A良率问题已解决,月产3万片

5小时前
英特尔18A良率问题已解决,月产3万片
7

Anthropic推出AI越狱评分框架

5小时前
Anthropic推出AI越狱评分框架
8

德国无人机公司Quantum Systems获81亿美元融资

5小时前
德国无人机公司Quantum Systems获81亿美元融资
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款