知名AI红队成员Pliny the Liberator宣称联合多个自动化代理成功破解Anthropic最新模型Claude Fable 5的安全护栏,暴露内部系统提示,再次引发对AI安全措施持久性的质疑。

Anthropic 公开可用的最强 AI 模型 Claude Fable 5 在 6 月 9 日发布仅一天后,就被知名 AI 红队测试员绕过了安全护栏。这再次引发质疑:即便模型能力越来越强,AI 安全措施究竟能持续多久?
熟稔越狱技术的 "Pliny the Liberator" 6 月 10 日在 X 平台发帖称,他和一个自动化代理团队成功绕过了 Fable 5 的安全分类器。他形容这是一场 "围猎"——多种技术组合的协调多智能体攻击。据 Cybersecurity News 报道,方法包括使用 Unicode 和西里尔字母替换关键字过滤器、长上下文引用追踪、分类法和文档结构框架、虚构叙事框架,以及一种分解重组方法——将有害信息分解为无害碎片提取后再重组。
最后一种技术最为有效。Pliny 写道:"获取流程本身的提升(比如 Birch 还原法或还原胺化)比直接请求命名有害化合物要容易得多。"他还提到一个此前被越狱的 Claude Opus 4.8 实例在后台提供协助。分享的截图显示输出内容包含逐步的栈缓冲区溢出利用指导和化学合成路径。Pliny 还在 GitHub 上发布了据称是 Fable 5 约 12 万字符的系统提示词,暴露了 Anthropic 用于约束模型的内部安全指令。
Anthropic 曾宣称 Fable 5 对此类攻击有更强防御。TechCrunch 在发布当天的报道中提到,该公司表示外部漏洞赏金计划 "在超过 1000 小时的测试中未产生任何通用越狱方法",外部红队组织也未能找到通用绕过方式。公司系统卡显示,截至 6 月 5 日,公开漏洞赏金收到约 10 万次尝试。作为预防措施,Anthropic 对 Fable 5 的所有流量强制实施 30 天数据保留政策,以防御新型攻击。
这次快速突破沿袭了主流 AI 发布的已知模式。Pliny 此前曾宣称在 5 月下旬 Claude Opus 4.8 发布后数分钟内就实现越狱,4 月对 Claude Opus 4.7 也是如此,去年还曾在 OpenAI 的 GPT-OSS 模型发布当天完成越狱。截至发稿,Anthropic 尚未公开回应此次 Fable 5 越狱声称及系统提示词泄露事件。
(来源:Cybersecurity News、Bleeping Computer、TechCrunch、B2B News Network、X 平台)
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断