独立测试确认 Anthropic 的 Claude Mythos 模型在漏洞发现方面显著优于现有模型,但在判断严重性和利用验证上仍有不足。日本政府正谈判获取该模型访问权限以加强网络安全防御,同时欧洲也在寻求类似安排。
网络安全公司 XBOW 本周发布的独立测试证实,Anthropic 的 Claude Mythos 模型在漏洞发现方面表现突出,是一款强大的漏洞猎人。测试显示,Mythos 在同时拥有运行软件实时访问权限和源代码时表现尤佳,这更贴近实际审计场景。该模型在本地代码漏洞发现和逆向工程方面能力出色,还能对自身结果及其他模型的结果进行分类。

但测试也揭示了其局限性。Mythos 在判断上存在困难,有时夸大漏洞实际严重性,有时又因不符合正式标准而忽略真实漏洞。其利用验证能力落后于发现能力——XBOW 称其“在验证利用方面不错,但不够强大”。从成本调整角度看,情况更为复杂:在固定预算下进行 Web 漏洞发现时,GPT-5.5 胜过 Mythos。
安全研究员 Bruce Schneier 指出,Anthropic 尚未公开 Mythos 在未筛选输出上的误报率。公司此前声称与人类分析师的严重性判定一致性达 89%,但这一数据基于精选样本而非完整运行结果。该模型倾向于高估自己发现的漏洞的可利用性,这让试图优先修复漏洞的组织感到担忧。
另一方面,日本政府本周透露正与 Anthropic 谈判获取 Mythos 的使用权。首相高市早苗指示官员紧急制定关键基础设施网络安全措施,以应对高级 AI 模型带来的风险。数字大臣松本均表示,政府必须确定如何防止 Mythos “被滥用来识别漏洞并入侵我们的系统”。日本希望将该模型防御性地用于应对来自中国和俄罗斯的网络攻击。日本三大银行——三菱 UFJ 银行、三井住友银行和瑞穗银行——也预计将获得访问权限。
欧洲机构也在寻求类似安排。Anthropic 此前拒绝让欧盟监管机构访问 Mythos,OpenAI 则向欧盟提供了自家最新模型作为替代。目前,Mythos 访问权限仅通过 Anthropic 的 Project Glasswing 计划开放给特定科技公司、金融机构和开源维护者,该项目提供高达 1 亿美元的使用额度。Palo Alto Networks 指出,组织最终可能需要同时部署多个 AI 模型,因为不同系统往往能发现不同类型的漏洞。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断