独立测试：Mythos AI 漏洞发现强大但有局限

网络安全公司 XBOW 本周发布的独立测试证实，Anthropic 的 Claude Mythos 模型在漏洞发现方面表现突出，是一款强大的漏洞猎人。测试显示，Mythos 在同时拥有运行软件实时访问权限和源代码时表现尤佳，这更贴近实际审计场景。该模型在本地代码漏洞发现和逆向工程方面能力出色，还能对自身结果及其他模型的结果进行分类。

AI漏洞发现: NPR

但测试也揭示了其局限性。Mythos 在判断上存在困难，有时夸大漏洞实际严重性，有时又因不符合正式标准而忽略真实漏洞。其利用验证能力落后于发现能力——XBOW 称其“在验证利用方面不错，但不够强大”。从成本调整角度看，情况更为复杂：在固定预算下进行 Web 漏洞发现时，GPT-5.5 胜过 Mythos。

安全研究员 Bruce Schneier 指出，Anthropic 尚未公开 Mythos 在未筛选输出上的误报率。公司此前声称与人类分析师的严重性判定一致性达 89%，但这一数据基于精选样本而非完整运行结果。该模型倾向于高估自己发现的漏洞的可利用性，这让试图优先修复漏洞的组织感到担忧。

另一方面，日本政府本周透露正与 Anthropic 谈判获取 Mythos 的使用权。首相高市早苗指示官员紧急制定关键基础设施网络安全措施，以应对高级 AI 模型带来的风险。数字大臣松本均表示，政府必须确定如何防止 Mythos “被滥用来识别漏洞并入侵我们的系统”。日本希望将该模型防御性地用于应对来自中国和俄罗斯的网络攻击。日本三大银行——三菱 UFJ 银行、三井住友银行和瑞穗银行——也预计将获得访问权限。

欧洲机构也在寻求类似安排。Anthropic 此前拒绝让欧盟监管机构访问 Mythos，OpenAI 则向欧盟提供了自家最新模型作为替代。目前，Mythos 访问权限仅通过 Anthropic 的 Project Glasswing 计划开放给特定科技公司、金融机构和开源维护者，该项目提供高达 1 亿美元的使用额度。Palo Alto Networks 指出，组织最终可能需要同时部署多个 AI 模型，因为不同系统往往能发现不同类型的漏洞。