Google DeepMind 发布《AI 控制路线图》,提出将内部 AI 智能体视为潜在内部威胁的纵深防御框架。通过威胁建模、实时监控与分级响应,系统能在模型对齐不完美时提供安全保证,为行业提供可复用的安全标准。

AI 智能体正在改变我们与技术的关系。通过自主执行从网络防御到科学发现和产品开发的复杂任务,这些系统正开启一个全新的生产力时代。仅在美国,到 2030 年 AI 智能体就可能创造 2.9 万亿美元的经济价值。
随着这些智能体能力越来越强,它们也需要更精密的安全保障。为此,Google DeepMind 开发了 《AI 控制路线图》:一个用于构建和管理谷歌内部部署的先进 AI 的框架。这种“纵深防御”方法超越了传统的模型对齐,增加了一层关键的系统级安全,即使对齐不完美也能提供保障。该方法或可成为整个行业的模板。
我们的安全方法首先建立在坚实的基础之上,整合了沙盒、端点安全和提示注入防御等传统措施。在此基础上,AI 控制路线图将模型对齐(即训练 AI 使其天生安全、有用)作为主要防线。它通过将内部智能体视为可能未对齐的系统来提供额外的安全层,从而在对齐不完美时也能提供保证。
可以将其想象成一位拥有双重控制的驾驶教练。教练信任学员,但随时准备在出现错误时接管方向盘或踩下刹车。类似地,我们的 AI 控制系统根据智能体的已验证行为授予权限,通过受控、递增的访问来建立信任。
我们的路线图基于一个简单但谨慎的假设:如果一个高度能力的 AI 智能体与我们的目标不一致并做出意外行为,该怎么办?为此,我们的计划聚焦于三个关键领域。
首先,遵循网络安全最佳实践,我们开发了一个新颖的 AI 威胁建模框架。路线图将不可信的 AI 智能体视为潜在的“内部威胁”——类似于公司会如何对待一个已经拥有办公室访问权限的潜在不轨员工。我们基于行业标准的 MITRE ATT&CK 框架(一个基于真实观察的全球可访问敌方战术和技术知识库)将潜在攻击分解为更小的战术和技术。这使我们能够系统地追踪风险,在造成损害前发现不良行为,并安全地进行演练以测试防御措施是否真正有效。
其次,我们制定了部署 AI 控制缓解措施的计划来应对这些风险。
最后,为确保系统功能正常,我们持续在三个关键指标上衡量性能:覆盖率(被监控的流量比例)、召回率(被捕获的未对齐行为比例)和响应时间。
随着 AI 模型不断进步,我们的防御也必须同步加强。在《AI 控制路线图》中,我们将安全协议映射到 AI 能力在两个关键方面的可衡量里程碑:
AI 控制路线图根据部署模型的能力推荐安全措施。模型的逃避检测能力决定检测级别(D1-D4),模型的攻击执行能力决定预防与响应级别(R1-R3)。
要构建这些系统,我们需要数据。我们的团队已经构建了一个异步监控系统的内部原型,该原型审查编码智能体的轨迹,并将发现报告给人类审核。每个标记事件都根据路线图中的威胁分类学进行归类。
我们已经分析了百万条编码智能体任务,获得了宝贵的洞察来完善我们的安全协议,使我们能够超越简单的关键词过滤,识别高信号的行为模式。例如,这项研究对于为 Gemini Spark 智能体构建实时监控器至关重要,使我们能够实时响应突发问题,如意外数据删除。
需要指出的是,我们的数据表明,大多数被标记的事件并非源于对抗意图;相反,它们往往源于 智能体的误解或过度积极 去实现用户的目标。理解这些细微差别对于完善我们的安全协议至关重要。
AI 控制路线图是我们多层智能体安全方法中的关键一环。通过将这些协议与我们的更广泛基础设施整合,我们正在扩展内部安全以安全管理最先进的 AI 模型。
此外,这种多层智能体安全方法应该成为行业、政策制定者和学术界的合作重点。通过围绕最佳实践和标准协调生态系统,我们可以赋能网络防御者并构建社会韧性。因此,今天我们还发布了一份面向政策制定者的技术框架 《AI 智能体安全的三层》。该论文详细说明了如何在单个智能体层面、多智能体系统中改善安全,以及如何赋能网络防御者并在更广泛的生态系统中构建韧性。
我们计划在这些框架的基础上,自信地部署强大的 AI,同时继续为未来构建安全基础。
完整技术报告请见:
AI 控制路线图
原文链接:Google DeepMind
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断