Anthropic 发布负责任扩展政策(RSP)的第三版,这是该公司用于缓解 AI 系统灾难性风险的自愿框架。新版政策将公司自身计划与行业建议分离,引入前沿安全路线图,并增加风险报告与外部审查机制,旨在提高决策透明度与问责制。
我们发布了负责任扩展政策(RSP)的第三版,这是我们用于缓解 AI 系统灾难性风险的自愿框架。
Anthropic 实施 RSP 已超过两年,我们从中获益良多,也认识到了其不足。因此,我们更新了该政策,以强化迄今为止行之有效的部分,在必要时进行改进,并实施新措施来提高决策的透明度和问责制。
你可以在此处阅读完整的新版 RSP。本文将讨论此次更新背后的一些思考。
RSP 是我们试图解决这样一个问题:如何应对在政策制定时尚未出现,但可能因指数级发展的技术而迅速浮现的 AI 风险。当我们在 2023 年 9 月撰写最初的 RSP 时,大语言模型本质上还是聊天界面。如今,它们可以浏览网页、编写和运行代码、使用计算机,并执行自主的多步骤操作。随着每一项新能力的出现,新的风险也随之而来。我们预计这种模式将持续下去。
RSP 的核心原则是“有条件”或“如果-那么”的承诺。如果模型超过某些能力水平(例如,可能协助制造危险武器的生物科学能力),那么政策规定我们应该引入一套新的、更严格的保障措施(例如,防止模型滥用和模型权重被盗)。
每套保障措施对应一个“AI 安全等级”(ASL)。例如,ASL-2 指一套必需的保障措施,而 ASL-3 则指针对能力更强的 AI 模型所需的更严格保障措施。
早期的 ASL(ASL-2 和 ASL-3)定义得相当详细,但为尚需几代发展的模型指定正确的保障措施则困难得多。因此,我们有意让后期的 ASL(ASL-4 及更高)在很大程度上未定义,希望在对更高 AI 能力水平有更清晰认识后再详细制定。
以下是我们“变革理论”的粗略描述——即我们希望通过 RSP 影响生态系统的机制:
两年半后,我们诚实的评估是,变革理论的某些部分如我们所愿地实现了,但其他部分则没有。以下是 RSP 取得成功的领域:
然而,我们变革理论的其他部分并未如我们所愿:
如上所述,我们能够单方面实施 ASL-3 保障措施,且对公司运营的成本合理。然而,对于更高的能力水平和更高的 ASL,这可能不再成立。虽然我们的更高 ASL 在很大程度上未定义,但我们之前 RSP 中提出的稳健缓解措施,如果没有集体行动,可能根本无法实施。作为挑战规模的一个例证,一份关于模型权重安全的RAND 报告指出,其旨在阻止最具网络能力的机构最高优先级操作的“SL5”安全标准“目前不可能”实现,并且“可能需要国家安全界的协助”。
(a)模糊地带混淆了风险的公共论据,(b)反监管的政治气候,以及(c)更高 RSP 级别下难以单方面满足的要求,这三者结合对我们当前的 RSP 构成了结构性挑战。我们本可以尝试通过定义易于实现的 ASL-4 和 ASL-5 保障措施来解决这个问题——但这会破坏 RSP 的初衷。
相反,我们选择在达到这些更高水平之前,透明地承认这些挑战并重组 RSP。修订后的 RSP 旨在采纳更现实的单边承诺,这些承诺在当前环境下虽然困难但仍可实现,同时继续全面规划我们认为整个行业需要多边应对的风险。
我们 RSP 的新版本包含三个关键要素。
我们的 RSP 现在概述了两套缓解措施:第一,无论他人如何行动我们都计划追求的缓解措施;第二,我们认为如果在整个 AI 行业实施,将有助于充分管理先进 AI 风险的雄心勃勃的能力-缓解措施对应图。
阅读完整的负责任扩展政策。
我们的新 RSP 引入了制定和发布前沿安全路线图的要求,该路线图将描述我们在安全、对齐、保障措施和政策领域进行风险缓解的具体计划。路线图中描述的目标旨在雄心勃勃但又可实现——提供我们认为是我们 RSP 过去成功的那种驱动力。
这些不是硬性承诺,而是我们将公开评估进展的公共目标。这种“非约束性但公开声明”目标的策略借鉴了我们一直倡导的前沿 AI 立法透明度方法(尽管它向公众提供了比现有法律要求更详细的信息),以及我们之前 RSP 版本的成功经验。
我们当前前沿安全路线图中的一些示例目标包括:
阅读前沿安全路线图以了解更多关于这些目标和我们其他目标的信息。
风险报告是我们改进先前 RSP 成功之处的另一种方式。我们发现,制作一份原型风险报告——我们 2025 年 5 月的保障措施报告,对我们内部理解和公开沟通风险很有用。风险报告将这一做法扩展为更系统、更全面的实践。
风险报告将提供我们模型在发布时的安全状况的详细信息。它们不仅描述模型能力,还将解释能力、威胁模型(模型可能构成威胁的具体方式)和主动风险缓解措施如何结合,并提供对总体风险水平的评估。风险报告将每 3-6 个月在线发布一次(可能会有一些删节)。
新版 RSP 还要求在特定情况下对风险报告进行外部审查。我们将任命熟悉 AI 安全研究、有动力对 Anthropic 的安全立场保持开放和诚实、且无重大利益冲突的第三方专家评审员。他们将有权访问未经删节或极少删节的风险报告,并对我们的推理、分析和决策进行全面公开审查。虽然我们当前的模型尚不需要外部审查,但我们已经开始试点并朝着这个目标努力。
风险报告将解决我们当前安全和保障措施与我们为全行业安全提出的更雄心勃勃的建议之间的任何差距。我们希望描述和公开这些差距有助于提高公众意识,从而在未来促成有益的政策变革。
阅读初始风险报告。
负责任扩展政策始终被计划为一份活文件:一份能够随着 AI 模型能力增强而灵活变化的政策。这第三次修订强化了先前 RSP 的成功之处,承诺我们在计划和风险考量方面更加透明,并将我们对整个行业的建议与我们作为一家公司能够实现的目标分离开来。
本着同样的务实精神,随着技术的发展,我们将继续修订和完善我们的 RSP,以及我们评估和缓解风险的方法。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断