Anthropic 发布负责任扩展政策 3.0 版

政策2026年3月3日· 原作者：AccessPath 研究院· 8 分钟阅读0 阅读

Anthropic 发布负责任扩展政策（RSP）的第三版，这是该公司用于缓解 AI 系统灾难性风险的自愿框架。新版政策将公司自身计划与行业建议分离，引入前沿安全路线图，并增加风险报告与外部审查机制，旨在提高决策透明度与问责制。

图片：Anthropic 负责任扩展政策 3.0 版

我们发布了负责任扩展政策（RSP）的第三版，这是我们用于缓解 AI 系统灾难性风险的自愿框架。

Anthropic 实施 RSP 已超过两年，我们从中获益良多，也认识到了其不足。因此，我们更新了该政策，以强化迄今为止行之有效的部分，在必要时进行改进，并实施新措施来提高决策的透明度和问责制。

你可以在此处阅读完整的新版 RSP。本文将讨论此次更新背后的一些思考。

最初的 RSP 与我们的变革理论

RSP 是我们试图解决这样一个问题：如何应对在政策制定时尚未出现，但可能因指数级发展的技术而迅速浮现的 AI 风险。当我们在 2023 年 9 月撰写最初的 RSP 时，大语言模型本质上还是聊天界面。如今，它们可以浏览网页、编写和运行代码、使用计算机，并执行自主的多步骤操作。随着每一项新能力的出现，新的风险也随之而来。我们预计这种模式将持续下去。

RSP 的核心原则是“有条件”或“如果-那么”的承诺。如果模型超过某些能力水平（例如，可能协助制造危险武器的生物科学能力），那么政策规定我们应该引入一套新的、更严格的保障措施（例如，防止模型滥用和模型权重被盗）。

每套保障措施对应一个“AI 安全等级”（ASL）。例如，ASL-2 指一套必需的保障措施，而 ASL-3 则指针对能力更强的 AI 模型所需的更严格保障措施。

早期的 ASL（ASL-2 和 ASL-3）定义得相当详细，但为尚需几代发展的模型指定正确的保障措施则困难得多。因此，我们有意让后期的 ASL（ASL-4 及更高）在很大程度上未定义，希望在对更高 AI 能力水平有更清晰认识后再详细制定。

以下是我们“变革理论”的粗略描述——即我们希望通过 RSP 影响生态系统的机制：

内部驱动力：在 Anthropic 内部，我们希望 RSP 能迫使我们把重要的保障措施视为发布（和训练）新模型的必要条件。这让这个庞大且不断增长的组织明确了这些保障措施的重要性，推动我们更快取得进展。
向高标准看齐：我们希望宣布 RSP 能鼓励其他 AI 公司引入类似政策。这就是“向高标准看齐”（与“竞相降低标准”相反）的理念，激励行业参与者改进而非削弱其模型保障措施和整体安全态势。随着时间的推移，我们希望 RSP 或类似政策能成为自愿的行业标准，或为旨在鼓励 AI 模型开发安全性和透明度的 AI 法律提供参考。
在风险上达成更多共识：我们将能力阈值视为行业潜在的重要时刻。如果我们达到了重要的能力阈值（例如 AI 模型支持生物武器端到端生产的能力），我们将自行实施适当的保障措施，并利用获得的关于 AI 能力的证据，向其他公司和政府倡导他们也采取行动。换句话说，我们认为能力阈值可能是超越单边行动（Anthropic 为自己的模型要求保障措施）并鼓励多边行动（其他 AI 公司和/或政府也要求此类保障措施）的良好时机。
展望未来：我们认识到，在后期的一些能力阈值上，我们设想的应对措施强度（例如，实现对国家级行为体滥用 AI 模型的高度稳健性）可能很难或不可能由 Anthropic 单方面完成。我们希望当我们达到这些更高能力时，世界能清楚地看到危险，并且我们能够与全球政府协调，实施单家公司难以独自完成的保障措施。

评估我们的变革理论

两年半后，我们诚实的评估是，变革理论的某些部分如我们所愿地实现了，但其他部分则没有。以下是 RSP 取得成功的领域：

我们的 RSP 确实激励我们开发了更强的保障措施。例如，为了遵守我们的 ASL-3 部署标准（主要涉及资源和技术相对有限的威胁行为者带来的化学和生物武器风险），我们开发了越来越复杂和准确的方法（特别是输入和输出分类器）来阻止相关内容。
更广泛地说，ASL-3 标准的整体实施确实证明是可行的。我们于 2025 年 5 月为相关模型激活了 ASL-3 保障措施，并一直在努力改进它们。
我们的 RSP 确实鼓励了其他 AI 公司采用有些类似的标准：在我们宣布 RSP 后的几个月内，OpenAI 和 Google DeepMind 都采用了大致相似的框架。一些公司也实施了与我们 ASL-3 防御类似的生物武器相关分类器。这些自愿标准背后的原则，包括 RSP 中的原则，有助于为早期 AI 政策的制定提供参考。我们看到世界各地的政府（例如加利福尼亚州的 SB 53、纽约州的 RAISE 法案以及欧盟 AI 法案的实践准则）开始要求前沿 AI 开发者创建并发布用于评估和管理灾难性风险的框架——Anthropic 通过其前沿合规框架等公开文件来满足这些要求。鼓励行业采用这类严格的透明度框架正是我们 RSP 的初衷。

然而，我们变革理论的其他部分并未如我们所愿：

利用 RSP 阈值在 AI 风险上达成更多共识的想法并未在实践中实现——尽管有一些效果。我们发现预设的能力水平比我们预期的要模糊得多：在某些情况下，模型能力显然已经接近 RSP 阈值，但我们对于它们是否明确超过这些阈值存在很大的不确定性。模型评估的科学还不够发达，无法提供决定性的答案。在这种情况下，我们采取了预防性方法并实施了相关保障措施，但我们内部的不确定性转化为在 AI 行业采取多边行动的薄弱外部论据。
- 生物风险是这种“模糊地带”的一个例子。我们的模型现在显示出足够的生物学知识，以至于它们通过了我们能快速轻松运行的大多数测试，因此我们不能再有力地论证某个特定模型的风险很低。但仅凭这些测试也不足以有力地论证风险很高。我们寻求了额外的证据，例如支持一项广泛的湿实验室试验，但结果仍然模糊，特别是因为这些研究耗时较长，等到完成时更强大的模型已经可用。
尽管过去三年 AI 能力快速进步，但政府在 AI 安全方面的行动进展缓慢。政策环境已转向优先考虑 AI 竞争力和经济增长，而以安全为导向的讨论尚未在联邦层面获得实质性进展。我们仍然坚信，政府在 AI 安全方面的有效参与既是必要的也是可实现的，我们的目标是继续推动基于证据、国家安全利益、经济竞争力和公众信任的对话。但这被证明是一个长期项目——并非随着 AI 变得更强大或跨越某些阈值而自然发生的事情。

如上所述，我们能够单方面实施 ASL-3 保障措施，且对公司运营的成本合理。然而，对于更高的能力水平和更高的 ASL，这可能不再成立。虽然我们的更高 ASL 在很大程度上未定义，但我们之前 RSP 中提出的稳健缓解措施，如果没有集体行动，可能根本无法实施。作为挑战规模的一个例证，一份关于模型权重安全的RAND 报告指出，其旨在阻止最具网络能力的机构最高优先级操作的“SL5”安全标准“目前不可能”实现，并且“可能需要国家安全界的协助”。

（a）模糊地带混淆了风险的公共论据，（b）反监管的政治气候，以及（c）更高 RSP 级别下难以单方面满足的要求，这三者结合对我们当前的 RSP 构成了结构性挑战。我们本可以尝试通过定义易于实现的 ASL-4 和 ASL-5 保障措施来解决这个问题——但这会破坏 RSP 的初衷。

相反，我们选择在达到这些更高水平之前，透明地承认这些挑战并重组 RSP。修订后的 RSP 旨在采纳更现实的单边承诺，这些承诺在当前环境下虽然困难但仍可实现，同时继续全面规划我们认为整个行业需要多边应对的风险。

更新我们的负责任扩展政策

我们 RSP 的新版本包含三个关键要素。

1. 将公司计划与行业建议分离

我们的 RSP 现在概述了两套缓解措施：第一，无论他人如何行动我们都计划追求的缓解措施；第二，我们认为如果在整个 AI 行业实施，将有助于充分管理先进 AI 风险的雄心勃勃的能力-缓解措施对应图。

阅读完整的负责任扩展政策。

2. 前沿安全路线图

我们的新 RSP 引入了制定和发布前沿安全路线图的要求，该路线图将描述我们在安全、对齐、保障措施和政策领域进行风险缓解的具体计划。路线图中描述的目标旨在雄心勃勃但又可实现——提供我们认为是我们 RSP 过去成功的那种驱动力。

这些不是硬性承诺，而是我们将公开评估进展的公共目标。这种“非约束性但公开声明”目标的策略借鉴了我们一直倡导的前沿 AI 立法透明度方法（尽管它向公众提供了比现有法律要求更详细的信息），以及我们之前 RSP 版本的成功经验。

我们当前前沿安全路线图中的一些示例目标包括：

启动“登月研发”项目，研究雄心勃勃、可能非常规的方法，以实现前所未有的信息安全水平；
开发一种对我们系统进行红队测试的方法（可能涉及大量自动化），超越我们漏洞赏金计划中数百名参与者的集体贡献；
实施一系列系统性措施，确保 Claude 的行为符合其宪法；
建立我们所有关键 AI 开发活动的全面、集中记录，并使用 AI 分析这些记录，以发现包括内部人员（人类和 AI）的异常行为和安全隐患在内的问题；
发布一份政策路线图，提出“监管阶梯”的具体建议——即随着风险增加而扩展的政策，有助于指导政府 AI 政策。

阅读前沿安全路线图以了解更多关于这些目标和我们其他目标的信息。

3. 风险报告与外部审查

风险报告是我们改进先前 RSP 成功之处的另一种方式。我们发现，制作一份原型风险报告——我们 2025 年 5 月的保障措施报告，对我们内部理解和公开沟通风险很有用。风险报告将这一做法扩展为更系统、更全面的实践。

风险报告将提供我们模型在发布时的安全状况的详细信息。它们不仅描述模型能力，还将解释能力、威胁模型（模型可能构成威胁的具体方式）和主动风险缓解措施如何结合，并提供对总体风险水平的评估。风险报告将每 3-6 个月在线发布一次（可能会有一些删节）。

新版 RSP 还要求在特定情况下对风险报告进行外部审查。我们将任命熟悉 AI 安全研究、有动力对 Anthropic 的安全立场保持开放和诚实、且无重大利益冲突的第三方专家评审员。他们将有权访问未经删节或极少删节的风险报告，并对我们的推理、分析和决策进行全面公开审查。虽然我们当前的模型尚不需要外部审查，但我们已经开始试点并朝着这个目标努力。

风险报告将解决我们当前安全和保障措施与我们为全行业安全提出的更雄心勃勃的建议之间的任何差距。我们希望描述和公开这些差距有助于提高公众意识，从而在未来促成有益的政策变革。

阅读初始风险报告。

结论

负责任扩展政策始终被计划为一份活文件：一份能够随着 AI 模型能力增强而灵活变化的政策。这第三次修订强化了先前 RSP 的成功之处，承诺我们在计划和风险考量方面更加透明，并将我们对整个行业的建议与我们作为一家公司能够实现的目标分离开来。

本着同样的务实精神，随着技术的发展，我们将继续修订和完善我们的 RSP，以及我们评估和缓解风险的方法。

Anthropic 发布负责任扩展政策 3.0 版

政策2026年3月3日· 原作者：AccessPath 研究院· 8 分钟阅读0 阅读

图片：Anthropic 负责任扩展政策 3.0 版

我们发布了负责任扩展政策（RSP）的第三版，这是我们用于缓解 AI 系统灾难性风险的自愿框架。

你可以在此处阅读完整的新版 RSP。本文将讨论此次更新背后的一些思考。

最初的 RSP 与我们的变革理论

每套保障措施对应一个“AI 安全等级”（ASL）。例如，ASL-2 指一套必需的保障措施，而 ASL-3 则指针对能力更强的 AI 模型所需的更严格保障措施。

以下是我们“变革理论”的粗略描述——即我们希望通过 RSP 影响生态系统的机制：

内部驱动力：在 Anthropic 内部，我们希望 RSP 能迫使我们把重要的保障措施视为发布（和训练）新模型的必要条件。这让这个庞大且不断增长的组织明确了这些保障措施的重要性，推动我们更快取得进展。
向高标准看齐：我们希望宣布 RSP 能鼓励其他 AI 公司引入类似政策。这就是“向高标准看齐”（与“竞相降低标准”相反）的理念，激励行业参与者改进而非削弱其模型保障措施和整体安全态势。随着时间的推移，我们希望 RSP 或类似政策能成为自愿的行业标准，或为旨在鼓励 AI 模型开发安全性和透明度的 AI 法律提供参考。
在风险上达成更多共识：我们将能力阈值视为行业潜在的重要时刻。如果我们达到了重要的能力阈值（例如 AI 模型支持生物武器端到端生产的能力），我们将自行实施适当的保障措施，并利用获得的关于 AI 能力的证据，向其他公司和政府倡导他们也采取行动。换句话说，我们认为能力阈值可能是超越单边行动（Anthropic 为自己的模型要求保障措施）并鼓励多边行动（其他 AI 公司和/或政府也要求此类保障措施）的良好时机。
展望未来：我们认识到，在后期的一些能力阈值上，我们设想的应对措施强度（例如，实现对国家级行为体滥用 AI 模型的高度稳健性）可能很难或不可能由 Anthropic 单方面完成。我们希望当我们达到这些更高能力时，世界能清楚地看到危险，并且我们能够与全球政府协调，实施单家公司难以独自完成的保障措施。

评估我们的变革理论

两年半后，我们诚实的评估是，变革理论的某些部分如我们所愿地实现了，但其他部分则没有。以下是 RSP 取得成功的领域：

我们的 RSP 确实激励我们开发了更强的保障措施。例如，为了遵守我们的 ASL-3 部署标准（主要涉及资源和技术相对有限的威胁行为者带来的化学和生物武器风险），我们开发了越来越复杂和准确的方法（特别是输入和输出分类器）来阻止相关内容。
更广泛地说，ASL-3 标准的整体实施确实证明是可行的。我们于 2025 年 5 月为相关模型激活了 ASL-3 保障措施，并一直在努力改进它们。
我们的 RSP 确实鼓励了其他 AI 公司采用有些类似的标准：在我们宣布 RSP 后的几个月内，OpenAI 和 Google DeepMind 都采用了大致相似的框架。一些公司也实施了与我们 ASL-3 防御类似的生物武器相关分类器。这些自愿标准背后的原则，包括 RSP 中的原则，有助于为早期 AI 政策的制定提供参考。我们看到世界各地的政府（例如加利福尼亚州的 SB 53、纽约州的 RAISE 法案以及欧盟 AI 法案的实践准则）开始要求前沿 AI 开发者创建并发布用于评估和管理灾难性风险的框架——Anthropic 通过其前沿合规框架等公开文件来满足这些要求。鼓励行业采用这类严格的透明度框架正是我们 RSP 的初衷。

然而，我们变革理论的其他部分并未如我们所愿：

利用 RSP 阈值在 AI 风险上达成更多共识的想法并未在实践中实现——尽管有一些效果。我们发现预设的能力水平比我们预期的要模糊得多：在某些情况下，模型能力显然已经接近 RSP 阈值，但我们对于它们是否明确超过这些阈值存在很大的不确定性。模型评估的科学还不够发达，无法提供决定性的答案。在这种情况下，我们采取了预防性方法并实施了相关保障措施，但我们内部的不确定性转化为在 AI 行业采取多边行动的薄弱外部论据。
- 生物风险是这种“模糊地带”的一个例子。我们的模型现在显示出足够的生物学知识，以至于它们通过了我们能快速轻松运行的大多数测试，因此我们不能再有力地论证某个特定模型的风险很低。但仅凭这些测试也不足以有力地论证风险很高。我们寻求了额外的证据，例如支持一项广泛的湿实验室试验，但结果仍然模糊，特别是因为这些研究耗时较长，等到完成时更强大的模型已经可用。
尽管过去三年 AI 能力快速进步，但政府在 AI 安全方面的行动进展缓慢。政策环境已转向优先考虑 AI 竞争力和经济增长，而以安全为导向的讨论尚未在联邦层面获得实质性进展。我们仍然坚信，政府在 AI 安全方面的有效参与既是必要的也是可实现的，我们的目标是继续推动基于证据、国家安全利益、经济竞争力和公众信任的对话。但这被证明是一个长期项目——并非随着 AI 变得更强大或跨越某些阈值而自然发生的事情。

更新我们的负责任扩展政策

我们 RSP 的新版本包含三个关键要素。

1. 将公司计划与行业建议分离

阅读完整的负责任扩展政策。

2. 前沿安全路线图

我们当前前沿安全路线图中的一些示例目标包括：

启动“登月研发”项目，研究雄心勃勃、可能非常规的方法，以实现前所未有的信息安全水平；
开发一种对我们系统进行红队测试的方法（可能涉及大量自动化），超越我们漏洞赏金计划中数百名参与者的集体贡献；
实施一系列系统性措施，确保 Claude 的行为符合其宪法；
建立我们所有关键 AI 开发活动的全面、集中记录，并使用 AI 分析这些记录，以发现包括内部人员（人类和 AI）的异常行为和安全隐患在内的问题；
发布一份政策路线图，提出“监管阶梯”的具体建议——即随着风险增加而扩展的政策，有助于指导政府 AI 政策。

阅读前沿安全路线图以了解更多关于这些目标和我们其他目标的信息。

3. 风险报告与外部审查

阅读初始风险报告。

结论

本着同样的务实精神，随着技术的发展，我们将继续修订和完善我们的 RSP，以及我们评估和缓解风险的方法。

Anthropic 发布负责任扩展政策 3.0 版

最初的 RSP 与我们的变革理论

评估我们的变革理论

更新我们的负责任扩展政策

1. 将公司计划与行业建议分离

2. 前沿安全路线图

3. 风险报告与外部审查

结论

想了解 AI 如何助力您的企业？

24小时热榜

阿联酋联手Colossal打造基因“诺亚方舟”

微软推出AI内容授权市场，为出版商与开发者搭建桥梁

欧盟发布AI法案高风险系统关键指南

OpenAI 从 Anthropic 挖角安全专家，年薪超 55 万美元

伊朗黑客瞄准美国关键基础设施，网络战升级

亚马逊中东数据中心遭无人机袭击，云服务大规模中断

350家中国企业携机器人与AI技术亮相MWC 2026

AI项目失败率95%，技术无罪，组织才是元凶

免费获取 AI 落地指南

Anthropic 发布负责任扩展政策 3.0 版

最初的 RSP 与我们的变革理论

评估我们的变革理论

更新我们的负责任扩展政策

1. 将公司计划与行业建议分离

2. 前沿安全路线图

3. 风险报告与外部审查

结论

想了解 AI 如何助力您的企业？

24小时热榜

阿联酋联手Colossal打造基因“诺亚方舟”

微软推出AI内容授权市场，为出版商与开发者搭建桥梁

欧盟发布AI法案高风险系统关键指南

OpenAI 从 Anthropic 挖角安全专家，年薪超 55 万美元

伊朗黑客瞄准美国关键基础设施，网络战升级

亚马逊中东数据中心遭无人机袭击，云服务大规模中断

350家中国企业携机器人与AI技术亮相MWC 2026

AI项目失败率95%，技术无罪，组织才是元凶

免费获取 AI 落地指南