Anthropic 更新负责任扩展政策，强化 AI 风险治理

2024 年 10 月 15 日

今天，我们发布了负责任扩展政策（RSP）的重大更新，这是我们用于减轻前沿 AI 系统潜在灾难性风险的风险治理框架。 此次更新引入了更灵活和细致的方法来评估和管理 AI 风险，同时坚持我们的核心承诺：除非实施了足够的安全保障措施，否则不会训练或部署模型。关键改进包括新的能力阈值，用于指示何时升级安全保障措施；精炼的评估模型能力和安全保障措施充分性的流程（受安全案例方法启发）；以及内部治理和外部输入的新措施。通过从实施经验中学习，并借鉴其他高风险行业使用的风险管理实践，我们旨在更好地应对 AI 快速发展的步伐。

先进 AI 的机遇与挑战

随着前沿 AI 模型的进步，它们有潜力为社会和经济带来变革性益处。AI 可以加速科学发现，革新医疗保健，增强教育系统，并为人类创造力和创新开辟全新领域。然而，前沿 AI 系统也带来了新的挑战和风险，需要仔细研究和有效的安全保障。

2023 年 9 月，我们发布了负责任扩展政策，这是一个管理日益强大 AI 系统风险的框架。经过一年的实施和学习，我们现在分享一个显著更新的版本，反映了实践洞察并考虑了技术进步。

尽管此政策侧重于以下列出的灾难性风险类别，但它们并非我们监控和准备的唯一风险。我们的使用政策规定了产品使用标准，包括禁止使用模型传播错误信息、煽动暴力或仇恨行为，或从事欺诈或滥用行为。我们不断改进技术措施，以大规模执行信任和安全标准。此外，我们进行研究以了解模型更广泛的社会影响。负责任扩展政策补充了我们在这些领域的工作，有助于理解当前和潜在风险。

比例化安全保障框架

与之前一样，我们保持核心承诺：除非实施了将风险控制在可接受水平以下的安全和安保措施，否则不会训练或部署模型。我们的 RSP 基于比例化保护原则：安全保障措施随潜在风险而扩展。为此，我们使用 AI 安全级别标准（ASL Standards），这是一套分级的安全和安保措施，随着模型能力增强而变得更严格。受生物安全级别启发，这些标准从 ASL-1 开始，适用于具有非常基本能力的模型（例如，下棋机器人），并逐步提升至 ASL-2、ASL-3 等。

在更新的政策中，我们精炼了评估特定能力（及其相关风险）和实施比例化安全和安保措施的方法。更新后的框架有两个关键组成部分：

能力阈值： 如果达到特定的 AI 能力，将需要比当前基线更强的安全保障措施。
所需安全保障措施： 一旦达到能力阈值，需要缓解风险的特定 ASL 标准。

目前，我们所有模型都在 ASL-2 标准下运行，这反映了当前行业最佳实践。更新后的政策定义了两个关键能力阈值，需要升级安全保障措施：

自主 AI 研发： 如果模型能够独立进行通常需要人类专业知识的复杂 AI 研究任务——可能以不可预测的方式显著加速 AI 发展——我们需要更高的安全标准（可能 ASL-4 或更高标准）和额外的安全保证，以避免发展超出我们应对新兴风险的能力。
化学、生物、放射性和核武器（CBRN）： 如果模型能够有意义地协助具有基本技术背景的人创建或部署 CBRN 武器，我们需要增强的安全和部署保障措施（ASL-3 标准）。

ASL-3 安全保障措施涉及增强的安全措施和部署控制。在安全方面，这将包括内部访问控制和更强大的模型权重保护。对于部署风险，我们计划实施多层方法来防止滥用，包括实时和异步监控、快速响应协议以及全面的部署前红队测试。

实施与监督

为促进政策的有效实施，我们设立了：

能力评估： 基于能力阈值的常规模型评估，以确定当前安全保障措施是否仍然合适。（过去评估的摘要可在此处获取](https://www.anthropic.com/rsp-updates)。）
安全保障措施评估： 常规评估安全和部署安全措施的有效性，以评估是否达到所需安全保障措施标准。（这些决策的摘要将在此处提供](https://www.anthropic.com/rsp-updates)。）
文档和决策： 记录能力评估和安全保障措施评估的流程，受高可靠性行业常见程序（如安全案例方法）启发。
内部治理和外部输入措施： 我们的评估方法将由内部压力测试支持，此外还有现有的安全问题内部报告流程。我们也在征求外部专家对我们方法的反馈。

从经验中学习

在实施前一个 RSP 的第一年，我们学到了很多，并利用此次更新机会反思了哪些方面运作良好以及政策中哪些部分需要更新。作为此过程的一部分，我们首次审查了遵守框架的情况，并识别了少数未完全满足要求的实例。这些包括程序性问题，例如完成一组评估比计划晚了三天，或对如何及何处记录占位符评估的任何更改缺乏清晰度。我们还标记了一些评估，其中通过实施标准技术（如思维链或最佳 N 选择）可能能够引出稍好的模型性能。

在所有情况下，我们发现这些实例对模型安全构成的风险最小。我们利用额外的三天时间来改进评估；我们使用的不同评估集提供了比占位符评估更准确的评估；我们的评估方法仍显示我们远低于阈值。由此，我们学到了两个宝贵教训，并将其纳入更新后的框架：我们需要在政策中融入更多灵活性，并需要改进跟踪 RSP 合规性的流程。您可以在此处阅读更多内容](http://anthropic.com/rsp-updates)。

自从一年前首次发布 RSP 以来，我们的目标是提供一个框架示例，供其他公司在制定自己的 AI 风险治理政策时借鉴。我们希望主动分享实施政策的经验，能帮助其他公司实施自己的风险管理框架，并促进 AI 生态系统最佳实践的建立。

展望未来

AI 前沿正在快速发展，这使得预测未来系统需要哪些安全措施变得具有挑战性。我们安全计划的所有方面都将持续演进：政策、评估方法、安全保障措施，以及对潜在风险和缓解措施的研究。

此外，联合创始人兼首席科学官 Jared Kaplan 将担任 Anthropic 的负责任扩展官，接替过去一年担任此职的联合创始人兼首席技术官 Sam McCandlish。Sam 监督了 RSP 的初步实施，并将继续专注于首席技术官的职责。随着我们努力扩大 RSP 实施工作，我们也在招聘负责任扩展负责人。此职位将负责协调许多团队，以迭代并成功遵守 RSP。

如果您想为 Anthropic 的 AI 风险管理做出贡献，我们正在招聘！我们的许多团队现在通过 RSP 为风险管理做出贡献，包括：

前沿红队（负责威胁建模和能力评估）
信任与安全（负责开发部署安全保障措施）
安全与合规（负责安全保障措施和风险管理）
对齐科学（包括负责开发 ASL-3+ 安全措施、专注于错位的能力评估以及内部对齐压力测试计划的子团队）
RSP 团队（负责政策起草、保证和跨公司执行）

在 anthropic.com/rsp 阅读更新后的政策，并在 anthropic.com/rsp-updates 查看补充信息。

Anthropic 更新负责任扩展政策，强化 AI 风险治理

2024 年 10 月 15 日

阅读负责任扩展政策

先进 AI 的机遇与挑战

比例化安全保障框架

在更新的政策中，我们精炼了评估特定能力（及其相关风险）和实施比例化安全和安保措施的方法。更新后的框架有两个关键组成部分：

能力阈值： 如果达到特定的 AI 能力，将需要比当前基线更强的安全保障措施。
所需安全保障措施： 一旦达到能力阈值，需要缓解风险的特定 ASL 标准。

目前，我们所有模型都在 ASL-2 标准下运行，这反映了当前行业最佳实践。更新后的政策定义了两个关键能力阈值，需要升级安全保障措施：

自主 AI 研发： 如果模型能够独立进行通常需要人类专业知识的复杂 AI 研究任务——可能以不可预测的方式显著加速 AI 发展——我们需要更高的安全标准（可能 ASL-4 或更高标准）和额外的安全保证，以避免发展超出我们应对新兴风险的能力。
化学、生物、放射性和核武器（CBRN）： 如果模型能够有意义地协助具有基本技术背景的人创建或部署 CBRN 武器，我们需要增强的安全和部署保障措施（ASL-3 标准）。

实施与监督

为促进政策的有效实施，我们设立了：

能力评估： 基于能力阈值的常规模型评估，以确定当前安全保障措施是否仍然合适。（过去评估的摘要可在此处获取](https://www.anthropic.com/rsp-updates)。）
安全保障措施评估： 常规评估安全和部署安全措施的有效性，以评估是否达到所需安全保障措施标准。（这些决策的摘要将在此处提供](https://www.anthropic.com/rsp-updates)。）
文档和决策： 记录能力评估和安全保障措施评估的流程，受高可靠性行业常见程序（如安全案例方法）启发。
内部治理和外部输入措施： 我们的评估方法将由内部压力测试支持，此外还有现有的安全问题内部报告流程。我们也在征求外部专家对我们方法的反馈。

从经验中学习

展望未来

如果您想为 Anthropic 的 AI 风险管理做出贡献，我们正在招聘！我们的许多团队现在通过 RSP 为风险管理做出贡献，包括：

前沿红队（负责威胁建模和能力评估）
信任与安全（负责开发部署安全保障措施）
安全与合规（负责安全保障措施和风险管理）
对齐科学（包括负责开发 ASL-3+ 安全措施、专注于错位的能力评估以及内部对齐压力测试计划的子团队）
RSP 团队（负责政策起草、保证和跨公司执行）

在 anthropic.com/rsp 阅读更新后的政策，并在 anthropic.com/rsp-updates 查看补充信息。

Anthropic 更新负责任扩展政策，强化 AI 风险治理

Anthropic 更新负责任扩展政策，强化 AI 风险治理

先进 AI 的机遇与挑战

比例化安全保障框架

实施与监督

从经验中学习

展望未来

想了解 AI 如何助力您的企业？

24小时热榜

SpaceX 收购 xAI：是救援还是资本游戏？

OpenAI 推出 Frontier 平台，进军企业 AI 智能体市场

研究警告：AI编程或侵蚀开源生态

欧盟测试Matrix协议，欲摆脱对Teams的依赖

火星陨石扫描揭示远古水储层

马斯克 xAI 招聘加密货币专家，拓展 AI 金融能力

微软Copilot付费转化率仅3.3%，AI投入回报成疑

英伟达拟投200亿美元加码OpenAI

免费获取 AI 落地指南

Anthropic 更新负责任扩展政策，强化 AI 风险治理

Anthropic 更新负责任扩展政策，强化 AI 风险治理

先进 AI 的机遇与挑战

比例化安全保障框架

实施与监督

从经验中学习

展望未来

想了解 AI 如何助力您的企业？

24小时热榜

SpaceX 收购 xAI：是救援还是资本游戏？

OpenAI 推出 Frontier 平台，进军企业 AI 智能体市场

研究警告：AI编程或侵蚀开源生态

欧盟测试Matrix协议，欲摆脱对Teams的依赖

火星陨石扫描揭示远古水储层

马斯克 xAI 招聘加密货币专家，拓展 AI 金融能力

微软Copilot付费转化率仅3.3%，AI投入回报成疑

英伟达拟投200亿美元加码OpenAI

免费获取 AI 落地指南