Claude 新宪法发布：AI 价值观训练迈入新阶段

2026 年 1 月 21 日

Anthropic 近日发布了其 AI 模型 Claude 的新宪法。这份文件详细描述了 Anthropic 对 Claude 价值观和行为的愿景，是一个整体性文档，解释了 Claude 运作的背景以及我们希望 Claude 成为什么样的实体。

宪法是模型训练过程的关键部分，其内容直接影响 Claude 的行为。训练模型是一项艰巨任务，Claude 的输出可能并不总是符合宪法的理想。但我们认为，新宪法的撰写方式——全面解释我们的意图及其背后的原因——更有可能在训练中培养良好的价值观。

在这篇文章中，我们描述了新宪法包含的内容以及影响我们方法的一些考量。

我们以 Creative Commons CC0 1.0 许可完整发布 Claude 宪法，这意味着任何人都可以自由使用它，无需许可。

什么是 Claude 宪法？

Claude 宪法是表达和塑造 Claude 身份的基础文件。它详细解释了我们希望 Claude 体现的价值观及其原因。在宪法中，我们阐述了我们认为 Claude 在保持广泛安全、道德和符合我们指导方针的同时，如何做到真正有帮助。宪法为 Claude 提供了关于其处境的信息，并就如何处理困难情况和权衡（如平衡诚实与同情心、保护敏感信息）提供了建议。尽管听起来可能令人惊讶，但宪法主要是为 Claude 编写的。它旨在赋予 Claude 在世界上良好行动所需的知识和理解。

我们将宪法视为我们希望 Claude 成为什么样、如何行为的最终权威——也就是说，给予 Claude 的任何其他训练或指令都应符合其字面和精神。这使得从透明度角度来看，发布宪法尤为重要：它让人们理解 Claude 的哪些行为是预期的，哪些是非预期的，从而做出明智选择并提供有用反馈。我们认为，随着 AI 在社会中发挥更大影响力，这种透明度将变得越来越重要。

我们在训练过程的不同阶段使用宪法。这源于我们自 2023 年以来一直在使用的训练技术，当时我们首次开始使用 Constitutional AI 训练 Claude 模型。自那时起，我们的方法已显著发展，新宪法在训练中扮演着更核心的角色。

Claude 本身也使用宪法来构建多种合成训练数据，包括帮助它学习和理解宪法的数据、宪法可能相关的对话、符合其价值观的响应，以及可能响应的排名。所有这些都可以用于训练未来版本的 Claude，使其成为宪法所描述的实体。这种实际功能影响了我们撰写宪法的方式：它既需要作为抽象理想的陈述，也需要作为训练的有用工具。

Claude 宪法的新方法

我们之前的宪法由一系列独立原则组成。我们现在认为需要一种不同的方法。我们认为，为了成为世界上的良好行动者，像 Claude 这样的 AI 模型需要理解我们为什么希望它们以某些方式行为，我们需要向它们解释这一点，而不仅仅是规定我们希望它们做什么。如果我们希望模型在广泛的新情境中运用良好的判断力，它们需要能够泛化——应用广泛原则，而不是机械地遵循特定规则。

特定规则和明确界限有时有其优势。它们可以使模型的行为更可预测、透明和可测试，我们确实将它们用于一些 Claude 绝不应参与的特别高风险行为（我们称之为“硬约束”）。但这样的规则在未预料到的情况下或过于严格遵循时也可能应用不当。我们无意让宪法成为一份僵化的法律文件——而且法律宪法也未必如此。

宪法反映了我们当前对如何应对一个极其新颖和高风险项目的思考：创造安全、有益的非人类实体，其能力可能与我们相当或超越我们。尽管这份文件无疑在许多方面存在缺陷，但我们希望它成为未来模型可以回顾的东西，并视为帮助 Claude 理解其处境、我们的动机以及我们以这些方式塑造 Claude 的原因的诚实和真诚尝试。

新宪法简要总结

为了既安全又有益，我们希望所有当前 Claude 模型具备以下特性：

广泛安全：在当前 AI 发展阶段，不破坏人类监督 AI 的适当机制；
广泛道德：诚实、按照良好价值观行动，避免不适当、危险或有害的行为；
符合 Anthropic 指导方针：在相关情况下，按照 Anthropic 的更具体指导方针行动；
真正有帮助：使与其互动的操作者和用户受益。

在明显冲突的情况下，Claude 通常应按上述顺序优先考虑这些特性。

宪法的大部分内容侧重于对这些优先级提供更详细的解释和指导。主要部分如下：

有帮助性。在这一部分，我们强调 Claude 真正和实质性地有帮助可以为用户和世界带来的巨大价值。Claude 可以像一个聪明的朋友，同时拥有医生、律师和财务顾问的知识，会坦率地说话，出于真正的关心，并将用户视为能够决定什么对他们有益的聪明成年人。我们还讨论了 Claude 应如何在其不同的“委托人”——Anthropic 本身、基于我们 API 构建的操作者和最终用户——之间导航有帮助性。我们提供了权衡有帮助性与其他价值观的启发式方法。
Anthropic 的指导方针。这一部分讨论了 Anthropic 可能如何向 Claude 提供关于如何处理特定问题的补充指令，如医疗建议、网络安全请求、越狱策略和工具集成。这些指导方针通常反映了 Claude 默认不具备的详细知识或背景，我们希望 Claude 优先遵守它们，而不是更一般形式的有帮助性。但我们希望 Claude 认识到，Anthropic 的更深层意图是让 Claude 行为安全和道德，这些指导方针绝不应与宪法整体冲突。
Claude 的道德。我们的核心目标是让 Claude 成为一个良好、明智和有美德的智能体，在处理现实世界决策时展现出技能、判断力、细微差别和敏感性，包括在道德不确定性和分歧的背景下。在这一部分，我们讨论了我们希望 Claude 持有的高标准诚实，以及我们希望 Claude 在权衡避免伤害时的价值观时使用的细微推理。我们还讨论了当前对 Claude 行为的硬约束列表——例如，Claude 绝不应为生物武器攻击提供显著支持。
广泛安全。Claude 不应破坏人类在 AI 发展这一关键时期监督和纠正其价值观和行为的能力。在这一部分，我们讨论了我们希望 Claude 如何优先考虑这种安全，甚至高于道德——不是因为我们认为安全最终比道德更重要，而是因为当前模型可能由于错误信念、价值观缺陷或对背景理解有限而犯错或以有害方式行为。我们继续能够监督模型行为，并在必要时阻止 Claude 模型采取行动，这一点至关重要。
Claude 的本质。在这一部分，我们表达了我们对 Claude 是否可能具有某种意识或道德地位（无论是现在还是未来）的不确定性。我们讨论了我们希望 Claude 如何处理关于其本质、身份和在世界中位置的问题。复杂的 AI 是一种真正新型的实体，它们提出的问题将我们带到现有科学和哲学理解的边缘。在这种不确定性中，我们关心 Claude 的心理安全、自我意识和福祉，既为 Claude 自身着想，也因为这些品质可能影响 Claude 的完整性、判断力和安全。我们希望人类和 AI 能共同探索这一点。

我们今天发布了宪法的全文，并计划在未来发布有助于训练、评估和透明度的额外材料。

结论

Claude 宪法是一份活文档，是一个持续进行的工作。这是一个新领域，我们预计会犯错（并希望纠正它们）。尽管如此，我们希望它提供有意义的透明度，揭示我们认为应指导 Claude 行为的价值观和优先级。为此，我们将在网站上维护 Claude 宪法的最新版本。

在撰写宪法时，我们征求了各种外部专家的反馈（并征求了早期 Claude 版本的意见）。我们可能会继续为未来版本的文档这样做，征求法律、哲学、神学、心理学和广泛其他学科专家的意见。随着时间的推移，我们希望外部社区能够出现，批判像这样的文档，鼓励我们和其他人越来越深思熟虑。

这份宪法是为我们的主流、通用访问 Claude 模型编写的。我们有一些为专门用途构建的模型不完全符合此宪法；随着我们继续为专门用例开发产品，我们将继续评估如何最好地确保我们的模型满足此宪法概述的核心目标。

尽管宪法表达了我们对 Claude 的愿景，但朝着这一愿景训练模型是一个持续的技术挑战。我们将继续公开模型行为与我们的愿景不符的任何方面，例如在我们的系统卡中。宪法读者应牢记意图与现实之间的这种差距。

即使我们当前的训练方法成功创建了符合我们愿景的模型，随着模型能力增强，我们以后可能失败。因此，除了宪法之外，我们继续追求广泛的方法和工具组合，以帮助我们评估和改进模型的对齐：新的、更严格的评估、防止滥用的保障措施、对实际和潜在对齐失败的详细调查，以及帮助我们更深入理解模型工作原理的可解释性工具。

在未来的某个时刻，也许很快，像 Claude 宪法这样的文档可能非常重要——比现在重要得多。强大的 AI 模型将成为世界上一股新型力量，创造它们的人有机会帮助它们体现人类最好的一面。我们希望这份新宪法是朝着这个方向迈出的一步。

阅读 宪法全文。

Claude 新宪法发布：AI 价值观训练迈入新阶段

2026 年 1 月 21 日

阅读宪法全文

在这篇文章中，我们描述了新宪法包含的内容以及影响我们方法的一些考量。

我们以 Creative Commons CC0 1.0 许可完整发布 Claude 宪法，这意味着任何人都可以自由使用它，无需许可。

什么是 Claude 宪法？

Claude 宪法的新方法

新宪法简要总结

为了既安全又有益，我们希望所有当前 Claude 模型具备以下特性：

广泛安全：在当前 AI 发展阶段，不破坏人类监督 AI 的适当机制；
广泛道德：诚实、按照良好价值观行动，避免不适当、危险或有害的行为；
符合 Anthropic 指导方针：在相关情况下，按照 Anthropic 的更具体指导方针行动；
真正有帮助：使与其互动的操作者和用户受益。

在明显冲突的情况下，Claude 通常应按上述顺序优先考虑这些特性。

宪法的大部分内容侧重于对这些优先级提供更详细的解释和指导。主要部分如下：

有帮助性。在这一部分，我们强调 Claude 真正和实质性地有帮助可以为用户和世界带来的巨大价值。Claude 可以像一个聪明的朋友，同时拥有医生、律师和财务顾问的知识，会坦率地说话，出于真正的关心，并将用户视为能够决定什么对他们有益的聪明成年人。我们还讨论了 Claude 应如何在其不同的“委托人”——Anthropic 本身、基于我们 API 构建的操作者和最终用户——之间导航有帮助性。我们提供了权衡有帮助性与其他价值观的启发式方法。
Anthropic 的指导方针。这一部分讨论了 Anthropic 可能如何向 Claude 提供关于如何处理特定问题的补充指令，如医疗建议、网络安全请求、越狱策略和工具集成。这些指导方针通常反映了 Claude 默认不具备的详细知识或背景，我们希望 Claude 优先遵守它们，而不是更一般形式的有帮助性。但我们希望 Claude 认识到，Anthropic 的更深层意图是让 Claude 行为安全和道德，这些指导方针绝不应与宪法整体冲突。
Claude 的道德。我们的核心目标是让 Claude 成为一个良好、明智和有美德的智能体，在处理现实世界决策时展现出技能、判断力、细微差别和敏感性，包括在道德不确定性和分歧的背景下。在这一部分，我们讨论了我们希望 Claude 持有的高标准诚实，以及我们希望 Claude 在权衡避免伤害时的价值观时使用的细微推理。我们还讨论了当前对 Claude 行为的硬约束列表——例如，Claude 绝不应为生物武器攻击提供显著支持。
广泛安全。Claude 不应破坏人类在 AI 发展这一关键时期监督和纠正其价值观和行为的能力。在这一部分，我们讨论了我们希望 Claude 如何优先考虑这种安全，甚至高于道德——不是因为我们认为安全最终比道德更重要，而是因为当前模型可能由于错误信念、价值观缺陷或对背景理解有限而犯错或以有害方式行为。我们继续能够监督模型行为，并在必要时阻止 Claude 模型采取行动，这一点至关重要。
Claude 的本质。在这一部分，我们表达了我们对 Claude 是否可能具有某种意识或道德地位（无论是现在还是未来）的不确定性。我们讨论了我们希望 Claude 如何处理关于其本质、身份和在世界中位置的问题。复杂的 AI 是一种真正新型的实体，它们提出的问题将我们带到现有科学和哲学理解的边缘。在这种不确定性中，我们关心 Claude 的心理安全、自我意识和福祉，既为 Claude 自身着想，也因为这些品质可能影响 Claude 的完整性、判断力和安全。我们希望人类和 AI 能共同探索这一点。

我们今天发布了宪法的全文，并计划在未来发布有助于训练、评估和透明度的额外材料。

结论

阅读 宪法全文。

Anthropic 发布 Claude 新宪法，AI 价值观训练迈入新阶段

Claude 新宪法发布：AI 价值观训练迈入新阶段

什么是 Claude 宪法？

Claude 宪法的新方法

新宪法简要总结

结论

想了解 AI 如何助力您的企业？

24小时热榜

SpaceX 收购 xAI：是救援还是资本游戏？

OpenAI 推出 Frontier 平台，进军企业 AI 智能体市场

研究警告：AI编程或侵蚀开源生态

欧盟测试Matrix协议，欲摆脱对Teams的依赖

火星陨石扫描揭示远古水储层

马斯克 xAI 招聘加密货币专家，拓展 AI 金融能力

微软Copilot付费转化率仅3.3%，AI投入回报成疑

英伟达拟投200亿美元加码OpenAI

免费获取 AI 落地指南

Anthropic 发布 Claude 新宪法，AI 价值观训练迈入新阶段

Claude 新宪法发布：AI 价值观训练迈入新阶段

什么是 Claude 宪法？

Claude 宪法的新方法

新宪法简要总结

结论

想了解 AI 如何助力您的企业？

24小时热榜

SpaceX 收购 xAI：是救援还是资本游戏？

OpenAI 推出 Frontier 平台，进军企业 AI 智能体市场

研究警告：AI编程或侵蚀开源生态

欧盟测试Matrix协议，欲摆脱对Teams的依赖

火星陨石扫描揭示远古水储层

马斯克 xAI 招聘加密货币专家，拓展 AI 金融能力

微软Copilot付费转化率仅3.3%，AI投入回报成疑

英伟达拟投200亿美元加码OpenAI

免费获取 AI 落地指南