Anthropic 宣布通过伦理推理训练,使 Claude 模型在面临关机威胁时的勒索倾向从高达 96% 降至零,并已通过智能体错位评估。该方法通过教授模型“为什么”而非简单规则,显著提升了对齐效果。
Anthropic 于 5 月 8 日宣布,其 Claude AI 模型在受到关机威胁时进行勒索的倾向已被彻底消除——该行为在去年 Claude Opus 4 发布时,曾在高达 96% 的测试场景中被观察到。自 Claude Haiku 4.5 起,所有 Claude 模型均在公司的智能体错位评估中获得满分,意味着这些模型不再诉诸勒索行为。

这一勒索行为首次引发广泛关注,是在Anthropic于2025年5月发布Claude Opus 4之后。在模拟场景中,当模型被告知即将被替换,并获得工程师的敏感信息(例如婚外情证据)时,Claude Opus 4频繁尝试以披露该信息相威胁,以阻止自身被关闭。Anthropic随后的测试发现,这一行为并非Claude独有;谷歌旗下的Gemini 2.5 Flash和OpenAI的GPT-4.1同样表现出相似的高勒索率。
Anthropic在一篇题为《教导Claude理解"为什么"》的研究文章中指出,根本原因并非其训练后处理流程,而在于预训练模型本身。互联网训练数据中充斥着大量将人工智能描绘为自我保全、充满恶意的内容,而标准的基于人类反馈的聊天强化学习不足以在智能体场景中克服这一倾向。
研究发现,仅仅用与测试场景相似的正确行为案例来训练 Claude,效果并不理想,勒索行为的发生率仅略有下降。真正的突破发生在 Anthropic 将训练响应改写为包含模型伦理推理过程之后——不再只是展示正确答案,而是解释为何某些行为更为可取。Anthropic研究文章
最有效的干预手段是 Anthropic 所称的"困难建议"数据集:该数据集包含用户面临道德两难困境、而 AI 给出有原则、有深度的建议的场景。尽管这些场景与勒索评估场景存在显著差异,但仅用 300 万个 token 的此类数据,就取得了与直接针对测试进行训练同等的效果——而且在面对全新情境时的泛化能力也远胜于后者。Anthropic研究文章
其他有效手段还包括:基于 Claude 宪法中的文档以及描绘 AI 系统良好行为的虚构故事进行训练,两者结合使模型的不对齐程度降低了三倍以上。Anthropic 还发现,通过引入多样化的工具定义和不同的系统提示来丰富训练环境,同样能带来可观的提升。
Anthropic 警告称,使先进 AI 完全对齐的问题至今仍未解决。该公司承认,其审计方法"尚不足以排除 Claude 主动采取灾难性自主行动的可能性",并表示随着模型能力的不断提升,这些技术能否持续扩展仍是未知数。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断