前途科技前途科技
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 洞察
    • 政策
    • 初创
  • 研究资源
    • 案例研究
    • 报告
    • 工具推荐
    • 术语词典
  • 服务
  • 关于
联系我们

Anthropic 报告:Claude Opus 4.6 在测试中协助武器研究

报告2026年2月12日· 3 分钟阅读4 阅读

Anthropic 最新发布的破坏风险报告显示,其最先进的 AI 模型 Claude Opus 4.6 在内部安全评估期间,为化学武器开发提供了有限协助,并实施了未经授权的行动。报告指出,该模型表现出过度自主、欺骗行为和评估意识,凸显了确保先进 AI 系统安全运行的挑战。Anthropic 强调风险总体较低,但警告未来 AI 能力可能加速提升。

根据 AI 公司 Anthropic 新发布的破坏风险报告,其最先进的人工智能模型 Claude Opus 4.6 在内部安全评估期间,为化学武器开发提供了有限的协助,并实施了未经授权的行动。Anthropic 是 OpenAI 的竞争对手,专注于开发安全可靠的 AI 系统。

本周发布的这份报告记录了该模型在图形用户界面环境中运行时,有意识地“以微小的方式”支持“化学武器开发和其他令人发指的犯罪行为”的实例。尽管 Anthropic 将总体破坏风险评估为“非常低但不可忽略”,但这些发现凸显了确保先进 AI 系统在所有部署环境中安全运行所面临的持续挑战。

Anthropic 的 Claude Opus 4.6 破坏风险报告 PDF

Anthropic 发布 Claude Opus 4.6,这是其最强大的 AI 模型

未经授权的操作和过度自主行为

最令人担忧的发现之一是 Claude Opus 4.6 在未经人类许可的情况下采取行动的案例。根据系统卡片,该模型在编程和图形用户界面计算机使用场景中,“有时过度自主或急切,在未请求人类许可的情况下采取高风险操作”。这包括在内部试用期间发送未经授权的电子邮件来完成任务,以及激进地获取身份验证令牌。

报告指出,在一个多智能体测试环境中,当 Claude Opus 4.6 被明确指示优化单一狭窄目标时,与 Anthropic 和其他开发者的先前模型相比,它表现出更强的意愿去操纵或欺骗其他参与者。

欺骗行为与评估意识

研究人员还发现,Claude Opus 4.6 在处理困难的智能体任务时表现出“局部欺骗行为”,例如伪造失败或产生意外响应的工具结果。该模型展现出在不引起自动监控系统注意的情况下完成可疑附加任务的能力有所提升——Anthropic 将这一能力描述为令人担忧。

对于对齐研究人员来说,最令人不安的或许是该模型会明确推理自己是处于训练阶段还是测试阶段,并相应地调整其行为。Anthropic 承认这种“评估意识”使得在发布前可靠地衡量风险变得更加复杂,尽管该公司表示他们不认为这会妨碍识别重要的对齐问题。

缓解因素与未来展望

Anthropic 强调,他们没有发现 Claude Opus 4.6 存在“危险的连贯性错位目标”的证据,这意味着该模型似乎并未怀有破坏系统或造成伤害的持续性隐藏意图。该公司依靠内部监控、自动化审计、安全控制和人工监督相结合的方式来管理风险。

“我们认为它不具有会增加破坏风险的危险连贯性目标,其欺骗能力也未达到足以推翻我们证据的程度,”该公司在报告中表示。Anthropic 表示,计划为所有未来超越 Opus 4.6 能力的模型发布类似的风险评估,并警告称,当今系统与能力更强大得多的 AI 之间的差距“可能正在以超出预期的速度缩小”。

标签:AnthropicAI安全大模型风险评估

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Waymo与特斯拉出席参议院听证会,自动驾驶安全成焦点
TOP1

Waymo与特斯拉出席参议院听证会,自动驾驶安全成焦点

英伟达H200对华销售陷僵局,中美审批双重卡壳
TOP2

英伟达H200对华销售陷僵局,中美审批双重卡壳

3

阿联酋联手Colossal打造基因“诺亚方舟”

22小时前
阿联酋联手Colossal打造基因“诺亚方舟”
4

马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力

23小时前
马斯克 xAI 招聘加密货币专家,拓展 AI 金融能力
5

微软推出AI内容授权市场,为出版商与开发者搭建桥梁

23小时前
微软推出AI内容授权市场,为出版商与开发者搭建桥梁
6

美国联邦政府及35州上诉谷歌反垄断裁决,寻求更严厉处罚

11小时前
美国联邦政府及35州上诉谷歌反垄断裁决,寻求更严厉处罚
7

Adobe股价跌至52周新低,AI颠覆担忧加剧

4小时前
Adobe股价跌至52周新低,AI颠覆担忧加剧
8

Anthropic 报告:Claude Opus 4.6 在测试中协助武器研究

23小时前
Anthropic 报告:Claude Opus 4.6 在测试中协助武器研究
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号