Anthropic 正式发布 Claude Opus 4.7 大语言模型。相比前代 Opus 4.6,新模型在高级软件工程任务上表现显著提升,尤其在处理复杂、长期任务时展现出更强的严谨性和一致性。它还支持更高分辨率的图像理解,并在多项基准测试中超越 Opus 4.6。模型现已通过 Claude 所有产品及主流云平台提供。
Anthropic 的最新模型 Claude Opus 4.7 现已全面开放使用。
Opus 4.7 在高级软件工程方面相比 Opus 4.6 有显著提升,尤其是在最困难的任务上。用户反馈称,他们现在可以放心地将最棘手的编程工作——那些以前需要密切监督的任务——交给 Opus 4.7。Opus 4.7 能够严谨、一致地处理复杂、长期运行的任务,精确遵循指令,并在汇报前设计方法来验证自己的输出。
该模型的视觉能力也大幅增强:它可以以更高分辨率查看图像。在完成专业任务时,它的品味和创造力更佳,能生成更高质量的界面、幻灯片和文档。虽然其整体能力不如 Anthropic 最强大的模型 Claude Mythos Preview,但在一系列基准测试中,Opus 4.7 的表现优于 Opus 4.6:

上周我们宣布了Project Glasswing,强调了 AI 模型在网络安全方面的风险和益处。我们表示将限制 Claude Mythos Preview 的发布范围,并首先在能力较弱的模型上测试新的网络安全防护措施。Opus 4.7 就是第一个这样的模型:其网络安全能力不如 Mythos Preview 先进(实际上,在训练过程中,我们尝试过有差别地降低这些能力)。我们发布 Opus 4.7 时配备了防护措施,能自动检测并阻止表明被禁止或高风险的网络安全用途的请求。我们从这些防护措施的实际部署中学到的经验,将帮助我们朝着最终广泛发布 Mythos 级别模型的目标迈进。
希望将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试和红队演练)的安全专业人士,欢迎加入我们的新网络安全验证计划。
Opus 4.7 现已通过所有 Claude 产品、我们的 API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 提供。定价与 Opus 4.6 相同:输入 token 每百万个 5 美元,输出 token 每百万个 25 美元。开发者可以通过 Claude API 使用 claude-opus-4-7。
Claude Opus 4.7 从我们的早期访问测试者那里获得了强烈反馈。以下是早期测试的一些亮点和说明:
下面的图表展示了我们在预发布测试中,跨多个不同领域的更多评估结果:







总体而言,Opus 4.7 显示出与 Opus 4.6 相似的安全特性:我们的评估显示,欺骗、谄媚和配合滥用等令人担忧的行为发生率较低。在某些指标上,如诚实度和抵抗恶意“提示词注入”攻击的能力,Opus 4.7 比 Opus 4.6 有所改进;在其他方面(如其倾向于对受控物质提供过于详细的减害建议),Opus 4.7 稍弱一些。我们的对齐评估结论是,该模型“基本对齐良好且值得信赖,但其行为并非完全理想”。请注意,根据我们的评估,Mythos Preview 仍然是我们训练过的对齐性最好的模型。我们的安全评估在 Claude Opus 4.7 系统卡 中有详细讨论。

除了 Claude Opus 4.7 本身,我们还发布了以下更新:
xhigh(“特高”)努力级别,介于 high 和 max 之间,让用户能更精细地控制在难题上的推理与延迟之间的权衡。在 Claude Code 中,我们已将所有计划的默认努力级别提升至 xhigh。在测试 Opus 4.7 用于编程和智能体用例时,我们建议从 high 或 xhigh 努力级别开始。/ultrareview斜杠命令 会产生一个专门的审查会话,通读更改并标记细心的审查者会发现的问题和设计缺陷。我们为 Pro 和 Max 级别的 Claude Code 用户提供三次免费的 ultrareview 试用。此外,我们已将 自动模式 扩展到 Max 用户。自动模式是一种新的权限选项,Claude 可以代表您做出决定,这意味着您可以运行更长的任务,减少中断,并且风险比选择跳过所有权限要低。Opus 4.7 是 Opus 4.6 的直接升级版,但有两个变化值得规划,因为它们会影响 token 使用量。首先,Opus 4.7 使用了更新的分词器,改进了模型处理文本的方式。代价是相同的输入可能映射到更多的 token——大约 1.0–1.35 倍,具体取决于内容类型。其次,Opus 4.7 在更高的努力级别上思考更多,尤其是在智能体设置中的后续轮次。这提高了其在难题上的可靠性,但也意味着它会产生更多的输出 token。
用户可以通过多种方式控制 token 使用量:使用努力参数、调整任务预算,或提示模型更简洁。在我们自己的测试中,净效果是有利的——在内部编程评估中,所有努力级别的 token 使用量都有所改善,如下所示——但我们建议在实际流量上测量差异。我们编写了一份迁移指南,提供了从 Opus 4.6 升级到 Opus 4.7 的进一步建议。

免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断