Claude Opus 4.7 正式发布，编程能力大幅提升

Anthropic 的最新模型 Claude Opus 4.7 现已全面开放使用。

Opus 4.7 在高级软件工程方面相比 Opus 4.6 有显著提升，尤其是在最困难的任务上。用户反馈称，他们现在可以放心地将最棘手的编程工作——那些以前需要密切监督的任务——交给 Opus 4.7。Opus 4.7 能够严谨、一致地处理复杂、长期运行的任务，精确遵循指令，并在汇报前设计方法来验证自己的输出。

该模型的视觉能力也大幅增强：它可以以更高分辨率查看图像。在完成专业任务时，它的品味和创造力更佳，能生成更高质量的界面、幻灯片和文档。虽然其整体能力不如 Anthropic 最强大的模型 Claude Mythos Preview，但在一系列基准测试中，Opus 4.7 的表现优于 Opus 4.6：

Claude Opus 4.7 基准测试表现对比图

上周我们宣布了Project Glasswing，强调了 AI 模型在网络安全方面的风险和益处。我们表示将限制 Claude Mythos Preview 的发布范围，并首先在能力较弱的模型上测试新的网络安全防护措施。Opus 4.7 就是第一个这样的模型：其网络安全能力不如 Mythos Preview 先进（实际上，在训练过程中，我们尝试过有差别地降低这些能力）。我们发布 Opus 4.7 时配备了防护措施，能自动检测并阻止表明被禁止或高风险的网络安全用途的请求。我们从这些防护措施的实际部署中学到的经验，将帮助我们朝着最终广泛发布 Mythos 级别模型的目标迈进。

希望将 Opus 4.7 用于合法网络安全目的（如漏洞研究、渗透测试和红队演练）的安全专业人士，欢迎加入我们的新网络安全验证计划。

Opus 4.7 现已通过所有 Claude 产品、我们的 API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 提供。定价与 Opus 4.6 相同：输入 token 每百万个 5 美元，输出 token 每百万个 25 美元。开发者可以通过 Claude API 使用 claude-opus-4-7。

测试 Claude Opus 4.7

Claude Opus 4.7 从我们的早期访问测试者那里获得了强烈反馈。以下是早期测试的一些亮点和说明：

指令遵循。Opus 4.7 在遵循指令方面有显著提升。有趣的是，这意味着为早期模型编写的提示词有时现在会产生意想不到的结果：以前的模型会宽松地解释指令或完全跳过某些部分，而 Opus 4.7 会严格按照指令执行。用户应相应地重新调整他们的提示词和测试框架。
改进的多模态支持。Opus 4.7 对高分辨率图像的视觉能力更强：它可以接受长边最多 2,576 像素的图像（约 375 万像素），是之前 Claude 模型的三倍多。这为依赖精细视觉细节的多模态应用开辟了广阔空间：计算机使用智能体读取密集的屏幕截图、从复杂图表中提取数据，以及需要像素级参考的工作。
实际工作。除了在金融智能体评估中取得最先进的分数（见上表），我们的内部测试显示 Opus 4.7 比 Opus 4.6 更有效的金融分析师，能生成严谨的分析和模型、更专业的演示文稿，并在任务间实现更紧密的整合。Opus 4.7 在 GDPval-AA 上也处于领先水平，这是一个第三方评估，涵盖金融、法律等领域的具有经济价值的知识工作。
记忆。Opus 4.7 更擅长使用基于文件系统的记忆。它能在长期、多会话的工作中记住重要笔记，并利用它们来推进新任务，从而减少前期所需的上下文。

下面的图表展示了我们在预发布测试中，跨多个不同领域的更多评估结果：

办公室任务评估结果

视觉评估结果

文档推理评估结果

长上下文推理评估结果

生物学评估结果

长期连贯性评估结果

编程评估结果

安全与对齐

总体而言，Opus 4.7 显示出与 Opus 4.6 相似的安全特性：我们的评估显示，欺骗、谄媚和配合滥用等令人担忧的行为发生率较低。在某些指标上，如诚实度和抵抗恶意“提示词注入”攻击的能力，Opus 4.7 比 Opus 4.6 有所改进；在其他方面（如其倾向于对受控物质提供过于详细的减害建议），Opus 4.7 稍弱一些。我们的对齐评估结论是，该模型“基本对齐良好且值得信赖，但其行为并非完全理想”。请注意，根据我们的评估，Mythos Preview 仍然是我们训练过的对齐性最好的模型。我们的安全评估在 Claude Opus 4.7 系统卡中有详细讨论。

整体未对齐行为评分图

今日同步发布

除了 Claude Opus 4.7 本身，我们还发布了以下更新：

更多努力级别控制：Opus 4.7 引入了新的 xhigh（“特高”）努力级别，介于 high 和 max 之间，让用户能更精细地控制在难题上的推理与延迟之间的权衡。在 Claude Code 中，我们已将所有计划的默认努力级别提升至 xhigh。在测试 Opus 4.7 用于编程和智能体用例时，我们建议从 high 或 xhigh 努力级别开始。
在 Claude 平台（API）上：除了支持更高分辨率的图像，我们还推出了任务预算的公开测试版，为开发者提供一种引导 Claude token 消耗的方式，使其能在较长的运行中优先处理工作。
在 Claude Code 中：新的 /ultrareview斜杠命令会产生一个专门的审查会话，通读更改并标记细心的审查者会发现的问题和设计缺陷。我们为 Pro 和 Max 级别的 Claude Code 用户提供三次免费的 ultrareview 试用。此外，我们已将自动模式扩展到 Max 用户。自动模式是一种新的权限选项，Claude 可以代表您做出决定，这意味着您可以运行更长的任务，减少中断，并且风险比选择跳过所有权限要低。

从 Opus 4.6 迁移到 Opus 4.7

Opus 4.7 是 Opus 4.6 的直接升级版，但有两个变化值得规划，因为它们会影响 token 使用量。首先，Opus 4.7 使用了更新的分词器，改进了模型处理文本的方式。代价是相同的输入可能映射到更多的 token——大约 1.0–1.35 倍，具体取决于内容类型。其次，Opus 4.7 在更高的努力级别上思考更多，尤其是在智能体设置中的后续轮次。这提高了其在难题上的可靠性，但也意味着它会产生更多的输出 token。

用户可以通过多种方式控制 token 使用量：使用努力参数、调整任务预算，或提示模型更简洁。在我们自己的测试中，净效果是有利的——在内部编程评估中，所有努力级别的 token 使用量都有所改善，如下所示——但我们建议在实际流量上测量差异。我们编写了一份迁移指南，提供了从 Opus 4.6 升级到 Opus 4.7 的进一步建议。

内部智能体编程评估中分数与 token 使用量关系图

Anthropic 的最新模型 Claude Opus 4.7 现已全面开放使用。

Claude Opus 4.7 基准测试表现对比图

希望将 Opus 4.7 用于合法网络安全目的（如漏洞研究、渗透测试和红队演练）的安全专业人士，欢迎加入我们的新网络安全验证计划。

测试 Claude Opus 4.7

Claude Opus 4.7 从我们的早期访问测试者那里获得了强烈反馈。以下是早期测试的一些亮点和说明：

指令遵循。Opus 4.7 在遵循指令方面有显著提升。有趣的是，这意味着为早期模型编写的提示词有时现在会产生意想不到的结果：以前的模型会宽松地解释指令或完全跳过某些部分，而 Opus 4.7 会严格按照指令执行。用户应相应地重新调整他们的提示词和测试框架。
改进的多模态支持。Opus 4.7 对高分辨率图像的视觉能力更强：它可以接受长边最多 2,576 像素的图像（约 375 万像素），是之前 Claude 模型的三倍多。这为依赖精细视觉细节的多模态应用开辟了广阔空间：计算机使用智能体读取密集的屏幕截图、从复杂图表中提取数据，以及需要像素级参考的工作。
实际工作。除了在金融智能体评估中取得最先进的分数（见上表），我们的内部测试显示 Opus 4.7 比 Opus 4.6 更有效的金融分析师，能生成严谨的分析和模型、更专业的演示文稿，并在任务间实现更紧密的整合。Opus 4.7 在 GDPval-AA 上也处于领先水平，这是一个第三方评估，涵盖金融、法律等领域的具有经济价值的知识工作。
记忆。Opus 4.7 更擅长使用基于文件系统的记忆。它能在长期、多会话的工作中记住重要笔记，并利用它们来推进新任务，从而减少前期所需的上下文。

下面的图表展示了我们在预发布测试中，跨多个不同领域的更多评估结果：

办公室任务评估结果

视觉评估结果

文档推理评估结果

长上下文推理评估结果

生物学评估结果

长期连贯性评估结果

编程评估结果

安全与对齐

整体未对齐行为评分图

今日同步发布

除了 Claude Opus 4.7 本身，我们还发布了以下更新：

更多努力级别控制：Opus 4.7 引入了新的 xhigh（“特高”）努力级别，介于 high 和 max 之间，让用户能更精细地控制在难题上的推理与延迟之间的权衡。在 Claude Code 中，我们已将所有计划的默认努力级别提升至 xhigh。在测试 Opus 4.7 用于编程和智能体用例时，我们建议从 high 或 xhigh 努力级别开始。
在 Claude 平台（API）上：除了支持更高分辨率的图像，我们还推出了任务预算的公开测试版，为开发者提供一种引导 Claude token 消耗的方式，使其能在较长的运行中优先处理工作。
在 Claude Code 中：新的 /ultrareview斜杠命令会产生一个专门的审查会话，通读更改并标记细心的审查者会发现的问题和设计缺陷。我们为 Pro 和 Max 级别的 Claude Code 用户提供三次免费的 ultrareview 试用。此外，我们已将自动模式扩展到 Max 用户。自动模式是一种新的权限选项，Claude 可以代表您做出决定，这意味着您可以运行更长的任务，减少中断，并且风险比选择跳过所有权限要低。

从 Opus 4.6 迁移到 Opus 4.7

内部智能体编程评估中分数与 token 使用量关系图

Claude Opus 4.7 正式发布，编程能力大幅提升

测试 Claude Opus 4.7

安全与对齐

今日同步发布

从 Opus 4.6 迁移到 Opus 4.7

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 发布五项原则，回应安全与治理争议

AI行业2026中期选举豪掷3亿美元影响政策

DeepSeek将API价格降至原来的十分之一，加剧AI价格战

水中猎铀！中国科学家研发出会游动的微型材料

苹果新任CEO上任即推折叠屏iPhone，售价超2000美元

马斯克X Money即将上线，6%高收益存款+金属借记卡

中国科学家造出全球首款零排放煤炭燃料电池

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

免费获取 AI 落地指南

Claude Opus 4.7 正式发布，编程能力大幅提升

测试 Claude Opus 4.7

安全与对齐

今日同步发布

从 Opus 4.6 迁移到 Opus 4.7

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 发布五项原则，回应安全与治理争议

AI行业2026中期选举豪掷3亿美元影响政策

DeepSeek将API价格降至原来的十分之一，加剧AI价格战

水中猎铀！中国科学家研发出会游动的微型材料

苹果新任CEO上任即推折叠屏iPhone，售价超2000美元

马斯克X Money即将上线，6%高收益存款+金属借记卡

中国科学家造出全球首款零排放煤炭燃料电池

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

免费获取 AI 落地指南