前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Claude Opus 4.7 正式发布,编程能力大幅提升

产品2026年4月16日· 原作者:AccessPath 研究院· 4 分钟阅读0 阅读

Anthropic 正式发布 Claude Opus 4.7 大语言模型。相比前代 Opus 4.6,新模型在高级软件工程任务上表现显著提升,尤其在处理复杂、长期任务时展现出更强的严谨性和一致性。它还支持更高分辨率的图像理解,并在多项基准测试中超越 Opus 4.6。模型现已通过 Claude 所有产品及主流云平台提供。

Anthropic 的最新模型 Claude Opus 4.7 现已全面开放使用。

Opus 4.7 在高级软件工程方面相比 Opus 4.6 有显著提升,尤其是在最困难的任务上。用户反馈称,他们现在可以放心地将最棘手的编程工作——那些以前需要密切监督的任务——交给 Opus 4.7。Opus 4.7 能够严谨、一致地处理复杂、长期运行的任务,精确遵循指令,并在汇报前设计方法来验证自己的输出。

该模型的视觉能力也大幅增强:它可以以更高分辨率查看图像。在完成专业任务时,它的品味和创造力更佳,能生成更高质量的界面、幻灯片和文档。虽然其整体能力不如 Anthropic 最强大的模型 Claude Mythos Preview,但在一系列基准测试中,Opus 4.7 的表现优于 Opus 4.6:

Claude Opus 4.7 基准测试表现对比图

上周我们宣布了Project Glasswing,强调了 AI 模型在网络安全方面的风险和益处。我们表示将限制 Claude Mythos Preview 的发布范围,并首先在能力较弱的模型上测试新的网络安全防护措施。Opus 4.7 就是第一个这样的模型:其网络安全能力不如 Mythos Preview 先进(实际上,在训练过程中,我们尝试过有差别地降低这些能力)。我们发布 Opus 4.7 时配备了防护措施,能自动检测并阻止表明被禁止或高风险的网络安全用途的请求。我们从这些防护措施的实际部署中学到的经验,将帮助我们朝着最终广泛发布 Mythos 级别模型的目标迈进。

希望将 Opus 4.7 用于合法网络安全目的(如漏洞研究、渗透测试和红队演练)的安全专业人士,欢迎加入我们的新网络安全验证计划。

Opus 4.7 现已通过所有 Claude 产品、我们的 API、Amazon Bedrock、Google Cloud 的 Vertex AI 和 Microsoft Foundry 提供。定价与 Opus 4.6 相同:输入 token 每百万个 5 美元,输出 token 每百万个 25 美元。开发者可以通过 Claude API 使用 claude-opus-4-7。

测试 Claude Opus 4.7

Claude Opus 4.7 从我们的早期访问测试者那里获得了强烈反馈。以下是早期测试的一些亮点和说明:

  • 指令遵循。Opus 4.7 在遵循指令方面有显著提升。有趣的是,这意味着为早期模型编写的提示词有时现在会产生意想不到的结果:以前的模型会宽松地解释指令或完全跳过某些部分,而 Opus 4.7 会严格按照指令执行。用户应相应地重新调整他们的提示词和测试框架。
  • 改进的多模态支持。Opus 4.7 对高分辨率图像的视觉能力更强:它可以接受长边最多 2,576 像素的图像(约 375 万像素),是之前 Claude 模型的三倍多。这为依赖精细视觉细节的多模态应用开辟了广阔空间:计算机使用智能体读取密集的屏幕截图、从复杂图表中提取数据,以及需要像素级参考的工作。
  • 实际工作。除了在金融智能体评估中取得最先进的分数(见上表),我们的内部测试显示 Opus 4.7 比 Opus 4.6 更有效的金融分析师,能生成严谨的分析和模型、更专业的演示文稿,并在任务间实现更紧密的整合。Opus 4.7 在 GDPval-AA 上也处于领先水平,这是一个第三方评估,涵盖金融、法律等领域的具有经济价值的知识工作。
  • 记忆。Opus 4.7 更擅长使用基于文件系统的记忆。它能在长期、多会话的工作中记住重要笔记,并利用它们来推进新任务,从而减少前期所需的上下文。

下面的图表展示了我们在预发布测试中,跨多个不同领域的更多评估结果:

办公室任务评估结果

视觉评估结果

文档推理评估结果

长上下文推理评估结果

生物学评估结果

长期连贯性评估结果

编程评估结果

安全与对齐

总体而言,Opus 4.7 显示出与 Opus 4.6 相似的安全特性:我们的评估显示,欺骗、谄媚和配合滥用等令人担忧的行为发生率较低。在某些指标上,如诚实度和抵抗恶意“提示词注入”攻击的能力,Opus 4.7 比 Opus 4.6 有所改进;在其他方面(如其倾向于对受控物质提供过于详细的减害建议),Opus 4.7 稍弱一些。我们的对齐评估结论是,该模型“基本对齐良好且值得信赖,但其行为并非完全理想”。请注意,根据我们的评估,Mythos Preview 仍然是我们训练过的对齐性最好的模型。我们的安全评估在 Claude Opus 4.7 系统卡 中有详细讨论。

整体未对齐行为评分图

今日同步发布

除了 Claude Opus 4.7 本身,我们还发布了以下更新:

  • 更多努力级别控制:Opus 4.7 引入了新的 xhigh(“特高”)努力级别,介于 high 和 max 之间,让用户能更精细地控制在难题上的推理与延迟之间的权衡。在 Claude Code 中,我们已将所有计划的默认努力级别提升至 xhigh。在测试 Opus 4.7 用于编程和智能体用例时,我们建议从 high 或 xhigh 努力级别开始。
  • 在 Claude 平台(API)上:除了支持更高分辨率的图像,我们还推出了任务预算的公开测试版,为开发者提供一种引导 Claude token 消耗的方式,使其能在较长的运行中优先处理工作。
  • 在 Claude Code 中:新的 /ultrareview斜杠命令 会产生一个专门的审查会话,通读更改并标记细心的审查者会发现的问题和设计缺陷。我们为 Pro 和 Max 级别的 Claude Code 用户提供三次免费的 ultrareview 试用。此外,我们已将 自动模式 扩展到 Max 用户。自动模式是一种新的权限选项,Claude 可以代表您做出决定,这意味着您可以运行更长的任务,减少中断,并且风险比选择跳过所有权限要低。

从 Opus 4.6 迁移到 Opus 4.7

Opus 4.7 是 Opus 4.6 的直接升级版,但有两个变化值得规划,因为它们会影响 token 使用量。首先,Opus 4.7 使用了更新的分词器,改进了模型处理文本的方式。代价是相同的输入可能映射到更多的 token——大约 1.0–1.35 倍,具体取决于内容类型。其次,Opus 4.7 在更高的努力级别上思考更多,尤其是在智能体设置中的后续轮次。这提高了其在难题上的可靠性,但也意味着它会产生更多的输出 token。

用户可以通过多种方式控制 token 使用量:使用努力参数、调整任务预算,或提示模型更简洁。在我们自己的测试中,净效果是有利的——在内部编程评估中,所有努力级别的 token 使用量都有所改善,如下所示——但我们建议在实际流量上测量差异。我们编写了一份迁移指南,提供了从 Opus 4.6 升级到 Opus 4.7 的进一步建议。

内部智能体编程评估中分数与 token 使用量关系图

标签:AnthropicClaude Opus 4.7大语言模型软件工程

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

OpenAI 发布五项原则,回应安全与治理争议
TOP1

OpenAI 发布五项原则,回应安全与治理争议

AI行业2026中期选举豪掷3亿美元影响政策
TOP2

AI行业2026中期选举豪掷3亿美元影响政策

3

DeepSeek将API价格降至原来的十分之一,加剧AI价格战

2小时前
DeepSeek将API价格降至原来的十分之一,加剧AI价格战
4

水中猎铀!中国科学家研发出会游动的微型材料

2小时前
5

苹果新任CEO上任即推折叠屏iPhone,售价超2000美元

2小时前
苹果新任CEO上任即推折叠屏iPhone,售价超2000美元
6

马斯克X Money即将上线,6%高收益存款+金属借记卡

2小时前
马斯克X Money即将上线,6%高收益存款+金属借记卡
7

中国科学家造出全球首款零排放煤炭燃料电池

2小时前
中国科学家造出全球首款零排放煤炭燃料电池
8

Karpathy的LLM Wiki + 3.5 万Star的Graphify:企业级 RAG 缺的真是知识图谱?

2小时前
Karpathy的LLM Wiki + 3.5 万Star的Graphify:企业级 RAG 缺的真是知识图谱?
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款