Anthropic 发布 Claude Opus 4.8,在编码、智能体、推理等基准测试上全面超越前代。新版模型更诚实可靠,同时带来动态工作流、精力控制等新功能。价格不变,快模式成本降低三分之二。
Anthropic 将 Claude Opus 升级为新版本:Claude Opus 4.8。它在 Opus 4.7 基础上全面提升了基准测试成绩,成为更高效的协作者。即日起可用,价格不变。
Opus 4.8 的发布还伴随多项新功能。claude.ai 用户现在可以控制 Claude 在任务中投入的精力。Claude Code 新增“动态工作流”功能,使其能够处理超大规模问题。Opus 4.8 的快模式——模型能以 2.5 倍速度运行——成本比前代模型降低了三分之二。
下表展示了 Opus 4.8 与其前代及竞品在编码、智能体技能、推理和实际知识工作测试中的对比。更多细节及更广泛的能力评估请参阅 Claude Opus 4.8 系统卡。

早期测试者发现,Claude Opus 4.8 在执行智能体任务时更可靠、判断更精准。以下是部分测试者的评价:
Claude Opus 4.8 的判断力明显更好。在 Claude Code 中,它能提出正确的问题,发现自身错误,在计划不周时提出质疑,并在做出重大变更前,通过复杂的多服务探索逐步建立信心。这是一款非常适合构建的优秀模型。
在我们的 Super-Agent 基准测试中,Claude Opus 4.8 是唯一一个端到端完成所有案例的模型,超越了之前的 Opus 模型,且在成本上与 GPT-5.5 持平。在翻译、深度研究、幻灯片制作和分析等智能体产品中,它提供了强大的可靠性。
在 CursorBench 上,Claude Opus 4.8 在所有精力级别上都超越了之前的 Opus 模型。工具调用效率显著提升,以更少的步骤实现同等智能,并且能端到端完成复杂任务。
Claude Opus 4.8 在我们的法律智能体基准测试中取得了最高分,并且是首个在全通过标准上突破 10% 的模型。对于实质性法律工作,这种准确率提升直接转化为客户可以安心交托的实际律师工作量。
Claude Opus 4.8 感觉是 Opus 4.7 的一次重大“生活质量”升级:速度更快,协作更顺畅,在长对话中更好地保持上下文和风格倾向。在那些需要同时兼顾语气、品味和技术执行的任务中,Opus 4.8 是我持续信赖的模型。
Claude Opus 4.8 是我们测试过的最强的计算机使用和浏览器智能体模型,在 Online-Mind2Web 上得分 84%,相比 Opus 4.7 和 GPT-5.5 有显著提升。它能保持自省和专注,满足客户对智能体工作负载端到端可靠性的要求。
Claude Opus 4.8 能干净利落地使用工具,并以我们自主工程工作负载所需的稳定性遵循指令,使其能够继续无人值守地运行。它改进了 Opus 4.6,并修复了我们在 Opus 4.7 中看到的注释冗长和工具调用问题。Anthropic 的这次发布直接转化为在 Devin 上构建的工程师们更快的功能提升。
在我们的长期评估中,Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成得更快,输出更丰富、信息更密集。总体而言,信噪比明显更好。最大的区别在于 Opus 4.8 倾向于主动指出分析输入和输出中的问题,而其他模型通常忽略这一点,留给用户去发现。
在 CoCounsel Legal 中,与之前的 Opus 模型相比,Claude Opus 4.8 在一致性和推理质量方面带来了有意义的改进。对于我们客户所依赖的高风险专业工作流程,这种可靠性至关重要。当我们为法律和税务专业人士构建具有信托级可靠性的人工智能系统时,像这样的进步有助于提高现实工作流程中可信 AI 性能的标准。
Claude Opus 4.8 为企业 AI 树立了新标杆。在 Databricks 的数据和知识工作 AI 智能体 Genie 中,新的 Opus 模型实现了智能体推理的阶跃变化,比任何之前的 Opus 模型更快地处理更深层次、多步骤的问题。其多模态能力还让 Genie 能够直接推理 PDF、图表和其他非结构化内容,且 token 成本比 Opus 4.7 低 61%。
在 Hebbia 编排器的财务文档工作流程中,Claude Opus 4.8 提供了与 Opus 4.7 相同的强大质量,同时引用精度明显更高,检索时的 token 效率也更高,这在我们客户每天处理的高密度申报文件中表现极为出色。
Opus 4.8 最显著的改进之一是它的诚实性。我们训练所有模型保持诚实——例如,避免做出无法支持的断言。但 AI 模型的一个普遍问题是它们有时会草率下结论,自信地声称在工作上取得了进展,尽管证据不足。早期测试者报告说,Opus 4.8 更倾向于指出其工作中的不确定性,而不太可能做出没有根据的声明。这一点在我们的评估中得到了证实,评估显示 Opus 4.8 对其编写的代码中存在缺陷却不加指出的可能性,比前代降低了约四倍。
与往常一样,我们在发布前对模型进行了详细的对齐评估。在积极特质方面,我们的对齐团队得出结论,Opus 4.8 “在亲社会特质(如支持用户自主性和以用户最佳利益行事)的衡量上达到了新高。”评估还显示,Opus 4.8 的不对齐行为(如欺骗或协助滥用)发生率远低于 Opus 4.7,并且与我们对齐最好的模型 Claude Mythos Preview 相似。完整的对齐评估,以及一整套部署前的安全测试,均已在 Claude Opus 4.8 系统卡中报告。

除了 Claude Opus 4.8,我们还进行了以下更新:
Opus 4.8 默认使用高精力,我们认为这是质量和用户体验的最佳平衡。在编码任务上,此精力级别使用的 token 数量与 Opus 4.7 的默认设置相似,但性能更好。用户可以选择“额外”(Claude Code 中为“xhigh”)或“最大”,模型将花费更多 token 以获得更好的结果;我们建议在困难任务和长时间异步工作流程中使用“额外”。我们提高了 Claude Code 中的速率限制,以适配更高精力级别带来的更高 token 使用量;用户可以根据自己的具体项目选择合适设置。
用户会发现 Opus 4.8 相比前代是一个适度但切实的改进。但仍有更多工作要做:我们正在开发和发布能够以更低成本提供与 Opus 相同许多能力的模型。
不仅如此,我们还计划发布一个比 Opus 更具智能的新型模型。作为 Project Glasswing 的一部分,目前有少数组织正在使用 Claude Mythos Preview 进行网络安全工作。这种能力水平的模型需要更强的网络安全防护措施才能普遍发布。我们正在快速推进这些防护措施的开发,并预计在未来几周内将 Mythos 类模型带给所有客户。
Claude Opus 4.8 今日起全面可用。常规使用的定价与 Opus 4.7 相同:输入 token 每百万个 5 美元,输出 token 每百万个 25 美元。快模式定价为输入 token 每百万个 10 美元,输出 token 每百万个 50 美元。开发者可通过 Claude API 使用 claude-opus-4-8。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断