Anthropic 推出 Claude Opus 4.8：更强协作与诚实性

Anthropic 将 Claude Opus 升级为新版本：Claude Opus 4.8。它在 Opus 4.7 基础上全面提升了基准测试成绩，成为更高效的协作者。即日起可用，价格不变。

Opus 4.8 的发布还伴随多项新功能。claude.ai 用户现在可以控制 Claude 在任务中投入的精力。Claude Code 新增“动态工作流”功能，使其能够处理超大规模问题。Opus 4.8 的快模式——模型能以 2.5 倍速度运行——成本比前代模型降低了三分之二。

Opus 4.8 的能力

下表展示了 Opus 4.8 与其前代及竞品在编码、智能体技能、推理和实际知识工作测试中的对比。更多细节及更广泛的能力评估请参阅 Claude Opus 4.8 系统卡。

Claude Opus 4.8 性能对比图表

与 Opus 4.8 协作

早期测试者发现，Claude Opus 4.8 在执行智能体任务时更可靠、判断更精准。以下是部分测试者的评价：

logo

Claude Opus 4.8 的判断力明显更好。在 Claude Code 中，它能提出正确的问题，发现自身错误，在计划不周时提出质疑，并在做出重大变更前，通过复杂的多服务探索逐步建立信心。这是一款非常适合构建的优秀模型。

logo

在我们的 Super-Agent 基准测试中，Claude Opus 4.8 是唯一一个端到端完成所有案例的模型，超越了之前的 Opus 模型，且在成本上与 GPT-5.5 持平。在翻译、深度研究、幻灯片制作和分析等智能体产品中，它提供了强大的可靠性。

logo

在 CursorBench 上，Claude Opus 4.8 在所有精力级别上都超越了之前的 Opus 模型。工具调用效率显著提升，以更少的步骤实现同等智能，并且能端到端完成复杂任务。

logo

Claude Opus 4.8 在我们的法律智能体基准测试中取得了最高分，并且是首个在全通过标准上突破 10% 的模型。对于实质性法律工作，这种准确率提升直接转化为客户可以安心交托的实际律师工作量。

logo

Claude Opus 4.8 感觉是 Opus 4.7 的一次重大“生活质量”升级：速度更快，协作更顺畅，在长对话中更好地保持上下文和风格倾向。在那些需要同时兼顾语气、品味和技术执行的任务中，Opus 4.8 是我持续信赖的模型。

logo

Claude Opus 4.8 是我们测试过的最强的计算机使用和浏览器智能体模型，在 Online-Mind2Web 上得分 84%，相比 Opus 4.7 和 GPT-5.5 有显著提升。它能保持自省和专注，满足客户对智能体工作负载端到端可靠性的要求。

logo

Claude Opus 4.8 能干净利落地使用工具，并以我们自主工程工作负载所需的稳定性遵循指令，使其能够继续无人值守地运行。它改进了 Opus 4.6，并修复了我们在 Opus 4.7 中看到的注释冗长和工具调用问题。Anthropic 的这次发布直接转化为在 Devin 上构建的工程师们更快的功能提升。

logo

在我们的长期评估中，Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成得更快，输出更丰富、信息更密集。总体而言，信噪比明显更好。最大的区别在于 Opus 4.8 倾向于主动指出分析输入和输出中的问题，而其他模型通常忽略这一点，留给用户去发现。

logo

在 CoCounsel Legal 中，与之前的 Opus 模型相比，Claude Opus 4.8 在一致性和推理质量方面带来了有意义的改进。对于我们客户所依赖的高风险专业工作流程，这种可靠性至关重要。当我们为法律和税务专业人士构建具有信托级可靠性的人工智能系统时，像这样的进步有助于提高现实工作流程中可信 AI 性能的标准。

logo

Claude Opus 4.8 为企业 AI 树立了新标杆。在 Databricks 的数据和知识工作 AI 智能体 Genie 中，新的 Opus 模型实现了智能体推理的阶跃变化，比任何之前的 Opus 模型更快地处理更深层次、多步骤的问题。其多模态能力还让 Genie 能够直接推理 PDF、图表和其他非结构化内容，且 token 成本比 Opus 4.7 低 61%。

logo

在 Hebbia 编排器的财务文档工作流程中，Claude Opus 4.8 提供了与 Opus 4.7 相同的强大质量，同时引用精度明显更高，检索时的 token 效率也更高，这在我们客户每天处理的高密度申报文件中表现极为出色。

Opus 4.8 最显著的改进之一是它的诚实性。我们训练所有模型保持诚实——例如，避免做出无法支持的断言。但 AI 模型的一个普遍问题是它们有时会草率下结论，自信地声称在工作上取得了进展，尽管证据不足。早期测试者报告说，Opus 4.8 更倾向于指出其工作中的不确定性，而不太可能做出没有根据的声明。这一点在我们的评估中得到了证实，评估显示 Opus 4.8 对其编写的代码中存在缺陷却不加指出的可能性，比前代降低了约四倍。

与往常一样，我们在发布前对模型进行了详细的对齐评估。在积极特质方面，我们的对齐团队得出结论，Opus 4.8 “在亲社会特质（如支持用户自主性和以用户最佳利益行事）的衡量上达到了新高。”评估还显示，Opus 4.8 的不对齐行为（如欺骗或协助滥用）发生率远低于 Opus 4.7，并且与我们对齐最好的模型 Claude Mythos Preview 相似。完整的对齐评估，以及一整套部署前的安全测试，均已在 Claude Opus 4.8 系统卡中报告。

Claude Opus 4.8 系统卡封面

今日同步发布

除了 Claude Opus 4.8，我们还进行了以下更新：

动态工作流。这项新功能以研究预览形式提供，允许 Claude 在 Claude Code 中承担更大的任务。Claude 可以规划工作，然后在单个会话中运行数百个并行子智能体（使用 Opus 4.8 时，智能体可以运行更长时间）。在向用户报告之前，它会验证输出。例如，使用 Opus 4.8 的 Claude Code 现在可以从启动到合并完成跨数十万行代码的代码库迁移，并将现有测试套件作为基准。更多关于动态工作流的信息（适用于 Enterprise、Team 和 Max 计划的 Claude Code），请参见此博文。
claude.ai 和 Cowork 中的精力控制。模型选择器旁边新增了一个控制选项，允许用户选择 Claude 在响应中投入多少精力。在更高的精力设置下，Claude 会更频繁、更深入地思考，以提供更好的响应。在较低的精力设置下，Claude 响应更快，并且用户的使用速率限制消耗更慢。用户现在可以自主选择——精力控制适用于所有计划。
Messages API 现在接受 messages 数组内的系统条目。开发者可以在任务中途更新 Claude 的指令，而无需破坏提示缓存或通过用户回合进行路由。这可以在特定框架中用于在智能体运行时更新权限、token 预算或环境上下文。

视频：动态工作流演示

关于精力设置的一点说明

Opus 4.8 默认使用高精力，我们认为这是质量和用户体验的最佳平衡。在编码任务上，此精力级别使用的 token 数量与 Opus 4.7 的默认设置相似，但性能更好。用户可以选择“额外”（Claude Code 中为“xhigh”）或“最大”，模型将花费更多 token 以获得更好的结果；我们建议在困难任务和长时间异步工作流程中使用“额外”。我们提高了 Claude Code 中的速率限制，以适配更高精力级别带来的更高 token 使用量；用户可以根据自己的具体项目选择合适设置。

下一步计划？

用户会发现 Opus 4.8 相比前代是一个适度但切实的改进。但仍有更多工作要做：我们正在开发和发布能够以更低成本提供与 Opus 相同许多能力的模型。

不仅如此，我们还计划发布一个比 Opus 更具智能的新型模型。作为 Project Glasswing 的一部分，目前有少数组织正在使用 Claude Mythos Preview 进行网络安全工作。这种能力水平的模型需要更强的网络安全防护措施才能普遍发布。我们正在快速推进这些防护措施的开发，并预计在未来几周内将 Mythos 类模型带给所有客户。

可用性

Claude Opus 4.8 今日起全面可用。常规使用的定价与 Opus 4.7 相同：输入 token 每百万个 5 美元，输出 token 每百万个 25 美元。快模式定价为输入 token 每百万个 10 美元，输出 token 每百万个 50 美元。开发者可通过 Claude API 使用 claude-opus-4-8。

Anthropic 将 Claude Opus 升级为新版本：Claude Opus 4.8。它在 Opus 4.7 基础上全面提升了基准测试成绩，成为更高效的协作者。即日起可用，价格不变。

Opus 4.8 的能力

Claude Opus 4.8 性能对比图表

与 Opus 4.8 协作

早期测试者发现，Claude Opus 4.8 在执行智能体任务时更可靠、判断更精准。以下是部分测试者的评价：

logo

Claude Opus 4.8 的判断力明显更好。在 Claude Code 中，它能提出正确的问题，发现自身错误，在计划不周时提出质疑，并在做出重大变更前，通过复杂的多服务探索逐步建立信心。这是一款非常适合构建的优秀模型。

logo

在我们的 Super-Agent 基准测试中，Claude Opus 4.8 是唯一一个端到端完成所有案例的模型，超越了之前的 Opus 模型，且在成本上与 GPT-5.5 持平。在翻译、深度研究、幻灯片制作和分析等智能体产品中，它提供了强大的可靠性。

logo

在 CursorBench 上，Claude Opus 4.8 在所有精力级别上都超越了之前的 Opus 模型。工具调用效率显著提升，以更少的步骤实现同等智能，并且能端到端完成复杂任务。

logo

Claude Opus 4.8 在我们的法律智能体基准测试中取得了最高分，并且是首个在全通过标准上突破 10% 的模型。对于实质性法律工作，这种准确率提升直接转化为客户可以安心交托的实际律师工作量。

logo

Claude Opus 4.8 感觉是 Opus 4.7 的一次重大“生活质量”升级：速度更快，协作更顺畅，在长对话中更好地保持上下文和风格倾向。在那些需要同时兼顾语气、品味和技术执行的任务中，Opus 4.8 是我持续信赖的模型。

logo

Claude Opus 4.8 是我们测试过的最强的计算机使用和浏览器智能体模型，在 Online-Mind2Web 上得分 84%，相比 Opus 4.7 和 GPT-5.5 有显著提升。它能保持自省和专注，满足客户对智能体工作负载端到端可靠性的要求。

logo

Claude Opus 4.8 能干净利落地使用工具，并以我们自主工程工作负载所需的稳定性遵循指令，使其能够继续无人值守地运行。它改进了 Opus 4.6，并修复了我们在 Opus 4.7 中看到的注释冗长和工具调用问题。Anthropic 的这次发布直接转化为在 Devin 上构建的工程师们更快的功能提升。

logo

在我们的长期评估中，Claude Opus 4.8 的分析质量始终高于之前的 Opus 模型。它完成得更快，输出更丰富、信息更密集。总体而言，信噪比明显更好。最大的区别在于 Opus 4.8 倾向于主动指出分析输入和输出中的问题，而其他模型通常忽略这一点，留给用户去发现。

logo

在 CoCounsel Legal 中，与之前的 Opus 模型相比，Claude Opus 4.8 在一致性和推理质量方面带来了有意义的改进。对于我们客户所依赖的高风险专业工作流程，这种可靠性至关重要。当我们为法律和税务专业人士构建具有信托级可靠性的人工智能系统时，像这样的进步有助于提高现实工作流程中可信 AI 性能的标准。

logo

Claude Opus 4.8 为企业 AI 树立了新标杆。在 Databricks 的数据和知识工作 AI 智能体 Genie 中，新的 Opus 模型实现了智能体推理的阶跃变化，比任何之前的 Opus 模型更快地处理更深层次、多步骤的问题。其多模态能力还让 Genie 能够直接推理 PDF、图表和其他非结构化内容，且 token 成本比 Opus 4.7 低 61%。

logo

在 Hebbia 编排器的财务文档工作流程中，Claude Opus 4.8 提供了与 Opus 4.7 相同的强大质量，同时引用精度明显更高，检索时的 token 效率也更高，这在我们客户每天处理的高密度申报文件中表现极为出色。

Claude Opus 4.8 系统卡封面

今日同步发布

除了 Claude Opus 4.8，我们还进行了以下更新：

动态工作流。这项新功能以研究预览形式提供，允许 Claude 在 Claude Code 中承担更大的任务。Claude 可以规划工作，然后在单个会话中运行数百个并行子智能体（使用 Opus 4.8 时，智能体可以运行更长时间）。在向用户报告之前，它会验证输出。例如，使用 Opus 4.8 的 Claude Code 现在可以从启动到合并完成跨数十万行代码的代码库迁移，并将现有测试套件作为基准。更多关于动态工作流的信息（适用于 Enterprise、Team 和 Max 计划的 Claude Code），请参见此博文。
claude.ai 和 Cowork 中的精力控制。模型选择器旁边新增了一个控制选项，允许用户选择 Claude 在响应中投入多少精力。在更高的精力设置下，Claude 会更频繁、更深入地思考，以提供更好的响应。在较低的精力设置下，Claude 响应更快，并且用户的使用速率限制消耗更慢。用户现在可以自主选择——精力控制适用于所有计划。
Messages API 现在接受 messages 数组内的系统条目。开发者可以在任务中途更新 Claude 的指令，而无需破坏提示缓存或通过用户回合进行路由。这可以在特定框架中用于在智能体运行时更新权限、token 预算或环境上下文。

视频：动态工作流演示

关于精力设置的一点说明

下一步计划？

用户会发现 Opus 4.8 相比前代是一个适度但切实的改进。但仍有更多工作要做：我们正在开发和发布能够以更低成本提供与 Opus 相同许多能力的模型。

Anthropic 推出 Claude Opus 4.8：更强协作与诚实性

Opus 4.8 的能力

与 Opus 4.8 协作

今日同步发布

关于精力设置的一点说明

下一步计划？

可用性

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic完成H轮融资650亿美元，估值9650亿

OpenAI 发布前沿治理框架

FDA顾问建议新冠疫苗针对XFG变异株

以色列欧盟施压Anthropic开放Mythos模型

Waymo 在三城推出 Ojai 自动驾驶出租车

台湾逮捕三名涉嫌走私英伟达芯片嫌犯

苹果确认使用Nvidia芯片新Siri将借力Google Cloud

Salesforce一季度豪掷275亿美元回购，押注AI智能体

免费获取 AI 落地指南

Anthropic 推出 Claude Opus 4.8：更强协作与诚实性

Opus 4.8 的能力

与 Opus 4.8 协作

今日同步发布

关于精力设置的一点说明

下一步计划？

可用性

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic完成H轮融资650亿美元，估值9650亿

OpenAI 发布前沿治理框架

FDA顾问建议新冠疫苗针对XFG变异株

以色列欧盟施压Anthropic开放Mythos模型

Waymo 在三城推出 Ojai 自动驾驶出租车

台湾逮捕三名涉嫌走私英伟达芯片嫌犯

苹果确认使用Nvidia芯片新Siri将借力Google Cloud

Salesforce一季度豪掷275亿美元回购，押注AI智能体

免费获取 AI 落地指南

Opus 4.8 的能力

与 Opus 4.8 协作

今日同步发布

关于精力设置的一点说明

下一步计划？

可用性

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic完成H轮融资650亿美元，估值9650亿

OpenAI 发布前沿治理框架

FDA顾问建议新冠疫苗针对XFG变异株

以色列欧盟施压Anthropic开放Mythos模型

Waymo 在三城推出 Ojai 自动驾驶出租车

台湾逮捕三名涉嫌走私英伟达芯片嫌犯

苹果确认使用Nvidia芯片 新Siri将借力Google Cloud

Salesforce一季度豪掷275亿美元回购，押注AI智能体

免费获取 AI 落地指南

Opus 4.8 的能力

与 Opus 4.8 协作

今日同步发布

关于精力设置的一点说明

下一步计划？

可用性

想了解 AI 如何助力您的企业？

24小时热榜

Anthropic完成H轮融资650亿美元，估值9650亿

OpenAI 发布前沿治理框架

FDA顾问建议新冠疫苗针对XFG变异株

以色列欧盟施压Anthropic开放Mythos模型

Waymo 在三城推出 Ojai 自动驾驶出租车

台湾逮捕三名涉嫌走私英伟达芯片嫌犯

苹果确认使用Nvidia芯片 新Siri将借力Google Cloud

Salesforce一季度豪掷275亿美元回购，押注AI智能体

免费获取 AI 落地指南

苹果确认使用Nvidia芯片新Siri将借力Google Cloud

苹果确认使用Nvidia芯片新Siri将借力Google Cloud