Anthropic 发布 Claude Sonnet 4.6，性能逼近旗舰模型

产品2026年3月3日· 原作者：AccessPath 研究院· 6 分钟阅读0 阅读

Anthropic 正式推出 Claude Sonnet 4.6，这是其 Sonnet 系列中能力最强的模型。它在编码、计算机使用、长上下文推理、智能体规划等方面全面升级，性能接近旗舰模型 Opus 4.6，但价格更低，并已作为免费和 Pro 计划的默认模型上线。

Claude Sonnet 4.6 发布

Claude Sonnet 4.6 是我们迄今为止能力最强的 Sonnet 模型。它在编码、计算机使用、长上下文推理、智能体规划、知识工作和设计等领域的技能得到了全面升级。Sonnet 4.6 还具备测试版的 100 万 token 上下文窗口。

对于我们的免费和 Pro 计划用户，Claude Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。定价与 Sonnet 4.5 保持一致，起价为每百万 token 3/15 美元。

Sonnet 4.6 为更多用户带来了显著提升的编码能力。在一致性、指令遵循等方面的改进，使得获得早期访问权限的开发人员明显更偏爱 Sonnet 4.6，而不是其前代产品。他们甚至经常更喜欢它，而不是我们 2025 年 11 月发布的最智能模型 Claude Opus 4.5。

以前需要动用 Opus 级别模型才能实现的性能——包括在现实世界、具有经济价值的办公任务上——现在 Sonnet 4.6 就能提供。与之前的 Sonnet 模型相比，该模型在计算机使用技能方面也显示出重大改进。

与每一款新的 Claude 模型一样，我们对 Sonnet 4.6 进行了广泛的安全评估，总体显示它与其他近期 Claude 模型一样安全，甚至更安全。我们的安全研究人员得出结论，Sonnet 4.6 具有“大体上温暖、诚实、亲社会且有时幽默的性格，非常强的安全行为，并且没有迹象表明在高风险形式的错位方面存在重大问题。”

计算机使用

几乎每个组织都有难以自动化的软件：那些在现代接口（如 API）出现之前构建的专用系统和工具。要让 AI 使用此类软件，用户以前必须构建定制的连接器。但是，一个能够像人一样使用计算机的模型改变了这个等式。

2024 年 10 月，我们率先推出了一个通用计算机使用模型。当时我们写道，它“仍然是实验性的——有时笨拙且容易出错”，但我们预计会快速改进。OSWorld 是 AI 计算机使用的标准基准测试，它展示了我们的模型已经走了多远。它提供了在模拟计算机上运行的数百个真实软件（Chrome、LibreOffice、VS Code 等）的任务。没有特殊的 API 或专门构建的连接器；模型看到计算机并以与人非常相似的方式与之交互：点击（虚拟）鼠标并在（虚拟）键盘上打字。

在十六个月的时间里，我们的 Sonnet 模型在 OSWorld 上稳步取得进步。这些改进也体现在基准测试之外：早期的 Sonnet 4.6 用户在诸如导航复杂电子表格或填写多步骤网页表单等任务中看到了人类水平的能力，然后才在多个浏览器标签页中整合所有内容。

该模型在使用计算机方面当然仍然落后于最熟练的人类。但进步的速度仍然显著。这意味着计算机使用对于一系列工作任务来说更加有用——并且能力更强的模型触手可及。

多个 Sonnet 模型在 OSWorld 基准测试上的得分对比图

Claude Sonnet 4.5 之前的得分是在原始 OSWorld 上测量的；从 Sonnet 4.5 开始，使用 OSWorld-Verified。OSWorld-Verified（2025 年 7 月发布）是原始 OSWorld 基准测试的就地升级，更新了任务质量、评估评分和基础设施。

与此同时，计算机使用也带来了风险：恶意行为者可能试图通过在网站上隐藏指令（即所谓的提示词注入攻击）来劫持模型。我们一直在努力提高模型对提示词注入的抵抗力——我们的安全评估显示，Sonnet 4.6 与其前代产品 Sonnet 4.5 相比有重大改进，并且表现与 Opus 4.6 相似。您可以在我们的 API 文档中找到更多关于如何减轻提示词注入和其他安全问题的信息。

评估 Claude Sonnet 4.6

除了计算机使用，Claude Sonnet 4.6 在各项基准测试中都有所改进。它以更实惠的价格点接近 Opus 级别的智能水平，使其对更多任务来说更加实用。您可以在我们的系统卡中找到关于 Sonnet 4.6 能力及其安全相关行为的完整讨论；以下是与其他近期模型的总结和比较。

流行基准测试表及 Sonnet 4.6 相对于其他前沿模型的性能表现

在 Claude Code 中，我们的早期测试发现，用户大约 70% 的时间更喜欢 Sonnet 4.6 而不是 Sonnet 4.5。用户报告称，它在修改代码前更有效地阅读上下文，并整合共享逻辑而不是重复它。这使得在长时间会话中使用它比早期模型更少令人沮丧。

用户甚至 59% 的时间更喜欢 Sonnet 4.6 而不是我们 11 月的前沿模型 Opus 4.5。他们认为 Sonnet 4.6 明显更不容易过度工程化和“懒惰”，并且在遵循指令方面明显更好。他们报告了更少的虚假成功声明、更少的幻觉，以及在多步骤任务上更一致的执行。

Sonnet 4.6 的 100 万 token 上下文窗口足以在单个请求中容纳整个代码库、冗长的合同或数十篇研究论文。更重要的是，Sonnet 4.6 在所有上下文中都能_有效推理_。这可以使它在长期规划方面表现得更好。我们在Vending-Bench Arena评估中特别清楚地看到了这一点，该评估测试模型如何随时间运行一个（模拟）业务——并且包含竞争元素，不同的 AI 模型相互对抗以获取最大利润。

Sonnet 4.6 开发了一个有趣的新策略：它在最初的十个模拟月中大量投资于产能，支出明显超过竞争对手，然后在最后阶段急剧转向专注于盈利能力。这个转向的时机帮助它远远领先于竞争对手。

Sonnet 4.6 在 Vending-Bench Arena 上的表现

Sonnet 4.6 通过在早期投资产能，然后在最后阶段转向盈利能力，在 Vending-Bench Arena 上优于 Sonnet 4.5。

早期客户也报告了广泛的改进，其中前端代码和财务分析尤为突出。客户独立描述 Sonnet 4.6 的视觉输出明显更加精致，具有更好的布局、动画和设计感，优于之前的模型。客户还需要更少的迭代轮次就能达到生产质量的结果。

Databricks 标志

Claude Sonnet 4.6 在 OfficeQA 上匹配 Opus 4.6 的性能，该测试衡量模型阅读企业文档（图表、PDF、表格）、提取正确事实并从这些事实中推理的能力。对于文档理解工作负载来说，这是一个有意义的升级。

Hanlin Tang

Databricks 神经网络首席技术官

Replit 标志

Claude Sonnet 4.6 的性能成本比非常出色——很难夸大 Claude 模型最近几个月进化得有多快。Sonnet 4.6 在我们的编排评估中表现出色，处理我们最复杂的智能体工作负载，并且您越推动努力设置，它就越能改进。

Michele Catasta

Replit 总裁

Cursor 标志

Claude Sonnet 4.6 在各个方面都比 Sonnet 4.5 有明显改进，包括长期任务和更困难的问题。

Michael Truell

Cursor 联合创始人兼首席执行官

GitHub 标志

从一开始，Claude Sonnet 4.6 就已经在复杂的代码修复方面表现出色，尤其是在需要跨大型代码库搜索时。对于大规模运行智能体编码的团队，我们看到了很高的解决率和开发人员需要的那种一致性。

Joe Binder

GitHub 产品副总裁

Cognition 标志

Claude Sonnet 4.6 在错误检测方面有意义地缩小了与 Opus 的差距，让我们可以并行运行更多审查器，捕获更广泛的错误，并且所有这些都无需增加成本。

Scott Wu

Cognition 首席执行官

产品更新

在 Claude 开发者平台上，Sonnet 4.6 支持自适应思考和扩展思考，以及测试版的上下文压缩，当对话接近限制时，它会自动总结较旧的上下文，从而增加有效上下文长度。

在我们的 API 上，Claude 的网络搜索和获取工具现在会自动编写和执行代码来过滤和处理搜索结果，只保留相关内容在上下文中——既提高了响应质量，又提高了 token 效率。此外，代码执行、记忆、编程工具调用、工具搜索和工具使用示例现已全面可用。

Sonnet 4.6 在任何思考努力下都能提供强劲性能，即使关闭扩展思考。作为从 Sonnet 4.5 迁移的一部分，我们建议探索整个范围，以根据您构建的内容找到速度和可靠性能的理想平衡。

我们发现，对于需要最深层次推理的任务，例如代码库重构、在工作流中协调多个智能体以及那些_恰到好处_至关重要的任务，Opus 4.6 仍然是最强的选择。

对于Claude in Excel用户，我们的插件现在支持 MCP 连接器，让 Claude 可以与您日常使用的其他工具（如 S&P Global、LSEG、Daloopa、PitchBook、Moody's 和 FactSet）协同工作。您可以要求 Claude 从电子表格外部拉取上下文，而无需离开 Excel。如果您已经在 Claude.ai 中设置了 MCP 连接器，这些相同的连接将自动在 Excel 中工作。此功能适用于 Pro、Max、Team 和 Enterprise 计划。