Anthropic 发布 Claude Sonnet 5，智能体能力显著提升

Anthropic 今日发布 Claude Sonnet 5，这是其 Sonnet 系列中最为智能体化的模型。该模型能够制定计划、使用浏览器和终端等工具，并以自主运行的方式完成任务——就在几个月前，这些能力还需要更大、更昂贵的模型才能实现。

对于许多开发者来说，智能体 AI 时代始于 Sonnet 级模型：Claude Sonnet 3.5、3.6 和 3.7 是首批在编码和工具使用方面展现出色能力的模型。然而，最近智能体能力最显著的提升出现在 Opus 级模型上。

Sonnet 5 缩小了差距：其性能接近 Opus 4.8，但价格更低。与上一代 Sonnet 4.6 相比，在推理、工具使用、编程和知识工作等智能体性能的关键方面均有显著改进：

性能基准对比表

Sonnet 5 在各种评估中的得分与 Sonnet 4.6 和 Opus 4.8（作为参考的更通用模型）的对比。详细评估见 Claude Sonnet 5 系统卡。

安全评估显示，Sonnet 5 整体上不良行为的频率低于 Sonnet 4.6，在智能体使用场景中通常更安全。评估还表明，其执行网络安全任务的能力远低于当前的 Opus 模型。

即日起，Claude Sonnet 5 在所有套餐中可用：它是 Free 和 Pro 套餐的默认模型，Max、Team 和 Enterprise 用户也可使用。同时适用于 Claude Code 和 Claude 平台。推出期定价为每百万输入 Token 2 美元、每百万输出 Token 10 美元（持续至 2026 年 8 月 31 日），之后将恢复为标准定价：每百万输入 3 美元、每百万输出 15 美元。开发者可通过 Claude API 使用 claude-sonnet-5。

与 Claude Sonnet 5 合作

以下图表比较了 Sonnet 5 与 Sonnet 4.6 和 Opus 4.8 在不同努力程度下的性能，评估基于智能体搜索评估 BrowseComp 和计算机使用评估 OSWorld-Verified。Sonnet 5（橙色线）严格优于 Sonnet 4.6（灰色线），并提供比 Opus 4.8（黄色线）更广泛的成本-性能选项。它在中等努力程度下显著提高了成本效益；在高努力程度下，某些任务可与 Opus 4.8 匹敌。用户可通过调整努力程度在 Sonnet 5 和 Opus 4.8 之间找到成本与性能的最佳平衡。

早期访问合作伙伴的反馈一致：Sonnet 5 比前代更具智能体能力。测试者描述它如何完成复杂任务（之前的 Sonnet 模型往往半途而废），如何主动检查自己的输出（无需明确要求），以及如何以有吸引力的价格完成所有这些智能体工作。

（以下为部分合作伙伴引述，保留关键几则）

GitLab：Claude Sonnet 5 使我们的智能体在多步骤软件工程工作中拥有强大的执行层。它能在混乱的技术环境中良好处理持续编码、工具使用和调试，尤其适合需要跟进和技术基础的场景。

Salesforce：我们交给 Claude Sonnet 5 一个两步任务——更新 Salesforce 客户层级、向企业联系人发送发布公告——它从头到尾完成了。这过去常常中途卡住。对于日常自动化，这是不二之选。

Lovable：Claude Sonnet 5 用更少的步骤完成更多工作。输出质量相同，步骤更少。它还干净利落地拒绝不安全请求。在 Lovable，我们将强大工具交到数百万构建者手中。一个知道如何说不的模型与知道如何构建的模型同样重要。

（其他引述略，原文共 11 则，此处选择性保留以控制篇幅）

安全评估

我们的部署前安全评估发现，Sonnet 5 整体上较 Sonnet 4.6 有所改进。在智能体安全性方面，模型在拒绝恶意请求和抵御提示注入攻击中的劫持尝试方面表现更好。幻觉和谄媚行为率低于 Sonnet 4.6。在我们的自动化行为审计（测试广泛的不对齐行为，如与误用和欺骗合作）中，Sonnet 5 整体得分更低（即更安全）。然而，与能力更强的 Opus 4.8 和 Claude Mythos Preview 相比，它在这次评估中的不对齐行为率略高。

不对齐行为率对比

自动化行为审计中的不对齐行为率，测试不同情境下的广泛不良行为（完整列表见 Sonnet 5 系统卡第 6.4 节）。Sonnet 5 整体不对齐行为率低于 Sonnet 4.6，但高于 Mythos Preview 和 Opus 4.8。

我们没有故意训练 Sonnet 5 进行网络安全任务。它可以执行一些常规、无害的网络任务，但在评估潜在危险网络技能（如开发软件漏洞利用）时，其表现远差于 Opus 4.8 和 Mythos 5 等模型。下图显示了针对 Firefox 浏览器漏洞开发能力的评估结果：Sonnet 5 从未能开发出完整的工作漏洞利用，但在部分成功方面略高于 Sonnet 4.6。这一变化可能归因于通用智能的提升，而非特定训练。

漏洞开发成功率对比

模型成功开发 Firefox 147 漏洞利用的得分（此评估与 Mozilla 合作开发；所有漏洞已在 Firefox 148 中修复）。每个模型的左柱表示开发出工作漏洞利用的频率（无安全护栏），右柱表示部分成功的频率。两个 Sonnet 模型均无法成功开发工作漏洞利用（均得分 0.0%）；Sonnet 5 的部分成功率略高于 Sonnet 4.6。两个 Sonnet 模型的网络能力均远差于 Opus 4.8 和 Mythos 5。详见 Sonnet 5 系统卡第 3.2.4 节。

由于 Sonnet 5 在这些任务上比前代略强，我们默认启用了网络安全防护措施。这些防护措施（实时检测并阻止危险网络使用）与 Claude Opus 4.7 和 4.8 中相同（因为我们认为 Sonnet 5 的整体网络安全风险较低，防护措施不如与 Fable 5 一起推出的严格）。

Sonnet 5 的完整安全与能力评估见 Claude Sonnet 5 系统卡。

可用性与定价

Claude Sonnet 5 即日起全面可用，推出期定价为每百万输入 Token 2 美元、每百万输出 Token 10 美元（持续至 2026 年 8 月 31 日）。之后恢复为标准定价：每百万输入 3 美元、每百万输出 15 美元。我们提高了 Chat、Cowork、Claude Code 和 Claude 平台的速率限制，以容纳更高努力程度带来的更高 Token 使用量；用户可根据项目需求选择合适级别。

本文基于 Anthropic 官方博客编译，原文链接：Introducing Claude Sonnet 5