Claude Haiku 4.5 发布:小模型性能比肩 GPT-5
Anthropic 近日发布了 Claude Haiku 4.5,这款小模型在性能上展现出惊人实力,不仅接近五个月前发布的旗舰模型 Sonnet 4,在某些任务上甚至有所超越。其显著特点还包括成本降低三分之一,以及速度提升一倍多。
值得注意的是,直到上个月,Sonnet 4 仍是 Anthropic 的旗舰模型,而现在,一个更小巧的模型便能达到同等甚至更优的性能水平。
性能表现

从完整的 benchmark 来看,Haiku 4.5 的表现引人关注:
编程能力:
- Agentic coding(SWE-bench):73.3%
- Terminal coding:41.0%
- 与 Sonnet 4(72.7%、36.4%)基本持平
数学能力:
- Python 工具支持:96.3%
- 无工具:80.7%
- 此表现甚至超越了很多大模型
计算机使用(Computer Use):
- OSWorld:50.7%
- 此成绩是亮点,直接超过 Sonnet 4 的 42.2%
Haiku 4.5 在计算机使用任务上的表现尤其令人印象深刻。
速度升级
Anthropic 特别强调了 Haiku 4.5 在速度方面的提升。官方表示其速度是原来的两倍多(more than twice the speed)。
用户体验方面,执行相同任务的等待时间直接缩短一半,例如在 Claude Code 中编写代码将获得更流畅的速度体验。
对于需要频繁调用 API 的应用而言,此次速度提升的价值甚至可能超越成本降低的意义。
价格便宜
相较于 Sonnet 4,Haiku 4.5 的 API 调用成本降低了三分之一:
- 输入:$1 / 百万 tokens
- 输出:$5 / 百万 tokens
具体来看,Haiku 4.5 的价格比 Sonnet 4 便宜了三分之一。

部署渠道:
- Claude API
- Amazon Bedrock
- Google Cloud Vertex AI
- Claude Code
- Claude 网页版和 App
目前,Haiku 4.5 已基本覆盖所有支持 Claude 的平台与应用。
模型名称:claude-haiku-4-5
安全性
一个引人注目的亮点是,Haiku 4.5 被 Anthropic 认定为目前最安全的模型。
根据 Anthropic 的自动化对齐评估,Haiku 4.5 的“不一致行为”(misaligned behaviors)比例甚至低于 Sonnet 4.5 和 Opus 4.1。
此外,由于在 CBRN(化学、生物、放射性、核武器)风险评估中表现良好,Haiku 4.5 被归类为 ASL-2。

相比之下,Sonnet 4.5 和 Opus 4.1 则被归类为更严格的 ASL-3。
最后说两句
Haiku 4.5 的发布,清晰地展示了人工智能能力“下沉”的速度远超预期。
仅仅在五个月前仍属旗舰模型的性能,如今已成为小模型的标准配置。
