ITBench-AA:前沿模型在企业SRE任务中得分不足50%
Artificial Analysis 与 IBM 软件创新实验室联合推出 ITBench-AA 基准测试,这是首个专门评估 AI 智能体在企业 IT 任务中表现的系列基准,首期聚焦站点可靠性工程(SRE)任务。结果显示,即便最先进的前沿模型,得分也未能超过 50%。

关键发现
- Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的得分领先,紧随其后的是 GPT-5.5(xhigh)46% 和 Qwen3.7 Max 42%。
- 所有前沿模型均低于 50%,这使得 ITBench-AA SRE 成为当前智能体基准测试中饱和程度最低的之一。相比之下,前沿模型在 Terminal-Bench 上的得分明显更高。
- 交互轮次差异近 3 倍,但更长的轨迹并不带来更高准确率。 GPT-5.5(xhigh)平均每任务 31 轮,得分 46%;而 Gemini 3.1 Pro Preview 平均 83 轮,得分仅 30%。过度调查的模型倾向于将上游故障注入机制或并发症状误报为根因。
- 开源模型表现亮眼。 GLM-5.1 (Reasoning) 以 40% 领先,与 Gemini 3.5 Flash (high) 几乎持平。DeepSeek V4 Pro (Reasoning, Max Effort) 38%,Gemma 4 31B (Reasoning) 37%,均优于 Gemini 3.1 Pro Preview 的 30%。
ITBench-AA SRE 概览
- 共 59 个任务:40 个公开任务 + 19 个全新的保留任务。
- 每个任务提供 Kubernetes 故障快照,包含告警、事件、追踪、指标、日志和应用拓扑。模型需识别导致事故的最小独立根因 Kubernetes 实体。
- 故障类型覆盖典型 SRE 失效模式,包括基础设施、服务、应用和混沌注入,如资源配额耗尽、滚动更新失败、连接池耗尽、网络分区等。
- 智能体框架:所有模型运行在相同的开源 Stirrup 参考框架中,拥有 shell 权限访问沙盒文件系统。每个任务上限 100 轮,重复 3 次。
- 评分机制:采用“召回率门控精度”:若模型遗漏任何真实根因,该次得分为 0;若全部找出,则按其提交实体中真正根因的比例(精度)计分。最终得分为 59 个任务 × 3 次重复的平均值。
- 框架恒定,实现模型间的公平对比。
亮点
- 任务示例:一个公开的 SRE 任务中,前端路径出现用户可见故障。代理通过 shell 命令检查离线快照,根据告警定位事件窗口,通过追踪和日志缩小到前端流量,利用拓扑锁定受影响服务,最终发现 Kubernetes 清单中的网络策略阻止了前端通信,成功识别根因实体为
otel-demo/NetworkPolicy/frontend-block-all-ports。

- 更多轮次不等于更好答案。提交超出真实根因的实体将受到惩罚:即使正确找出根因,但额外添加上游机制(如 chaos-mesh 控制器)或并发症状,都会被视为误报。这解释了为何长轨迹模型反而表现更差:Gemini 3.1 Pro Preview 平均 83 轮得分 30%,而 Gemma 4 31B (Reasoning) 平均 58 轮得分 37%。


- 开源模型在成本效益上表现出色。Gemma 4 31B (Reasoning) 每任务成本 $0.14,得分 37%,在得分和成本上均优于 Gemini 3.1 Pro Preview($2.23,30%)。GLM-5.1 (Reasoning) 得分 40%,成本 $1.23,与 Gemini 3.5 Flash (high)($1.70)得分相当但成本更低。Claude Opus 4.7 以 47% 位居榜首,但成本最高($5.38/任务)。

合作信息
ITBench-AA 由 Artificial Analysis 与 IBM 基于其 ITBench 基准合作构建。更多信息:
原文链接:Hugging Face
本文由前途科技编辑整理