ITBench-AA基准：前沿模型企业IT任务得分不足50%

AI 前沿2026年5月26日· 原作者：Hugging Face· 3 分钟阅读1 阅读

Artificial Analysis与IBM联合发布ITBench-AA基准，专门评估AI智能体在企业IT运维中的表现。首轮SRE任务测试中，Claude Opus 4.7以47%得分领先，但所有前沿模型均未超过50%。该基准模拟真实Kubernetes故障诊断，对模型的多步推理和精准定位能力提出严峻挑战。

ITBench-AA：前沿模型在企业SRE任务中得分不足50%

Artificial Analysis 与 IBM 软件创新实验室联合推出 ITBench-AA 基准测试，这是首个专门评估 AI 智能体在企业 IT 任务中表现的系列基准，首期聚焦站点可靠性工程（SRE）任务。结果显示，即便最先进的前沿模型，得分也未能超过 50%。

ITBench-AA SRE 排行榜总览

关键发现

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的得分领先，紧随其后的是 GPT-5.5（xhigh）46% 和 Qwen3.7 Max 42%。
所有前沿模型均低于 50%，这使得 ITBench-AA SRE 成为当前智能体基准测试中饱和程度最低的之一。相比之下，前沿模型在 Terminal-Bench 上的得分明显更高。
交互轮次差异近 3 倍，但更长的轨迹并不带来更高准确率。 GPT-5.5（xhigh）平均每任务 31 轮，得分 46%；而 Gemini 3.1 Pro Preview 平均 83 轮，得分仅 30%。过度调查的模型倾向于将上游故障注入机制或并发症状误报为根因。
开源模型表现亮眼。 GLM-5.1 (Reasoning) 以 40% 领先，与 Gemini 3.5 Flash (high) 几乎持平。DeepSeek V4 Pro (Reasoning, Max Effort) 38%，Gemma 4 31B (Reasoning) 37%，均优于 Gemini 3.1 Pro Preview 的 30%。

ITBench-AA SRE 概览

共 59 个任务：40 个公开任务 + 19 个全新的保留任务。
每个任务提供 Kubernetes 故障快照，包含告警、事件、追踪、指标、日志和应用拓扑。模型需识别导致事故的最小独立根因 Kubernetes 实体。
故障类型覆盖典型 SRE 失效模式，包括基础设施、服务、应用和混沌注入，如资源配额耗尽、滚动更新失败、连接池耗尽、网络分区等。
智能体框架：所有模型运行在相同的开源 Stirrup 参考框架中，拥有 shell 权限访问沙盒文件系统。每个任务上限 100 轮，重复 3 次。
评分机制：采用“召回率门控精度”：若模型遗漏任何真实根因，该次得分为 0；若全部找出，则按其提交实体中真正根因的比例（精度）计分。最终得分为 59 个任务 × 3 次重复的平均值。
框架恒定，实现模型间的公平对比。

亮点

任务示例：一个公开的 SRE 任务中，前端路径出现用户可见故障。代理通过 shell 命令检查离线快照，根据告警定位事件窗口，通过追踪和日志缩小到前端流量，利用拓扑锁定受影响服务，最终发现 Kubernetes 清单中的网络策略阻止了前端通信，成功识别根因实体为 otel-demo/NetworkPolicy/frontend-block-all-ports。

SRE 任务诊断流程

更多轮次不等于更好答案。提交超出真实根因的实体将受到惩罚：即使正确找出根因，但额外添加上游机制（如 chaos-mesh 控制器）或并发症状，都会被视为误报。这解释了为何长轨迹模型反而表现更差：Gemini 3.1 Pro Preview 平均 83 轮得分 30%，而 Gemma 4 31B (Reasoning) 平均 58 轮得分 37%。

轮次与得分关系
另一个角度

开源模型在成本效益上表现出色。Gemma 4 31B (Reasoning) 每任务成本 $0.14，得分 37%，在得分和成本上均优于 Gemini 3.1 Pro Preview（$2.23，30%）。GLM-5.1 (Reasoning) 得分 40%，成本 $1.23，与 Gemini 3.5 Flash (high)（$1.70）得分相当但成本更低。Claude Opus 4.7 以 47% 位居榜首，但成本最高（$5.38/任务）。

成本效益对比

合作信息

ITBench-AA 由 Artificial Analysis 与 IBM 基于其 ITBench 基准合作构建。更多信息：

原文链接：Hugging Face
本文由前途科技编辑整理

ITBench-AA基准：前沿模型企业IT任务得分不足50%

AI 前沿2026年5月26日· 原作者：Hugging Face· 3 分钟阅读1 阅读

关键发现

Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的得分领先，紧随其后的是 GPT-5.5（xhigh）46% 和 Qwen3.7 Max 42%。

所有前沿模型均低于 50%，这使得 ITBench-AA SRE 成为当前智能体基准测试中饱和程度最低的之一。相比之下，前沿模型在 Terminal-Bench 上的得分明显更高。

交互轮次差异近 3 倍，但更长的轨迹并不带来更高准确率。 GPT-5.5（xhigh）平均每任务 31 轮，得分 46%；而 Gemini 3.1 Pro Preview 平均 83 轮，得分仅 30%。过度调查的模型倾向于将上游故障注入机制或并发症状误报为根因。

开源模型表现亮眼。 GLM-5.1 (Reasoning) 以 40% 领先，与 Gemini 3.5 Flash (high) 几乎持平。DeepSeek V4 Pro (Reasoning, Max Effort) 38%，Gemma 4 31B (Reasoning) 37%，均优于 Gemini 3.1 Pro Preview 的 30%。

ITBench-AA SRE 概览

共 59 个任务：40 个公开任务 + 19 个全新的保留任务。

每个任务提供 Kubernetes 故障快照，包含告警、事件、追踪、指标、日志和应用拓扑。模型需识别导致事故的最小独立根因 Kubernetes 实体。

故障类型覆盖典型 SRE 失效模式，包括基础设施、服务、应用和混沌注入，如资源配额耗尽、滚动更新失败、连接池耗尽、网络分区等。

智能体框架：所有模型运行在相同的开源 Stirrup 参考框架中，拥有 shell 权限访问沙盒文件系统。每个任务上限 100 轮，重复 3 次。

评分机制：采用“召回率门控精度”：若模型遗漏任何真实根因，该次得分为 0；若全部找出，则按其提交实体中真正根因的比例（精度）计分。最终得分为 59 个任务 × 3 次重复的平均值。

框架恒定，实现模型间的公平对比。

亮点

任务示例：一个公开的 SRE 任务中，前端路径出现用户可见故障。代理通过 shell 命令检查离线快照，根据告警定位事件窗口，通过追踪和日志缩小到前端流量，利用拓扑锁定受影响服务，最终发现 Kubernetes 清单中的网络策略阻止了前端通信，成功识别根因实体为 otel-demo/NetworkPolicy/frontend-block-all-ports。

更多轮次不等于更好答案。提交超出真实根因的实体将受到惩罚：即使正确找出根因，但额外添加上游机制（如 chaos-mesh 控制器）或并发症状，都会被视为误报。这解释了为何长轨迹模型反而表现更差：Gemini 3.1 Pro Preview 平均 83 轮得分 30%，而 Gemma 4 31B (Reasoning) 平均 58 轮得分 37%。

开源模型在成本效益上表现出色。Gemma 4 31B (Reasoning) 每任务成本 $0.14，得分 37%，在得分和成本上均优于 Gemini 3.1 Pro Preview（$2.23，30%）。GLM-5.1 (Reasoning) 得分 40%，成本 $1.23，与 Gemini 3.5 Flash (high)（$1.70）得分相当但成本更低。Claude Opus 4.7 以 47% 位居榜首，但成本最高（$5.38/任务）。

ITBench-AA基准：前沿模型企业IT任务得分不足50%

ITBench-AA：前沿模型在企业SRE任务中得分不足50%

关键发现

ITBench-AA SRE 概览

亮点

合作信息

想了解 AI 如何助力您的企业？

24小时热榜

特朗普官员对AI芯片漏洞存分歧

Methane Eating Microbes Can T

英伟达2026下半年产能翻倍

台积电CEO称亚利桑那厂区可满足十年芯片需求

NASA X-59 首次突破音障

Anthropic与白宫关系缓和，筹备IPO

台积电CEO：竞争对手十年内追上是做梦

Rubin AI机架内存减半，芯片股暴跌

免费获取 AI 落地指南

ITBench-AA基准：前沿模型企业IT任务得分不足50%

ITBench-AA：前沿模型在企业SRE任务中得分不足50%

关键发现

ITBench-AA SRE 概览

亮点

合作信息

想了解 AI 如何助力您的企业？

24小时热榜

特朗普官员对AI芯片漏洞存分歧

Methane Eating Microbes Can T

英伟达2026下半年产能翻倍

台积电CEO称亚利桑那厂区可满足十年芯片需求

NASA X-59 首次突破音障

Anthropic与白宫关系缓和，筹备IPO

台积电CEO：竞争对手十年内追上是做梦

Rubin AI机架内存减半，芯片股暴跌

免费获取 AI 落地指南