前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

ITBench-AA基准:前沿模型企业IT任务得分不足50%

AI 前沿2026年5月26日· 原作者:Hugging Face· 3 分钟阅读1 阅读

Artificial Analysis与IBM联合发布ITBench-AA基准,专门评估AI智能体在企业IT运维中的表现。首轮SRE任务测试中,Claude Opus 4.7以47%得分领先,但所有前沿模型均未超过50%。该基准模拟真实Kubernetes故障诊断,对模型的多步推理和精准定位能力提出严峻挑战。

ITBench-AA:前沿模型在企业SRE任务中得分不足50%

Artificial Analysis 与 IBM 软件创新实验室联合推出 ITBench-AA 基准测试,这是首个专门评估 AI 智能体在企业 IT 任务中表现的系列基准,首期聚焦站点可靠性工程(SRE)任务。结果显示,即便最先进的前沿模型,得分也未能超过 50%。

ITBench-AA SRE 排行榜总览

关键发现

  1. Claude Opus 4.7 (Adaptive Reasoning, Max Effort) 以 47% 的得分领先,紧随其后的是 GPT-5.5(xhigh)46% 和 Qwen3.7 Max 42%。
  2. 所有前沿模型均低于 50%,这使得 ITBench-AA SRE 成为当前智能体基准测试中饱和程度最低的之一。相比之下,前沿模型在 Terminal-Bench 上的得分明显更高。
  3. 交互轮次差异近 3 倍,但更长的轨迹并不带来更高准确率。 GPT-5.5(xhigh)平均每任务 31 轮,得分 46%;而 Gemini 3.1 Pro Preview 平均 83 轮,得分仅 30%。过度调查的模型倾向于将上游故障注入机制或并发症状误报为根因。
  4. 开源模型表现亮眼。 GLM-5.1 (Reasoning) 以 40% 领先,与 Gemini 3.5 Flash (high) 几乎持平。DeepSeek V4 Pro (Reasoning, Max Effort) 38%,Gemma 4 31B (Reasoning) 37%,均优于 Gemini 3.1 Pro Preview 的 30%。

ITBench-AA SRE 概览

  • 共 59 个任务:40 个公开任务 + 19 个全新的保留任务。
  • 每个任务提供 Kubernetes 故障快照,包含告警、事件、追踪、指标、日志和应用拓扑。模型需识别导致事故的最小独立根因 Kubernetes 实体。
  • 故障类型覆盖典型 SRE 失效模式,包括基础设施、服务、应用和混沌注入,如资源配额耗尽、滚动更新失败、连接池耗尽、网络分区等。
  • 智能体框架:所有模型运行在相同的开源 Stirrup 参考框架中,拥有 shell 权限访问沙盒文件系统。每个任务上限 100 轮,重复 3 次。
  • 评分机制:采用“召回率门控精度”:若模型遗漏任何真实根因,该次得分为 0;若全部找出,则按其提交实体中真正根因的比例(精度)计分。最终得分为 59 个任务 × 3 次重复的平均值。
  • 框架恒定,实现模型间的公平对比。

亮点

  1. 任务示例:一个公开的 SRE 任务中,前端路径出现用户可见故障。代理通过 shell 命令检查离线快照,根据告警定位事件窗口,通过追踪和日志缩小到前端流量,利用拓扑锁定受影响服务,最终发现 Kubernetes 清单中的网络策略阻止了前端通信,成功识别根因实体为 otel-demo/NetworkPolicy/frontend-block-all-ports。

SRE 任务诊断流程

  1. 更多轮次不等于更好答案。提交超出真实根因的实体将受到惩罚:即使正确找出根因,但额外添加上游机制(如 chaos-mesh 控制器)或并发症状,都会被视为误报。这解释了为何长轨迹模型反而表现更差:Gemini 3.1 Pro Preview 平均 83 轮得分 30%,而 Gemma 4 31B (Reasoning) 平均 58 轮得分 37%。

轮次与得分关系
另一个角度

  1. 开源模型在成本效益上表现出色。Gemma 4 31B (Reasoning) 每任务成本 $0.14,得分 37%,在得分和成本上均优于 Gemini 3.1 Pro Preview($2.23,30%)。GLM-5.1 (Reasoning) 得分 40%,成本 $1.23,与 Gemini 3.5 Flash (high)($1.70)得分相当但成本更低。Claude Opus 4.7 以 47% 位居榜首,但成本最高($5.38/任务)。

成本效益对比

合作信息

ITBench-AA 由 Artificial Analysis 与 IBM 基于其 ITBench 基准合作构建。更多信息:

  • ITBench 论文(arXiv)
  • GitHub 仓库
  • ITBench-AA 排行榜
  • ITBench-AA HuggingFace 数据集

原文链接:Hugging Face
本文由前途科技编辑整理

标签:Claude OpusGPT-5开源模型

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

特朗普官员对AI芯片漏洞存分歧
TOP1

特朗普官员对AI芯片漏洞存分歧

Methane Eating Microbes Can T
TOP2

Methane Eating Microbes Can T

3

英伟达2026下半年产能翻倍

17小时前
英伟达2026下半年产能翻倍
4

台积电CEO称亚利桑那厂区可满足十年芯片需求

17小时前
台积电CEO称亚利桑那厂区可满足十年芯片需求
5

NASA X-59 首次突破音障

17小时前
NASA X-59 首次突破音障
6

Anthropic与白宫关系缓和,筹备IPO

17小时前
Anthropic与白宫关系缓和,筹备IPO
7

台积电CEO:竞争对手十年内追上是做梦

17小时前
台积电CEO:竞争对手十年内追上是做梦
8

Rubin AI机架内存减半,芯片股暴跌

17小时前
Rubin AI机架内存减半,芯片股暴跌
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款