Artificial Analysis 发布行业首个 AI 智能体基础设施基准测试 AgentPerf。NVIDIA Blackwell Ultra NVL72 平台在测试中表现最佳,每兆瓦能耗支持的智能体数量是上一代 Hopper 的 20 倍,为企业和开发者提供了衡量 AI 智能体部署效率的新标准。
Artificial Analysis 推出了行业首个 AI 智能体基准测试 AgentPerf,为开发者、企业和基础设施提供商提供了一套清晰的方法来比较不同系统在智能体 AI 任务上的表现。首轮公布的测试结果显示,NVIDIA Blackwell Ultra NVL72 平台在所有测试的智能体 AI 工作负载中均表现出色,每兆瓦能耗可运行的智能体数量是上一代 NVIDIA Hopper 的 20 倍。
AI 智能体与传统对话式 AI 的工作模式截然不同。一次聊天补全像短跑——只需一次大语言模型调用、一次响应。而一个智能体更像一场接力赛:它将目标分解为多个步骤,不断推进直至任务完成。

智能体将多次 LLM 调用和工具调用串联起来,用于收集上下文、观察、推理并执行操作。这会导致数十到数百次 LLM 调用链式连接,每次调用都会将不断增长的上下文传递给下一次,并在每次交接时执行工具调用(如代码编译与执行、数据库搜索、网页浏览等)。其复杂度不是相加,而是相乘。
这种区别对性能测量至关重要。现有 AI 推理基准测试只测量单次 LLM 调用——即 LLM 对单个请求的响应速度以及系统能同时处理多少并发请求。它们并非为智能体工作负载设计,而在智能体场景中,链式 LLM 调用、工具调用延迟和不断增长的上下文,会以单次 LLM 调用完全不同的方式考验加速计算系统。
对于大规模构建和部署智能体的企业来说,了解智能体的响应速度、可同时部署的数量,以及每投入一美元、每消耗一瓦电能带来多少有效产出,尤为重要。
在首轮测试中,AgentPerf 使用 DeepSeek V4 Pro(一款大规模混合专家模型,代表了当前驱动最先进智能体的前沿模型类别)来衡量智能体性能。在该工作负载下,NVIDIA GB300 NVL72 在基准测试中取得了最高性能,每兆瓦支持的智能体数量是 NVIDIA HGX H200 系统的 20 倍。

在 20 tokens/秒/智能体和 60 tokens/秒/智能体两种服务水平目标下,NVIDIA GB300 NVL72 每兆瓦支持的并发智能体数量均远超 NVIDIA H200。
性能优势来自全栈的极致协同设计。GB300 NVL72 通过将 72 块 GPU 连接成一个单机架系统,使 DeepSeek V4 Pro 这样的大型 MoE 模型能够在规模上高效分配模型执行。
CUDA 内核进一步加速了这一过程——通过重叠通信与计算,协调专家之间的成本被吸收而非叠加到延迟中。
NVIDIA TensorRT LLM 在并发智能体会话增加时维持了效率。例如,它将输入处理与输出生成分开,使两者可以独立优化。
这些结果基于一套完全从零构建、反映智能体 AI 在真实生产环境中工作方式的基准测试方法。
AgentPerf 以真实编码智能体的运行轨迹为基础:智能体接收任务、读取文件、编写和编辑代码、执行命令并根据结果迭代——所有数据来自 12 种以上编程语言的真实公共代码仓库。长序列长度、工具调用模式和延迟都代表了真实编码工作流。
AgentPerf 随后衡量一个平台在满足既定响应时间和输出 token 速率阈值的前提下,能同时支持多少个这样的智能体任务。工具调用不实际执行,而是使用代表 CPU 处理时间进行模拟,因此结果的差异只反映加速计算性能。
测试结果直接转化为基础设施决策:每块加速器、每兆瓦能耗能运行多少并发智能体任务。对于大规模部署 AI 智能体的企业,这些数字决定了给定基础设施投资能带来多少实际有效产出。
领先的推理服务提供商包括 Baseten、DeepInfra 和 Together AI,它们已经在 NVIDIA Blackwell 上运行基于前沿模型(如 DeepSeek V4 Pro)的智能体工作负载,并支持生产级智能体应用。
Together AI 为 Cursor 提供实时推理,这是一个 AI 驱动的智能体编码平台,运行在 NVIDIA Blackwell 上。Cursor 的智能体调试问题、生成功能和执行重构,而开发者可以继续工作。
DeepInfra 为 Pam.ai 提供支持,这是一个面向汽车经销商的 AI 劳动力平台,它部署智能体来预约服务、处理电话和运行外呼销售活动,完全基于 NVIDIA Blackwell。
随着 NVIDIA 和开源生态系统的持续优化,智能体工作负载的推理软件性能和效率将不断提升。NVIDIA Vera Rubin 架构现已全面投产,为满足大规模智能体 AI 不断增长的需求带来下一代基础设施能力。
深入了解 AgentPerf 的方法论和 NVIDIA 面向智能体 AI 的全栈优化,请参阅 技术博客。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断