前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

NVIDIA Blackwell 在首个 Agentic AI 基准测试中领先

AI 前沿2026年6月11日· 原作者:Shruti Koparkar· 3 分钟阅读2 阅读

Artificial Analysis 发布行业首个 AI 智能体基础设施基准测试 AgentPerf。NVIDIA Blackwell Ultra NVL72 平台在测试中表现最佳,每兆瓦能耗支持的智能体数量是上一代 Hopper 的 20 倍,为企业和开发者提供了衡量 AI 智能体部署效率的新标准。

Artificial Analysis 推出了行业首个 AI 智能体基准测试 AgentPerf,为开发者、企业和基础设施提供商提供了一套清晰的方法来比较不同系统在智能体 AI 任务上的表现。首轮公布的测试结果显示,NVIDIA Blackwell Ultra NVL72 平台在所有测试的智能体 AI 工作负载中均表现出色,每兆瓦能耗可运行的智能体数量是上一代 NVIDIA Hopper 的 20 倍。

AI 智能体与传统对话式 AI 的工作模式截然不同。一次聊天补全像短跑——只需一次大语言模型调用、一次响应。而一个智能体更像一场接力赛:它将目标分解为多个步骤,不断推进直至任务完成。

智能体流水线示意图

智能体将多次 LLM 调用和工具调用串联起来,用于收集上下文、观察、推理并执行操作。这会导致数十到数百次 LLM 调用链式连接,每次调用都会将不断增长的上下文传递给下一次,并在每次交接时执行工具调用(如代码编译与执行、数据库搜索、网页浏览等)。其复杂度不是相加,而是相乘。

这种区别对性能测量至关重要。现有 AI 推理基准测试只测量单次 LLM 调用——即 LLM 对单个请求的响应速度以及系统能同时处理多少并发请求。它们并非为智能体工作负载设计,而在智能体场景中,链式 LLM 调用、工具调用延迟和不断增长的上下文,会以单次 LLM 调用完全不同的方式考验加速计算系统。

对于大规模构建和部署智能体的企业来说,了解智能体的响应速度、可同时部署的数量,以及每投入一美元、每消耗一瓦电能带来多少有效产出,尤为重要。

NVIDIA GB300 NVL72 每兆瓦运行智能体数量达 20 倍

在首轮测试中,AgentPerf 使用 DeepSeek V4 Pro(一款大规模混合专家模型,代表了当前驱动最先进智能体的前沿模型类别)来衡量智能体性能。在该工作负载下,NVIDIA GB300 NVL72 在基准测试中取得了最高性能,每兆瓦支持的智能体数量是 NVIDIA HGX H200 系统的 20 倍。

性能对比图

在 20 tokens/秒/智能体和 60 tokens/秒/智能体两种服务水平目标下,NVIDIA GB300 NVL72 每兆瓦支持的并发智能体数量均远超 NVIDIA H200。

性能优势来自全栈的极致协同设计。GB300 NVL72 通过将 72 块 GPU 连接成一个单机架系统,使 DeepSeek V4 Pro 这样的大型 MoE 模型能够在规模上高效分配模型执行。

CUDA 内核进一步加速了这一过程——通过重叠通信与计算,协调专家之间的成本被吸收而非叠加到延迟中。

NVIDIA TensorRT LLM 在并发智能体会话增加时维持了效率。例如,它将输入处理与输出生成分开,使两者可以独立优化。

这些结果基于一套完全从零构建、反映智能体 AI 在真实生产环境中工作方式的基准测试方法。

Artificial Analysis AgentPerf:基于真实世界的智能体工作负载

AgentPerf 以真实编码智能体的运行轨迹为基础:智能体接收任务、读取文件、编写和编辑代码、执行命令并根据结果迭代——所有数据来自 12 种以上编程语言的真实公共代码仓库。长序列长度、工具调用模式和延迟都代表了真实编码工作流。

AgentPerf 随后衡量一个平台在满足既定响应时间和输出 token 速率阈值的前提下,能同时支持多少个这样的智能体任务。工具调用不实际执行,而是使用代表 CPU 处理时间进行模拟,因此结果的差异只反映加速计算性能。

测试结果直接转化为基础设施决策:每块加速器、每兆瓦能耗能运行多少并发智能体任务。对于大规模部署 AI 智能体的企业,这些数字决定了给定基础设施投资能带来多少实际有效产出。

NVIDIA 生态合作伙伴利用 Blackwell 的领先性能

领先的推理服务提供商包括 Baseten、DeepInfra 和 Together AI,它们已经在 NVIDIA Blackwell 上运行基于前沿模型(如 DeepSeek V4 Pro)的智能体工作负载,并支持生产级智能体应用。

Together AI 为 Cursor 提供实时推理,这是一个 AI 驱动的智能体编码平台,运行在 NVIDIA Blackwell 上。Cursor 的智能体调试问题、生成功能和执行重构,而开发者可以继续工作。

DeepInfra 为 Pam.ai 提供支持,这是一个面向汽车经销商的 AI 劳动力平台,它部署智能体来预约服务、处理电话和运行外呼销售活动,完全基于 NVIDIA Blackwell。

随着 NVIDIA 和开源生态系统的持续优化,智能体工作负载的推理软件性能和效率将不断提升。NVIDIA Vera Rubin 架构现已全面投产,为满足大规模智能体 AI 不断增长的需求带来下一代基础设施能力。

深入了解 AgentPerf 的方法论和 NVIDIA 面向智能体 AI 的全栈优化,请参阅 技术博客。


原文链接:NVIDIA AI Blog
本文由前途科技编辑整理

标签:Agentic AI推理CUDA

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Claude Tag 发布:团队协作新方式
TOP1

Claude Tag 发布:团队协作新方式

官方确认Anthropic AI发现美国机密系统漏洞
TOP2

官方确认Anthropic AI发现美国机密系统漏洞

3

字节跳动发布豆包2.1 Pro 称性能超越Claude Opus

17小时前
字节跳动发布豆包2.1 Pro 称性能超越Claude Opus
4

Legion LegalTech 起诉美政府封禁 Anthropic 模型

17小时前
Legion LegalTech 起诉美政府封禁 Anthropic 模型
5

Anthropic推出Claude Tag:Slack里的AI队友

17小时前
Anthropic推出Claude Tag:Slack里的AI队友
6

Agility Robotics借SPAC上市估值25亿美元

12小时前
Agility Robotics借SPAC上市估值25亿美元
7

Meta 推出自有品牌 AI 智能眼镜,售价 299 美元起

17小时前
Meta 推出自有品牌 AI 智能眼镜,售价 299 美元起
8

英伟达被禁AI芯片黑市价格翻倍

17小时前
英伟达被禁AI芯片黑市价格翻倍
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款