NVIDIA 推理软件栈如何降低 Token 成本

随着企业从 AI 试点转向大规模 AI 工厂，基础设施决策的核心已从峰值芯片规格转向每 token 成本——每美元、每瓦特能产出多少有用的 token，同时满足延迟要求。

NVIDIA 的推理软件栈与 GPU、CPU、网络和系统协同设计，并得到广泛开源生态的加持，持续提升硬件性能。在 NVIDIA Blackwell 平台上，仅一个月内，该软件栈就将 DeepSeek V4 模型的 token 成本降低了多达 5 倍。

SemiAnalysis InferenceX 结果：NVIDIA GB300 NVL72 系统结合 SGLang 和 NVIDIA Dynamo 推理框架的 token 成本与交互性对比

领先企业和推理提供商已在 Blackwell 上见证了 NVIDIA 推理软件栈的复合价值：

Baseten 使用 NVIDIA TensorRT-LLM 开源库在 Blackwell GPU 上服务 DeepSeek V4 Pro，用于推理、编码和长上下文工作负载，通过专有运行时优化，每秒 token 数提升高达 50%。
Cognition 使用 NVIDIA Dynamo 推理框架管理推理 GPU，为其团队提供了现成的强化学习工作负载扩展路径，无需从头构建基础设施。
Deep Infra 使用 NVIDIA 推理软件栈，从第一天起就在 Blackwell 上高性能地服务前沿开源模型，包括 DeepSeek V4。
DigitalOcean 帮助 Hippocratic AI 在 Blackwell GPU 上使用 NVIDIA 推理软件，更快、更高效地服务医疗 AI，在 1000 万次患者通话中，推理吞吐量提升 30%，同时首字节响应时间保持在半秒以内。
Together AI 使用 Blackwell 上的 NVIDIA TensorRT-LLM，帮助 Cursor 加速从模型优化到生产端点的路径，支撑其实时编码体验。

软件为何重要：推理经济学

传统的 Web、搜索和软件即服务工作负载相对可预测：用户可能加载页面、刷新信息流或更新业务记录。这些请求通常遵循相似的软件路径，从数据库读取或写入，并通过增加更多同类服务器来扩展。

但 AI 智能体（Agentic AI）不同。

传统工作负载与智能体工作负载对比：智能体 AI 运行分布式、有状态的工作流，横跨大语言模型、工具、内存、安全、网络和加速计算

智能体可以推理、规划、调用工具、启动专业子智能体，并管理跨多轮工作流程的庞大上下文。它们将单个请求转化为一个分布式计算问题，可能涉及数百个子智能体、数千项任务和多个大语言模型，横跨 GPU、CPU、DPU 和存储系统运行。

软件栈决定了这种复杂性是转化为浪费的容量，还是转化为更低的每 token 成本。

更低的每 token 成本来自将单个优化转化为系统级性能。NVIDIA 的推理软件栈通过连接三个层来实现这一点：

生产运维层： 协调分布式服务、编排、自动扩缩容和内存管理，使推理运算能在合适的计算和存储资源上运行。
应用加速层： 以高性能运行模型，同时为开发者提供调优和定制的空间，使用诸如计算与通信重叠、内核融合等运行时优化。
基础设施访问层： 暴露 NVIDIA GPU、网络、内存和系统能力，无需开发者直接管理每一条设备指令集或数据传输协议。

NVIDIA 软件栈涵盖模型服务、运行时调度、内核、通信库和硬件感知优化，层间优化叠加可实现快速性能提升和更低的服务成本

当这些层作为一个系统协同工作时，单点优化会产生复合效应。

解耦式服务、基于 NVIDIA NVLink 互连技术的大规模专家并行、NVFP4 精度和多 token 预测，每一项都能独立带来显著提升。结合使用时，吞吐量可提升多达 20 倍。

下图展示了结果。在生产环境中实现这种收益需要复杂的协调，涉及推理栈的方方面面——从生产运维、模型运行时到内核、通信库和硬件访问。NVIDIA 的推理软件栈正是为了使这些层协同工作，让每一项优化都能相互叠加。

软件优化叠加的性能增益：从基线到解耦式服务、大规模专家并行（Large EP）、NVFP4 和多 token 预测（MTP），NVIDIA Blackwell 每 GPU token 吞吐量提升多达 20 倍

开源放大全栈优势

同样的全栈基础被开源生态进一步放大。如今许多最广泛使用的开源 AI 框架和推理项目都原生构建于 NVIDIA CUDA 之上，这意味着新的研究和软件优化从第一天起就能在 NVIDIA GPU 上以领先性能运行。

PyTorch 是一个典型例子。2016 年推出时即原生支持 CUDA，PyTorch 与 NVIDIA 的架构共同演进，开发者可以通过熟悉的框架直接使用 Tensor Cores、Transformer Engine 和 NVFP4 等创新。

当 DFlash 推测解码（在现有硬件上提升多达 15 倍吞吐量）或 FastVideo（在不到 5 秒内生成 1080p 视频）等突破性成果进入 PyTorch 时，它们能立即在 NVIDIA 上运行，帮助 AI 工厂将研究进展转化为更低的 token 成本。

NVIDIA 与 PyTorch 的协同开发，将新的 AI 软件创新带给开发者，随着 PyTorch 的普及，CUDA 原生的进步转化为生产性能

同样的开源动力也体现在：当 DeepSeek V4 这样的新前沿开放模型发布时，vLLM 和 SGLang 等领先推理框架立即为 NVIDIA Blackwell 架构提供了零日部署方案，使模型可在数百万 Blackwell GPU 上访问。这也解释了为何在约一个月内，DeepSeek V4 在 Blackwell 上的性能（通过 vLLM 和 SGLang 框架）提升了多达 5 倍，token 成本降至原来的约五分之一。

SemiAnalysis InferenceX 结果：NVIDIA GB200 NVL72 系统结合 vLLM 和 NVIDIA Dynamo 推理框架，在相同交互性下 token 吞吐量对比

这就是开源飞轮：越来越多的开发者优化 CUDA 原生的推理路径，更多的生产部署反哺生态，每一个软件改进都增加输出的 token 数量，同时随时间推移降低每 token 成本。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

SemiAnalysis InferenceX 结果：NVIDIA GB300 NVL72 系统结合 SGLang 和 NVIDIA Dynamo 推理框架的 token 成本与交互性对比

领先企业和推理提供商已在 Blackwell 上见证了 NVIDIA 推理软件栈的复合价值：

Baseten 使用 NVIDIA TensorRT-LLM 开源库在 Blackwell GPU 上服务 DeepSeek V4 Pro，用于推理、编码和长上下文工作负载，通过专有运行时优化，每秒 token 数提升高达 50%。
Cognition 使用 NVIDIA Dynamo 推理框架管理推理 GPU，为其团队提供了现成的强化学习工作负载扩展路径，无需从头构建基础设施。
Deep Infra 使用 NVIDIA 推理软件栈，从第一天起就在 Blackwell 上高性能地服务前沿开源模型，包括 DeepSeek V4。
DigitalOcean 帮助 Hippocratic AI 在 Blackwell GPU 上使用 NVIDIA 推理软件，更快、更高效地服务医疗 AI，在 1000 万次患者通话中，推理吞吐量提升 30%，同时首字节响应时间保持在半秒以内。
Together AI 使用 Blackwell 上的 NVIDIA TensorRT-LLM，帮助 Cursor 加速从模型优化到生产端点的路径，支撑其实时编码体验。

软件为何重要：推理经济学

但 AI 智能体（Agentic AI）不同。

传统工作负载与智能体工作负载对比：智能体 AI 运行分布式、有状态的工作流，横跨大语言模型、工具、内存、安全、网络和加速计算

软件栈决定了这种复杂性是转化为浪费的容量，还是转化为更低的每 token 成本。

更低的每 token 成本来自将单个优化转化为系统级性能。NVIDIA 的推理软件栈通过连接三个层来实现这一点：

生产运维层： 协调分布式服务、编排、自动扩缩容和内存管理，使推理运算能在合适的计算和存储资源上运行。
应用加速层： 以高性能运行模型，同时为开发者提供调优和定制的空间，使用诸如计算与通信重叠、内核融合等运行时优化。
基础设施访问层： 暴露 NVIDIA GPU、网络、内存和系统能力，无需开发者直接管理每一条设备指令集或数据传输协议。

NVIDIA 软件栈涵盖模型服务、运行时调度、内核、通信库和硬件感知优化，层间优化叠加可实现快速性能提升和更低的服务成本

当这些层作为一个系统协同工作时，单点优化会产生复合效应。

开源放大全栈优势

NVIDIA 与 PyTorch 的协同开发，将新的 AI 软件创新带给开发者，随着 PyTorch 的普及，CUDA 原生的进步转化为生产性能

SemiAnalysis InferenceX 结果：NVIDIA GB200 NVL72 系统结合 vLLM 和 NVIDIA Dynamo 推理框架，在相同交互性下 token 吞吐量对比

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA 推理软件栈如何降低 Token 成本

软件为何重要：推理经济学

开源放大全栈优势

想了解 AI 如何助力您的企业？

24小时热榜

CERN关闭大型强子对撞机进行15亿美元升级

塔塔电子遭勒索，iPhone 18 Pro 数据泄露

预览 GPT-5.6 Sol：新一代模型

MIT发现磁场增强的石墨烯超导态

Anthropic 发布 Claude Sonnet 5，智能体能力显著提升

一个姿态检测项目的踩坑实录

OpenAI用流行病学方法修复18年C++漏洞

OpenAI发布GeneBench-Pro：评估AI科研判断力新基准

免费获取 AI 落地指南

NVIDIA 推理软件栈如何降低 Token 成本

软件为何重要：推理经济学

开源放大全栈优势

想了解 AI 如何助力您的企业？

24小时热榜

CERN关闭大型强子对撞机进行15亿美元升级

塔塔电子遭勒索，iPhone 18 Pro 数据泄露

预览 GPT-5.6 Sol：新一代模型

MIT发现磁场增强的石墨烯超导态

Anthropic 发布 Claude Sonnet 5，智能体能力显著提升

一个姿态检测项目的踩坑实录

OpenAI用流行病学方法修复18年C++漏洞

OpenAI发布GeneBench-Pro：评估AI科研判断力新基准

免费获取 AI 落地指南