随着 AI 工厂从试点转向生产,基础设施决策从芯片规格转向每 token 成本。NVIDIA 的推理软件栈通过多层优化和开源生态,在 Blackwell 平台上将 DeepSeek V4 模型 token 成本降至原来的五分之一,助力企业实现更低成本、更高效率的推理。
随着企业从 AI 试点转向大规模 AI 工厂,基础设施决策的核心已从峰值芯片规格转向每 token 成本——每美元、每瓦特能产出多少有用的 token,同时满足延迟要求。
NVIDIA 的推理软件栈与 GPU、CPU、网络和系统协同设计,并得到广泛开源生态的加持,持续提升硬件性能。在 NVIDIA Blackwell 平台上,仅一个月内,该软件栈就将 DeepSeek V4 模型的 token 成本降低了多达 5 倍。

领先企业和推理提供商已在 Blackwell 上见证了 NVIDIA 推理软件栈的复合价值:
传统的 Web、搜索和软件即服务工作负载相对可预测:用户可能加载页面、刷新信息流或更新业务记录。这些请求通常遵循相似的软件路径,从数据库读取或写入,并通过增加更多同类服务器来扩展。
但 AI 智能体(Agentic AI)不同。

智能体可以推理、规划、调用工具、启动专业子智能体,并管理跨多轮工作流程的庞大上下文。它们将单个请求转化为一个分布式计算问题,可能涉及数百个子智能体、数千项任务和多个大语言模型,横跨 GPU、CPU、DPU 和存储系统运行。
软件栈决定了这种复杂性是转化为浪费的容量,还是转化为更低的每 token 成本。
更低的每 token 成本来自将单个优化转化为系统级性能。NVIDIA 的推理软件栈通过连接三个层来实现这一点:

当这些层作为一个系统协同工作时,单点优化会产生复合效应。
解耦式服务、基于 NVIDIA NVLink 互连技术的大规模专家并行、NVFP4 精度和多 token 预测,每一项都能独立带来显著提升。结合使用时,吞吐量可提升多达 20 倍。
下图展示了结果。在生产环境中实现这种收益需要复杂的协调,涉及推理栈的方方面面——从生产运维、模型运行时到内核、通信库和硬件访问。NVIDIA 的推理软件栈正是为了使这些层协同工作,让每一项优化都能相互叠加。

同样的全栈基础被开源生态进一步放大。如今许多最广泛使用的开源 AI 框架和推理项目都原生构建于 NVIDIA CUDA 之上,这意味着新的研究和软件优化从第一天起就能在 NVIDIA GPU 上以领先性能运行。
PyTorch 是一个典型例子。2016 年推出时即原生支持 CUDA,PyTorch 与 NVIDIA 的架构共同演进,开发者可以通过熟悉的框架直接使用 Tensor Cores、Transformer Engine 和 NVFP4 等创新。
当 DFlash 推测解码(在现有硬件上提升多达 15 倍吞吐量)或 FastVideo(在不到 5 秒内生成 1080p 视频)等突破性成果进入 PyTorch 时,它们能立即在 NVIDIA 上运行,帮助 AI 工厂将研究进展转化为更低的 token 成本。

同样的开源动力也体现在:当 DeepSeek V4 这样的新前沿开放模型发布时,vLLM 和 SGLang 等领先推理框架立即为 NVIDIA Blackwell 架构提供了零日部署方案,使模型可在数百万 Blackwell GPU 上访问。这也解释了为何在约一个月内,DeepSeek V4 在 Blackwell 上的性能(通过 vLLM 和 SGLang 框架)提升了多达 5 倍,token 成本降至原来的约五分之一。

这就是开源飞轮:越来越多的开发者优化 CUDA 原生的推理路径,更多的生产部署反哺生态,每一个软件改进都增加输出的 token 数量,同时随时间推移降低每 token 成本。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断