前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

NVIDIA 推理软件栈如何降低 Token 成本

技术2026年6月29日· 原作者:Amr Elmeleegy· 6 分钟阅读0 阅读

随着 AI 工厂从试点转向生产,基础设施决策从芯片规格转向每 token 成本。NVIDIA 的推理软件栈通过多层优化和开源生态,在 Blackwell 平台上将 DeepSeek V4 模型 token 成本降至原来的五分之一,助力企业实现更低成本、更高效率的推理。

随着企业从 AI 试点转向大规模 AI 工厂,基础设施决策的核心已从峰值芯片规格转向每 token 成本——每美元、每瓦特能产出多少有用的 token,同时满足延迟要求。

NVIDIA 的推理软件栈与 GPU、CPU、网络和系统协同设计,并得到广泛开源生态的加持,持续提升硬件性能。在 NVIDIA Blackwell 平台上,仅一个月内,该软件栈就将 DeepSeek V4 模型的 token 成本降低了多达 5 倍。

SemiAnalysis InferenceX 结果:NVIDIA GB300 NVL72 系统结合 SGLang 和 NVIDIA Dynamo 推理框架的 token 成本与交互性对比

领先企业和推理提供商已在 Blackwell 上见证了 NVIDIA 推理软件栈的复合价值:

  • Baseten 使用 NVIDIA TensorRT-LLM 开源库在 Blackwell GPU 上服务 DeepSeek V4 Pro,用于推理、编码和长上下文工作负载,通过专有运行时优化,每秒 token 数提升高达 50%。
  • Cognition 使用 NVIDIA Dynamo 推理框架管理推理 GPU,为其团队提供了现成的强化学习工作负载扩展路径,无需从头构建基础设施。
  • Deep Infra 使用 NVIDIA 推理软件栈,从第一天起就在 Blackwell 上高性能地服务前沿开源模型,包括 DeepSeek V4。
  • DigitalOcean 帮助 Hippocratic AI 在 Blackwell GPU 上使用 NVIDIA 推理软件,更快、更高效地服务医疗 AI,在 1000 万次患者通话中,推理吞吐量提升 30%,同时首字节响应时间保持在半秒以内。
  • Together AI 使用 Blackwell 上的 NVIDIA TensorRT-LLM,帮助 Cursor 加速从模型优化到生产端点的路径,支撑其实时编码体验。

软件为何重要:推理经济学

传统的 Web、搜索和软件即服务工作负载相对可预测:用户可能加载页面、刷新信息流或更新业务记录。这些请求通常遵循相似的软件路径,从数据库读取或写入,并通过增加更多同类服务器来扩展。

但 AI 智能体(Agentic AI)不同。

传统工作负载与智能体工作负载对比:智能体 AI 运行分布式、有状态的工作流,横跨大语言模型、工具、内存、安全、网络和加速计算

智能体可以推理、规划、调用工具、启动专业子智能体,并管理跨多轮工作流程的庞大上下文。它们将单个请求转化为一个分布式计算问题,可能涉及数百个子智能体、数千项任务和多个大语言模型,横跨 GPU、CPU、DPU 和存储系统运行。

软件栈决定了这种复杂性是转化为浪费的容量,还是转化为更低的每 token 成本。

更低的每 token 成本来自将单个优化转化为系统级性能。NVIDIA 的推理软件栈通过连接三个层来实现这一点:

  • 生产运维层: 协调分布式服务、编排、自动扩缩容和内存管理,使推理运算能在合适的计算和存储资源上运行。
  • 应用加速层: 以高性能运行模型,同时为开发者提供调优和定制的空间,使用诸如计算与通信重叠、内核融合等运行时优化。
  • 基础设施访问层: 暴露 NVIDIA GPU、网络、内存和系统能力,无需开发者直接管理每一条设备指令集或数据传输协议。

NVIDIA 软件栈涵盖模型服务、运行时调度、内核、通信库和硬件感知优化,层间优化叠加可实现快速性能提升和更低的服务成本

当这些层作为一个系统协同工作时,单点优化会产生复合效应。

解耦式服务、基于 NVIDIA NVLink 互连技术的大规模专家并行、NVFP4 精度和多 token 预测,每一项都能独立带来显著提升。结合使用时,吞吐量可提升多达 20 倍。

下图展示了结果。在生产环境中实现这种收益需要复杂的协调,涉及推理栈的方方面面——从生产运维、模型运行时到内核、通信库和硬件访问。NVIDIA 的推理软件栈正是为了使这些层协同工作,让每一项优化都能相互叠加。

软件优化叠加的性能增益:从基线到解耦式服务、大规模专家并行(Large EP)、NVFP4 和多 token 预测(MTP),NVIDIA Blackwell 每 GPU token 吞吐量提升多达 20 倍

开源放大全栈优势

同样的全栈基础被开源生态进一步放大。如今许多最广泛使用的开源 AI 框架和推理项目都原生构建于 NVIDIA CUDA 之上,这意味着新的研究和软件优化从第一天起就能在 NVIDIA GPU 上以领先性能运行。

PyTorch 是一个典型例子。2016 年推出时即原生支持 CUDA,PyTorch 与 NVIDIA 的架构共同演进,开发者可以通过熟悉的框架直接使用 Tensor Cores、Transformer Engine 和 NVFP4 等创新。

当 DFlash 推测解码(在现有硬件上提升多达 15 倍吞吐量)或 FastVideo(在不到 5 秒内生成 1080p 视频)等突破性成果进入 PyTorch 时,它们能立即在 NVIDIA 上运行,帮助 AI 工厂将研究进展转化为更低的 token 成本。

NVIDIA 与 PyTorch 的协同开发,将新的 AI 软件创新带给开发者,随着 PyTorch 的普及,CUDA 原生的进步转化为生产性能

同样的开源动力也体现在:当 DeepSeek V4 这样的新前沿开放模型发布时,vLLM 和 SGLang 等领先推理框架立即为 NVIDIA Blackwell 架构提供了零日部署方案,使模型可在数百万 Blackwell GPU 上访问。这也解释了为何在约一个月内,DeepSeek V4 在 Blackwell 上的性能(通过 vLLM 和 SGLang 框架)提升了多达 5 倍,token 成本降至原来的约五分之一。

SemiAnalysis InferenceX 结果:NVIDIA GB200 NVL72 系统结合 vLLM 和 NVIDIA Dynamo 推理框架,在相同交互性下 token 吞吐量对比

这就是开源飞轮:越来越多的开发者优化 CUDA 原生的推理路径,更多的生产部署反哺生态,每一个软件改进都增加输出的 token 数量,同时随时间推移降低每 token 成本。


原文链接:NVIDIA AI Blog
本文由前途科技编辑整理

标签:NVIDIABlackwell推理

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

CERN关闭大型强子对撞机进行15亿美元升级
TOP1

CERN关闭大型强子对撞机进行15亿美元升级

塔塔电子遭勒索,iPhone 18 Pro 数据泄露
TOP2

塔塔电子遭勒索,iPhone 18 Pro 数据泄露

3

预览 GPT-5.6 Sol:新一代模型

3小时前
预览 GPT-5.6 Sol:新一代模型
4

MIT发现磁场增强的石墨烯超导态

2小时前
MIT发现磁场增强的石墨烯超导态
5

Anthropic 发布 Claude Sonnet 5,智能体能力显著提升

2小时前
Anthropic 发布 Claude Sonnet 5,智能体能力显著提升
6

一个姿态检测项目的踩坑实录

2小时前
7

OpenAI用流行病学方法修复18年C++漏洞

3小时前
OpenAI用流行病学方法修复18年C++漏洞
8

OpenAI发布GeneBench-Pro:评估AI科研判断力新基准

3小时前
OpenAI发布GeneBench-Pro:评估AI科研判断力新基准
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款