NVIDIA 发布 Nemotron-Labs Diffusion 系列模型,融合自回归与扩散生成方式,支持三种推理模式:自回归、扩散、自推测。在保持精度的同时,扩散模式实现2.6倍、自推测模式实现6倍以上的令牌生成效率,为开发者提供灵活的文本生成加速方案。
大语言模型(LLM)已成为代码生成、数学解题、摘要、文档理解等场景的默认工具。然而,多数 LLM 仍采用自回归(AR)方式:逐个生成令牌,每个令牌依赖前面的令牌。这种方式训练稳定、服务简单,但存在硬性限制——每生成一个新令牌都需要完整的模型前向传播,且每次都要从内存中加载所有权重才能开始计算。对于延迟敏感的应用,或使用小批量尺寸、希望充分利用现代 GPU 的开发者而言,逐令牌生成导致大部分 GPU 时间耗费在内存操作而非计算上。此外,自回归模型一旦生成令牌就无法修改,错误可能在生成过程中蔓延。
Nemotron-Labs Diffusion 提出了新的路径:扩散语言模型(DLM)可以并行生成多个令牌,再通过多步迭代优化来修正。这种方式不仅更好地利用了现代 GPU 的计算模型,带来显著的运行时性能提升,还允许修改已生成的令牌,更适合文本润色和中间填充等任务。这种“生成-优化”特性还提供了内置的推理预算控制——减少优化步数即可降低计算需求。
Nemotron-Labs Diffusion 系列包括 3B、8B、14B 参数的文本模型(均采用商业友好的 NVIDIA Nemotron 开源模型许可),以及一个 8B 参数的多模态视觉语言模型(VLM,采用 NVIDIA 源代码许可)。NVIDIA 同时发布了基础模型和指令微调的聊天变体,并开源了训练代码(基于 NVIDIA Megatron Bridge 框架)。
Nemotron-Labs Diffusion 基于一个简单理念:自回归与扩散生成不应成为两个模型系列,而应是同一模型的能力。模型支持三种模式:
这种设计使开发者可以在应用层面几乎不修改代码的情况下,灵活切换推理模式(推理时设置即可)。

Nemotron-Labs Diffusion 8B 相比 Qwen3 8B 平均精度提升 1.2%。在令牌每前向次数(TPF,一种硬件无关的令牌解码效率度量)上,扩散模式达到自回归模型的 2.6 倍,线性自推测模式达到 6 倍,二次自推测模式达到 6.4 倍,且评估任务上精度相当。
扩散语言模型虽已存在数年,但以往存在精度低于强自回归模型、训练更困难、与 KV 缓存兼容性差等障碍。近期工作 Efficient-DLM 表明,可以通过继续预训练并将注意力机制改为块状方式,将预训练的自回归模型转换为扩散语言模型。这种设计保留了自回归模型的能力,同时支持 KV 缓存友好的并行解码。
Nemotron-Labs Diffusion 基于相同的思路:给已有自回归模型添加扩散能力。训练时采用联合自回归和扩散损失,保留初始自回归训练的知识,同时增加并行草拟能力。模型在 NVIDIA Nemotron 预训练数据集上使用 1.3T 令牌进行预训练,之后使用 NVIDIA Nemotron 后训练数据集中的 45B 令牌进行额外的监督微调。
Nemotron-Labs Diffusion 模型的部署将在 SGLang 主分支中支持。目前可通过 GitHub issue 获取推理支持。集成使得同一检查点可通过推理配置中的一行代码选择三种服务方式:
ar_mode=true):作为因果语言模型运行,用于正确性参考或对照。Nemotron-Labs Diffusion 将扩散式生成带入开发者可用的形式:开放模型、熟悉的自回归兼容性、扩散解码和自推测加速。开发者无需修改应用即可获得草拟、优化、验证和加速文本生成的新方式。
进一步了解,请访问 模型系列、阅读 技术报告 或尝试 训练配方。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断