Nemotron-Labs Diffusion：并行生成文本的新范式

大语言模型（LLM）已成为代码生成、数学解题、摘要、文档理解等场景的默认工具。然而，多数 LLM 仍采用自回归（AR）方式：逐个生成令牌，每个令牌依赖前面的令牌。这种方式训练稳定、服务简单，但存在硬性限制——每生成一个新令牌都需要完整的模型前向传播，且每次都要从内存中加载所有权重才能开始计算。对于延迟敏感的应用，或使用小批量尺寸、希望充分利用现代 GPU 的开发者而言，逐令牌生成导致大部分 GPU 时间耗费在内存操作而非计算上。此外，自回归模型一旦生成令牌就无法修改，错误可能在生成过程中蔓延。

Nemotron-Labs Diffusion 提出了新的路径：扩散语言模型（DLM）可以并行生成多个令牌，再通过多步迭代优化来修正。这种方式不仅更好地利用了现代 GPU 的计算模型，带来显著的运行时性能提升，还允许修改已生成的令牌，更适合文本润色和中间填充等任务。这种“生成-优化”特性还提供了内置的推理预算控制——减少优化步数即可降低计算需求。

模型与发布内容

Nemotron-Labs Diffusion 系列包括 3B、8B、14B 参数的文本模型（均采用商业友好的 NVIDIA Nemotron 开源模型许可），以及一个 8B 参数的多模态视觉语言模型（VLM，采用 NVIDIA 源代码许可）。NVIDIA 同时发布了基础模型和指令微调的聊天变体，并开源了训练代码（基于 NVIDIA Megatron Bridge 框架）。

三种生成模式

Nemotron-Labs Diffusion 基于一个简单理念：自回归与扩散生成不应成为两个模型系列，而应是同一模型的能力。模型支持三种模式：

自回归模式：标准的从左到右生成，保持与现有 LLM 工作流的兼容性。
扩散模式：逐块生成，在多个步骤中逐步生成令牌。
自推测模式：使用扩散草拟多个候选令牌，再通过自回归解码进行验证。这结合了扩散草拟的速度潜力与自回归验证的可靠性。

这种设计使开发者可以在应用层面几乎不修改代码的情况下，灵活切换推理模式（推理时设置即可）。

性能亮点

Nemotron-Labs Diffusion 8B 精度与性能对比

Nemotron-Labs Diffusion 8B 相比 Qwen3 8B 平均精度提升 1.2%。在令牌每前向次数（TPF，一种硬件无关的令牌解码效率度量）上，扩散模式达到自回归模型的 2.6 倍，线性自推测模式达到 6 倍，二次自推测模式达到 6.4 倍，且评估任务上精度相当。

训练方法

扩散语言模型虽已存在数年，但以往存在精度低于强自回归模型、训练更困难、与 KV 缓存兼容性差等障碍。近期工作 Efficient-DLM 表明，可以通过继续预训练并将注意力机制改为块状方式，将预训练的自回归模型转换为扩散语言模型。这种设计保留了自回归模型的能力，同时支持 KV 缓存友好的并行解码。

Nemotron-Labs Diffusion 基于相同的思路：给已有自回归模型添加扩散能力。训练时采用联合自回归和扩散损失，保留初始自回归训练的知识，同时增加并行草拟能力。模型在 NVIDIA Nemotron 预训练数据集上使用 1.3T 令牌进行预训练，之后使用 NVIDIA Nemotron 后训练数据集中的 45B 令牌进行额外的监督微调。

通过 SGLang 部署推理

Nemotron-Labs Diffusion 模型的部署将在 SGLang 主分支中支持。目前可通过 GitHub issue 获取推理支持。集成使得同一检查点可通过推理配置中的一行代码选择三种服务方式：

纯自回归 (ar_mode=true)：作为因果语言模型运行，用于正确性参考或对照。
扩散模式 (FastDiffuser)：主要提供原始吞吐量，每次填充 32 令牌块，通过置信度阈值决定哪些令牌“足够好”。
自推测模式 (LinearSpec)：模型双向草拟一个块，再因果验证，保留匹配的前缀。在温度 0 下输出与自回归无损，在 B200 上的速度基准测试中达到约 865 tok/s，约为相同硬件的自回归基线的 4 倍。

立即开始

Nemotron-Labs Diffusion 将扩散式生成带入开发者可用的形式：开放模型、熟悉的自回归兼容性、扩散解码和自推测加速。开发者无需修改应用即可获得草拟、优化、验证和加速文本生成的新方式。

进一步了解，请访问模型系列、阅读技术报告或尝试训练配方。

原文链接：Hugging Face
本文由前途科技编辑整理

模型与发布内容

三种生成模式

Nemotron-Labs Diffusion 基于一个简单理念：自回归与扩散生成不应成为两个模型系列，而应是同一模型的能力。模型支持三种模式：

自回归模式：标准的从左到右生成，保持与现有 LLM 工作流的兼容性。
扩散模式：逐块生成，在多个步骤中逐步生成令牌。
自推测模式：使用扩散草拟多个候选令牌，再通过自回归解码进行验证。这结合了扩散草拟的速度潜力与自回归验证的可靠性。

这种设计使开发者可以在应用层面几乎不修改代码的情况下，灵活切换推理模式（推理时设置即可）。

性能亮点

Nemotron-Labs Diffusion 8B 精度与性能对比

训练方法

通过 SGLang 部署推理

纯自回归 (ar_mode=true)：作为因果语言模型运行，用于正确性参考或对照。
扩散模式 (FastDiffuser)：主要提供原始吞吐量，每次填充 32 令牌块，通过置信度阈值决定哪些令牌“足够好”。
自推测模式 (LinearSpec)：模型双向草拟一个块，再因果验证，保留匹配的前缀。在温度 0 下输出与自回归无损，在 B200 上的速度基准测试中达到约 865 tok/s，约为相同硬件的自回归基线的 4 倍。

立即开始

进一步了解，请访问模型系列、阅读技术报告或尝试训练配方。

原文链接：Hugging Face
本文由前途科技编辑整理

Nemotron-Labs Diffusion：并行生成文本的新范式

模型与发布内容

三种生成模式

性能亮点

训练方法

通过 SGLang 部署推理

立即开始

想了解 AI 如何助力您的企业？

24小时热榜

AI 重建驾驶舱音频，NTSB 关闭公共案卷

欧盟与Anthropic就Mythos模型谈判陷入僵局

Anthropic估值逼近9000亿美元

AI代理支付之争：四强争霸

谷歌就搜索垄断裁决提起上诉

纳德拉解散微软高管团队，推行扁平化改革

NASA首次公开JPL管理合同竞标

法院命令OpenAI移交马斯克案证词

免费获取 AI 落地指南

Nemotron-Labs Diffusion：并行生成文本的新范式

模型与发布内容

三种生成模式

性能亮点

训练方法

通过 SGLang 部署推理

立即开始

想了解 AI 如何助力您的企业？

24小时热榜

AI 重建驾驶舱音频，NTSB 关闭公共案卷

欧盟与Anthropic就Mythos模型谈判陷入僵局

Anthropic估值逼近9000亿美元

AI代理支付之争：四强争霸

谷歌就搜索垄断裁决提起上诉

纳德拉解散微软高管团队，推行扁平化改革

NASA首次公开JPL管理合同竞标

法院命令OpenAI移交马斯克案证词

免费获取 AI 落地指南