前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Nemotron-Labs Diffusion:并行生成文本的新范式

AI 前沿2026年5月22日· 原作者:Hugging Face· 5 分钟阅读0 阅读

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型,融合自回归与扩散生成方式,支持三种推理模式:自回归、扩散、自推测。在保持精度的同时,扩散模式实现2.6倍、自推测模式实现6倍以上的令牌生成效率,为开发者提供灵活的文本生成加速方案。

大语言模型(LLM)已成为代码生成、数学解题、摘要、文档理解等场景的默认工具。然而,多数 LLM 仍采用自回归(AR)方式:逐个生成令牌,每个令牌依赖前面的令牌。这种方式训练稳定、服务简单,但存在硬性限制——每生成一个新令牌都需要完整的模型前向传播,且每次都要从内存中加载所有权重才能开始计算。对于延迟敏感的应用,或使用小批量尺寸、希望充分利用现代 GPU 的开发者而言,逐令牌生成导致大部分 GPU 时间耗费在内存操作而非计算上。此外,自回归模型一旦生成令牌就无法修改,错误可能在生成过程中蔓延。

Nemotron-Labs Diffusion 提出了新的路径:扩散语言模型(DLM)可以并行生成多个令牌,再通过多步迭代优化来修正。这种方式不仅更好地利用了现代 GPU 的计算模型,带来显著的运行时性能提升,还允许修改已生成的令牌,更适合文本润色和中间填充等任务。这种“生成-优化”特性还提供了内置的推理预算控制——减少优化步数即可降低计算需求。

模型与发布内容

Nemotron-Labs Diffusion 系列包括 3B、8B、14B 参数的文本模型(均采用商业友好的 NVIDIA Nemotron 开源模型许可),以及一个 8B 参数的多模态视觉语言模型(VLM,采用 NVIDIA 源代码许可)。NVIDIA 同时发布了基础模型和指令微调的聊天变体,并开源了训练代码(基于 NVIDIA Megatron Bridge 框架)。

  • HuggingFace 模型集合
  • 训练代码与配方 (GitHub)
  • 技术报告

三种生成模式

Nemotron-Labs Diffusion 基于一个简单理念:自回归与扩散生成不应成为两个模型系列,而应是同一模型的能力。模型支持三种模式:

  • 自回归模式:标准的从左到右生成,保持与现有 LLM 工作流的兼容性。
  • 扩散模式:逐块生成,在多个步骤中逐步生成令牌。
  • 自推测模式:使用扩散草拟多个候选令牌,再通过自回归解码进行验证。这结合了扩散草拟的速度潜力与自回归验证的可靠性。

这种设计使开发者可以在应用层面几乎不修改代码的情况下,灵活切换推理模式(推理时设置即可)。

性能亮点

Nemotron-Labs Diffusion 8B 精度与性能对比

Nemotron-Labs Diffusion 8B 相比 Qwen3 8B 平均精度提升 1.2%。在令牌每前向次数(TPF,一种硬件无关的令牌解码效率度量)上,扩散模式达到自回归模型的 2.6 倍,线性自推测模式达到 6 倍,二次自推测模式达到 6.4 倍,且评估任务上精度相当。

训练方法

扩散语言模型虽已存在数年,但以往存在精度低于强自回归模型、训练更困难、与 KV 缓存兼容性差等障碍。近期工作 Efficient-DLM 表明,可以通过继续预训练并将注意力机制改为块状方式,将预训练的自回归模型转换为扩散语言模型。这种设计保留了自回归模型的能力,同时支持 KV 缓存友好的并行解码。

Nemotron-Labs Diffusion 基于相同的思路:给已有自回归模型添加扩散能力。训练时采用联合自回归和扩散损失,保留初始自回归训练的知识,同时增加并行草拟能力。模型在 NVIDIA Nemotron 预训练数据集上使用 1.3T 令牌进行预训练,之后使用 NVIDIA Nemotron 后训练数据集中的 45B 令牌进行额外的监督微调。

通过 SGLang 部署推理

Nemotron-Labs Diffusion 模型的部署将在 SGLang 主分支中支持。目前可通过 GitHub issue 获取推理支持。集成使得同一检查点可通过推理配置中的一行代码选择三种服务方式:

  • 纯自回归 (ar_mode=true):作为因果语言模型运行,用于正确性参考或对照。
  • 扩散模式 (FastDiffuser):主要提供原始吞吐量,每次填充 32 令牌块,通过置信度阈值决定哪些令牌“足够好”。
  • 自推测模式 (LinearSpec):模型双向草拟一个块,再因果验证,保留匹配的前缀。在温度 0 下输出与自回归无损,在 B200 上的速度基准测试中达到约 865 tok/s,约为相同硬件的自回归基线的 4 倍。

立即开始

Nemotron-Labs Diffusion 将扩散式生成带入开发者可用的形式:开放模型、熟悉的自回归兼容性、扩散解码和自推测加速。开发者无需修改应用即可获得草拟、优化、验证和加速文本生成的新方式。

进一步了解,请访问 模型系列、阅读 技术报告 或尝试 训练配方。


原文链接:Hugging Face
本文由前途科技编辑整理

标签:NVIDIA

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

AI 重建驾驶舱音频,NTSB 关闭公共案卷
TOP1

AI 重建驾驶舱音频,NTSB 关闭公共案卷

欧盟与Anthropic就Mythos模型谈判陷入僵局
TOP2

欧盟与Anthropic就Mythos模型谈判陷入僵局

3

Anthropic估值逼近9000亿美元

5小时前
Anthropic估值逼近9000亿美元
4

AI代理支付之争:四强争霸

5小时前
AI代理支付之争:四强争霸
5

谷歌就搜索垄断裁决提起上诉

1小时前
谷歌就搜索垄断裁决提起上诉
6

纳德拉解散微软高管团队,推行扁平化改革

5小时前
纳德拉解散微软高管团队,推行扁平化改革
7

NASA首次公开JPL管理合同竞标

5小时前
NASA首次公开JPL管理合同竞标
8

法院命令OpenAI移交马斯克案证词

5小时前
法院命令OpenAI移交马斯克案证词
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款