Google DeepMind 发布 DiffusionGemma 实验性开放模型,采用扩散式并行生成文本,速度可达传统模型的 4 倍。NVIDIA 优化使其在 GeForce RTX、RTX PRO 和 DGX Spark 上高效运行,实现完全本地化、低延迟的 AI 推理。

Google DeepMind 今日发布 DiffusionGemma——一个实验性的开放模型,专为极速文本生成而设计。NVIDIA 已对 DiffusionGemma 进行优化,使其在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台以及 NVIDIA DGX Spark 系统上运行得更快,覆盖从本地 PC 到云端的环境。
与逐个生成单词不同,DiffusionGemma 可并行生成多个单词,直接输出整段文本,为开发者、研究人员和 AI 爱好者日常运行的单用户工作负载开辟了低延迟的新边界。
新模型特性包括:
目前广泛使用的几乎所有大语言模型(LLM)都是自回归的——即逐个生成 token,每个新词依赖前一个词。这种顺序处理正是交互式 AI 给人“正在打字”感觉的原因。
DiffusionGemma 走了一条不同的路。它基于 Gemma 4 26B 混合专家架构,以扩散模型生成图像的方式生成文本:从噪声开始,一次性精炼整个文本块。每一步并行去噪最多 256 个 token,而不是发出单个 token 再等待计算下一个。
结果是一个以“块”而非“顺序”思考的模型。对于延迟敏感的单用户工作——如交互式聊天、AI 智能体循环或设备端规划与执行助手——这种并行性将转化为足够快的响应,跟上开发者思考和迭代的步伐。
逐个生成 token 本质上是一个受内存限制的问题——传统 LLM 大部分时间花在等待内存带宽上,而非进行计算,导致大量算力被闲置。
扩散模型则翻转了局面。将完整的 256 token 块并行拉入 Transformer 是一个计算密集型工作负载——这正是 NVIDIA GPU 的强项。NVIDIA Tensor Core 加速了密集的并行数学运算,CUDA 软件堆栈让模型从第一天起就能高效运行,无需定制调优。简言之,模型的设计直接契合 GPU 的优势。
数据也印证了这一点。DiffusionGemma 在单个 NVIDIA H100 Tensor Core GPU 上可实现 1000 tokens/秒,在 NVIDIA DGX Spark 上为 150 tokens/秒,在 NVIDIA DGX Station 上高达 2000 tokens/秒——大约是同级别自回归模型在相同单用户场景下运行速度的 4 倍。
这一优势贯穿 NVIDIA 全线产品,可运行于:
开始测试和原型开发的最快捷方式是通过 Hugging Face Transformers,它开箱即用即可在 GeForce RTX 5090 或 DGX Spark 上运行 DiffusionGemma。对于更高吞吐量的推理,vLLM 提供即日可用的服务支持。
若需将模型适配特定任务或领域,可通过 Unsloth 和 NVIDIA NeMo 框架进行微调,并提供现成的 DGX Spark 操作手册,让本地环境快速运行起来。请查看 DGX Spark、RTX PRO 和 DGX Station 的 vLLM 操作手册。
在 Hugging Face 上尝试 DiffusionGemma,或通过 build.nvidia.com 上 NVIDIA 托管的应用程序接口免费测试。
深入了解架构和本地部署,请阅读 NVIDIA 技术博客 和 Google DeepMind 公告。
原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断