NVIDIA 加速 Google DeepMind DiffusionGemma 本地运行

Google DeepMind 今日发布 DiffusionGemma——一个实验性的开放模型，专为极速文本生成而设计。NVIDIA 已对 DiffusionGemma 进行优化，使其在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台以及 NVIDIA DGX Spark 系统上运行得更快，覆盖从本地 PC 到云端的环境。

与逐个生成单词不同，DiffusionGemma 可并行生成多个单词，直接输出整段文本，为开发者、研究人员和 AI 爱好者日常运行的单用户工作负载开辟了低延迟的新边界。

新模型特性包括：

并行生成：DiffusionGemma 每步可去噪多达 256 个 token，而非逐个预测。
基于 Gemma 4：DiffusionGemma 基于 Gemma 4——一个 260 亿参数的混合专家模型，每步仅激活 38 亿参数，将扩散头与 Google 的 Gemma 4 架构相结合。
性能提升高达 4 倍：这一提升意味着在本地硬件上实现快速文本生成，而单用户生成通常会出现延迟卡顿。
开放且本地运行：DiffusionGemma 采用宽松的 Apache 2.0 许可协议开放权重，完全在 RTX 和 DGX Spark 上运行——无需云端，无需按 token 付费——并立即获得 Hugging Face Transformers、vLLM 和 Unsloth 的支持。

另一种文本生成方式

目前广泛使用的几乎所有大语言模型（LLM）都是自回归的——即逐个生成 token，每个新词依赖前一个词。这种顺序处理正是交互式 AI 给人“正在打字”感觉的原因。

DiffusionGemma 走了一条不同的路。它基于 Gemma 4 26B 混合专家架构，以扩散模型生成图像的方式生成文本：从噪声开始，一次性精炼整个文本块。每一步并行去噪最多 256 个 token，而不是发出单个 token 再等待计算下一个。

结果是一个以“块”而非“顺序”思考的模型。对于延迟敏感的单用户工作——如交互式聊天、AI 智能体循环或设备端规划与执行助手——这种并行性将转化为足够快的响应，跟上开发者思考和迭代的步伐。

DiffusionGemma 在 NVIDIA GPU 上飞速运行

逐个生成 token 本质上是一个受内存限制的问题——传统 LLM 大部分时间花在等待内存带宽上，而非进行计算，导致大量算力被闲置。

扩散模型则翻转了局面。将完整的 256 token 块并行拉入 Transformer 是一个计算密集型工作负载——这正是 NVIDIA GPU 的强项。NVIDIA Tensor Core 加速了密集的并行数学运算，CUDA 软件堆栈让模型从第一天起就能高效运行，无需定制调优。简言之，模型的设计直接契合 GPU 的优势。

数据也印证了这一点。DiffusionGemma 在单个 NVIDIA H100 Tensor Core GPU 上可实现 1000 tokens/秒，在 NVIDIA DGX Spark 上为 150 tokens/秒，在 NVIDIA DGX Station 上高达 2000 tokens/秒——大约是同级别自回归模型在相同单用户场景下运行速度的 4 倍。

这一优势贯穿 NVIDIA 全线产品，可运行于：

本地 NVIDIA DGX Spark 桌面个人 AI 超级计算机——搭载 NVIDIA GB10 Grace Blackwell Superchip，配备 128GB 统一内存，预装 NVIDIA AI 软件栈，可直接用于原型开发、微调和完全本地化的 AI 智能体工作流程。
NVIDIA RTX PRO 6000 工作站——为开发者、研究人员和 AI 专业人士提供足够的空间，在专业工作流中运行本地低延迟生成和 AI 智能体循环。
DGX Station——提供一流的本地高速推理，最高 2000 tokens/秒，搭配 748GB 一致性内存，支持低延迟文本生成和 AI 智能体循环。
GeForce RTX GPU——即将支持 llama.cpp。

开始测试和原型开发的最快捷方式是通过 Hugging Face Transformers，它开箱即用即可在 GeForce RTX 5090 或 DGX Spark 上运行 DiffusionGemma。对于更高吞吐量的推理，vLLM 提供即日可用的服务支持。

若需将模型适配特定任务或领域，可通过 Unsloth 和 NVIDIA NeMo 框架进行微调，并提供现成的 DGX Spark 操作手册，让本地环境快速运行起来。请查看 DGX Spark、RTX PRO 和 DGX Station 的 vLLM 操作手册。

在 Hugging Face 上尝试 DiffusionGemma，或通过 build.nvidia.com 上 NVIDIA 托管的应用程序接口免费测试。

深入了解架构和本地部署，请阅读 NVIDIA 技术博客和 Google DeepMind 公告。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA 加速 Google DeepMind DiffusionGemma 本地运行

新模型特性包括：

并行生成：DiffusionGemma 每步可去噪多达 256 个 token，而非逐个预测。
基于 Gemma 4：DiffusionGemma 基于 Gemma 4——一个 260 亿参数的混合专家模型，每步仅激活 38 亿参数，将扩散头与 Google 的 Gemma 4 架构相结合。
性能提升高达 4 倍：这一提升意味着在本地硬件上实现快速文本生成，而单用户生成通常会出现延迟卡顿。
开放且本地运行：DiffusionGemma 采用宽松的 Apache 2.0 许可协议开放权重，完全在 RTX 和 DGX Spark 上运行——无需云端，无需按 token 付费——并立即获得 Hugging Face Transformers、vLLM 和 Unsloth 的支持。

另一种文本生成方式

DiffusionGemma 在 NVIDIA GPU 上飞速运行

逐个生成 token 本质上是一个受内存限制的问题——传统 LLM 大部分时间花在等待内存带宽上，而非进行计算，导致大量算力被闲置。

这一优势贯穿 NVIDIA 全线产品，可运行于：

本地 NVIDIA DGX Spark 桌面个人 AI 超级计算机——搭载 NVIDIA GB10 Grace Blackwell Superchip，配备 128GB 统一内存，预装 NVIDIA AI 软件栈，可直接用于原型开发、微调和完全本地化的 AI 智能体工作流程。
NVIDIA RTX PRO 6000 工作站——为开发者、研究人员和 AI 专业人士提供足够的空间，在专业工作流中运行本地低延迟生成和 AI 智能体循环。
DGX Station——提供一流的本地高速推理，最高 2000 tokens/秒，搭配 748GB 一致性内存，支持低延迟文本生成和 AI 智能体循环。
GeForce RTX GPU——即将支持 llama.cpp。

在 Hugging Face 上尝试 DiffusionGemma，或通过 build.nvidia.com 上 NVIDIA 托管的应用程序接口免费测试。

深入了解架构和本地部署，请阅读 NVIDIA 技术博客和 Google DeepMind 公告。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA 加速 Google DeepMind DiffusionGemma 本地运行

另一种文本生成方式

DiffusionGemma 在 NVIDIA GPU 上飞速运行

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

NVIDIA 加速 Google DeepMind DiffusionGemma 本地运行

另一种文本生成方式

DiffusionGemma 在 NVIDIA GPU 上飞速运行

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

另一种文本生成方式

DiffusionGemma 在 NVIDIA GPU 上飞速运行

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职 引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

另一种文本生成方式

DiffusionGemma 在 NVIDIA GPU 上飞速运行

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职 引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

白宫AI顾问接连离职引发治理能力担忧

白宫AI顾问接连离职引发治理能力担忧