DiffusionGemma：文本生成速度提升4倍的开源模型

Google DeepMind 今日发布 DiffusionGemma，一款采用文本扩散技术的实验性开源模型。该模型以 Apache 2.0 许可证发布，拥有 26B 总参数（MoE 架构，推理时仅激活 3.8B 参数），突破了传统大语言模型逐字生成的方式，改为同时生成整个文本块，在 GPU 上实现最高 4 倍加速。

DiffusionGemma 示意图

DiffusionGemma 基于 Gemma 4 家族的智能密度优势和 Gemini Diffusion 研究，集成了一种新型扩散头，专门优化生成速度。对于需要最优质的生产级输出，自回归 Gemma 4 仍是首选；而 DiffusionGemma 面向研究者和开发者，适用于速度敏感、互动性的本地工作流，例如内联编辑、快速迭代以及生成非线性文本结构。

为开发者解锁新价值

构建实时交互式 AI 应用的开发者常受困于本地推理的延迟瓶颈。DiffusionGemma 直接应对这些问题，同时带来一些关键权衡：

极速推理：将解码瓶颈从内存带宽转移到计算，在专用 GPU 上生成速度最高提升 4 倍（单张 NVIDIA H100 上达每秒 1000+ tokens，NVIDIA GeForce RTX 5090 上达每秒 700+ tokens）。
亲民的硬件需求：作为总参数量 26B 的 MoE 模型，推理时仅激活 3.8B 参数，量化后可轻松适配高端消费级 GPU 的 18GB 显存限制。
双向注意力：每次前向传播并行生成 256 个 token，每个 token 可以关注所有其他 token。这在线性领域（如内联编辑、代码填充、氨基酸序列、数学图）具有显著优势。
智能自我纠正：模型迭代优化自身输出，能够一次性评估整个文本块，实时修正错误。
实验状态与生产建议：因优先考虑速度和并行布局生成，DiffusionGemma 的总体输出质量低于标准 Gemma 4。追求最高质量的场景建议部署标准 Gemma 4。

通过微调可以提升 DiffusionGemma 在特定任务上的表现。例如，Unsloth 对其微调，使其能玩数独——这是一个自回归模型难以完成的任务，因为每个 token 依赖于未来 token。DiffusionGemma 的双向注意力让这类任务变得容易。

微调后的 DiffusionGemma 解数独

为什么文本需要扩散？

尽管 AI 研究社区探索基于扩散的文本生成已有多年，但将其应用于大型模型一直是个挑战。DiffusionGemma 通过改变模型利用硬件的方式改变了这一局面。

传统模型的权衡

大多数语言模型像打字机一样，从左到右逐字生成。在云端，这种模式效率较高，因为服务器可以将数千用户请求批量处理以分担硬件负载。但在本地单用户运行时，逐字生成导致专用 GPU 或 TPU 利用率极低——大部分时间都在等待下一个“按键”。

DiffusionGemma 反其道而行之。它不逐一预测单词，而是同时草拟整个 256 token 的段落。通过一次性给处理器更大的工作块，DiffusionGemma 充分利用硬件潜力。它将模型推理从单调的逐字打字机升级为大规模印刷机，同时印出整个文本块。

DiffusionGemma 文本到 3D SVG 演示（Hugging Face）

这意味着 DiffusionGemma 的加速针对本地和低并发推理设计。在高 QPS 云服务中，自回归模型可以通过部署满载计算来充分利用资源，因此 DiffusionGemma 的并行解码带来的增益递减，甚至可能导致更高的服务成本。吞吐量优势在单加速器上的低到中等批次大小下最为显著。

文本扩散的工作原理

类似 AI 图像生成器从视觉噪声开始并逐步细化为清晰图像，DiffusionGemma 将此过程应用于文本：

画布：模型从随机占位符 token 的画布开始。
迭代优化：模型进行多次迭代，锁定正确 token，并将它们作为上下文线索来优化其余部分。
最终抛光：文本收敛为高质量输出。

由于模型在生成时能够处理整个段落，它解锁了新的行为模式，例如完美闭合复杂的 Markdown 格式，或近乎实时地生成并渲染代码。

立即开始

下载权重：在 Hugging Face 上获取实验模型权重（Apache 2.0 许可证）。
集成与学习：阅读 DiffusionGemma 开发者指南了解更多。或者深入阅读 DiffusionGemma 视觉指南了解内部机制。
使用你喜欢的开发工具：通过 MLX、vLLM（Red Hat 提供集成支持）和 Hugging Face Transformers 高效部署模型。快速实验可参考使用 Hackable Diffusion（模块化 JAX 工具箱）的微调教程。也可探索 Unsloth 和 NVIDIA NeMo 的微调方案。此外，即将正式支持 llama.cpp。
体验优化性能：我们与 NVIDIA 合作，在其整个硬件栈上进行了优化，确保兼容消费级设备（量化后适用于 GeForce RTX 5090 和 4090 GPU），并在企业系统（Hopper 和 Blackwell，使用高级 NVFP4 内核）上提供高性能，包括面向本地办公桌面的 NVIDIA DGX Spark 和 DGX Station，以及面向 AI 专业人士的 RTX PRO。对 NVFP4（4 位浮点）的原生支持加速了计算吞吐量，使模型以更快的速度运行，且精度接近无损。
自由尝试：在桌面专用 GPU 上本地运行，或通过 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在云端运行。

原文链接：Google DeepMind
本文由前途科技编辑整理

DiffusionGemma 示意图

为开发者解锁新价值

构建实时交互式 AI 应用的开发者常受困于本地推理的延迟瓶颈。DiffusionGemma 直接应对这些问题，同时带来一些关键权衡：

极速推理：将解码瓶颈从内存带宽转移到计算，在专用 GPU 上生成速度最高提升 4 倍（单张 NVIDIA H100 上达每秒 1000+ tokens，NVIDIA GeForce RTX 5090 上达每秒 700+ tokens）。
亲民的硬件需求：作为总参数量 26B 的 MoE 模型，推理时仅激活 3.8B 参数，量化后可轻松适配高端消费级 GPU 的 18GB 显存限制。
双向注意力：每次前向传播并行生成 256 个 token，每个 token 可以关注所有其他 token。这在线性领域（如内联编辑、代码填充、氨基酸序列、数学图）具有显著优势。
智能自我纠正：模型迭代优化自身输出，能够一次性评估整个文本块，实时修正错误。
实验状态与生产建议：因优先考虑速度和并行布局生成，DiffusionGemma 的总体输出质量低于标准 Gemma 4。追求最高质量的场景建议部署标准 Gemma 4。

微调后的 DiffusionGemma 解数独

为什么文本需要扩散？

尽管 AI 研究社区探索基于扩散的文本生成已有多年，但将其应用于大型模型一直是个挑战。DiffusionGemma 通过改变模型利用硬件的方式改变了这一局面。

传统模型的权衡

DiffusionGemma 文本到 3D SVG 演示（Hugging Face）

文本扩散的工作原理

类似 AI 图像生成器从视觉噪声开始并逐步细化为清晰图像，DiffusionGemma 将此过程应用于文本：

画布：模型从随机占位符 token 的画布开始。
迭代优化：模型进行多次迭代，锁定正确 token，并将它们作为上下文线索来优化其余部分。
最终抛光：文本收敛为高质量输出。

由于模型在生成时能够处理整个段落，它解锁了新的行为模式，例如完美闭合复杂的 Markdown 格式，或近乎实时地生成并渲染代码。

立即开始

下载权重：在 Hugging Face 上获取实验模型权重（Apache 2.0 许可证）。
集成与学习：阅读 DiffusionGemma 开发者指南了解更多。或者深入阅读 DiffusionGemma 视觉指南了解内部机制。
使用你喜欢的开发工具：通过 MLX、vLLM（Red Hat 提供集成支持）和 Hugging Face Transformers 高效部署模型。快速实验可参考使用 Hackable Diffusion（模块化 JAX 工具箱）的微调教程。也可探索 Unsloth 和 NVIDIA NeMo 的微调方案。此外，即将正式支持 llama.cpp。
体验优化性能：我们与 NVIDIA 合作，在其整个硬件栈上进行了优化，确保兼容消费级设备（量化后适用于 GeForce RTX 5090 和 4090 GPU），并在企业系统（Hopper 和 Blackwell，使用高级 NVFP4 内核）上提供高性能，包括面向本地办公桌面的 NVIDIA DGX Spark 和 DGX Station，以及面向 AI 专业人士的 RTX PRO。对 NVFP4（4 位浮点）的原生支持加速了计算吞吐量，使模型以更快的速度运行，且精度接近无损。
自由尝试：在桌面专用 GPU 上本地运行，或通过 Gemini Enterprise Agent Platform Model Garden 或 NVIDIA NIM 在云端运行。

原文链接：Google DeepMind
本文由前途科技编辑整理

DiffusionGemma：文本生成速度提升4倍的开源模型

为开发者解锁新价值

为什么文本需要扩散？

传统模型的权衡

文本扩散的工作原理

立即开始

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

DiffusionGemma：文本生成速度提升4倍的开源模型

为开发者解锁新价值

为什么文本需要扩散？

传统模型的权衡

文本扩散的工作原理

立即开始

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

为开发者解锁新价值

为什么文本需要扩散？

传统模型的权衡

文本扩散的工作原理

立即开始

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职 引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

为开发者解锁新价值

为什么文本需要扩散？

传统模型的权衡

文本扩散的工作原理

立即开始

想了解 AI 如何助力您的企业？

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体

五月成全球第二热月份，欧洲热浪成新常态

SpaceX拟2027年测试轨道AI计算

白宫AI顾问接连离职 引发治理能力担忧

通用汽车与Redwood Materials合作覆盖电池全生命周期

免费获取 AI 落地指南

白宫AI顾问接连离职引发治理能力担忧

白宫AI顾问接连离职引发治理能力担忧