Google DeepMind 推出开源实验模型 DiffusionGemma,采用文本扩散技术替代传统自回归生成,在 GPU 上实现最高 4 倍加速。该模型基于 Gemma 4 架构,激活参数仅 3.8B,适合本地实时交互场景。
Google DeepMind 今日发布 DiffusionGemma,一款采用文本扩散技术的实验性开源模型。该模型以 Apache 2.0 许可证发布,拥有 26B 总参数(MoE 架构,推理时仅激活 3.8B 参数),突破了传统大语言模型逐字生成的方式,改为同时生成整个文本块,在 GPU 上实现最高 4 倍加速。

DiffusionGemma 基于 Gemma 4 家族的智能密度优势和 Gemini Diffusion 研究,集成了一种新型扩散头,专门优化生成速度。对于需要最优质的生产级输出,自回归 Gemma 4 仍是首选;而 DiffusionGemma 面向研究者和开发者,适用于速度敏感、互动性的本地工作流,例如内联编辑、快速迭代以及生成非线性文本结构。
构建实时交互式 AI 应用的开发者常受困于本地推理的延迟瓶颈。DiffusionGemma 直接应对这些问题,同时带来一些关键权衡:
通过微调可以提升 DiffusionGemma 在特定任务上的表现。例如,Unsloth 对其微调,使其能玩数独——这是一个自回归模型难以完成的任务,因为每个 token 依赖于未来 token。DiffusionGemma 的双向注意力让这类任务变得容易。

尽管 AI 研究社区探索基于扩散的文本生成已有多年,但将其应用于大型模型一直是个挑战。DiffusionGemma 通过改变模型利用硬件的方式改变了这一局面。
大多数语言模型像打字机一样,从左到右逐字生成。在云端,这种模式效率较高,因为服务器可以将数千用户请求批量处理以分担硬件负载。但在本地单用户运行时,逐字生成导致专用 GPU 或 TPU 利用率极低——大部分时间都在等待下一个“按键”。
DiffusionGemma 反其道而行之。它不逐一预测单词,而是同时草拟整个 256 token 的段落。通过一次性给处理器更大的工作块,DiffusionGemma 充分利用硬件潜力。它将模型推理从单调的逐字打字机升级为大规模印刷机,同时印出整个文本块。

这意味着 DiffusionGemma 的加速针对本地和低并发推理设计。在高 QPS 云服务中,自回归模型可以通过部署满载计算来充分利用资源,因此 DiffusionGemma 的并行解码带来的增益递减,甚至可能导致更高的服务成本。吞吐量优势在单加速器上的低到中等批次大小下最为显著。
类似 AI 图像生成器从视觉噪声开始并逐步细化为清晰图像,DiffusionGemma 将此过程应用于文本:
由于模型在生成时能够处理整个段落,它解锁了新的行为模式,例如完美闭合复杂的 Markdown 格式,或近乎实时地生成并渲染代码。
原文链接:Google DeepMind
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断