前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

NVIDIA 加速 Google DeepMind DiffusionGemma 本地运行

AI 前沿2026年6月9日· 原作者:Michael Fukuyama· 4 分钟阅读0 阅读

Google DeepMind 发布 DiffusionGemma 实验性开放模型,采用扩散式并行生成文本,速度可达传统模型的 4 倍。NVIDIA 优化使其在 GeForce RTX、RTX PRO 和 DGX Spark 上高效运行,实现完全本地化、低延迟的 AI 推理。

NVIDIA 加速 Google DeepMind DiffusionGemma 本地运行

Google DeepMind 今日发布 DiffusionGemma——一个实验性的开放模型,专为极速文本生成而设计。NVIDIA 已对 DiffusionGemma 进行优化,使其在 NVIDIA GeForce RTX GPU、NVIDIA RTX PRO 平台以及 NVIDIA DGX Spark 系统上运行得更快,覆盖从本地 PC 到云端的环境。

与逐个生成单词不同,DiffusionGemma 可并行生成多个单词,直接输出整段文本,为开发者、研究人员和 AI 爱好者日常运行的单用户工作负载开辟了低延迟的新边界。

新模型特性包括:

  • 并行生成:DiffusionGemma 每步可去噪多达 256 个 token,而非逐个预测。
  • 基于 Gemma 4:DiffusionGemma 基于 Gemma 4——一个 260 亿参数的混合专家模型,每步仅激活 38 亿参数,将扩散头与 Google 的 Gemma 4 架构相结合。
  • 性能提升高达 4 倍:这一提升意味着在本地硬件上实现快速文本生成,而单用户生成通常会出现延迟卡顿。
  • 开放且本地运行:DiffusionGemma 采用宽松的 Apache 2.0 许可协议开放权重,完全在 RTX 和 DGX Spark 上运行——无需云端,无需按 token 付费——并立即获得 Hugging Face Transformers、vLLM 和 Unsloth 的支持。

另一种文本生成方式

目前广泛使用的几乎所有大语言模型(LLM)都是自回归的——即逐个生成 token,每个新词依赖前一个词。这种顺序处理正是交互式 AI 给人“正在打字”感觉的原因。

DiffusionGemma 走了一条不同的路。它基于 Gemma 4 26B 混合专家架构,以扩散模型生成图像的方式生成文本:从噪声开始,一次性精炼整个文本块。每一步并行去噪最多 256 个 token,而不是发出单个 token 再等待计算下一个。

结果是一个以“块”而非“顺序”思考的模型。对于延迟敏感的单用户工作——如交互式聊天、AI 智能体循环或设备端规划与执行助手——这种并行性将转化为足够快的响应,跟上开发者思考和迭代的步伐。

DiffusionGemma 在 NVIDIA GPU 上飞速运行

逐个生成 token 本质上是一个受内存限制的问题——传统 LLM 大部分时间花在等待内存带宽上,而非进行计算,导致大量算力被闲置。

扩散模型则翻转了局面。将完整的 256 token 块并行拉入 Transformer 是一个计算密集型工作负载——这正是 NVIDIA GPU 的强项。NVIDIA Tensor Core 加速了密集的并行数学运算,CUDA 软件堆栈让模型从第一天起就能高效运行,无需定制调优。简言之,模型的设计直接契合 GPU 的优势。

数据也印证了这一点。DiffusionGemma 在单个 NVIDIA H100 Tensor Core GPU 上可实现 1000 tokens/秒,在 NVIDIA DGX Spark 上为 150 tokens/秒,在 NVIDIA DGX Station 上高达 2000 tokens/秒——大约是同级别自回归模型在相同单用户场景下运行速度的 4 倍。

这一优势贯穿 NVIDIA 全线产品,可运行于:

  • 本地 NVIDIA DGX Spark 桌面个人 AI 超级计算机——搭载 NVIDIA GB10 Grace Blackwell Superchip,配备 128GB 统一内存,预装 NVIDIA AI 软件栈,可直接用于原型开发、微调和完全本地化的 AI 智能体工作流程。
  • NVIDIA RTX PRO 6000 工作站——为开发者、研究人员和 AI 专业人士提供足够的空间,在专业工作流中运行本地低延迟生成和 AI 智能体循环。
  • DGX Station——提供一流的本地高速推理,最高 2000 tokens/秒,搭配 748GB 一致性内存,支持低延迟文本生成和 AI 智能体循环。
  • GeForce RTX GPU——即将支持 llama.cpp。

开始测试和原型开发的最快捷方式是通过 Hugging Face Transformers,它开箱即用即可在 GeForce RTX 5090 或 DGX Spark 上运行 DiffusionGemma。对于更高吞吐量的推理,vLLM 提供即日可用的服务支持。

若需将模型适配特定任务或领域,可通过 Unsloth 和 NVIDIA NeMo 框架进行微调,并提供现成的 DGX Spark 操作手册,让本地环境快速运行起来。请查看 DGX Spark、RTX PRO 和 DGX Station 的 vLLM 操作手册。

在 Hugging Face 上尝试 DiffusionGemma,或通过 build.nvidia.com 上 NVIDIA 托管的应用程序接口免费测试。

深入了解架构和本地部署,请阅读 NVIDIA 技术博客 和 Google DeepMind 公告。


原文链接:NVIDIA AI Blog
本文由前途科技编辑整理

标签:NVIDIAGoogle DeepMind

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

OpenAI 洽租俄亥俄州大型数据中心
TOP1

OpenAI 洽租俄亥俄州大型数据中心

天体物理学家用Codex模拟黑洞等离子体
TOP2

天体物理学家用Codex模拟黑洞等离子体

3

五月成全球第二热月份,欧洲热浪成新常态

17小时前
五月成全球第二热月份,欧洲热浪成新常态
4

SpaceX拟2027年测试轨道AI计算

22小时前
SpaceX拟2027年测试轨道AI计算
5

白宫AI顾问接连离职 引发治理能力担忧

22小时前
白宫AI顾问接连离职 引发治理能力担忧
6

通用汽车与Redwood Materials合作覆盖电池全生命周期

22小时前
通用汽车与Redwood Materials合作覆盖电池全生命周期
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款