Nvidia发布最大开源模型Nemotron 3 Ultra

Nvidia 于 6 月 4 日正式发布 Nemotron 3 Ultra，这是其迄今为止最大的开源模型。该模型采用混合专家（MoE）架构，总参数达 5500 亿，每个 Token 激活 550 亿参数，专为长时自主运行的 AI 智能体设计，适用于编程、研究和企业场景。

模型已通过 Hugging Face、ModelScope、OpenRouter 以及 Nvidia 的 build.nvidia.com 平台以 NIM 微服务形式开放。CEO 黄仁勋在 5 月 31 日的 GTC Taipei 主题演讲中首次展示了该模型。

Nvidia 发布 Nemotron 3 Ultra

架构与性能

Nemotron 3 Ultra 采用混合 Transformer-Mamba 架构，将传统注意力机制与状态空间模型结合，针对长序列进行了优化。支持高达 100 万 Token 的上下文窗口，使 AI 智能体能在多步骤任务中保持推理连贯性。

Nvidia 声称，与同级别开源前沿模型相比，该模型推理速度提升最高 5 倍，成本降低 30%。根据基准平台 Artificial Analysis 的数据，Nemotron 3 Ultra 在其 Intelligence Index 上得分 48，是美国实验室中最强的开源模型，但仍不及部分中国开源模型。

模型经过多环境强化学习后训练，针对 Hermes Agent、LangChain Deep Agents、OpenHands 和 CrewAI 等智能体平台进行了优化。

企业采用与生态

发布当日即获得多家企业集成。Glean 宣布支持 Nemotron 3 Ultra，称该模型在“日常企业智能体工作”中能达到“前沿模型性能的 91%”。Aible、CrowdStrike 和 Palantir 也将 Nemotron 模型集成至其平台，覆盖知识工作、网络安全和运营决策等场景。

SGLang 和 Miles 提供了首发推理支持，为开发者提供基于 Blackwell GPU 的高性能服务栈，支持 BF16 和 NVFP4 两种精度。此前，Amazon Web Services 已通过 SageMaker JumpStart 提供其他 Nemotron 3 家族模型的一键部署。

此次发布进一步巩固了 Nvidia 的地位——不仅是 AI 硬件的主导者，更是日益强大的模型开发者。黄仁勋在 GTC Taipei 上表示：“全球软件领袖正将 AI 智能体引入实际工作系统”，他将智能体称为“数字同事”，能够“放大人类专长”。