Nvidia 发布 Nemotron 3 Ultra,参数规模达 5500 亿,采用 Transformer-Mamba 混合架构,支持百万 Token 上下文,推理速度提升 5 倍、成本降低 30%,成为美国最强大的开源模型。
Nvidia 于 6 月 4 日正式发布 Nemotron 3 Ultra,这是其迄今为止最大的开源模型。该模型采用混合专家(MoE)架构,总参数达 5500 亿,每个 Token 激活 550 亿参数,专为长时自主运行的 AI 智能体设计,适用于编程、研究和企业场景。
模型已通过 Hugging Face、ModelScope、OpenRouter 以及 Nvidia 的 build.nvidia.com 平台以 NIM 微服务形式开放。CEO 黄仁勋在 5 月 31 日的 GTC Taipei 主题演讲中首次展示了该模型。

Nemotron 3 Ultra 采用混合 Transformer-Mamba 架构,将传统注意力机制与状态空间模型结合,针对长序列进行了优化。支持高达 100 万 Token 的上下文窗口,使 AI 智能体能在多步骤任务中保持推理连贯性。
Nvidia 声称,与同级别开源前沿模型相比,该模型推理速度提升最高 5 倍,成本降低 30%。根据基准平台 Artificial Analysis 的数据,Nemotron 3 Ultra 在其 Intelligence Index 上得分 48,是美国实验室中最强的开源模型,但仍不及部分中国开源模型。
模型经过多环境强化学习后训练,针对 Hermes Agent、LangChain Deep Agents、OpenHands 和 CrewAI 等智能体平台进行了优化。
发布当日即获得多家企业集成。Glean 宣布支持 Nemotron 3 Ultra,称该模型在“日常企业智能体工作”中能达到“前沿模型性能的 91%”。Aible、CrowdStrike 和 Palantir 也将 Nemotron 模型集成至其平台,覆盖知识工作、网络安全和运营决策等场景。
SGLang 和 Miles 提供了首发推理支持,为开发者提供基于 Blackwell GPU 的高性能服务栈,支持 BF16 和 NVFP4 两种精度。此前,Amazon Web Services 已通过 SageMaker JumpStart 提供其他 Nemotron 3 家族模型的一键部署。
此次发布进一步巩固了 Nvidia 的地位——不仅是 AI 硬件的主导者,更是日益强大的模型开发者。黄仁勋在 GTC Taipei 上表示:“全球软件领袖正将 AI 智能体引入实际工作系统”,他将智能体称为“数字同事”,能够“放大人类专长”。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断