英伟达发布开源多模态AI模型，整合视觉语音与语言

英伟达于周二正式发布 Nemotron 3 Nano Omni，这是一款开源多模态 AI 模型，将视觉、音频与语言能力整合于单一架构之中。英伟达表示，这一设计可消除当前大多数企业级 AI 智能体系统所依赖的碎片化流水线。

该模型支持文本、图像、音频、视频、文档、图表及图形界面等多种输入形式，并以文本作为输出。其底层架构为300亿参数的混合专家架构，每次推理约激活30亿参数——英伟达称，这使其能够以极低的算力成本，实现远超自身规模的大模型知识容量。

!英伟达：Nemotron 3 Nano Omni

一个模型，多种模态

当今大多数 AI 智能体系统都是将语音识别、视觉理解和语言推理等独立模型拼接在一起，数据在各模块之间传递时会损耗时间和上下文信息。Nemotron 3 Nano Omni 将 Parakeet 语音编码器、C-RADIOv4-H 视觉编码器以及专为 GUI 训练的视觉系统整合到同一个推理循环中，从而打通了这一技术栈。

英伟达表示，与具备相近交互能力的同类开放式全模态模型相比，该方法可实现最高 9 倍的吞吐量提升；在视频推理任务上，吞吐量提升约 3 倍，算力消耗降低 2.75 倍。该模型支持 256K token 的上下文窗口，并据该公司介绍，在复杂文档智能、视频和音频理解等六项排行榜上均位居榜首。

企业采用与开放获取

富士康、H Company 等企业已采用该模型，多家公司也在对其进行评估。H Company 首席执行官表示："借助 Nemotron 3 Nano Omni，我们的智能体能够快速分析全高清屏幕录像，而这一能力此前是难以实现的。"

该模型现已上线 Hugging Face、OpenRouter、SageMaker JumpStart、Vultr 及超过 25 个合作伙伴平台，也可通过英伟达的 NIM 微服务访问。英伟达以开放权重、数据集和训练方案的形式发布该模型，允许开发者在从本地硬件到云基础设施的各类环境中对其进行定制和部署。