英伟达发布 Nemotron 3 Nano Omni,一款集成视觉、音频和语言能力的开源多模态 AI 模型,可处理文本、图像、视频等多种输入形式,以极低算力实现高知识容量,已上线 Hugging Face 等平台。
英伟达于周二正式发布 Nemotron 3 Nano Omni,这是一款开源多模态 AI 模型,将视觉、音频与语言能力整合于单一架构之中。英伟达表示,这一设计可消除当前大多数企业级 AI 智能体系统所依赖的碎片化流水线。
该模型支持文本、图像、音频、视频、文档、图表及图形界面等多种输入形式,并以文本作为输出。其底层架构为300亿参数的混合专家架构,每次推理约激活30亿参数——英伟达称,这使其能够以极低的算力成本,实现远超自身规模的大模型知识容量。
!英伟达:Nemotron 3 Nano Omni
当今大多数 AI 智能体系统都是将语音识别、视觉理解和语言推理等独立模型拼接在一起,数据在各模块之间传递时会损耗时间和上下文信息。Nemotron 3 Nano Omni 将 Parakeet 语音编码器、C-RADIOv4-H 视觉编码器以及专为 GUI 训练的视觉系统整合到同一个推理循环中,从而打通了这一技术栈。
英伟达表示,与具备相近交互能力的同类开放式全模态模型相比,该方法可实现最高 9 倍的吞吐量提升;在视频推理任务上,吞吐量提升约 3 倍,算力消耗降低 2.75 倍。该模型支持 256K token 的上下文窗口,并据该公司介绍,在复杂文档智能、视频和音频理解等六项排行榜上均位居榜首。
富士康、H Company 等企业已采用该模型,多家公司也在对其进行评估。H Company 首席执行官表示:"借助 Nemotron 3 Nano Omni,我们的智能体能够快速分析全高清屏幕录像,而这一能力此前是难以实现的。"
该模型现已上线 Hugging Face、OpenRouter、SageMaker JumpStart、Vultr 及超过 25 个合作伙伴平台,也可通过英伟达的 NIM 微服务访问。英伟达以开放权重、数据集和训练方案的形式发布该模型,允许开发者在从本地硬件到云基础设施的各类环境中对其进行定制和部署。
Nemotron 3 Nano Omni 在英伟达更广泛的 Nemotron 3 系列中被定位为感知层,该系列还包括面向更重量级推理任务的 Super 和 Ultra 模型。英伟达表示,Nemotron 3 系列在过去一年中累计下载量已超过 5000 万次。
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断