NVIDIA 发布全新开源世界基础模型 Cosmos 3,将视觉推理、多模态生成与动作预测融合于单一模型,帮助机器人、自动驾驶和视觉 AI 系统在真实世界中先理解场景再执行动作,生成符合物理规律的数据。
真实世界永远在运动。要想自主运行,物理 AI 系统——包括机器人、自动驾驶汽车(AV)和智能空间——不仅需要理解眼前所见及成因,还要预判接下来可能发生什么。
在仓库里,机器人可能遇到从未见过的物体布局。在路上,自动驾驶汽车需要应对行人突然从停车间走出。在工厂中,安全系统必须预测叉车的前进方向,而非仅仅检测其存在。
在真实世界中捕捉并重现这些场景,既缓慢又昂贵,而且往往无法大规模重复。

NVIDIA Cosmos 3 正是为这一闭环而生。这个全新的世界基础模型——今天在台北 COMPUTEX 的 NVIDIA GTC 大会上发布——将视觉推理与多模态生成(文本、视频、图像、环境声音和动作)融合在单一模型中,帮助开发者创建带有物理上下文的世界数据。

Cosmos 3 驱动感知、预测与行动。
了解更多关于 Cosmos 3 的混合 Transformer 架构如何让推理模块先解释场景中正在发生的事情,然后利用生成模块基于该上下文输出符合物理规律的结果——从合成视频到机器人任务数据。
Cosmos 3 是一个通用基础模型,在多样化数据上训练,使其对场景、运动和机器人动作之间的关系有广泛理解。它是一个具备原生动作生成能力的全模态模型,可以产生数值动作数据,如关节角度、夹爪位置和轨迹点,描述机器人应该如何移动以完成任务。
机器人要学习,需要的不仅仅是场景的图像或视频。以取放任务为例,它们需要指导如何到达、抓取、移动和放置物体的动作信号。开发者可以通过微调 Cosmos 3,使其机器人针对特定形态、相机布局、工作空间或任务进行专门化。
NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型,帮助具身智能体在游戏、仿真和真实机器人环境中学习推理、移动和行动。

音频提示:把所有香蕉放到盘子里。
Agile Robots 正在构建像 Thor 3 或 FR3 这样的人形机器人及其他形态,自主、精确、高效地处理工业任务。该公司使用 Cosmos 3 为其策略开发生成动作条件机器人数据,大规模创建多样化的任务轨迹。
提示:用双臂拾取核心电线并放入垃圾箱。

Cosmos 3 Nano 后训练策略在 RoboLab(针对语言引导任务的策略仿真测试)和 RoboArena(在真实环境中的 DROID 机器人上比较策略)中领先。
Cosmos 3 可以对场景进行推理,识别哪些物体在移动、路径可能在哪里交叉、接下来可能进入什么状态。然后它可以生成密集字幕、预测的场景变化或场景变体,帮助开发者将理解、预测和警报连接起来,用于工业及基础设施环境中的视觉 AI 智能体。
使用 Cosmos 3 进行推理的机器人动作规划追踪。
对于交通系统、工厂、仓库和公共场所,这意味着视频系统可以帮助随时间解释活动、发现异常,并为操作员提供有关复杂环境中正在发生的事情的更丰富上下文。
Linker Vision 使用 NVIDIA 的物理 AI 和数字孪生技术构建智能城市与工业解决方案。作为工作流程的一部分,它利用 Cosmos 的视觉语言推理能力分析实时摄像头流、理解空间上下文、提取有价值的洞察,并对数千个视频流进行根本原因分析。
Linker Vision 使用视觉 AI 优化城市运营,由 Cosmos 驱动。

Cosmos 3 在测试智能基础设施场景理解的 VANTAGE-Bench 和测试交通异常推理的 TAR 挑战中,是排名最高的开源视觉语言模型。
碰撞和长尾边缘情况是让人形机器人、机械臂甚至手术机器人为真实世界做好准备的最重要示例,但它们很难安全、反复且大规模地捕获。
作为视频基础模型,Cosmos 3 可以生成物理上合理的视频序列,教模型真实世界如何随时间变化。
对于物理 AI 开发者,这些生成的示例可以支持合成数据工作流和未来状态预测,与真实驾驶数据一起使用——即使条件逐帧变化。
图像到视频提示:一场高速赛车比赛,汽车在多个弯道上行驶。

Cosmos 3 的各种变体在 Artificial Analysis 的开源权重排行榜上排名第一。Cosmos 3 还在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中位居榜首。
开发者可以在 build.nvidia.com 上试用 Cosmos 3,从 Hugging Face 下载开源模型,使用 GitHub 上的资源自定义模型并生成合成数据,以及通过 NVIDIA NIM 微服务部署。
凭借 Linux 基金会的 OpenMDW 1.1 许可证,开发者可以在一个以模型为中心的许可证下,跨物理 AI 工作流使用 Cosmos 模型材料。该许可证使得训练、修改、贡献、再分发和部署包括权重、架构、文档、数据集、基准和代码在内的资源变得更加容易。

原文链接:NVIDIA AI Blog
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断