NVIDIA Cosmos 3：让物理AI先思考后行动

真实世界永远在运动。要想自主运行，物理 AI 系统——包括机器人、自动驾驶汽车（AV）和智能空间——不仅需要理解眼前所见及成因，还要预判接下来可能发生什么。

在仓库里，机器人可能遇到从未见过的物体布局。在路上，自动驾驶汽车需要应对行人突然从停车间走出。在工厂中，安全系统必须预测叉车的前进方向，而非仅仅检测其存在。

在真实世界中捕捉并重现这些场景，既缓慢又昂贵，而且往往无法大规模重复。

NVIDIA Cosmos 3 正是为这一闭环而生。这个全新的世界基础模型——今天在台北 COMPUTEX 的 NVIDIA GTC 大会上发布——将视觉推理与多模态生成（文本、视频、图像、环境声音和动作）融合在单一模型中，帮助开发者创建带有物理上下文的世界数据。

Cosmos 3 驱动感知、预测与行动。

了解更多关于 Cosmos 3 的混合 Transformer 架构如何让推理模块先解释场景中正在发生的事情，然后利用生成模块基于该上下文输出符合物理规律的结果——从合成视频到机器人任务数据。

为真实世界机器人任务生成动作数据

Cosmos 3 是一个通用基础模型，在多样化数据上训练，使其对场景、运动和机器人动作之间的关系有广泛理解。它是一个具备原生动作生成能力的全模态模型，可以产生数值动作数据，如关节角度、夹爪位置和轨迹点，描述机器人应该如何移动以完成任务。

机器人要学习，需要的不仅仅是场景的图像或视频。以取放任务为例，它们需要指导如何到达、抓取、移动和放置物体的动作信号。开发者可以通过微调 Cosmos 3，使其机器人针对特定形态、相机布局、工作空间或任务进行专门化。

NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型，帮助具身智能体在游戏、仿真和真实机器人环境中学习推理、移动和行动。

音频提示：把所有香蕉放到盘子里。

Agile Robots 正在构建像 Thor 3 或 FR3 这样的人形机器人及其他形态，自主、精确、高效地处理工业任务。该公司使用 Cosmos 3 为其策略开发生成动作条件机器人数据，大规模创建多样化的任务轨迹。

提示：用双臂拾取核心电线并放入垃圾箱。

Cosmos 3 Nano 后训练策略在 RoboLab（针对语言引导任务的策略仿真测试）和 RoboArena（在真实环境中的 DROID 机器人上比较策略）中领先。

推理移动中的智能城市与空间

Cosmos 3 可以对场景进行推理，识别哪些物体在移动、路径可能在哪里交叉、接下来可能进入什么状态。然后它可以生成密集字幕、预测的场景变化或场景变体，帮助开发者将理解、预测和警报连接起来，用于工业及基础设施环境中的视觉 AI 智能体。

使用 Cosmos 3 进行推理的机器人动作规划追踪。

对于交通系统、工厂、仓库和公共场所，这意味着视频系统可以帮助随时间解释活动、发现异常，并为操作员提供有关复杂环境中正在发生的事情的更丰富上下文。

Linker Vision 使用 NVIDIA 的物理 AI 和数字孪生技术构建智能城市与工业解决方案。作为工作流程的一部分，它利用 Cosmos 的视觉语言推理能力分析实时摄像头流、理解空间上下文、提取有价值的洞察，并对数千个视频流进行根本原因分析。

Linker Vision 使用视觉 AI 优化城市运营，由 Cosmos 驱动。

Cosmos 3 在测试智能基础设施场景理解的 VANTAGE-Bench 和测试交通异常推理的 TAR 挑战中，是排名最高的开源视觉语言模型。

随时间生成罕见的长尾场景

碰撞和长尾边缘情况是让人形机器人、机械臂甚至手术机器人为真实世界做好准备的最重要示例，但它们很难安全、反复且大规模地捕获。

作为视频基础模型，Cosmos 3 可以生成物理上合理的视频序列，教模型真实世界如何随时间变化。

对于物理 AI 开发者，这些生成的示例可以支持合成数据工作流和未来状态预测，与真实驾驶数据一起使用——即使条件逐帧变化。

图像到视频提示：一场高速赛车比赛，汽车在多个弯道上行驶。

Cosmos 3 的各种变体在 Artificial Analysis 的开源权重排行榜上排名第一。Cosmos 3 还在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中位居榜首。

开始使用 Cosmos 3

开发者可以在 build.nvidia.com 上试用 Cosmos 3，从 Hugging Face 下载开源模型，使用 GitHub 上的资源自定义模型并生成合成数据，以及通过 NVIDIA NIM 微服务部署。

凭借 Linux 基金会的 OpenMDW 1.1 许可证，开发者可以在一个以模型为中心的许可证下，跨物理 AI 工作流使用 Cosmos 模型材料。该许可证使得训练、修改、贡献、再分发和部署包括权重、架构、文档、数据集、基准和代码在内的资源变得更加容易。

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

在真实世界中捕捉并重现这些场景，既缓慢又昂贵，而且往往无法大规模重复。

Cosmos 3 驱动感知、预测与行动。

为真实世界机器人任务生成动作数据

NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型，帮助具身智能体在游戏、仿真和真实机器人环境中学习推理、移动和行动。

音频提示：把所有香蕉放到盘子里。

提示：用双臂拾取核心电线并放入垃圾箱。

Cosmos 3 Nano 后训练策略在 RoboLab（针对语言引导任务的策略仿真测试）和 RoboArena（在真实环境中的 DROID 机器人上比较策略）中领先。

推理移动中的智能城市与空间

使用 Cosmos 3 进行推理的机器人动作规划追踪。

Linker Vision 使用视觉 AI 优化城市运营，由 Cosmos 驱动。

Cosmos 3 在测试智能基础设施场景理解的 VANTAGE-Bench 和测试交通异常推理的 TAR 挑战中，是排名最高的开源视觉语言模型。

随时间生成罕见的长尾场景

碰撞和长尾边缘情况是让人形机器人、机械臂甚至手术机器人为真实世界做好准备的最重要示例，但它们很难安全、反复且大规模地捕获。

作为视频基础模型，Cosmos 3 可以生成物理上合理的视频序列，教模型真实世界如何随时间变化。

对于物理 AI 开发者，这些生成的示例可以支持合成数据工作流和未来状态预测，与真实驾驶数据一起使用——即使条件逐帧变化。

图像到视频提示：一场高速赛车比赛，汽车在多个弯道上行驶。

Cosmos 3 的各种变体在 Artificial Analysis 的开源权重排行榜上排名第一。Cosmos 3 还在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中位居榜首。

开始使用 Cosmos 3

原文链接：NVIDIA AI Blog
本文由前途科技编辑整理

NVIDIA Cosmos 3：让物理AI先思考后行动

为真实世界机器人任务生成动作数据

推理移动中的智能城市与空间

随时间生成罕见的长尾场景

开始使用 Cosmos 3

想了解 AI 如何助力您的企业？

24小时热榜

美国陆军：禁用中国设备或拖累军事数据中心

AI产品经理指标手册：五层、四实践、一清单

Neuralink植入装置恢复瘫痪患者语言与艺术能力

画面党该醒醒了，用户一直在调音量

流式传输：让AI响应快到飞起

SkillOpt：从提示工程到技能训练

分层架构正在瓦解：自治领域能力崛起

轨道清洁战：近地轨道上万亿美金的博弈

免费获取 AI 落地指南

NVIDIA Cosmos 3：让物理AI先思考后行动

为真实世界机器人任务生成动作数据

推理移动中的智能城市与空间

随时间生成罕见的长尾场景

开始使用 Cosmos 3

想了解 AI 如何助力您的企业？

24小时热榜

美国陆军：禁用中国设备或拖累军事数据中心

AI产品经理指标手册：五层、四实践、一清单

Neuralink植入装置恢复瘫痪患者语言与艺术能力

画面党该醒醒了，用户一直在调音量

流式传输：让AI响应快到飞起

SkillOpt：从提示工程到技能训练

分层架构正在瓦解：自治领域能力崛起

轨道清洁战：近地轨道上万亿美金的博弈

免费获取 AI 落地指南