前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

NVIDIA Cosmos 3:让物理AI先思考后行动

AI 前沿2026年5月31日· 原作者:Ming-Yu Liu· 4 分钟阅读1 阅读

NVIDIA 发布全新开源世界基础模型 Cosmos 3,将视觉推理、多模态生成与动作预测融合于单一模型,帮助机器人、自动驾驶和视觉 AI 系统在真实世界中先理解场景再执行动作,生成符合物理规律的数据。

真实世界永远在运动。要想自主运行,物理 AI 系统——包括机器人、自动驾驶汽车(AV)和智能空间——不仅需要理解眼前所见及成因,还要预判接下来可能发生什么。

在仓库里,机器人可能遇到从未见过的物体布局。在路上,自动驾驶汽车需要应对行人突然从停车间走出。在工厂中,安全系统必须预测叉车的前进方向,而非仅仅检测其存在。

在真实世界中捕捉并重现这些场景,既缓慢又昂贵,而且往往无法大规模重复。

Image 1

NVIDIA Cosmos 3 正是为这一闭环而生。这个全新的世界基础模型——今天在台北 COMPUTEX 的 NVIDIA GTC 大会上发布——将视觉推理与多模态生成(文本、视频、图像、环境声音和动作)融合在单一模型中,帮助开发者创建带有物理上下文的世界数据。

Image 2

Cosmos 3 驱动感知、预测与行动。

了解更多关于 Cosmos 3 的混合 Transformer 架构如何让推理模块先解释场景中正在发生的事情,然后利用生成模块基于该上下文输出符合物理规律的结果——从合成视频到机器人任务数据。

为真实世界机器人任务生成动作数据

Cosmos 3 是一个通用基础模型,在多样化数据上训练,使其对场景、运动和机器人动作之间的关系有广泛理解。它是一个具备原生动作生成能力的全模态模型,可以产生数值动作数据,如关节角度、夹爪位置和轨迹点,描述机器人应该如何移动以完成任务。

机器人要学习,需要的不仅仅是场景的图像或视频。以取放任务为例,它们需要指导如何到达、抓取、移动和放置物体的动作信号。开发者可以通过微调 Cosmos 3,使其机器人针对特定形态、相机布局、工作空间或任务进行专门化。

NVIDIA GEAR 团队正在使用 Cosmos 3 开发视频动作模型,帮助具身智能体在游戏、仿真和真实机器人环境中学习推理、移动和行动。

Image 3

音频提示:把所有香蕉放到盘子里。

Agile Robots 正在构建像 Thor 3 或 FR3 这样的人形机器人及其他形态,自主、精确、高效地处理工业任务。该公司使用 Cosmos 3 为其策略开发生成动作条件机器人数据,大规模创建多样化的任务轨迹。

提示:用双臂拾取核心电线并放入垃圾箱。

Image 4

Cosmos 3 Nano 后训练策略在 RoboLab(针对语言引导任务的策略仿真测试)和 RoboArena(在真实环境中的 DROID 机器人上比较策略)中领先。

推理移动中的智能城市与空间

Cosmos 3 可以对场景进行推理,识别哪些物体在移动、路径可能在哪里交叉、接下来可能进入什么状态。然后它可以生成密集字幕、预测的场景变化或场景变体,帮助开发者将理解、预测和警报连接起来,用于工业及基础设施环境中的视觉 AI 智能体。

使用 Cosmos 3 进行推理的机器人动作规划追踪。

对于交通系统、工厂、仓库和公共场所,这意味着视频系统可以帮助随时间解释活动、发现异常,并为操作员提供有关复杂环境中正在发生的事情的更丰富上下文。

Linker Vision 使用 NVIDIA 的物理 AI 和数字孪生技术构建智能城市与工业解决方案。作为工作流程的一部分,它利用 Cosmos 的视觉语言推理能力分析实时摄像头流、理解空间上下文、提取有价值的洞察,并对数千个视频流进行根本原因分析。

Linker Vision 使用视觉 AI 优化城市运营,由 Cosmos 驱动。

Image 5

Cosmos 3 在测试智能基础设施场景理解的 VANTAGE-Bench 和测试交通异常推理的 TAR 挑战中,是排名最高的开源视觉语言模型。

随时间生成罕见的长尾场景

碰撞和长尾边缘情况是让人形机器人、机械臂甚至手术机器人为真实世界做好准备的最重要示例,但它们很难安全、反复且大规模地捕获。

作为视频基础模型,Cosmos 3 可以生成物理上合理的视频序列,教模型真实世界如何随时间变化。

对于物理 AI 开发者,这些生成的示例可以支持合成数据工作流和未来状态预测,与真实驾驶数据一起使用——即使条件逐帧变化。

图像到视频提示:一场高速赛车比赛,汽车在多个弯道上行驶。

Image 6

Cosmos 3 的各种变体在 Artificial Analysis 的开源权重排行榜上排名第一。Cosmos 3 还在 Physics-IQ、R-Bench 和 PAI-Bench 等世界生成基准测试中位居榜首。

开始使用 Cosmos 3

开发者可以在 build.nvidia.com 上试用 Cosmos 3,从 Hugging Face 下载开源模型,使用 GitHub 上的资源自定义模型并生成合成数据,以及通过 NVIDIA NIM 微服务部署。

凭借 Linux 基金会的 OpenMDW 1.1 许可证,开发者可以在一个以模型为中心的许可证下,跨物理 AI 工作流使用 Cosmos 模型材料。该许可证使得训练、修改、贡献、再分发和部署包括权重、架构、文档、数据集、基准和代码在内的资源变得更加容易。

Image 7


原文链接:NVIDIA AI Blog
本文由前途科技编辑整理

标签:NVIDIA世界模型开源

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

美国陆军:禁用中国设备或拖累军事数据中心
TOP1

美国陆军:禁用中国设备或拖累军事数据中心

TOP2

AI产品经理指标手册:五层、四实践、一清单

3

Neuralink植入装置恢复瘫痪患者语言与艺术能力

7小时前
Neuralink植入装置恢复瘫痪患者语言与艺术能力
4

画面党该醒醒了,用户一直在调音量

7小时前
5

流式传输:让AI响应快到飞起

7小时前
6

SkillOpt:从提示工程到技能训练

7小时前
7

分层架构正在瓦解:自治领域能力崛起

7小时前
分层架构正在瓦解:自治领域能力崛起
8

轨道清洁战:近地轨道上万亿美金的博弈

7小时前
轨道清洁战:近地轨道上万亿美金的博弈
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款