NVIDIA发布Cosmos 3：首个物理AI开源全模态模型

AI 前沿2026年5月31日· 原作者：Hugging Face· 8 分钟阅读1 阅读

NVIDIA 发布 Cosmos 3，一个统一的世界基础模型（WFM），集世界生成、物理推理和动作生成于一体。基于 MoT 架构，支持文本、图像、视频、动作等多模态输入输出，提供 8B Nano 和 32B Super 两个版本，并配套开源数据集和框架，助力机器人、自动驾驶等物理 AI 领域的发展。

NVIDIA Cosmos 3 来了——今天已在 Hugging Face 上可用。Cosmos 3 在物理 AI 的世界基础模型（WFM）领域实现了重大飞跃：一个单一、统一的全模态模型，将世界生成、物理推理和动作生成整合在一个模型中。不再需要在不同模型和推理流程之间切换——Cosmos 3 一应俱全。

无论你是在构建机器人、自动驾驶车辆还是智能空间，Cosmos 3 都为你提供了模拟和理解物理世界的基础。

本次发布的内容包括：

Hugging Face 上的 Cosmos 3 Super 和 Cosmos 3 Nano，带有模型卡和许可
Cosmos 3 Diffusers 集成，用于生成流程
用于在你自己的数据上训练 Cosmos 3 的后训练脚本（在 GitHub 上）
用于物理 AI 的开放合成数据生成（SDG）数据集

一、Cosmos 3 的新特性

Cosmos 3 相比之前版本的最大变化是它作为一个全模态模型，基于 Mixture-of-Transformers（MoT）架构构建。以前，开发者需要为不同能力使用独立模型，如世界生成（Cosmos Predict）、受控生成（Cosmos Transfer）、场景理解（Cosmos Reason）和策略生成（Cosmos Policy）。Cosmos 3 在单个模型中实现了这一切，可以在一次统一的前向传播中推理和生成不同模态。

这意味着你现在可以仅用一个模型完成以下所有任务：

从文本、图像、视频或动作输入生成逼真且物理上合理的视频世界
推理物理属性，如运动、因果关系和空间关系
基于当前状态预测未来的视频和动作序列

这对物理 AI 为何重要

Cosmos 3 帮助构建能够理解真实世界的物理 AI 系统。不仅仅是像素和 token，而是运动、因果关系、物理和动作。如果你正在训练机器人叠衣服、构建自动驾驶模拟或为仓库安全场景生成合成训练数据，Cosmos 3 正是为这些用例设计的基础模型。

机器人抓取场景
Cosmos 3 生成的机器人拾放视频。

Cosmos 3 生成的长尾驾驶场景视频。

使用 Cosmos 3 进行图像到视频生成，用于仓库安全数据。

自动驾驶推理
Cosmos 3 在自动驾驶应用中的思维链推理。

架构

Cosmos 3 基于 MoT 骨干网络构建，处理所有模态——文本、图像、视频、音频和动作——在单一统一架构内。每种模态首先由专用编码器（用于视觉理解的 ViT、用于视觉/音频生成的 VAE，以及用于动作的域感知向量）进行编码，然后投影到共享表示空间。

Cosmos 3 架构图

输入序列被分为两个子序列：一个自回归（AR）子序列，通过下一个 token 预测处理推理和理解；一个扩散（DM）子序列，通过迭代去噪处理生成。AR 和 DM token 在每个 Transformer 层内使用独立的参数集，但通过联合注意力进行交互——这使得单个模型能够无缝地在 VLM、视频生成器、前向/逆动力学模型或机器人策略之间切换，无需架构更改。

模型版本

本次发布的 Cosmos 3 包括两个模型大小，针对不同部署场景进行了优化：

Cosmos 3 Nano - 8B 参数模型（8B 推理器和 8B 生成器），针对高效推理进行了优化。Cosmos 3 Nano 设计用于在 RTX PRO 6000 GPU 等工作站级计算设备上运行，可在 Hugging Face 上的 nvidia/Cosmos3-Nano 获取。
Cosmos 3 Super - 32B 参数模型（32B 推理器和 32B 生成器），专为大规模合成数据生成（SDG）和研究设计，运行在 NVIDIA Hopper 和 Blackwell GPU 上。Cosmos 3 Super 可在 Hugging Face 上的 nvidia/Cosmos3-Super 获取。

二、Cosmos 3 的能力

Cosmos 3 通过单一统一模型支持多种输入和生成模态：

输入模态	输出模态	应用
文本	图像	视频
文本	视频	文本
动作	图像	文本
文本	视频	动作
图像	文本	视频 & 动作

提示词指南

对于视频生成，我们建议使用详细提示词，格式为叙述性段落。例如：

视频开始是车辆在多车道高速公路上行驶的视角，天空晴朗。道路两侧绿树成荫，营造出宁静的环境。前方可见多辆车辆，包括一辆显眼的白色半挂卡车和各种轿车，保持稳定速度。高速公路由多个车道组成，中间有混凝土隔离栏，场景沐浴在明亮的阳光下，表明是晴天。随着视频推进，前方车道上突然出现大量碎片。由于避让时间很短，本车只能驶过碎片并继续前进。本车经过散落物体时发生明显颠簸。车内视角拍摄，捕捉前方道路和周围环境。

对于动作生成，提示词应简洁并提供空间参考。例如：

将锅放在紫色物品的左侧。此视频以第一人称视角拍摄，俯视场景。

可在 GitHub 上的提示指南中找到提示词上采样模板和编写高质量提示词的最佳实践。

三、使用 Diffusers 使用 Cosmos 3

Cosmos 3 已集成到 Hugging Face Diffusers 库中，只需几行代码即可轻松使用世界生成流程。你可以通过熟悉的 DiffusionPipeline（通过 Cosmos3OmniPipeline）运行 Cosmos 3。目标是实现 Cosmos 3 的无缝采用并集成到你现有的流程中。

我们来看一个文本到图像的示例，使用 Cosmos 3 Nano 模型生成单帧：

import torch
from diffusers import Cosmos3OmniPipeline

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)

prompt = (
    "A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
    "A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
    "above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
    "A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
    "overhead fluorescent lights."
)

result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

以下是 Cosmos 3 Nano 模型根据给定提示生成的图像：

Cosmos 3 生成的图像

文档还包含了文本到视频、图像到视频等示例。相关信息和 API 用法请参阅 Cosmos 3 Diffusers 文档。

四、用于物理 AI 的数据集

作为 Cosmos 3 发布的一部分，NVIDIA 发布了一组合成数据生成（SDG）数据集，以帮助物理 AI 社区训练和评估世界基础模型。这些数据集由多个 NVIDIA 团队生成，可在 Hugging Face 上获取。

数据集	领域	描述
Embodied-Robot-Scenes	机器人	合成机器人仿真数据
Physical-Interaction-Scenes	物理	Isaac Sim 物理仿真数据
Spatial-Reasoning	推理	具身空间推理数据
Digital-Human-Scenes	人体运动	合成人体运动数据
Autonomous-Driving-Scenarios	驾驶	驾驶仿真数据
Warehouse-Operations-Scenes	仓库安全	仓库环境数据

五、Cosmos 框架

Cosmos 框架是一个端到端的框架，用于训练和服务如 Cosmos 3 这样的 WFM。在这里你可以找到推理和后训练脚本，以及用于开发的 agent 技能。

后训练 Cosmos 3

Cosmos 3 开箱即可理解和生成面向机器人、自动驾驶车辆和智能空间的世界视频和动作，但某些应用可能需要在特定数据集上进一步后训练以获得最佳结果。我们鼓励在不同的机器人、环境和任务上对 Cosmos 3 进行后训练——查看仓库中的后训练指南。

Agent 技能

该仓库还附带 agent 技能，使开发快速简单。这些技能有助于验证需求、设置环境依赖。你也可以使用它们了解仓库结构和示例、编写优质提示词，或运行推理和后训练脚本。

六、资源

阅读 Cosmos 3 技术博客，了解 Cosmos 3 的能力、性能、后训练以及通过 NIM 微服务进行部署。

原文链接：Hugging Face
本文由前途科技编辑整理

NVIDIA发布Cosmos 3：首个物理AI开源全模态模型

AI 前沿2026年5月31日· 原作者：Hugging Face· 8 分钟阅读1 阅读

输入模态

输出模态

应用

文本

图像

视频

文本

视频

文本

动作

图像

文本

视频

动作

图像

文本

视频 & 动作

import torch from diffusers import Cosmos3OmniPipeline pipe = Cosmos3OmniPipeline.from_pretrained( "nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda" ) prompt = ( "A medium shot of a modern robotics research laboratory with white walls and a gray floor. " "A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned " "above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. " "A large monitor on the wall behind displays a software interface. The scene is brightly lit by " "overhead fluorescent lights." ) result = pipe(prompt=prompt, num_frames=1, height=720, width=1280) result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)

数据集

领域

描述

Embodied-Robot-Scenes

机器人

合成机器人仿真数据

Physical-Interaction-Scenes

物理

Isaac Sim 物理仿真数据

Spatial-Reasoning

推理

具身空间推理数据

Digital-Human-Scenes

人体运动

合成人体运动数据

Autonomous-Driving-Scenarios

驾驶

驾驶仿真数据

Warehouse-Operations-Scenes

仓库安全

仓库环境数据

NVIDIA发布Cosmos 3：首个物理AI开源全模态模型

一、Cosmos 3 的新特性

二、Cosmos 3 的能力

三、使用 Diffusers 使用 Cosmos 3

四、用于物理 AI 的数据集

五、Cosmos 框架

六、资源

想了解 AI 如何助力您的企业？

24小时热榜

特朗普官员对AI芯片漏洞存分歧

乌克兰用商业卫星图像缩短无人机打击时间

Rubin AI机架内存减半，芯片股暴跌

Methane Eating Microbes Can T

AI产品经理指标手册：五层、四实践、一清单

Neuralink植入装置恢复瘫痪患者语言与艺术能力

流式传输：让AI响应快到飞起

SkillOpt：从提示工程到技能训练

免费获取 AI 落地指南

NVIDIA发布Cosmos 3：首个物理AI开源全模态模型

一、Cosmos 3 的新特性

二、Cosmos 3 的能力

三、使用 Diffusers 使用 Cosmos 3

四、用于物理 AI 的数据集

五、Cosmos 框架

六、资源

想了解 AI 如何助力您的企业？

24小时热榜

特朗普官员对AI芯片漏洞存分歧

乌克兰用商业卫星图像缩短无人机打击时间

Rubin AI机架内存减半，芯片股暴跌

Methane Eating Microbes Can T

AI产品经理指标手册：五层、四实践、一清单

Neuralink植入装置恢复瘫痪患者语言与艺术能力

流式传输：让AI响应快到飞起

SkillOpt：从提示工程到技能训练

免费获取 AI 落地指南