NVIDIA 发布 Cosmos 3,一个统一的世界基础模型(WFM),集世界生成、物理推理和动作生成于一体。基于 MoT 架构,支持文本、图像、视频、动作等多模态输入输出,提供 8B Nano 和 32B Super 两个版本,并配套开源数据集和框架,助力机器人、自动驾驶等物理 AI 领域的发展。
NVIDIA Cosmos 3 来了——今天已在 Hugging Face 上可用。Cosmos 3 在物理 AI 的世界基础模型(WFM)领域实现了重大飞跃:一个单一、统一的全模态模型,将世界生成、物理推理和动作生成整合在一个模型中。不再需要在不同模型和推理流程之间切换——Cosmos 3 一应俱全。
无论你是在构建机器人、自动驾驶车辆还是智能空间,Cosmos 3 都为你提供了模拟和理解物理世界的基础。
本次发布的内容包括:
Cosmos 3 相比之前版本的最大变化是它作为一个全模态模型,基于 Mixture-of-Transformers(MoT)架构构建。以前,开发者需要为不同能力使用独立模型,如世界生成(Cosmos Predict)、受控生成(Cosmos Transfer)、场景理解(Cosmos Reason)和策略生成(Cosmos Policy)。Cosmos 3 在单个模型中实现了这一切,可以在一次统一的前向传播中推理和生成不同模态。
这意味着你现在可以仅用一个模型完成以下所有任务:
这对物理 AI 为何重要
Cosmos 3 帮助构建能够理解真实世界的物理 AI 系统。不仅仅是像素和 token,而是运动、因果关系、物理和动作。如果你正在训练机器人叠衣服、构建自动驾驶模拟或为仓库安全场景生成合成训练数据,Cosmos 3 正是为这些用例设计的基础模型。

Cosmos 3 生成的机器人拾放视频。

Cosmos 3 生成的长尾驾驶场景视频。

使用 Cosmos 3 进行图像到视频生成,用于仓库安全数据。

Cosmos 3 在自动驾驶应用中的思维链推理。
架构
Cosmos 3 基于 MoT 骨干网络构建,处理所有模态——文本、图像、视频、音频和动作——在单一统一架构内。每种模态首先由专用编码器(用于视觉理解的 ViT、用于视觉/音频生成的 VAE,以及用于动作的域感知向量)进行编码,然后投影到共享表示空间。

输入序列被分为两个子序列:一个自回归(AR)子序列,通过下一个 token 预测处理推理和理解;一个扩散(DM)子序列,通过迭代去噪处理生成。AR 和 DM token 在每个 Transformer 层内使用独立的参数集,但通过联合注意力进行交互——这使得单个模型能够无缝地在 VLM、视频生成器、前向/逆动力学模型或机器人策略之间切换,无需架构更改。
模型版本
本次发布的 Cosmos 3 包括两个模型大小,针对不同部署场景进行了优化:
Cosmos 3 通过单一统一模型支持多种输入和生成模态:
| 输入模态 | 输出模态 | 应用 |
|---|---|---|
| 文本 | 图像 | 视频 |
| 文本 | 视频 | 文本 |
| 动作 | 图像 | 文本 |
| 文本 | 视频 | 动作 |
| 图像 | 文本 | 视频 & 动作 |
提示词指南
对于视频生成,我们建议使用详细提示词,格式为叙述性段落。例如:
视频开始是车辆在多车道高速公路上行驶的视角,天空晴朗。道路两侧绿树成荫,营造出宁静的环境。前方可见多辆车辆,包括一辆显眼的白色半挂卡车和各种轿车,保持稳定速度。高速公路由多个车道组成,中间有混凝土隔离栏,场景沐浴在明亮的阳光下,表明是晴天。随着视频推进,前方车道上突然出现大量碎片。由于避让时间很短,本车只能驶过碎片并继续前进。本车经过散落物体时发生明显颠簸。车内视角拍摄,捕捉前方道路和周围环境。
对于动作生成,提示词应简洁并提供空间参考。例如:
将锅放在紫色物品的左侧。此视频以第一人称视角拍摄,俯视场景。
可在 GitHub 上的提示指南中找到提示词上采样模板和编写高质量提示词的最佳实践。
Cosmos 3 已集成到 Hugging Face Diffusers 库中,只需几行代码即可轻松使用世界生成流程。你可以通过熟悉的 DiffusionPipeline(通过 Cosmos3OmniPipeline)运行 Cosmos 3。目标是实现 Cosmos 3 的无缝采用并集成到你现有的流程中。
我们来看一个文本到图像的示例,使用 Cosmos 3 Nano 模型生成单帧:
import torch
from diffusers import Cosmos3OmniPipeline
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Nano", torch_dtype=torch.bfloat16, device_map="cuda"
)
prompt = (
"A medium shot of a modern robotics research laboratory with white walls and a gray floor. "
"A robotic arm with a metallic finish is mounted on a clean white workbench, its gripper positioned "
"above a row of small colored objects. A laptop and neatly arranged tools sit beside the robot. "
"A large monitor on the wall behind displays a software interface. The scene is brightly lit by "
"overhead fluorescent lights."
)
result = pipe(prompt=prompt, num_frames=1, height=720, width=1280)
result.video[0].save("cosmos3_t2i.jpg", format="JPEG", quality=85)
以下是 Cosmos 3 Nano 模型根据给定提示生成的图像:

文档还包含了文本到视频、图像到视频等示例。相关信息和 API 用法请参阅 Cosmos 3 Diffusers 文档。
作为 Cosmos 3 发布的一部分,NVIDIA 发布了一组合成数据生成(SDG)数据集,以帮助物理 AI 社区训练和评估世界基础模型。这些数据集由多个 NVIDIA 团队生成,可在 Hugging Face 上获取。
| 数据集 | 领域 | 描述 |
|---|---|---|
| Embodied-Robot-Scenes | 机器人 | 合成机器人仿真数据 |
| Physical-Interaction-Scenes | 物理 | Isaac Sim 物理仿真数据 |
| Spatial-Reasoning | 推理 | 具身空间推理数据 |
| Digital-Human-Scenes | 人体运动 | 合成人体运动数据 |
| Autonomous-Driving-Scenarios | 驾驶 | 驾驶仿真数据 |
| Warehouse-Operations-Scenes | 仓库安全 | 仓库环境数据 |
Cosmos 框架 是一个端到端的框架,用于训练和服务如 Cosmos 3 这样的 WFM。在这里你可以找到推理和后训练脚本,以及用于开发的 agent 技能。
后训练 Cosmos 3
Cosmos 3 开箱即可理解和生成面向机器人、自动驾驶车辆和智能空间的世界视频和动作,但某些应用可能需要在特定数据集上进一步后训练以获得最佳结果。我们鼓励在不同的机器人、环境和任务上对 Cosmos 3 进行后训练——查看仓库中的后训练指南。
Agent 技能
该仓库还附带 agent 技能,使开发快速简单。这些技能有助于验证需求、设置环境依赖。你也可以使用它们了解仓库结构和示例、编写优质提示词,或运行推理和后训练脚本。
阅读 Cosmos 3 技术博客,了解 Cosmos 3 的能力、性能、后训练以及通过 NIM 微服务进行部署。
原文链接:Hugging Face
本文由前途科技编辑整理
免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断