Nvidia 发布 Cosmos 世界基础模型平台,加速物理 AI 发展
在 2025 年 CES 大会上,英伟达 CEO 黄仁勋发表了主题演讲,宣布推出 Cosmos 世界基础模型平台,旨在加速物理 AI 的发展。该平台包含最先进的生成式世界基础模型、高级分词器、安全机制和加速视频处理管道,旨在推动自动驾驶汽车 (AV) 和机器人等物理 AI 系统的开发。
物理 AI 模型的开发成本高昂,需要大量真实世界数据和测试。Cosmos 世界基础模型 (WFM) 为开发者提供了一种简单的方法,可以生成大量逼真的、基于物理的合成数据,用于训练和评估其现有模型。开发者还可以通过微调 Cosmos WFM 来构建自定义模型。
Cosmos 模型将根据开放模型许可证提供,以加速机器人和自动驾驶社区的工作。开发者可以在英伟达 API 目录中预览首批模型,或从英伟达 NGCTM 目录或 Hugging Face 下载模型系列和微调框架。
“它接受了 2000 万小时视频的训练,”黄仁勋说。“英伟达 Cosmos。它旨在教会 AI 理解物理世界。”
Cosmos 生成合成数据。
领先的机器人和汽车公司,包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和 XPENG,以及网约车巨头 Uber,都是首批采用 Cosmos 的公司。
“机器人领域的 ChatGPT 时刻即将到来。与大型语言模型一样,世界基础模型对于推动机器人和自动驾驶开发至关重要,但并非所有开发者都拥有训练自己模型的专业知识和资源,”英伟达创始人兼首席执行官黄仁勋在一份声明中表示。“我们创建 Cosmos 的目的是使物理 AI 民主化,让每个开发者都能触及通用机器人。”
英伟达通往 2025 年 CES 的旅程。
开放式世界基础模型,加速下一波 AI 浪潮
英伟达 Cosmos 的开放模型套件意味着开发者可以根据目标应用的需求,使用数据集(例如自动驾驶汽车行驶的视频记录或机器人导航仓库的视频记录)来定制 WFM。
Cosmos WFM 专为物理 AI 研究和开发而设计,可以从文本、图像和视频以及机器人传感器或运动数据等多种输入组合中生成基于物理的视频。这些模型专为基于物理的交互、物体持久性和高质量的模拟工业环境(如仓库或工厂)和驾驶环境(包括各种路况)生成而设计。
在 CES 大会开幕主题演讲中,黄仁勋展示了物理 AI 开发者如何使用 Cosmos 模型,包括:
- 视频搜索和理解,使开发者能够轻松地从视频数据中找到特定的训练场景,例如雪地路况或仓库拥堵。
- 可控的 3D 到真实合成数据生成,使用 Cosmos 模型从英伟达 Omniverse 平台中开发的可控 3D 场景生成逼真的视频。
- 物理 AI 模型开发和评估,无论是基于基础模型构建自定义模型,还是使用 Cosmos 改善模型以进行强化学习,或者测试它们在特定模拟场景下的表现。
- 预见 – 预测物理 AI 模型下一个潜在动作的结果的能力 – 帮助它选择最佳的动作。
- 多元宇宙模拟,使用 Cosmos 和 Omniverse 生成 AI 模型可能采取的每种可能的未来结果,帮助它选择最佳和最准确的路径。
英伟达将物理世界中的 AI 技术与数字孪生技术相结合。
构建物理 AI 模型需要 PB 级别的视频数据和数万个计算小时来处理、整理和标记这些数据。为了帮助节省数据整理、训练和模型定制方面的巨额成本,Cosmos 提供了以下功能:
- 英伟达 AI 和 CUDA 加速的数据处理管道,由英伟达 NeMo Curator 提供支持,使开发者能够使用英伟达 Blackwell 平台在 14 天内处理、整理和标记 2000 万小时的视频,而不是使用纯 CPU 管道需要 3.4 年。
- 英伟达 Cosmos 分词器,一种最先进的视觉分词器,用于将图像和视频转换为标记。与当今领先的分词器相比,它提供了 8 倍的总压缩率和 12 倍的处理速度。
- 英伟达 NeMo 框架,用于高效的模型训练、定制和优化。
- 全球最大的物理 AI 行业采用 Cosmos
- 物理 AI 行业的先驱者已经开始采用 Cosmos 技术。
- 1X 是一家 AI 和人形机器人公司,使用 Cosmos 分词器推出了 1X 世界模型挑战数据集。小鹏汽车将使用 Cosmos 加速其人形机器人的开发。Hillbot 和 SkildAI 正在使用 Cosmos 加速其通用机器人的开发。
“数据稀缺和可变性是机器人环境中成功学习的关键挑战,”Agility 首席技术官 Pras Velagapudi 在一份声明中表示。“Cosmos 的文本、图像和视频到世界的功能使我们能够生成和增强各种任务中的逼真场景,我们可以使用这些场景来训练模型,而无需大量昂贵的真实世界数据采集。”
交通运输领域的领导者也正在使用 Cosmos 为自动驾驶汽车构建物理 AI。
Waabi 是一家为物理世界开创生成式 AI 的公司,将使用 Cosmos 搜索和整理用于自动驾驶软件开发和模拟的视频数据。
Wayve 正在开发用于自动驾驶的 AI 基础模型,正在评估 Cosmos 作为一种工具,用于搜索用于安全和验证的边缘和极端驾驶场景。
自动驾驶工具链提供商 Foretellix 将使用 Cosmos 以及英伟达 Omniverse Sensor RTX API,以大规模评估和生成高保真测试场景和训练数据。
全球网约车巨头 Uber 正在与英伟达合作,加速自动驾驶出行。来自 Uber 的丰富驾驶数据集,结合 Cosmos 平台和英伟达 DGX Cloud 的功能,将帮助自动驾驶合作伙伴更有效地构建更强大的 AI 模型。
“生成式 AI 将推动未来的出行,这需要丰富的数据和强大的计算能力,”Uber 首席执行官 Dara Khosrowshahi 表示。“通过与英伟达合作,我们相信能够帮助加速行业安全可靠的自动驾驶解决方案的开发时间表。”
Cosmos 使机器能够理解物理世界。
英伟达 Cosmos 的开发符合英伟达值得信赖的 AI 原则,该原则优先考虑隐私、安全、保障、透明度和减少不必要的偏差。
值得信赖的 AI 对于在开发者社区中促进创新和维护用户信任至关重要。英伟达致力于安全可靠的 AI,符合白宫的自愿 AI 承诺和其他全球 AI 安全倡议。
开放的 Cosmos 平台包含旨在减轻有害文本和图像的防护措施,并提供一个工具来提高文本提示的准确性。使用英伟达 API 目录中的 Cosmos 自回归和扩散模型生成的视频包含不可见的数字水印,以识别 AI 生成的内容,有助于减少虚假信息和错误归属的可能性。
英伟达鼓励开发者采用值得信赖的 AI 实践,并进一步增强其应用程序的防护措施和数字水印解决方案。
您可以使用 Cosmos 训练物理机器人。
Cosmos WFM 现在根据英伟达的开放模型许可证在 Hugging Face 和英伟达 NGC 目录中提供。Cosmos 模型将很快作为完全优化的英伟达 NIM 微服务提供。
开发者可以使用英伟达 NeMo Curator 进行加速视频处理,并使用英伟达 NeMo 定制自己的世界模型。英伟达 DGX Cloud 提供了一种快速简便的方法来部署这些模型,并通过英伟达 AI Enterprise 软件平台提供企业支持。
英伟达还宣布了新的英伟达 Llama Nemotron 大型语言模型和英伟达 Cosmos Nemotron 视觉语言模型,开发者可以将这些模型用于医疗保健、金融服务、制造等领域的企业 AI 用例。