NVIDIA 携手 Cosmos 平台,开启“物理 AI”新纪元
人工智能(AI)长期以来被困在二维世界,就像英国教师埃德温·阿伯特·阿博特(Edwin Abbott Abbott)所设想的“平面国”一样。尽管聊天机器人、图像生成器和 AI 驱动的视频工具让我们惊叹不已,但它们仍然局限于屏幕的平面。
现在,NVIDIA 正打破“平面国”的藩篱,开启“物理 AI”时代——一个 AI 可以感知、理解和与周围三维世界交互的世界。
NVIDIA 首席执行官黄仁勋表示:“AI 的下一个前沿是物理 AI。想象一个大型语言模型,但它不是处理文本,而是处理周围环境。它不是以问题作为提示,而是以请求作为提示。它不是生成文本,而是生成动作令牌。”
这与传统机器人有何不同?传统机器人通常被预先编程以在受控环境中执行特定、重复的任务。它们擅长自动化,但缺乏适应性和理解能力,无法处理意外情况或在复杂、动态的环境中导航。
NVIDIA 医疗保健副总裁金伯利·鲍威尔(Kimberly Powell)在摩根大通医疗保健大会上宣布时,谈到了其在医疗保健环境中的潜力:“每个传感器、每个病房、每家医院都将整合物理 AI。这是一个新概念,但简单来说,物理 AI 就是理解物理世界。”
理解是问题的关键。虽然传统 AI 和自主系统可以在物理空间中运行,但它们在历史上缺乏对世界整体的感知,超出了它们执行机械任务所需的范围。
随着 GPU 性能的加速,先进的 AI 系统正在稳步取得进展。在 11 月的“无先验”播客中,黄仁勋透露,NVIDIA 在 12 个月内将 Hopper 架构的性能提高了五倍,同时保持了跨更高软件层的应用程序编程接口 (API) 兼容性。其最新的架构是 Blackwell。
黄仁勋指出:“使用传统计算方法,一年内实现五倍的性能提升是不可能的。”他解释说,加速计算与硬件软件协同设计方法相结合,使 NVIDIA 能够“发明各种新事物”。
迈向“人工智能机器人”
黄仁勋还讨论了他对通用人工智能 (AGI) 的看法,他认为 AGI 不仅触手可及,而且通用机器人技术也正在接近技术可行性。
鲍威尔在摩根大通的演讲中也表达了类似的观点:“AI 革命不仅已经到来,而且正在加速发展。”
鲍威尔指出,NVIDIA 的工作范围现已涵盖从制造业和医疗保健领域的先进机器人技术到 Omniverse 等模拟工具,这些工具可以生成用于训练和测试的逼真环境。
在并行发展中,NVIDIA 推出了用于自主系统开发的新计算框架。Cosmos 世界基础模型 (WFM) 平台支持大规模处理视觉和物理数据,其框架专为自动驾驶汽车和机器人应用而设计。

NVIDIA Cosmos 拥有四个关键架构组件:用于顺序帧预测的自回归模型、用于迭代视频生成的扩散模型、用于高效压缩的视频标记器以及用于数据整理的视频处理管道。这些组件共同构成了一个用于物理感知世界建模和视频生成的集成平台。 | 来源:NVIDIA
标记现实
在去年的 CES 2025 上,黄仁勋强调了“物理 AI”与以文本为中心的 LLM(大型语言模型)将有多么不同:“如果提示不是问题,而是请求——走到那里,拿起那个箱子,把它拿回来?如果它不是生成文本,而是生成动作令牌?这对机器人技术的未来来说非常合理,这项技术即将到来。”
在同一期“无先验”播客中,黄仁勋指出,对多模态 LLM 的强劲需求可能会推动机器人技术的进步。“如果你可以生成我拿起咖啡杯的视频,为什么你不能让机器人也这样做?”他问道。
黄仁勋还强调了机器人技术中的“棕色地带”机会——不需要任何新的基础设施——他以自动驾驶汽车和人形机器人为例。“我们为汽车和人类建造了这个世界。这些是最自然的物理 AI 形式。”
Cosmos 的结构基础

Cosmos 的宣传图片。 | 来源:NVIDIA
NVIDIA 的 Cosmos 平台强调物理感知视频建模和传感器数据处理。它还引入了一个用于训练和部署 WFM 的框架,其参数大小从 40 亿到 140 亿不等,旨在处理多模态输入,包括视频、文本和传感器数据。
系统架构包含物理感知视频模型,这些模型在约 9,000 万亿个令牌上进行训练,这些令牌来自 2,000 万小时的机器人和驾驶数据。该平台的数据处理基础设施利用 NeMo Curator 管道,该管道能够在分布式计算集群中实现高吞吐量视频处理。
这种架构支持自回归模型和扩散模型,用于生成物理感知模拟,基准测试表明,与基线视频合成模型相比,姿势估计精度提高了 14 倍。该系统的标记器实现了 8 倍的视觉数据压缩率,同时保持了时间一致性,这对实时机器人应用至关重要。
物理 AI 的愿景
世界基础模型 (WFM) 的发展代表着 AI 系统与物理世界交互方式的转变。物理建模的复杂性带来了独特的挑战,将 WFM 与传统的语言模型区分开来。
黄仁勋解释说:“(世界模型)必须理解物理动力学,比如重力、摩擦和惯性。它必须理解几何和空间关系。”对物理原理的全面理解推动了 Cosmos 等系统的架构,这些系统实现了专门的神经网络来模拟物理交互。
物理 AI 系统的开发方法与 LLM 相似,但具有不同的操作要求。黄仁勋明确地建立了这种联系:“想象一下,你的大型语言模型,你给它你的上下文,你的提示在左边,它生成令牌。”
该平台广泛的训练要求与黄仁勋的观察结果一致,即“扩展定律表明,你拥有的数据越多,你拥有的训练数据越多,你拥有的模型越大,你应用的计算能力越多,因此你的模型越有效,或者你的模型的能力越强。”
Cosmos 的 9,000 万亿个令牌训练数据集证明了这一原则,展示了有效物理 AI 系统所需的计算规模。

该图片展示了 NVIDIA 的 Isaac GR00T 技术,显示一名操作员使用 VR 头显演示动作,这些动作在模拟环境中由人形机器人镜像。该演示突出了基于遥操作的合成运动生成,用于训练下一代机器人系统。 | 来源:NVIDIA
未来影响
物理 AI 有可能改变传统机器人用户的格局。与物理 AI 的进步同步,AI 代理也在迅速扩展其技能集。黄仁勋将这些代理描述为“为我们和我们一起工作的新的数字劳动力”。
无论是在制造业、医疗保健、物流还是日常消费技术领域,这些智能代理都可以让人类摆脱重复性任务,持续运行,并适应快速变化的条件。用他的话说,“AI 代理很可能成为下一个机器人行业,并且很可能成为一个价值数万亿美元的机会。”
正如黄仁勋所说,我们正在接近一个 AI 将“与你同在”的时代,无缝地融入我们的生活。他以 Meta 的智能眼镜为例,设想了一个未来,我们可以简单地用手势或语音与 AI 伙伴互动,并获取有关周围世界的信息。
根据黄仁勋的说法,这种向直观、始终在线的 AI 助手转变对我们学习、工作和在环境中导航的方式具有深远的影响。
他说:“当然,智能是我们拥有的最有价值的资产,它可以用来解决许多非常具有挑战性的问题。”
当我们展望一个充满持续 AI 代理、沉浸式增强现实和价值数万亿美元的机器人机会的未来时,“平面国 AI”时代即将结束,现实世界将成为 AI 最大的画布。
编者注:本文转载自The Robot Report姊妹网站R&D World。
立即注册,享受 40% 的会议通行证优惠!
文章来源:The Robot Report