NVIDIA 公司今天宣布了新的 AI 和模拟工具,旨在加速包括人形机器人开发在内的机器人开发。在机器人学习大会上,Hugging Face 公司和 NVIDIA 也宣布将结合其开源 AI 和机器人技术,以加速研究和开发。
这些工具包括正式发布的 NVIDIA Isaac Lab 机器人学习框架,以及针对 GR00T 项目的六个新的机器人学习工作流程,旨在加速人形机器人开发。它们还包括用于视频数据整理和处理的新世界模型开发工具,包括 NVIDIA Cosmos 分词器和 NVIDIA NeMo Curator 用于视频处理。
Hugging Face 表示,其 LeRobot 开放式 AI 平台与 NVIDIA AI、Omniverse 和 Isaac 机器人技术相结合,将推动包括制造、医疗保健和物流在内的各个行业的进步。
NVIDIA Isaac Lab 助力人形机器人训练
Isaac Lab 是一个基于 NVIDIA Omniverse 的开源机器人学习框架,Omniverse 是一个用于开发工业数字化和物理 AI 模拟的 OpenUSD 应用程序的平台。NVIDIA 表示,开发人员可以使用 Isaac Lab 大规模训练各种类型机器人的策略,从协作机器人和四足机器人到人形机器人。
该公司表示,全球领先的研究机构、机器人制造商和应用开发商都在使用 Isaac Lab。其中包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid、Boston Dynamics、Field AI、Fourier、Galbot、Mentee Robotics、Skild AI、Swiss-Mile、Unitree Robotics 和 XPENG Robotics。
从 Isaac Gym 迁移的指南已在线发布,NVIDIA Isaac Lab 1.0 现已在 GitHub 上提供。
GR00T 项目提供通用机器人蓝图
在 3 月份的图形处理单元技术大会 (GTC) 上宣布的 GR00T 项目旨在开发库、基础模型和数据管道,以帮助全球人形机器人开发人员生态系统。NVIDIA 即将添加六个新的工作流程,以帮助机器人感知、移动和与人和环境互动:
- GR00T-Gen 用于构建基于 OpenUSD 的生成式 AI 驱动的 3D 环境
- GR00T-Mimic 用于机器人运动和轨迹生成
- GR00T-Dexterity 用于机器人灵巧操作
- GR00T-Control 用于全身控制
- GR00T-Mobility 用于机器人运动和导航
- GR00T-Perception 用于多模态感知
“人形机器人是下一波具身 AI 的浪潮,”NVIDIA 具身 AI 高级研究经理 Jim Fan 表示。“NVIDIA 研究和工程团队正在与公司内部和我们的开发人员生态系统合作,构建 GR00T 项目,以帮助推动全球人形机器人开发人员的进步和发展。”
GR00T 项目现在包括六个新的工作流程,以加速人形机器人开发。来源:NVIDIA
Cosmos 分词器最大程度减少失真
当开发人员构建世界模型(即 AI 对物体和环境如何响应机器人动作的表示)时,他们需要数千小时的真实世界图像或视频数据。NVIDIA 表示,其 Cosmos 分词器提供高质量的编码和解码,以简化这些世界模型的开发,同时最大程度地减少失真和时间不稳定性。
该公司表示,开源 Cosmos 分词器运行速度比当前分词器快 12 倍。它现在已在 GitHub 和 Hugging Face 上提供。XPENG Robotics、Hillbot 和 1X Technologies 正在使用该分词器。
“NVIDIA Cosmos 分词器在实现我们数据的时空压缩方面取得了非常高的成就,同时仍然保留了视觉保真度,”1X Technologies 的 AI 副总裁 Eric Jang 表示,该公司更新了 1X 世界模型数据集。“这使我们能够以更高效的计算方式训练具有长时域视频生成的 world 模型。”
申请演讲。
NeMo Curator 处理视频数据
由于视频数据规模庞大,整理视频数据面临着挑战,需要可扩展的管道和高效的编排,以便在 GPU 上进行负载均衡。NVIDIA 指出,此外,用于过滤、加字幕和嵌入的模型需要优化,以最大限度地提高吞吐量。
NeMo Curator 通过自动管道编排简化了数据整理,减少了视频处理时间。该公司表示,该管道使机器人开发人员能够通过处理大规模文本、图像和视频数据来提高其世界模型的准确性。
该系统支持跨多节点、多 GPU 系统的线性扩展,可以高效地处理超过 100 PB 的数据。NVIDIA 声称,这可以简化 AI 开发、降低成本并加快上市时间。
用于视频处理的 NeMo Curator 将在本月底发布。
Hugging Face 和 NVIDIA 共享数据和模拟工具
Hugging Face 和 NVIDIA 在德国慕尼黑举行的机器人学习大会 (CoRL) 上宣布,他们正在合作,利用 LeRobot、NVIDIA Isaac Lab 和 NVIDIA Jetson 加速开源机器人研究。他们表示,他们的开源框架将开启“物理 AI 时代”,在这个时代,机器人能够理解其环境并改变行业。
超过 500 万机器学习研究人员使用总部位于纽约的 Hugging Face 的 AI 平台,该平台包括包含超过 150 万个模型、数据集和应用程序的 API。LeRobot 提供用于共享数据收集、模型训练和模拟环境的工具,以及低成本的机械手套件。
这些工具现在与 Isaac Lab 在 Isaac Sim 上协同工作,使机器人能够通过在逼真的模拟中进行演示或试错来进行训练。计划中的协作工作流程包括通过 Isaac Lab 中的遥操作和模拟收集数据,并将其存储在标准 LeRobotDataset 格式中。
然后,使用 GR00T-Mimic 生成的将用于训练机器人策略,并使用模仿学习进行训练,随后在模拟中进行评估。最后,经过验证的策略将部署在配备 NVIDIA Jetson 的真实世界机器人上,以进行实时推理。
这种合作的初步步骤展示了一个物理拾取设置,LeRobot 软件在 NVIDIA Jetson Orin Nano 上运行,为部署提供了一个紧凑的计算平台。
“将 Hugging Face 开源社区与 NVIDIA 的硬件和 Isaac Lab 模拟相结合,有可能加速机器人 AI 的创新,”LeRobot 首席研究科学家 Remi Cadene 表示。
同样在 CoRL 上,NVIDIA 发布了 23 篇论文,并举办了 9 个与机器人学习进展相关的研讨会。这些论文涵盖了将视觉语言模型 (VLM) 集成到环境理解和任务执行中、机器人时间导航、为复杂的多步骤任务开发长时域规划策略以及使用人类演示进行技能获取。
用于人形机器人控制和合成数据生成的论文包括 SkillGen,这是一个基于合成数据生成的系统,用于在最少的人类演示下训练机器人,以及 HOVER,一个用于控制人形机器人运动和操作的机器人基础模型。
NVIDIA 和 Hugging Face 正在合作进行开源 AI 和机器人研发。来源:NVIDIA
文章“NVIDIA 为机器人学习和人形机器人开发添加了开放式 AI 和模拟工具”最初发表在 The Robot Report 上。