订阅我们的每日和每周新闻通讯,获取有关行业领先人工智能报道的最新更新和独家内容。了解更多
英伟达发布了新的 AI 和模拟工具,将推动机器人学习和人形机器人开发的进步。
这家全球市值最大的科技公司(市值 3.432 万亿美元)表示,这些工具将使机器人开发人员能够显著加速其在 AI 驱动的机器人方面的研究工作。这些工具在本周在德国慕尼黑举行的机器人学习大会 (CoRL) 上发布。
这些工具包括英伟达 Isaac Lab 机器人学习框架的全面发布;针对 Project GR00T 的六个新的人形机器人学习工作流程,该项目旨在加速人形机器人开发;以及用于视频数据整理和处理的新世界模型开发工具,包括英伟达 Cosmos 分词器和英伟达 NeMo Curator 用于视频处理。
开源 Cosmos 分词器通过将图像和视频分解成具有极高压缩率的高质量标记,为机器人开发人员提供了卓越的视觉标记。它的运行速度比当前的分词器快 12 倍,而 NeMo Curator 提供的视频处理整理速度比未优化的管道快 7 倍。
英伟达还与 CoRL 同步发布了 23 篇与机器人学习相关的论文,并举办了 9 场研讨会,同时还发布了面向开发人员的培训和工作流程指南。此外,Hugging Face 和英伟达宣布他们正在合作,利用 LeRobot、英伟达 Isaac Lab 和英伟达 Jetson 为开发人员社区加速开源机器人研究。
英伟达 Isaac Lab Project GR00T 模型
英伟达 Isaac Lab 是一个基于英伟达 Omniverse 的开源机器人学习框架,Omniverse 是一个用于开发用于工业数字化和物理 AI 模拟的 OpenUSD 应用程序的平台。
开发人员可以使用 Isaac Lab 大规模训练机器人策略。这个开源的统一机器人学习框架适用于任何形态,从人形机器人到四足机器人和协作机器人,以处理日益复杂的动作和交互。
全球领先的商业机器人制造商、机器人应用开发人员和机器人研究机构正在采用 Isaac Lab,包括 1X、Agility Robotics、The AI Institute、Berkeley Humanoid、Boston Dynamics、Field AI、Fourier、Galbot、Mentee Robotics、Skild AI、Swiss-Mile、Unitree Robotics 和 Xpeng Robotics。
人形机器人即将到来。构建先进的人形机器人极其困难,需要多层次的技术和跨学科方法,使机器人能够有效地感知、移动和学习技能,以实现人机交互和机器人与环境的交互。
Project GR00T 是一项旨在开发加速库、基础模型和数据管道以加速全球人形机器人开发人员生态系统的计划。
六个新的 Project GR00T 工作流程为人形机器人开发人员提供了蓝图,以实现最具挑战性的人形机器人能力。它们包括 GR00T-Gen,用于构建基于 OpenUSD 的生成式 AI 驱动的 3D 环境等等。
“人形机器人是具身 AI 的下一波浪潮,”英伟达具身 AI 高级研究经理 Jim Fan 在一份声明中表示。“英伟达的研究和工程团队正在与公司和我们的开发人员生态系统合作,构建 Project GR00T,以帮助推动全球人形机器人开发人员的进步和发展。”
如今,机器人开发人员正在构建世界模型——对世界的 AI 表示,可以预测物体和环境如何响应机器人的动作。构建这些世界模型需要大量的计算和数据,模型需要数千小时的真实世界、经过整理的图像或视频数据。
英伟达 Cosmos 分词器提供高效、高质量的编码和解码,以简化这些世界模型的开发。它们设定了最小失真和时间不稳定性的新标准,从而实现高质量的视频和图像重建。
Cosmos 分词器提供高质量的压缩和高达 12 倍的视觉重建速度,为跨广泛视觉领域的可扩展、稳健和高效的生成式应用程序开发铺平了道路。
人形机器人公司 1X 已更新 1X 世界模型挑战数据集以使用 Cosmos 分词器。
“英伟达 Cosmos 分词器在保持视觉保真度的同时,实现了我们数据的极高时间和空间压缩,”1X Technologies 的 AI 副总裁 Eric Jang 在一份声明中表示。“这使我们能够以更具计算效率的方式训练具有长时域视频生成的 world 模型。”
包括 Xpeng Robotics 和 Hillbot 在内的其他人形机器人和通用机器人开发人员正在使用英伟达 Cosmos 分词器来管理高分辨率图像和视频。
NeMo Curator 现在包含一个视频处理管道。这使机器人开发人员能够通过处理大规模文本、图像和视频数据来提高其世界模型的准确性。
整理视频数据由于其庞大的规模而带来了挑战,需要可扩展的管道和高效的编排,以便在 GPU 上进行负载均衡。此外,用于过滤、添加字幕和嵌入的模型需要优化,以最大限度地提高吞吐量。
NeMo Curator 通过使用自动管道编排简化数据整理,从而显著减少处理时间。它支持跨多节点多 GPU 系统的线性扩展,可以有效地处理超过 100 PB 的数据。这简化了 AI 开发,降低了成本,并加快了上市时间。
英伟达 Isaac Lab 1.2 现已推出,并在 GitHub 上开源。英伟达 Cosmos 分词器现已在 GitHub 和 Hugging Face 上推出。NeMo Curator 用于视频处理将在本月底推出。
新的英伟达 Project GR00T 工作流程即将推出,以帮助机器人公司更轻松地构建人形机器人功能。
对于学习使用 Isaac Lab 的研究人员和开发人员,现在提供了新的入门开发人员指南和教程,包括 Isaac Gym 到 Isaac Lab 的迁移指南。