机器梦境:MIT 研发新系统,助机器人跨越模拟与现实鸿沟
对于机器人学家而言,最大的挑战莫过于“泛化”——创造能够适应任何环境和条件的机器。自 20 世纪 70 年代以来,机器人领域从编写复杂的程序发展到利用深度学习,让机器人直接从人类行为中学习。然而,一个关键瓶颈依然存在:数据质量。为了提升性能,机器人需要遇到挑战其能力极限的场景,在掌握边缘进行操作。传统上,这一过程需要人类监督,操作员仔细地挑战机器人以扩展其能力。随着机器人变得越来越复杂,这种人工干预的方式遇到了扩展性问题:对高质量训练数据的需求远远超过了人类提供数据的能力。
麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一个研究团队开发了一种机器人训练方法,有望显著加速适应性强、智能机器在现实世界环境中的部署。这种名为“LucidSim”的新系统利用了生成式 AI 和物理模拟器方面的最新进展,创建了多样化且逼真的虚拟训练环境,帮助机器人无需任何现实世界数据就能在困难的任务中达到专家级水平。
LucidSim 将物理模拟与生成式 AI 模型相结合,解决了机器人领域最持久的一个挑战:将模拟中学习到的技能迁移到现实世界。
“机器人学习中的一个基本挑战一直是‘模拟到现实差距’——模拟训练环境与复杂、不可预测的现实世界之间的差异,”LucidSim 的主要研究人员、MIT CSAIL 博士后研究员杨歌说。“以前的方法通常依赖于深度传感器,这简化了问题,但忽略了现实世界中至关重要的复杂性。”
这个多方面系统融合了不同的技术。LucidSim 的核心是利用大型语言模型生成各种结构化的环境描述。然后,这些描述通过生成模型转换为图像。为了确保这些图像反映现实世界的物理规律,一个底层的物理模拟器被用来指导生成过程。
相关阅读: Agility Robotics 如何为 Digit 弥合 Sim2Real 差距
灵感的诞生:从墨西哥卷饼到突破
LucidSim 的灵感来自一个意想不到的地方:在马萨诸塞州剑桥市 Beantown Taqueria 外的一次谈话。
“我们想教配备视觉的机器人如何利用人类反馈进行改进。但随后,我们意识到我们一开始就没有一个纯粹的基于视觉的策略,”MIT 本科生、LucidSim 的联合负责人 Alan Yu 说。“我们一边走着一边不断地讨论这个问题,然后我们在墨西哥卷饼店外停了大约半个小时。就在那里,我们有了灵感。”
申请演讲
为了生成数据,研究团队通过从模拟场景中提取深度图(提供几何信息)和语义掩码(标记图像的不同部分)来生成逼真的图像。然而,他们很快意识到,如果严格控制图像内容的构成,模型就会生成相似的图像,这些图像使用相同的提示不会彼此不同。因此,他们设计了一种方法,从 ChatGPT 中获取多样化的文本提示。
然而,这种方法只生成了一张图像。为了制作简短、连贯的视频,这些视频充当机器人的“体验”,科学家们将一些图像魔法整合到另一个名为“运动中的梦境 (DIM)”的新技术中。该系统计算每一帧之间每个像素的运动,将单个生成的图像扭曲成一个简短的多帧视频。运动中的梦境通过考虑场景的 3D 几何形状和机器人视角的相对变化来实现这一点。
“我们的性能优于 2017 年开发的一种方法,该方法对环境中的物体应用随机颜色和图案,这种方法至今仍被认为是首选方法,”Yu 说。“虽然这种技术生成多样化的数据,但它缺乏真实感。LucidSim 解决了多样性和真实感问题。令人兴奋的是,即使在训练期间没有看到真实世界,机器人也能识别和避开真实环境中的障碍物。”
研究团队对将 LucidSim 应用于四足动物运动和跑酷以外的领域(他们的主要测试平台)特别兴奋。一个例子是移动操作,其中移动机器人被要求在开放区域处理物体,并且颜色感知也很重要。
“如今,这些机器人仍然从现实世界的演示中学习,”杨歌说。“虽然收集演示很容易,但将现实世界机器人遥操作设置扩展到数千种技能具有挑战性,因为人类必须手动设置每个场景。我们希望通过将数据收集转移到虚拟环境中,使这一过程变得更容易,从而在质量上更具可扩展性。”
MIT 研究人员使用了一台 Unitree Robotics Go1 四足机器人。| 图片来源:MIT CSAIL
研究团队将 LucidSim 与另一种方法进行了对比测试,在另一种方法中,专家教师演示技能,让机器人从中学习。结果令人惊讶:由专家训练的机器人表现挣扎,只有 15% 的时间成功——即使将专家训练数据量增加四倍,也几乎没有改变结果。但当机器人通过 LucidSim 收集自己的训练数据时,情况发生了戏剧性的变化。仅仅将数据集大小增加一倍,成功率就跃升至 88%。
“而且,为我们的机器人提供更多数据会单调地提高其性能——最终,学生会成为专家,”杨歌说。
“机器人学中 Sim2Real 转移的主要挑战之一是在模拟环境中实现视觉真实感,”斯坦福大学电气工程助理教授宋书航说,他没有参与这项研究。“LucidSim 框架提供了一个优雅的解决方案,它使用生成模型为任何模拟创建多样化、高度逼真的视觉数据。这项工作可以显著加速在虚拟环境中训练的机器人部署到现实世界的任务中。”
从剑桥的街道到机器人研究的前沿,LucidSim 为新一代智能、适应性强的机器铺平了道路——这些机器能够学习在复杂的世界中导航,而无需踏入其中。
Yu 和 Yang 与四位 CSAIL 同事共同撰写了这篇论文:机械工程博士后 Choi Ran;本科生研究员 Yajvan Ravan;麻省理工学院机械工程系 Samuel C. Collins 机械与海洋工程教授 John Leonard;以及麻省理工学院副教授 Phillip Isola。
编者注: 本文转载自 MIT CSAIL
文章首发于 The Robot Report。