加州大学伯克利分校的 AI 机器人学会了玩“叠叠乐”
在加州大学伯克利分校,谢尔盖·莱文领导的机器人人工智能与学习实验室的研究人员,将目光投向了一张桌子,上面整齐地堆放着 39 块“叠叠乐”积木。然后,一台黑白相间的机器人,它那单一的肢体像一只驼背的长颈鹿一样弯曲着,朝着积木塔飞奔而去,挥舞着一根黑色的皮鞭。对于一个普通的观察者来说,这可能看起来像是物理奇迹,皮鞭精准地击中了正确的位置,将一块积木从堆栈中击飞,而其余的积木塔仍然保持着结构的完整性。
这项被称为“叠叠乐鞭打”的任务,是那些拥有灵巧和反应能力的人的爱好。现在,由于一种新颖的、人工智能驱动的训练方法,机器人也掌握了这项技能。通过从人类的演示和反馈中学习,以及从自身的现实世界尝试中学习,这种训练方案教会了机器人如何以 100% 的成功率执行像“叠叠乐鞭打”这样的复杂任务。更重要的是,机器人学习的速度令人印象深刻,它们可以在一到两个小时内学会完美地组装电脑主板、搭建架子等等。
在人工智能的推动下,机器人学习领域一直在努力破解如何教会机器执行不可预测或复杂的活动,而不是像从传送带上的特定位置反复拾取物体这样的单一动作。为了解决这个难题,莱文的实验室将重点放在了所谓的“强化学习”上。
博士后研究员罗建兰解释说,在强化学习中,机器人会在现实世界中尝试一项任务,并利用来自摄像头的反馈,从错误中学习,最终掌握这项技能。当该团队在 2024 年初首次宣布使用这种方法的新软件套件时,罗建兰说,他们很高兴其他人能够使用开源软件在自己的设备上快速复制他们的成功。
今年秋季,莱文、罗建兰、徐查尔斯、胡泽元和吴杰夫的研究团队发布了一份关于他们最新系统的技术报告,该系统成功地完成了“叠叠乐鞭打”任务。这个改进后的版本增加了人工干预。通过一个控制机器人的特殊鼠标,人类可以纠正机器人的路线,这些纠正可以被纳入机器人的“记忆库”。利用一种称为强化学习的人工智能方法,机器人分析了所有尝试的总和——包括辅助和非辅助、成功和不成功——以更好地执行其任务。罗建兰说,随着机器人从经验中学习,人类需要干预的次数越来越少。“我可能需要在最初的 30% 的时间里照看机器人,然后我就可以逐渐减少关注了,”他说。
立即注册,享受 40% 的会议通行证优惠!
该实验室让其机器人系统经历了一系列比“叠叠乐鞭打”更复杂的挑战。机器人翻转了平底锅里的鸡蛋;将物体从一只手臂传递到另一只手臂;组装了主板、汽车仪表盘和正时皮带。研究人员选择这些挑战是因为它们是多种多样的,用罗建兰的话来说,它们代表了“在复杂现实世界中执行机器人任务时,各种不确定性”。
正时皮带任务在难度方面尤为突出。每次机器人与正时皮带互动时——想象一下试图操纵一条松软的项链链穿过两个钉子——它都需要预测并对这种变化做出反应。
“叠叠乐鞭打”构成了另一种挑战。它涉及难以建模的物理现象,因此仅使用模拟来训练机器人效率较低;现实世界的经验至关重要。
研究人员还通过制造事故来测试机器人的适应能力。他们会强迫夹具打开,使其掉落物体,或者在机器人试图安装微芯片时移动主板,训练它对可能在实验室环境之外遇到的不断变化的情况做出反应。
在训练结束时,机器人能够以 100% 的成功率正确执行这些任务。研究人员将他们的结果与一种常见的“复制我的行为”方法进行了比较,这种方法被称为行为克隆,它是在相同数量的演示数据上训练的;他们的新系统使机器人更快、更准确。罗建兰说,这些指标至关重要,因为机器人能力的门槛非常高。普通消费者和工业界人士都不想购买不稳定的机器人。罗建兰强调,特别是“定制”制造流程,例如那些经常用于电子产品、汽车和航空航天部件的流程,可以从能够可靠且适应性地学习一系列任务的机器人中获益。
罗建兰说,当机器人第一次征服“叠叠乐鞭打”挑战时,“这真的让我震惊了”。“对于大多数人来说,‘叠叠乐’任务非常困难。我试着用鞭子在我的手中;我的成功率为 0%。”他补充说,即使与一个熟练的“叠叠乐鞭打”高手相比,机器人也可能胜过人类,因为它没有会最终疲劳的肌肉。
莱文实验室的新学习系统是机器人创新更广泛趋势的一部分。在过去两年中,在行业投资和人工智能的推动下,整个领域取得了飞跃式发展,人工智能为工程师提供了强大的工具来分析机器人的性能数据或图像输入。伯克利大学的教授和研究人员是这场创新浪潮的一部分;各种尖端的机器人公司,这些公司获得了大量的风险投资资金,甚至上市,都与校园有着密切的联系。
莱文是机器人公司 Physical Intelligence (PI) 的联合创始人,该公司目前估值 20 亿美元,因为它在创建适用于各种机器人的软件方面取得了进展。在最新的融资轮中,PI 从包括杰夫·贝佐斯和 OpenAI 在内的投资者那里筹集了 4 亿美元。2018 年,肯·戈德堡教授和其他伯克利研究人员成立了 Ambi Robotics,该公司已筹集了约 6700 万美元;该公司创建了通过人工智能模拟训练的机器人,这些机器人可以抓取和分类包裹到不同的容器中,使它们成为电子商务企业的必备工具。
伯克利人工智能研究实验室主任皮特·阿贝尔与人工智能机器人初创公司 Covariant 共同创建了该公司,该公司的模型——以及智囊团——去年被亚马逊聘用。机械工程教授霍马尤恩·卡泽鲁尼创立了上市公司 Ekso Bionics,该公司生产用于行动不便人士的机器人“外骨骼”。
至于罗建兰的研究,他很高兴看到他的团队和其他研究人员能够将其推向何处。他说,下一步将是使用基本物体操作能力对系统进行预训练,从而无需从头开始学习这些能力,而是直接学习更复杂的技能。该实验室还选择将其研究开源,以便其他研究人员可以使用和构建它。
“这个项目的一个关键目标是使这项技术像 iPhone 一样易于使用和易于访问,”罗建兰说。“我坚信,使用它的人越多,我们就能产生更大的影响。”
编者注:本文转载自加州大学伯克利分校新闻。
文章首发于 The Robot Report。