波士顿动力公司(Boston Dynamics)与丰田研究院(TRI)近日宣布了一项新的合作关系,旨在“利用TRI的大型行为模型和波士顿动力的Atlas机器人加速通用人形机器人的开发”。
这项合作的意义远不止于打造一款商业化的人形机器人,它更像是一场关于基础机器人研究的探索之旅,双方将共同攻克技术难题,并公开分享研究成果。
波士顿动力拥有Atlas,这款人形机器人平台拥有卓越的运动能力,能够完成各种复杂动作,甚至包括一些令人感到痛苦的肢体动作,但其操控能力相对基础,主要依靠蛮力。而TRI则在人工智能领域深耕多年,致力于开发基于人工智能的学习技术,以解决各种复杂的操控难题。TRI正在研发的“大型行为模型”(LBMs)可以被视为“大型语言模型”(LLMs)的机器人版,旨在让机器人能够在物理世界中完成各种有用的任务。
此次合作的优势显而易见:波士顿动力将为Atlas赋予新的能力,而TRI则可以通过Atlas探索新的应用领域。
根据双方发布的新闻稿,该项目旨在充分发挥各自的优势和专业知识。新型电动Atlas机器人强大的物理能力,加上对各种全身双臂操控行为进行编程控制和远程操作的能力,将使研究团队能够在各种任务中部署机器人,并收集其性能数据。这些数据将反过来用于训练先进的LBMs,利用严格的硬件和仿真评估来证明大型预训练模型能够快速获取新的、鲁棒的、灵巧的全身技能。
联合团队还将进行研究,以回答人形机器人基础训练问题,研究模型利用全身传感的能力,以及理解人机交互和安全保障案例,以支持这些新能力。
为了了解更多信息,我们采访了波士顿动力公司机器人研究高级总监斯科特·库因德斯马(Scott Kuindersma)和TRI机器人研究副总裁拉斯·特德拉科(Russ Tedrake)。
问:这项合作是如何促成的?
拉斯·特德拉科:我们非常尊重波士顿动力团队,不仅是他们的硬件,还有Atlas的控制器。他们一直在加强机器学习方面的努力,而我们也越来越专注于机器学习。在TRI方面,我们看到了桌面操控所能实现的极限,我们希望探索更广阔的领域。
斯科特·库因德斯马:TRI带来的技能和工具,加上波士顿动力现有的平台能力,以及我们过去几年建立的机器学习团队,让我们能够迅速开展合作,利用Atlas实现一些令人惊叹的成果。
问:你们将如何处理研究成果的传播,尤其是在当前人形机器人领域热潮迭起的背景下?
特德拉科:现在,人们普遍希望每隔六个月就能看到新的突破性成果。从某种程度上说,这种热情和雄心壮志对这个领域是有益的。但我也认为,这个领域的一些人开始意识到,更长远、更深入地理解哪些方法有效,哪些方法无效,同样重要。因此,我们需要在这两者之间取得平衡。
另外,现在有很多炒作。我确实对这些新能力的潜力感到兴奋,但我希望在推动科学进步的同时,也能坦诚透明地说明这些技术的效果如何。
库因德斯马:我们两家机构都清楚地认识到,这可能是机器人发展史上最激动人心的时刻之一,但我们还有很多工作要做。
问:你们的合作将能够解决哪些独特的挑战?
库因德斯马:我们都对人形机器人所能实现的行为范围感到兴奋。人形机器人不仅仅是安装在移动底座上的两只夹爪。我认为,由于波士顿动力在过去所做的工作,我们现在拥有独特的机会来探索人形机器人的全部行为能力空间。Atlas是一款非常强大的机器人,是我们迄今为止制造的最强大的机器人。我们拥有的平台软件使全身操控的数据收集变得前所未有的简单。
特德拉科:在我看来,我们真正开创了一门新的科学,需要回答一系列新的基本问题。机器人学已经进入了一个大科学时代,需要强大的团队、充足的资金和紧密的合作,才能构建庞大的数据集,训练模型,并最终回答这些基本问题。
问:这些基本问题包括哪些?
特德拉科:没有人知道人形机器人的最佳训练方法。例如,我们希望用语言进行预训练,这会更好,但我们应该在什么时候引入视觉?在什么时候引入动作?没有人知道。什么是合适的任务课程?我们是否需要一些简单的任务,以便机器人能够从一开始就获得高于零的性能?可能需要。我们是否也需要一些非常复杂的任务?可能需要。我们是否只希望机器人能够在家里工作?还是只希望它们能够在工厂工作?什么是合适的组合?我们是否需要机器人能够后空翻?我不知道。我们必须弄清楚。
还有其他问题,例如,互联网上的数据是否足够用来训练机器人?我们如何将互联网数据集中的能力混合并转移到机器人领域?机器人数据是否与其他数据 fundamentally different?我们是否应该期望相同的缩放规律?我们是否应该期望相同的长期能力?
另一个专家们经常谈论的重要问题是评估,这是当前的一个主要瓶颈。如果你看看一些展示了惊人结果的论文,你会发现它们的结果部分的统计强度非常弱,因此我们对很多事情的断言缺乏足够的依据。我们需要进行大量的工程工作,才能仔细地提高结果的经验强度。我认为评估没有得到足够的重视。
问:过去一年左右,机器人研究发生了哪些变化,使得你们能够实现你们希望达成的进展?
库因德斯马:从我的角度来看,有两件大事改变了我对这个领域工作的看法。一是该领域围绕通过演示训练操控技能的可重复流程达成了一致。扩散策略的开创性工作(TRI在其中发挥了重要作用)非常强大,它将生成操控技能的过程(以前几乎无法想象)变成了一个简单的过程:你只需收集大量数据,在某种程度上稳定的架构上进行训练,就能得到结果。
第二件事是,人工智能领域与机器人学相关的领域所发生的一切表明,数据规模和多样性是实现泛化行为的关键。我们预计这在机器人学领域也是如此。因此,将这两件事结合起来,就使前进的道路变得清晰,但我仍然认为,我们还需要解决大量的开放性研究挑战和问题。
问:你认为仿真是否是一种有效的机器人数据扩展方法?
特德拉科:我认为,人们普遍低估了仿真。我们一直在进行的工作让我对仿真的能力非常乐观,只要你明智地使用它。专注于一个特定的机器人执行一个特定的任务是错误的提问方式;你需要让仿真中的任务和性能分布能够预测现实世界中的任务和性能分布。有些事情仍然很难模拟,但即使是摩擦接触等问题,我认为我们现在也做得相当不错。
问:你们是否可以谈谈这项合作的商业前景?
库因德斯马:对于波士顿动力来说,我们显然认为这项工作具有长期的商业价值,这也是我们愿意投资其中的主要原因之一。但这次合作的目的是进行基础研究,确保我们能够完成工作,推动科学进步,并以足够严格的方式进行,以便我们真正理解和信任结果,并将其传达给世界。因此,是的,我们看到了这项工作巨大的商业价值。是的,我们正在将Atlas商业化,但这个项目真正关乎基础研究。
问:接下来会发生什么?
特德拉科:我们现在需要将波士顿动力和TRI各自擅长的领域结合起来,共同开始一些研究,这将为我们打下基础。我们还有更大的目标,那就是让名为LBM(大型行为模型)的通用能力在Atlas上运行。在第一年,我们将专注于这些基本问题,突破界限,撰写和发表论文。
我希望人们能够对我们的研究成果感到兴奋,也希望人们能够信任我们的研究成果。对我来说,这是对机器人学界最重要的信息:通过这次合作,我们试图采取更长远的视角,在极度乐观的同时,保持批判性的态度。