AI Institute 推出 Theia 视觉基础模型,助力机器人学习
AI Institute 近日宣布,在机器人领域,基于视觉的学习系统为机器理解和交互环境提供了一种极具潜力的策略。该机构推出了 Theia 视觉基础模型,旨在简化机器人训练过程。
AI Institute 指出,基于视觉的学习系统必须提供对世界的稳健表征,使机器人能够理解并响应其周围环境。传统的做法通常侧重于单一任务模型,例如分类、分割或目标检测,这些模型无法单独概括机器人学习所需的场景多样化理解。
这种不足突出了对更全面解决方案的需求,该解决方案能够有效地解释广泛的视觉线索。位于马萨诸塞州剑桥的 AI Institute 正在开发 Theia 来填补这一空白。
在发表在机器人学习会议 (CoRL) 上的一篇论文中,AI Institute 介绍了 Theia,该模型旨在将多个现成的视觉基础模型 (VFM) 的专业知识提炼到一个单一模型中。通过结合多个不同 VFM 的优势,每个 VFM 都针对特定的视觉任务进行训练,Theia 生成更丰富、统一的视觉表征,可用于提高机器人学习性能。
使用 Theia 编码器训练的机器人策略在评估 12 个机器人模拟任务时,平均任务成功率达到 80.97%,与其他表征选择相比,具有统计学意义上的显著提高。
此外,在真实机器人实验中,该机构使用行为克隆在四个多步骤任务中学习机器人策略,使用 Theia 训练的策略成功率平均比使用次优表征训练的策略高出 15 个百分点。
使用 Theia 训练的机器人控制策略在 MuJoCo 机器人模拟任务中优于使用替代表征训练的策略,计算量更少,以十亿次乘加运算 (MAC) 衡量。来源:AI Institute
Theia 旨在结合视觉模型
Theia 的设计基于一个提炼过程,该过程整合了多个 VFM 的优势,例如 CLIP(视觉语言)、DINOv2(密集视觉对应)、ViT(分类)等。AI Institute 表示,通过精心选择和组合这些模型,Theia 能够生成稳健的视觉表征,从而提高下游机器人学习性能。
Theia 的核心是一个视觉编码器(主干)和一组特征转换器,它们协同工作,将来自多个 VFM 的知识整合到一个统一的模型中。视觉编码器生成潜藏表征,捕捉不同的视觉见解。
然后,这些表征由特征转换器处理,这些转换器通过将输出特征与真实值进行比较来对其进行细化。这种比较充当监督信号,优化 Theia 的潜藏表征,以增强其多样性和准确性。
这些经过优化的潜藏表征随后用于微调策略学习模型,使机器人能够以更高的精度执行各种任务。
Theia 的设计基于一个过程,该过程提炼了多个 VFM 的优势,包括 CLIP、SAM、DINOv2、Depth-Anything 和 ViT 等。来源:AI Institute
机器人实验室学习
AI Institute 的研究人员在模拟和多个机器人平台上测试了 Theia,包括波士顿动力公司的 Spot 和 WidowX 机器人手臂。在实验室测试的一轮中,他们使用 Theia 训练了一个策略,使机器人能够打开一个小微波炉,将玩具食物放入其中,然后关闭微波炉门。
以前,研究人员需要将所有 VFM 组合在一起,这既缓慢又计算量大,或者选择哪个 VFM 来表示机器人面前的场景。例如,他们可以选择来自分割模型的分割图像、来自深度模型的深度图像或来自图像分类模型的文本类别名称。每个都提供了关于场景的不同类型和粒度信息。
通常,单个 VFM 可能适用于具有已知对象的单一任务,但可能不适合其他任务或其他机器人。
使用 Theia,来自机器人的同一图像可以被馈送到编码器中,以生成包含所有关键信息的单个表征。然后,该表征可以输入到 Theia 的分割解码器中,以输出分割图像。相同的表征可以输入到 Theia 的深度解码器中,以输出深度图像,等等。
每个解码器都使用相同的表征作为输入,因为共享表征拥有生成来自原始 VFM 的所有输出所需的信息。研究人员表示,这简化了训练过程,并使动作能够转移到更广泛的情况中。
虽然这对人来说听起来很简单,但微波任务代表了一种更复杂的行为,因为它需要成功完成多个步骤:拿起物体、将其放入微波炉中,然后关闭微波炉门。使用 Theia 训练的策略是这些步骤中表现最好的策略之一,仅与 E-RADIO 相当,E-RADIO 也是另一种结合了多个 VFM 的方法,尽管它并非专门针对机器人应用。
研究人员使用 Theia 训练了一个策略,使机器人手臂能够微波各种类型的玩具食物。来源:AI Institute
Theia 重视效率
AI Institute 表示,Theia 相对于其他 VFM 的主要优势之一是其效率。训练 Theia 在 ImageNet 等数据集上大约需要 150 个 GPU 小时,与其他模型相比,减少了所需的计算资源。
这种高效率并没有以性能为代价,这使得 Theia 成为研究和应用的实用选择。Theia 的模型尺寸更小,对训练数据的需求也更少,因此在训练和微调过程中都节省了计算资源。
AI Institute 看到机器人学习的转型
Theia 使机器人能够通过将来自多个视觉模型的知识提炼成用于分类、分割、深度预测和其他模态的紧凑表征,更快、更有效地学习和适应。
虽然使用 Theia 或其他 VFM 在复杂的机器人任务中达到 100% 的成功率之前还有很多工作要做,但 Theia 在使用更少的训练数据和更少的计算资源的情况下,朝着这一目标取得了进展。
AI Institute 邀请研究人员和开发人员探索 Theia 并进一步评估其能力,以改进机器人学习和解释其环境的方式。
“我们很高兴看到 Theia 如何为机器人领域的学术研究和实际应用做出贡献,”该机构表示。访问 AI Institute 的项目页面和演示页面,了解更多关于 Theia 的信息。
申请演讲。
文章最初发表于 The Robot Report。