
Figure 正在构建 Helix 模型和数据引擎,以使人形机器人舰队能够学习物流任务。来源:Figure AI
Figure AI Inc. 本周推出了其人形机器人和 Helix 模型的现实世界应用:物流中用于分类的包裹处理。
这家总部位于加州森尼维尔的公司表示:“这项任务需要人类级别的速度、精度和适应性,突破了从像素到动作的学习操作的界限。”
Helix 是 Figure 内部设计的视觉-语言-动作 (VLA) 模型,是这项应用的核心。该模型于上周发布,它将感知、语言理解和学习控制统一起来。
人形机器人解决物流用例
Figure AI 指出,这项任务带来了几个关键挑战。包裹的尺寸、形状、重量和刚度各不相同——从坚硬的箱子到可变形的袋子,这使得它们难以在模拟中复制。
Figure 02 人形机器人必须确定抓取移动物体的最佳时机和方法,以及重新定向每个包裹以露出标签。此外,它还需要跟踪连续移动传送带上大量包裹的动态流动,并保持高吞吐量。
由于环境永远无法完全预测,因此系统必须能够自我校正。Figure 表示,解决这些挑战不仅是 Figure 业务的关键应用,而且还为 Helix 系统 1 带来了通用的新改进,所有其他用例现在都从中受益。
Helix 视觉表示改进
Figure AI 声称,其系统现在对环境有了丰富的 3D 理解,从而能够实现更精确的深度感知运动。虽然其之前的系统 1 依赖于单目视觉输入,但新的系统 1 使用立体视觉主干与多尺度特征提取网络相结合,以捕获丰富的空间层次结构。
该公司解释说,系统不是独立地从每个摄像头馈送图像特征标记,而是将来自两个摄像头的特征在多尺度立体网络中合并,然后进行标记。这使馈送到 Figure 的交叉注意力转换器的视觉标记总数保持不变,并避免了计算开销。
Figure 表示,多尺度特征使系统能够解释精细细节以及更广泛的上下文线索,这些线索共同有助于从视觉中获得更可靠的控制。
立即注册,以免错过!
为大规模部署做准备
在许多机器人上部署单个策略需要解决由于单个机器人硬件的微小差异而导致的观察和动作空间中的分布变化。这些差异包括传感器校准差异(影响输入观察)和关节响应特性(影响动作执行),如果不进行适当补偿,可能会影响策略性能,Figure AI 表示。
特别是对于高维的全身动作空间,传统的机器人手动校准无法在机器人舰队中扩展。相反,Figure 训练了一个视觉本体模型,以完全从每个机器人的车载视觉输入中估计末端执行器的 6D 姿态。
该公司表示,这种在线“自我校准”允许强大的跨机器人策略转移,并且停机时间最短。
通过使用学习到的校准和视觉本体模块,Figure 能够将最初在单个机器人数据上训练的相同策略应用于多个其他机器人。它断言,尽管传感器校准和微小的硬件差异存在差异,但该系统在所有平台上都保持了相当水平的操作性能。
Figure 表示,这种一致性证明了学习到的校准在减轻协变量偏移方面的有效性,有效地减少了对繁琐的每机器人重新校准的需求,并使大规模部署更加实用。
数据整理和加速操作
Figure AI 分享 Helix 的迄今为止的结果
(a) 对各种视觉表示的影响的消融研究和 (b) 数据整理对有效吞吐量的影响。 | 来源:Figure AI
Figure 使用归一化有效吞吐量 T_eff 衡量系统的性能,它代表与训练的演示数据相比,包裹处理的速度。这考虑了系统重置(如有必要)所花费的任何时间。
来源:Figure AI
例如,T_eff > 1.1 代表比用于训练的专家轨迹快 10% 的操作速度。Figure AI 表示,它发现多尺度特征提取和隐式立体输入都可以显着提高系统性能。
该公司还注意到,在添加立体声时,对各种包裹尺寸的鲁棒性得到了提高。立体声模型的吞吐量比非立体声基线提高了 60%。
此外,Figure 发现配备立体声的 S1 可以推广到系统从未训练过的扁平信封。
该公司还发现,对于单个用例,数据质量和一致性比数据量重要得多。其结果表明,尽管训练数据减少了三分之一,但使用经过整理的高质量演示训练的模型实现了 40% 的吞吐量提升。
Figure AI 得出结论,它已经找到了如何将高质量数据集与立体多尺度视觉、在线校准和测试时间加速等架构改进相结合,从而在现实世界的物流分类场景中实现比演示者更快的灵巧机器人操作。
该公司表示,其系统在使用相对适量的演示数据的同时实现了这一切。Figure 表示,Helix 展示了将端到端视觉运动策略扩展到速度和精度都很重要的复杂工业应用的潜力。
文章“Figure AI 研究 Helix 模型,为人形机器人做好物流准备”最初发表在 The Robot Report 上。