Meta 在机器人和具身 AI 领域取得重大进展
本周,Meta 在机器人和具身 AI 系统方面发布了多项重大公告,包括发布用于更好地理解和与物理世界交互的基准和成果。Meta 发布的三个研究成果 Sparsh、Digit 360 和 Digit Plexus 分别专注于触觉感知、机器人灵巧性和人机交互。Meta 还发布了 PARTNR,这是一个用于评估人机协作中规划和推理的新基准。
随着基础模型的进步,机器人领域重新燃起了兴趣,AI 公司正逐渐将竞争从数字领域扩展到物理世界。业界对基础模型(如大型语言模型 (LLM) 和视觉语言模型 (VLM))的帮助下,机器人能够完成需要推理和规划的更复杂任务抱有新的希望。
Sparsh 是与华盛顿大学和卡内基梅隆大学合作创建的,它是一系列用于视觉触觉传感的编码器模型。它的目的是为机器人提供触觉感知能力。触觉感知对于机器人任务至关重要,例如确定可以施加在特定物体上的压力,以避免损坏它。
Meta Sparsh 架构 来源:Meta
Meta 将 Sparsh 描述为一个通用模型,可以应用于不同类型的基于视觉的触觉传感器和各种任务。为了克服前几代触觉感知模型所面临的挑战,研究人员通过自监督学习 (SSL) 训练了 Sparsh 模型,从而无需标记数据。该模型已在超过 460,000 张触觉图像上进行训练,这些图像来自不同的数据集。根据研究人员的实验,在有限的标记数据预算下,Sparsh 比任务和传感器特定的端到端模型平均提高了 95.1%。研究人员根据各种架构创建了 Sparsh 的不同版本,包括 Meta 的 I-JEPA 和 DINO 模型。
除了利用现有数据外,Meta 还发布了硬件来收集来自物理世界的丰富触觉信息。Digit 360 是一种人造手指形状的触觉传感器,具有超过 18 种传感功能。该传感器拥有超过 800 万个触点,用于捕获指尖表面上的全方位和细粒度变形。Digit 360 捕获各种传感模式,以提供对环境和物体交互的更深入理解。
Digit 360 还拥有设备上的 AI 模型,以减少对基于云的服务器的依赖。这使得它能够在本地处理信息并以最小的延迟响应触觉,类似于人类和动物的反射弧。
Meta Digit 360 来源:Meta
“除了提升机器人灵巧性外,这种突破性的传感器在医学和假肢、虚拟现实和远程呈现等领域具有巨大的应用潜力。”Meta 研究人员写道。
Meta 公开发布了 Digit 360 的代码和设计,以刺激社区驱动的触觉感知研究和创新。但正如开源模型的发布一样,它从其硬件和模型的潜在采用中获得了很大收益。研究人员认为,Digit 360 捕获的信息可以帮助开发更逼真的虚拟环境,这对于 Meta 未来元宇宙项目来说意义重大。
Meta 还发布了 Digit Plexus,这是一个旨在促进机器人应用开发的软硬件平台。Digit Plexus 可以将各种指尖和皮肤触觉传感器集成到单个机器人手上,对从传感器收集的触觉数据进行编码,并通过一根电缆将其传输到主机。Meta 发布了 Digit Plexus 的代码和设计,使研究人员能够在该平台上进行构建并推进机器人灵巧性研究。
Meta 将与触觉传感器制造商 GelSight Inc. 合作生产 Digit 360。他们还将与韩国机器人公司 Wonik Robotics 合作,在 Digit Plexus 平台上开发一个完全集成的机器人手,该机器人手在 Digit Plexus 平台上配备了触觉传感器。
Meta 还发布了人机协作中的规划和推理任务 (PARTNR),这是一个用于评估 AI 模型在与人类合作完成家务任务时的有效性的基准。
PARTNR 建立在 Meta 的模拟环境 Habitat 之上。它包含 60 个房屋中的 100,000 个自然语言任务,涉及超过 5,800 个独特的物体。该基准旨在评估 LLM 和 VLM 在遵循人类指令方面的性能。
Meta 的新基准加入了越来越多的项目,这些项目正在探索 LLM 和 VLM 在机器人和具身 AI 环境中的应用。在过去的一年里,这些模型在充当复杂任务中机器人的规划和推理模块方面表现出了巨大的潜力。Figure 和 Covariant 等初创公司已经开发出使用基础模型进行规划的原型。与此同时,AI 实验室正在努力创建更好的机器人基础模型。一个例子是 Google DeepMind 的 RT-X 项目,该项目汇集了来自各种机器人的数据集,以训练一个视觉-语言-动作 (VLA) 模型,该模型可以推广到各种机器人形态和任务。