
谷歌的机器人团队将机器学习、工程和物理模拟方面的专业知识应用于解决人工智能机器人开发中面临的挑战。| 来源:DeepMind
谷歌 DeepMind 近日发布了两款全新的人工智能模型:Gemini Robotics,基于 Gemini 2.0 的机器人专用模型,以及 Gemini Robotics-ER,一款具备高级空间理解能力的 Gemini 模型。
DeepMind 表示,他们在 Gemini 如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。现在,借助这些新模型,他们将这些能力从数字世界带入了现实世界。
Gemini Robotics 是一款基于 Gemini 2.0 的先进视觉-语言-动作 (VLA) 模型。它将物理动作作为一种新的输出模式,用于直接控制机器人。
Gemini Robotics-ER 提供了高级空间理解能力,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。
DeepMind 表示,这两款模型都使各种机器人能够执行比以往更广泛的现实世界任务。作为其努力的一部分,DeepMind 正与 Apptronik 合作,使用 Gemini 2.0 打造人形机器人。
谷歌部门还与可信测试人员合作,指导 Gemini Robotics-ER 的未来发展。这些测试人员包括 Agile Robots、Agility Robotics、波士顿动力和 Enchanted Tools。
立即注册,以免错过!
如何让 AI 在现实世界中发挥作用
根据 DeepMind 博客文章,为了对人们有用且有帮助,用于机器人的 AI 模型需要具备三个主要品质:
- 它们必须具有通用性,这意味着它们能够适应不同的情况。
- 它们必须具有交互性,以便能够快速理解和响应指令或环境变化。
- 它们必须具有灵活性,这意味着它们能够完成人们通常用手和手指做的事情,例如小心地操纵物体。
虽然该组织之前的工作在这些领域取得了一些进展,但 Gemini Robotics 代表着在所有三个方面都取得了实质性进步。
DeepMind 强调通用性和交互性
Gemini Robotics 利用 Gemini 对世界的理解,能够在开箱即用状态下适应新情况并解决各种各样的任务,包括在训练中从未见过的任务。谷歌表示,Gemini Robotics 还擅长处理新物体、不同的指令和新环境。
谷歌表示,与其他 VLA 模型相比,Gemini Robotics 在综合泛化基准测试中的平均性能提高了一倍以上。
除了通用性之外,交互性也是关键。为了在我们动态的物理世界中运行,机器人必须能够与人和周围环境无缝交互,并能够快速适应变化。
由于 Gemini Robotics 建立在 Gemini 2.0 的基础之上,DeepMind 表示它具有直观的交互性。它利用 Gemini 的高级语言能力,能够理解和响应用日常对话和不同语言表达的命令。
DeepMind 表示,该模型能够理解和响应比以前模型更广泛的自然语言指令,并根据用户输入调整其行为。它还不断监控周围环境,检测环境或指令的变化,并相应地调整其动作。该公司表示,这种控制或“可操纵性”可以更好地帮助人们在各种环境中与机器人助手协作,从家庭到工作场所。
各种形状和大小的机器人都需要高度灵活性
DeepMind 表示,构建有帮助的机器人的第三个关键支柱是灵活地行动。人类毫不费力地完成许多日常任务需要精细的运动技能,而这些技能对于机器人来说仍然过于困难。
相比之下,Gemini Robotics 能够完成需要精确操作的极其复杂的多步骤任务,例如折纸或将零食装入拉链袋中。
此外,DeepMind 表示,他们设计 Gemini Robotics 以适应不同外形的机器人。该公司主要使用双臂机器人平台 ALOHA 2 的数据训练该模型,但它也证明了该模型可以控制基于许多学术实验室使用的 Franka 机械臂的双臂平台。
DeepMind 指出,Gemini Robotics 还可以专门用于更复杂的形式,例如 Apptronik 开发的人形机器人 Apollo,其目标是完成现实世界中的任务。
Gemini Robotics-ER 专注于空间推理
Gemini Robotics-ER 增强了 Gemini 对世界的理解,使其能够满足机器人技术的需求,尤其是在空间推理方面。它还允许机器人专家将其与现有的低级控制器连接起来。DeepMind 表示,该模型显著提高了 Gemini 2.0 的现有能力,例如指向和 3D 检测。
DeepMind 声称,将空间推理与 Gemini 的编码能力相结合,Gemini Robotics-ER 能够动态地实现全新的功能。例如,当显示一个咖啡杯时,该模型可以直观地推断出一种合适的双指抓取方式,以便通过手柄拿起它,以及一条安全的接近轨迹。
根据谷歌的说法,Gemini Robotics-ER 能够执行控制机器人的所有必要步骤,包括感知、状态估计、空间理解、规划和代码生成。在这样的端到端环境中,该模型的成功率是 Gemini 2.0 的两到三倍。
在代码生成不足的情况下,Gemini Robotics-ER 可以利用上下文学习的力量,遵循少量人类演示的模式来提供解决方案。
DeepMind 在 Gemini 方法中考虑了机器人安全
DeepMind 表示,在探索人工智能和机器人的潜力时,他们采取了分层、全面的方法来解决安全问题,从低级电机控制到高级语义理解。
Gemini Robotics-ER 可以与“低级”安全关键控制器接口,执行诸如避免碰撞、限制接触力的幅度以及确保移动机器人的动态稳定性等操作。
该组织在 Gemini 的核心安全功能的基础上,使 Gemini Robotics-ER 模型能够理解在给定情况下执行潜在动作是否安全,并生成适当的响应。
DeepMind 寻求使用新数据集进一步研究
为了推动学术界和工业界在机器人安全研究方面的进步,DeepMind 还发布了一个新数据集,用于评估和改进具身 AI 和机器人技术中的语义安全。在之前的工作中,他们展示了如何使用受艾萨克·阿西莫夫的机器人三定律启发的“机器人宪法”来帮助提示大型语言模型 (LLM) 为机器人选择更安全的任务。
该组织此后开发了一个框架,用于自动生成数据驱动的宪法——直接用自然语言表达的规则——来引导机器人的行为。该框架将允许人们创建、修改和应用宪法,以开发更安全、更符合人类价值观的机器人。
最后,DeepMind 表示,新的 ASIMOV 数据集将帮助研究人员严格衡量机器人行为在现实世界场景中的安全影响。
文章“谷歌 DeepMind 推出两款基于 Gemini 的模型,将 AI 带入现实世界”最初发表于 The Robot Report。