前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
机器人

Gemini模型赋能现实世界

NEXTECH
Last updated: 2025年3月19日 上午7:22
By NEXTECH
Share
22 Min Read
SHARE
两台来自 DeepMind 的机械臂正在放置写着“Gemini for the Physical World”的积木。

谷歌的机器人团队将机器学习、工程和物理模拟方面的专业知识应用于解决人工智能机器人开发中面临的挑战。| 来源:DeepMind

谷歌 DeepMind 近日发布了两款全新的人工智能模型:Gemini Robotics,基于 Gemini 2.0 的机器人专用模型,以及 Gemini Robotics-ER,一款具备高级空间理解能力的 Gemini 模型。

Contents
如何让 AI 在现实世界中发挥作用DeepMind 强调通用性和交互性各种形状和大小的机器人都需要高度灵活性Gemini Robotics-ER 专注于空间推理DeepMind 在 Gemini 方法中考虑了机器人安全DeepMind 寻求使用新数据集进一步研究

DeepMind 表示,他们在 Gemini 如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。现在,借助这些新模型,他们将这些能力从数字世界带入了现实世界。

Gemini Robotics 是一款基于 Gemini 2.0 的先进视觉-语言-动作 (VLA) 模型。它将物理动作作为一种新的输出模式,用于直接控制机器人。

Gemini Robotics-ER 提供了高级空间理解能力,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

DeepMind 表示,这两款模型都使各种机器人能够执行比以往更广泛的现实世界任务。作为其努力的一部分,DeepMind 正与 Apptronik 合作,使用 Gemini 2.0 打造人形机器人。

谷歌部门还与可信测试人员合作,指导 Gemini Robotics-ER 的未来发展。这些测试人员包括 Agile Robots、Agility Robotics、波士顿动力和 Enchanted Tools。

You Might Also Like

2024年12月机器人领域十大新闻
发那科工业机器人销量下降16%
CES 2025: 四辆自动驾驶汽车同台竞技
华为投资4.13亿美元发展机器人子公司

2025 年机器人峰会注册网站广告。

立即注册,以免错过!


如何让 AI 在现实世界中发挥作用

根据 DeepMind 博客文章,为了对人们有用且有帮助,用于机器人的 AI 模型需要具备三个主要品质:

  • 它们必须具有通用性,这意味着它们能够适应不同的情况。
  • 它们必须具有交互性,以便能够快速理解和响应指令或环境变化。
  • 它们必须具有灵活性,这意味着它们能够完成人们通常用手和手指做的事情,例如小心地操纵物体。

虽然该组织之前的工作在这些领域取得了一些进展,但 Gemini Robotics 代表着在所有三个方面都取得了实质性进步。

DeepMind 强调通用性和交互性

Gemini Robotics 利用 Gemini 对世界的理解,能够在开箱即用状态下适应新情况并解决各种各样的任务,包括在训练中从未见过的任务。谷歌表示,Gemini Robotics 还擅长处理新物体、不同的指令和新环境。

谷歌表示,与其他 VLA 模型相比,Gemini Robotics 在综合泛化基准测试中的平均性能提高了一倍以上。

除了通用性之外,交互性也是关键。为了在我们动态的物理世界中运行,机器人必须能够与人和周围环境无缝交互,并能够快速适应变化。

由于 Gemini Robotics 建立在 Gemini 2.0 的基础之上,DeepMind 表示它具有直观的交互性。它利用 Gemini 的高级语言能力,能够理解和响应用日常对话和不同语言表达的命令。

DeepMind 表示,该模型能够理解和响应比以前模型更广泛的自然语言指令,并根据用户输入调整其行为。它还不断监控周围环境,检测环境或指令的变化,并相应地调整其动作。该公司表示,这种控制或“可操纵性”可以更好地帮助人们在各种环境中与机器人助手协作,从家庭到工作场所。

各种形状和大小的机器人都需要高度灵活性

DeepMind 表示,构建有帮助的机器人的第三个关键支柱是灵活地行动。人类毫不费力地完成许多日常任务需要精细的运动技能,而这些技能对于机器人来说仍然过于困难。

相比之下,Gemini Robotics 能够完成需要精确操作的极其复杂的多步骤任务,例如折纸或将零食装入拉链袋中。

此外,DeepMind 表示,他们设计 Gemini Robotics 以适应不同外形的机器人。该公司主要使用双臂机器人平台 ALOHA 2 的数据训练该模型,但它也证明了该模型可以控制基于许多学术实验室使用的 Franka 机械臂的双臂平台。

DeepMind 指出,Gemini Robotics 还可以专门用于更复杂的形式,例如 Apptronik 开发的人形机器人 Apollo,其目标是完成现实世界中的任务。

Gemini Robotics-ER 专注于空间推理

Gemini Robotics-ER 增强了 Gemini 对世界的理解,使其能够满足机器人技术的需求,尤其是在空间推理方面。它还允许机器人专家将其与现有的低级控制器连接起来。DeepMind 表示,该模型显著提高了 Gemini 2.0 的现有能力,例如指向和 3D 检测。

DeepMind 声称,将空间推理与 Gemini 的编码能力相结合,Gemini Robotics-ER 能够动态地实现全新的功能。例如,当显示一个咖啡杯时,该模型可以直观地推断出一种合适的双指抓取方式,以便通过手柄拿起它,以及一条安全的接近轨迹。

根据谷歌的说法,Gemini Robotics-ER 能够执行控制机器人的所有必要步骤,包括感知、状态估计、空间理解、规划和代码生成。在这样的端到端环境中,该模型的成功率是 Gemini 2.0 的两到三倍。

在代码生成不足的情况下,Gemini Robotics-ER 可以利用上下文学习的力量,遵循少量人类演示的模式来提供解决方案。

DeepMind 在 Gemini 方法中考虑了机器人安全

DeepMind 表示,在探索人工智能和机器人的潜力时,他们采取了分层、全面的方法来解决安全问题,从低级电机控制到高级语义理解。

Gemini Robotics-ER 可以与“低级”安全关键控制器接口,执行诸如避免碰撞、限制接触力的幅度以及确保移动机器人的动态稳定性等操作。

该组织在 Gemini 的核心安全功能的基础上,使 Gemini Robotics-ER 模型能够理解在给定情况下执行潜在动作是否安全,并生成适当的响应。

DeepMind 寻求使用新数据集进一步研究

为了推动学术界和工业界在机器人安全研究方面的进步,DeepMind 还发布了一个新数据集,用于评估和改进具身 AI 和机器人技术中的语义安全。在之前的工作中,他们展示了如何使用受艾萨克·阿西莫夫的机器人三定律启发的“机器人宪法”来帮助提示大型语言模型 (LLM) 为机器人选择更安全的任务。

该组织此后开发了一个框架,用于自动生成数据驱动的宪法——直接用自然语言表达的规则——来引导机器人的行为。该框架将允许人们创建、修改和应用宪法,以开发更安全、更符合人类价值观的机器人。

最后,DeepMind 表示,新的 ASIMOV 数据集将帮助研究人员严格衡量机器人行为在现实世界场景中的安全影响。

文章“谷歌 DeepMind 推出两款基于 Gemini 的模型,将 AI 带入现实世界”最初发表于 The Robot Report。

Share This Article
Email Copy Link Print
Previous Article X联手Visa推出“X Money” 直付服务助力马斯克“全能应用”
Next Article SITE AD for the 2025 Robotics Summit registration. Dexterity获9500万美元融资,用于开发集装箱卸载机器人
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
比亚迪车主忠诚度高的离谱:31%换车还买比亚迪
威尔森:2025年3月国内一二线城市汽车增换购数据
报告
OpenAI:Codex代码准确率达90%,开发效率提升30%
报告
研究发现荧光色泳衣可提高儿童水中安全
报告
20250522055348358.png
IDC:未来五年云基础设施市场复合年均增长率为17.8%
报告

相关内容

SITE AD for the 2025 Robotics Summit registration.
机器人

伯克利AI机器人学会玩叠叠乐

2025年2月3日
机器人

2025医疗机器人创业催化剂 cohorts

2025年1月12日
Neura Robotics, whose lineup is shown here, offers robots for a variety of applications and industries.
机器人

NEURA Robotics获1.23亿美元融资,继续研发认知类人形机器人

2025年1月17日
人类工人、机器人和代理系统以及设备在设施数字孪生中的编排集成。
机器人

英伟达CES发布Omniverse升级和Cosmos基础模型

2025年1月9日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?