AI赋能机器人：谷歌Gemini的物理世界探索

谷歌上周三的发布会着实令人眼前一亮：Gemini AI模型不再局限于数字领域，它迈向了物理世界，与机器人携手共舞。

Gemini Robotics巧妙地融合了大型语言模型和空间推理能力。你可以直接用自然语言指挥机械臂，例如“把葡萄放进透明玻璃碗里”。 LLM会理解你的意图，并将其分解成机器人可执行的指令。想深入了解其运作机制？不妨阅读我的同事Scott Mulligan的详细报道。

你或许会好奇：未来我们的家和办公室是否会被这样的机器人充斥？答案很快揭晓。

但在此之前，让我们回顾一下：谷歌在机器人领域并非一直高调。尽管过去十年收购了一些机器人初创公司，但在2023年，它却关闭了一个致力于解决垃圾清理等实际问题的机器人部门。然而，谷歌将AI引入物理世界的举动，却与过去两年其他公司的先例不谋而合——这正是《麻省理工科技评论》早已预见的趋势。

简而言之，两股力量正从相反方向汇聚：机器人公司日益依赖AI，而AI巨头则开始涉足机器人制造。例如，OpenAI在2021年解散了其机器人团队后，今年又启动了人形机器人项目。英伟达在十月更是宣称，下一波人工智能浪潮将是“物理AI”。

AI与机器人的结合方式多种多样，从改进机器人任务训练开始。但像谷歌这样利用大型语言模型下达指令，无疑别具一格。

这并非首例。机器人初创公司Figure去年发布的视频曾一度爆红网络，视频中人类通过语音指令引导人形机器人摆放餐具。与此同时，一家从OpenAI分拆出来的初创公司Covariant也开发了类似的仓库机械臂系统。我曾亲眼目睹其演示：通过图像、文本或视频指令，机器人能够完成“将网球从这个箱子移到那个箱子”等任务。令人惊叹的是，Covariant在短短五个月后就被亚马逊收购。

这些演示不禁让人思考：这些机器人何时才能进入我们的工作场所？又何时才能走进我们的家？

如果Figure的计划能提供线索，那么第一个问题的答案是：很快。该公司上周六宣布，正在建设一座高产能制造工厂，计划每年生产12000台人形机器人。然而，机器人的训练和测试，特别是确保其在与人类协作环境中的安全，仍然需要漫长的时间。

例如，Figure的竞争对手Agility Robotics声称自己是美国唯一一家拥有付费客户的人形机器人公司。但针对与人类协同工作的机器人行业安全标准尚未完全制定，因此其机器人只能在独立区域作业。

这就是为什么，尽管近期取得了进展，我们的家庭仍将是最后的阵地。与工厂车间相比，我们的家杂乱无章且难以预测，空间相对狭窄。即使是像Gemini Robotics这样令人印象深刻的AI模型，也需要经过大量的现实世界和模拟测试，就像自动驾驶汽车一样。这些测试可能会在仓库、酒店和医院进行，机器人可能仍然需要远程人工操作员的协助。在我们能够放心地让它们收拾碗筷之前，还有很长一段路要走。

（本文最初发表于我们的AI周刊《算法》中。订阅获取更多精彩内容。）

“`

何时开始与机器人对话

AI赋能机器人：谷歌Gemini的物理世界探索

发表回复取消回复

最新内容

中国拟规管AI伴侣：防沉迷新规与全球监管趋势

阿里通义千问将主导2026年AI格局？Wired深度解析

OpenAI高薪55.5万美元急聘安全主管，AI安全危机何解？

谷歌AI眼镜2026回归，布林反思初代失败教训

相关内容

2024东京电玩展：人潮涌动，关键人物齐聚

AI赋能销售团队，Origami Agents获200万美元种子轮融资

AI首个项目：RICE模型规划路径

AI 教科书助推个性化教学，六大建议优化数字化课堂

分类

快速链接

AI赋能机器人：谷歌Gemini的物理世界探索

You Might Also Like

发表回复 取消回复

最新内容

分类

快速链接

发表回复取消回复