“`html
AI赋能机器人:谷歌Gemini的物理世界探索
谷歌上周三的发布会着实令人眼前一亮:Gemini AI模型不再局限于数字领域,它迈向了物理世界,与机器人携手共舞。
Gemini Robotics巧妙地融合了大型语言模型和空间推理能力。你可以直接用自然语言指挥机械臂,例如“把葡萄放进透明玻璃碗里”。 LLM会理解你的意图,并将其分解成机器人可执行的指令。想深入了解其运作机制?不妨阅读我的同事Scott Mulligan的详细报道。
你或许会好奇:未来我们的家和办公室是否会被这样的机器人充斥?答案很快揭晓。
但在此之前,让我们回顾一下:谷歌在机器人领域并非一直高调。尽管过去十年收购了一些机器人初创公司,但在2023年,它却关闭了一个致力于解决垃圾清理等实际问题的机器人部门。然而,谷歌将AI引入物理世界的举动,却与过去两年其他公司的先例不谋而合——这正是《麻省理工科技评论》早已预见的趋势。
简而言之,两股力量正从相反方向汇聚:机器人公司日益依赖AI,而AI巨头则开始涉足机器人制造。例如,OpenAI在2021年解散了其机器人团队后,今年又启动了人形机器人项目。英伟达在十月更是宣称,下一波人工智能浪潮将是“物理AI”。
AI与机器人的结合方式多种多样,从改进机器人任务训练开始。但像谷歌这样利用大型语言模型下达指令,无疑别具一格。
这并非首例。机器人初创公司Figure去年发布的视频曾一度爆红网络,视频中人类通过语音指令引导人形机器人摆放餐具。与此同时,一家从OpenAI分拆出来的初创公司Covariant也开发了类似的仓库机械臂系统。我曾亲眼目睹其演示:通过图像、文本或视频指令,机器人能够完成“将网球从这个箱子移到那个箱子”等任务。令人惊叹的是,Covariant在短短五个月后就被亚马逊收购。
这些演示不禁让人思考:这些机器人何时才能进入我们的工作场所?又何时才能走进我们的家?
如果Figure的计划能提供线索,那么第一个问题的答案是:很快。该公司上周六宣布,正在建设一座高产能制造工厂,计划每年生产12000台人形机器人。然而,机器人的训练和测试,特别是确保其在与人类协作环境中的安全,仍然需要漫长的时间。
例如,Figure的竞争对手Agility Robotics声称自己是美国唯一一家拥有付费客户的人形机器人公司。但针对与人类协同工作的机器人行业安全标准尚未完全制定,因此其机器人只能在独立区域作业。
这就是为什么,尽管近期取得了进展,我们的家庭仍将是最后的阵地。与工厂车间相比,我们的家杂乱无章且难以预测,空间相对狭窄。即使是像Gemini Robotics这样令人印象深刻的AI模型,也需要经过大量的现实世界和模拟测试,就像自动驾驶汽车一样。这些测试可能会在仓库、酒店和医院进行,机器人可能仍然需要远程人工操作员的协助。在我们能够放心地让它们收拾碗筷之前,还有很长一段路要走。
(本文最初发表于我们的AI周刊《算法》中。订阅获取更多精彩内容。)
“`