斯坦福大学的生物工程学教授简·利帕特,在加州洛斯阿尔托斯,对许多陌生人来说,是一个奇特的人物。他们经常看到他牵着一只四条腿的机器狗在街上行走。
利帕特多年来一直在尝试建造和改造机器人,当他带着他的“机器狗”出现在公众场合时,通常会得到三种反应。孩子们想要拥有一个,他们的父母感到毛骨悚然,而婴儿潮一代则试图忽视它。“他们会很快走开,”他说,“就像,‘这里发生了什么愚蠢的新事物?’”
在与许多人谈论机器人的过程中,我也发现大多数人倾向于落入这三个阵营,尽管我没有看到如此明显的年龄划分。有些人乐观而公开地希望,一个机器可以熟练地处理目前由人类完成的大部分工作的未来即将到来,从烹饪到手术。另一些人则感到害怕:害怕失业、受伤,以及在我们试图并肩生活时可能出现的任何问题。
我认为,第三个阵营,也是人数最多的阵营,只是感到不以为然。自从 1961 年第一台机械臂安装在新泽西州通用汽车工厂的装配线上以来,我们就一直在被各种关于机器人将改变社会的承诺所吸引。到目前为止,这些承诺中很少有实现的。
但今年,有理由相信,即使是那些坚定地站在“无聊”阵营的人,也会对机器人竞赛中发生的事情感到好奇。以下是值得关注的几个方面。
人形机器人的考验
建造人形机器人的竞赛,其动力来自于这样一种想法:世界是为人类形态而设计的,而自动化这种形态可能意味着机器人领域的巨大变革。这场竞赛由一些特别直言不讳且乐观的企业家领导,其中包括 Figure AI 的创始人布雷特·阿德科克,该公司正在制造这种机器人,估值超过 26 亿美元(该公司已开始与宝马测试其机器人)。阿德科克最近告诉《时代》杂志:“最终,体力劳动将成为可选项。” 埃隆·马斯克,其公司特斯拉正在制造一款名为 Optimus 的版本,他说人形机器人将创造“一个没有贫困的未来”。一家名为 Eliza Wakes Up 的机器人公司正在接受一款名为 Eliza 的 42 万美元人形机器人的预订。
2024 年 6 月,Agility Robotics 向 GXO Logistics 派遣了一批 Digit 人形机器人,该公司为耐克到雀巢等公司运送产品。这些人形机器人可以处理大多数涉及拾取物品并将其移动到其他地方的任务,例如卸货托盘或将箱子放在传送带上。
但也有一些问题:高度抛光的混凝土地板会导致机器人最初滑倒,而且建筑物需要良好的 Wi-Fi 覆盖才能让机器人保持正常运行。但充电是一个更大的问题。Agility 目前的 Digit 版本配备了 39 磅的电池,可以在充电 1 小时之前运行 2 到 4 小时,因此在每班倒中更换机器人以获得新的机器人是一项常见的任务。如果安装的充电桩数量很少,理论上机器人可以在夜间设施停止运行时,通过在充电桩之间自行移动来充电,但自行移动可能会触发建筑物的安全系统。“这是一个问题,”首席技术官梅洛妮·怀斯说。
怀斯对人形机器人是否会在工作场所得到广泛采用持谨慎态度。“我一直是一个悲观主义者,”她说。这是因为让机器人很好地工作在实验室是一回事,但将它们整合到一个繁忙的仓库中,那里挤满了人,叉车在紧迫的期限内搬运货物,则是完全不同的另一回事。
如果 2024 年是令人不安的人形产品发布视频之年,那么今年我们将看到这些人形机器人接受考验,我们将发现它们是否能像承诺的那样为付费客户带来生产力。现在 Agility 的机器人已经部署在快节奏的客户设施中,很明显,小问题真的会累积起来。
然后是机器人和人类如何共享空间的问题。怀斯说,在 GXO 的设施中,两者在完全独立的区域工作,但有些情况下,例如,一名人类工人可能会不小心将某样东西留在充电站的障碍物上。这意味着 Agility 的机器人无法返回充电桩充电,因此它们需要提醒人类员工将障碍物移开,从而减缓操作速度。
人们常说,机器人不会生病或需要医疗保健。但今年,随着人形机器人车队的到来,我们将开始发现它们确实存在的局限性。
从想象中学习
我们教机器人如何做事的技术正在迅速变化。过去,有必要将它们的任务分解成步骤,并使用专门编码的指令,但现在,由于人工智能的出现,这些指令可以从观察中获得。就像 ChatGPT 通过接触数万亿个句子而不是通过明确学习语法规则来学习写作一样,机器人正在通过视频和演示来学习。
这提出了一个重大问题:你从哪里获得所有这些供机器人学习的视频和演示?
英伟达,世界上最有价值的公司,长期以来一直致力于通过模拟世界来满足这一需求,利用其在电子游戏行业的根基。它创造了世界,让机器人专家可以在其中将机器人的数字复制品暴露在新的环境中以学习。一辆自动驾驶汽车可以行驶数百万虚拟英里,或者一台工厂机器人可以学习如何在不同的光照条件下导航。
12 月,该公司更进一步,发布了它称之为“世界基础模型”的东西。这个名为 Cosmos 的模型已经从 2000 万小时的视频中学习——相当于从罗马与迦太基交战以来不间断地观看 YouTube——这些视频可以用来生成合成训练数据。
以下是如何在实践中使用这个模型的示例。假设你经营一家机器人公司,想要建造一个在医院打扫卫生的机器人。你可以用英伟达的模型开始构建这个机器人的“大脑”,这将赋予它对物理学和世界运作方式的基本理解,但随后你需要帮助它弄清楚医院是如何运作的。你可以去医院内部拍摄视频和图像,或者付钱让人们在工作时佩戴传感器和摄像头。
“但这些创建起来很昂贵,而且很耗时,所以你只能做有限的几个,”英伟达模拟技术副总裁雷夫·莱巴雷迪安说。Cosmos 可以从这些示例中提取一小部分,并创建一个医院的三维模拟。然后它将开始进行更改——不同的地板颜色、不同尺寸的病床——并创建略微不同的环境。“你将捕获的真实世界数据成倍地放大,”莱巴雷迪安说。在这个过程中,模型将被微调,以便在特定医院环境中良好运行。
这有点像从你在现实世界的经历和你自己的想象中学习(前提是你的想象力仍然受物理定律的约束)。
通过人工智能和模拟来教机器人并不新鲜,但它将在未来几年变得更加便宜和强大。
更聪明的大脑,更聪明的身体
机器人领域的许多进步都与改进机器人感知和计划行动的方式有关——换句话说,就是它的“大脑”。这些进步通常比改进机器人“身体”的进步更快,而机器人“身体”决定了机器人如何在物理世界中移动,尤其是在比受控装配线更混乱和不可预测的环境中。
军方一直热衷于改变这种状况,并扩展物理上可能实现的界限。美国海军一直在测试来自 Gecko Robotics 公司的机器,这些机器可以沿着垂直墙壁(使用磁铁)导航,执行基础设施检查,检查航空母舰上的裂缝、缺陷和不良焊接。
战场上也有一些投资。虽然灵活且价格低廉的无人机已经重塑了乌克兰的农村战场,但新的努力正在进行,以将这些无人机的能力带到室内。国防制造商 Xtend 在 2024 年 12 月获得了五角大楼 880 万美元的合同,用于其无人机,这些无人机可以在封闭的室内空间和城市环境中导航。这些所谓的“徘徊弹药”是一种单向攻击无人机,携带爆炸物,在撞击时爆炸。
“这些系统旨在克服诸如封闭空间、不可预测的布局和 GPS 拒绝区域等挑战,”Xtend 的联合创始人兼首席技术官鲁比·利亚尼说。预计将在今年的头几个月向五角大楼交付。
另一个倡议——部分由五角大楼的复制器项目引发,该项目计划在小型无人驾驶车辆上花费超过 10 亿美元——旨在开发更多自主控制的潜艇和水面舰艇。这尤其令人感兴趣,因为国防部越来越关注未来中国和台湾之间在太平洋可能发生的冲突。在这样的冲突中,在乌克兰战争中占据主导地位的无人机将毫无用处,因为战斗几乎完全在海上进行,小型空中无人机的活动范围将受到限制。相反,水下无人机将发挥更大的作用。
所有这些变化加在一起,指向一个未来,在这个未来,机器人将更加灵活地学习、工作和移动。
斯坦福大学的简·利帕特认为,这种转变的下一个前沿将取决于通过语音指示机器人的能力。大型语言模型理解和生成文本的能力已经使它们成为利帕特和他的机器人之间的一种“翻译”。
“我们可以拿我们的一台四足机器人,然后告诉它,‘嘿,你是一只狗’,然后它就会想闻你,并试图吠叫,”他说。“然后我们改变一个词——‘你是一只猫’。然后它就会喵喵叫,你知道,会躲避狗。而且我们没有改变一行代码。”
更正:本文的先前版本错误地指出,机器人公司 Eliza Wakes Up 与 a16z 有关联。