
Google 的 RT-X 是一个通用机器人模型的例子,它可以控制许多不同类型的机器人并执行关于复杂任务的基本推理。来源:Google DeepMind
随着生成式 AI 的成功,人们一直在热烈讨论将大型语言模型中发现的灵活智能带入物理世界的可能性。这通常被称为“具身 AI”,它是全球经济中最具变革性的机会之一。
我认为具身 AI 的未来一片光明,但前进的道路远没有 AI 在纯粹的数字领域中那么简单。通往“机器人 ChatGPT”的道路上存在着许多障碍,要使这一想法成为现实,需要新的突破。这对初创公司创始人及投资者来说意义重大,我将尝试将其提炼成几条建议。
更多的机器人自动化是不可避免的,所有不确定性都存在于“如何”的问题上,而不是“是否”的问题上。自 2012 年收购 Kiva Systems 以来,亚马逊已经在其仓库中部署了超过 750,000 台机器人。初创公司和投资者正在尝试确定可以实现机器人能力与市场需求之间这种程度的匹配的下一个应用。
AI 的轨迹是这种三角测量过程中的一个关键变量,强大的新模型可能是绝对的游戏规则改变者。那么,我们在这类模型的开发中处于什么位置呢?我与经验丰富的机器人专家和开发机器人基础模型的人员进行了交谈,以更好地理解这个问题。
立即注册,以免错过!
通往具身 AI 的一步一步
尖端具身 AI 研究的目标是创造通用而不是特定于任务的机器人智能——足够灵活,能够处理新的或高度动态的用例,而无需专门的训练。通用机器人基础模型的承诺是双重的。
首先,它们将极大地扩展机器人可以解决的用例数量。其次,它们将缩短机器人系统的传统漫长的商业化时间线。
这两个承诺都正在由 GPT-4、Gemini、Claude 和 Llama 等基础模型在纯粹的数字领域中实现。这些模型打开了通往无数新用例的大门,同时将小型、单一用途的 AI 模型快速淘汰,因为前者可以完成与后者相同的工作,同时消除了进行定制模型训练所需的工程投资。
通用模型已成为构建几乎所有 AI 事物的实际方式。人们可能会推测,一个新的类似 ChatGPT 的模型将主导机器人应用开发。
然而,我认为在短期内不会出现这种情况。相反,我的预期是生成式 AI 技术将逐渐融入机器人技术,而不是一夜之间重塑格局,它们将在一段时间内与经典机器人技术共存。
机器人技术一直在稳步发展,这得益于生成式 AI 技术,即使它们可能不会成为头条新闻。今天正在构建的初创公司已经在使用有望实现更灵活、更通用智能以及更快上市时间的技术。它们只是没有依赖单一的“世界模型”作为其应用程序的基础。
例如,Diffusion Policy 利用扩散模型(与支持 AI 图像生成器的技术相同)来生成机器人行为。生成的模型非常灵活,需要更少的训练数据,但目前它们通常仍然是在任务基础上进行训练的。另一种很有前景的生成式 AI 技术是神经辐射场 (NeRF),它可以从 2D 图像重建 3D 场景,并在机器人技术中具有应用,例如创建新颖的训练数据。
通用模型确实有可能成为机器人开发的基础,Google 的 RT-X 和 Physical Intelligence 的 π0 等研究模型突出了这种方法的承诺。
这些模型的一个重要证明是,它们已被证明大于其各部分之和。当包含来自许多任务的训练数据时,模型在单个任务上的表现优于仅在该任务上进行训练的情况。
然而,这种方法在通往采用的道路上遇到了与数据、确定性和计算相关的障碍。在这一类模型准备好投入生产之前,还需要更多的突破。
基础模型的三个障碍
第一个障碍是,似乎没有现成的用于训练关于与物理世界交互的基础模型的数据集,这与使现有基础模型成为可能的网络规模文本、图像和音频数据的丰富性形成对比。感知模型已经变得非常强大,但将感知与驱动联系起来具有挑战性。
为了实现真正基础模型所需的规模,我相信需要对收集更多数据的机制进行大量投资,以及进行实验以了解不同类型训练数据的有效性。例如,目前尚不清楚人类执行任务的视频在多大程度上可以促进模型性能。我确实相信,通过巧妙的构思和投资,可以组装强大的大规模训练数据。
一个看似可能的轨迹是,在未来几年内将出现具有大量预训练的强大模型,但它们将需要额外的补充训练数据才能在任何特定任务上表现出色。这类似于大型语言模型的微调,但它将更加重要,因为更少的技能将能够“开箱即用”地与机器人模型一起使用。
第二个障碍与确定性和可靠性有关。在机器人技术之外,确定性的重要性因应用而异,最成功的早期生成式 AI 应用是那些确定性不重要的应用。在机器人技术中,确定性至关重要。撇开安全性不谈,机器人技术的投资回报率 (ROI) 通常取决于吞吐量,而花在错误解决上的时间会破坏吞吐量。
到目前为止,关于机器人基础模型的研究一直强调新颖性而不是可靠性。人们正在投入大量精力来研究减轻生成式 AI 模型非确定性的方法——广泛地说,不仅仅是在机器人技术中——因此我相信这个问题可以解决,但可能不会一蹴而就。这表明确定性模型和非确定性模型共存的论点。
为了在灵活性和可靠性之间取得平衡,我们的投资组合公司 Micropsi Industries(为世界上一些最大的制造商自动化高方差任务)使用的是确定性神经网络,而不是概率性神经网络。
机器人基础模型的第三个障碍是,在机器人技术中,计算通常需要在边缘进行,这使得推理成为一项挑战。机器人必须具有成本效益,而今天,许多应用将无法支持添加足够多的 GPU 来运行最强大模型的推理的成本。
这个问题可能是三个问题中最容易解决的。预计机器人专家将以大型模型为起点,并使用蒸馏技术来创建更小、更专注的模型,这些模型对资源的要求更低。然而,这必然会降低模型的通用性,并且与能够做任何事情的机器人的理念背道而驰。
我们的投资组合公司 RGo Robotics 为各种移动机器人 OEM 提供其感知引擎,并且在这些机器人制造商中,预计更小、更便宜的模型将在成本敏感的用例中继续流行。硬件的价格/性能一直在不断提高,因此在边缘运行什么将不断发展。
量化等技术也使得有效地减小大型模型的尺寸成为可能。混合方法也是可能的,其中一些计算在云中完成,一些在设备上完成。
针对 genAI、具身 AI 时代的建议
虽然世界正变得越来越数字化,但我们仍然生活在物理世界中,数字与物理的交互在增长方面具有无限的潜力。
观察者经常会问,为什么 AI 可以写文章或音乐,却不能做一些琐碎的事情,比如装洗碗机。后者可能在短期内可行,但更重要的是,人们对价值数万亿美元的行业的物理过程提出了同样的问题。这使得具身 AI 成为全球经济中最具变革性的机会之一。
机器人技术正在取得巨大进步,我认为机器人将成为以前从未出现过的行业的关键推动者,而成熟的机器人市场正在从新的具身 AI 创新中受益。生成式 AI 将成为机器人未来发展道路上的一个变革性因素,但我目前的结论是,这将是一个渐进的过程,而不是一个一夜之间发生的转变,从根本上改变机器人公司的构建方式。
与此同时,低估创新者克服我所概述的挑战的能力是愚蠢的,但很难预测突破何时会发生。因此,我对今天开始创办机器人公司的企业家的建议是:
- 专注于高价值应用,并确定解决该应用的最佳方法,不要局限于任何一种方法。深入了解应用的所有细微差别,因为细节中的魔鬼往往会扼杀机器人解决方案的经济可行性。
- 评估新的生成式 AI 技术在解决以前无法解决的问题方面的作用。将生成式 AI 视为工具,而不是解决方案本身。
- 预计你的大部分工程时间将用于健壮性和强化,而不是新功能。
- 研究最成功的机器人公司的剧本,看看哪些方面值得效仿。我不认为成功的机器人公司的秘诀(无论是价值主张、产品开发还是上市策略)已经从根本上改变。
如果你正在创办新的机器人初创公司或围绕生成式 AI 在物理世界自动化中的应用进行创新,我很乐意听取你的意见。
关于作者
James Falkoff 是 Converge 的合伙人,Converge 是一家总部位于波士顿和硅谷的风险投资公司,专注于智能自动化以及物理世界和数字世界的交汇点。他已在科技行业投资 19 年。
这篇文章最初发表在 The Robot Report 上,标题为“我们什么时候才能拥有机器人的 ChatGPT?具身 AI 的未来一片光明”。