斯坦福大学教授李飞飞早已在人工智能史上留下了浓墨重彩的一笔。她为深度学习革命做出了巨大贡献,多年来致力于创建 ImageNet 数据集和竞赛,挑战人工智能系统识别 1000 个类别中的物体和动物。2012 年,名为 AlexNet 的神经网络在 ImageNet 竞赛中以压倒性优势战胜了所有其他类型的模型,震惊了人工智能研究界。从那时起,神经网络借助互联网上大量免费训练数据和提供前所未有计算能力的 GPU,迅速发展起来。
在 ImageNet 诞生后的 13 年里,计算机视觉研究人员精通了物体识别,并转向图像和视频生成。李飞飞共同创立了斯坦福大学以人为本的人工智能研究所 (HAI),并继续推动计算机视觉的边界。就在今年,她创办了一家名为 World Labs 的初创公司,该公司生成用户可以探索的 3D 场景。World Labs 致力于赋予人工智能“空间智能”,即生成、推理和与 3D 世界交互的能力。李飞飞昨天在大型人工智能会议 NeurIPS 上发表了主题演讲,阐述了她对机器视觉的愿景,并在演讲前接受了《IEEE Spectrum》的独家采访。
为什么您将演讲题目定为“攀登视觉智能的阶梯”?
李飞飞:我认为,智能具有不同程度的复杂性和精妙程度。在演讲中,我想表达这样一种感觉:在过去几十年,特别是过去十多年深度学习革命的推动下,我们在视觉智能方面取得的成就令人叹为观止。我们的技术能力越来越强。我同时还受到 Judea Pearl 在他 2020 年出版的《为什么》一书中提出的“因果关系阶梯”的启发。
演讲还有一个副标题:“从感知到行动”。人们往往没有意识到:感知与交互和行动密切相关,无论是动物还是人工智能代理。这与语言不同。语言本质上是一种沟通工具,用于传递想法。在我看来,这些是互补的,但同样深刻的智能模式。
您的意思是,我们本能地对某些景象做出反应吗?
李飞飞:我说的不仅仅是本能。如果你观察感知的演化和动物智能的演化,你会发现它们之间有着千丝万缕的联系。每次我们能够从环境中获取更多信息,进化力量就会推动能力和智能的发展。如果你无法感知环境,你与世界的关系就会非常被动;你是否能吃饱或被吃掉,都是非常被动的行为。但一旦你能够通过感知从环境中获取线索,进化压力就会大大增强,从而推动智能的发展。
您认为,这就是我们创造越来越深层次的机器智能的方式吗?通过让机器感知更多环境?
李飞飞:我不知道“深层次”是否是我会使用的形容词。我认为我们正在创造更多能力。我认为它变得更加复杂,更加强大。我认为,解决空间智能问题是通往全面智能的根本性和关键性的一步,这一点绝对没错。
我看到了 World Labs 的演示。您为什么要研究空间智能并构建这些 3D 世界?
李飞飞:我认为空间智能是视觉智能的发展方向。如果我们认真对待破解视觉问题并将其与行动联系起来,有一个非常简单、一目了然的现实:世界是 3D 的。我们并不生活在一个平坦的世界里。我们的物理代理,无论是机器人还是设备,都将生活在 3D 世界中。即使虚拟世界也变得越来越 3D。如果你与艺术家、游戏开发者、设计师、建筑师、医生交谈,你会发现,即使他们在虚拟世界中工作,很多工作也是 3D 的。如果你花点时间认识到这个简单而深刻的事实,那么毫无疑问,破解 3D 智能问题是至关重要的。
我很好奇 World Labs 中的场景是如何保持物体持久性和符合物理定律的。这感觉是一个令人兴奋的进步,因为像 Sora 这样的视频生成工具仍然在这些方面举步维艰。
李飞飞:一旦你尊重世界的 3D 性质,很多事情就变得自然而然。例如,在我们发布在社交媒体上的一个视频中,篮球被扔进场景中。由于它是 3D 的,它允许你拥有这种能力。如果场景只是 2D 生成的像素,篮球将无处可去。
或者,就像在 Sora 中一样,它可能会移动到某个地方,然后消失。您在努力推动这项技术发展时,面临的最大技术挑战是什么?
李飞飞:没有人解决过这个问题,对吧?这非常非常困难。你可以看到(在 World Labs 的演示视频中),我们已经拿了一幅梵高的画,并以一致的风格生成了周围的整个场景:艺术风格、灯光,甚至那个街区会有什么样的建筑。如果你转过身,它变成了摩天大楼,那就完全不可信了,对吧?而且它必须是 3D 的。你必须进入它。所以它不仅仅是像素。
您能谈谈您用来训练它的数据吗?
李飞飞:很多。
您在计算负担方面遇到技术挑战吗?
李飞飞:计算量很大。这是公共部门负担不起的计算量。这也是我感到兴奋地休假,以私营部门的方式进行这项工作的原因之一。这也是我一直倡导公共部门提供计算资源的原因之一,因为我自己的经历强调了拥有充足资源进行创新的重要性。
如果能够赋予公共部门权力,那就太好了,因为它通常更受获得知识本身和为人类利益而获得知识的驱动。
李飞飞:知识发现需要资源支持,对吧?在伽利略时代,是最好的望远镜让天文学家观测到新的天体。是胡克意识到放大镜可以变成显微镜,并发现了细胞。每次出现新的技术工具,都会帮助人们寻求知识。现在,在人工智能时代,技术工具包括计算和数据。我们必须认识到这一点,这对公共部门至关重要。
您希望在联邦层面采取哪些措施来提供资源?
李飞飞:过去五年,斯坦福大学 HAI 一直在做这件事。我们一直在与国会、参议院、白宫、行业和其他大学合作,创建 NAIRR,即国家人工智能研究资源。
假设我们能够让人工智能系统真正理解 3D 世界,这将给我们带来什么?
李飞飞:这将为人们释放大量的创造力和生产力。我非常想以更有效的方式设计我的房子。我知道很多医疗应用都涉及理解一个非常特殊的 3D 世界,那就是人体。我们总是谈论未来人类将创造机器人来帮助我们,但机器人是在 3D 世界中导航的,它们需要空间智能作为它们大脑的一部分。我们还谈论虚拟世界,它将让人们参观地方、学习概念或娱乐。这些都使用 3D 技术,尤其是混合现实,我们称之为 AR(增强现实)。我非常想戴着眼镜穿过国家公园,眼镜会向我提供有关树木、路径、云层的相关信息。我也非常想在空间智能的帮助下学习不同的技能。
什么样的技能?
李飞飞:我举个简单的例子,如果我在高速公路上爆胎了,我该怎么办?现在,我会打开一个“如何换轮胎”的视频。但如果我能戴上眼镜,看到我的汽车发生了什么,然后在整个过程中得到指导,那就太酷了。但这只是一个简单的例子。你可以想象烹饪,你可以想象雕刻——有趣的事情。
您认为我们将在有生之年取得多大的进展?
李飞飞:哦,我认为这将在我们有生之年发生,因为技术进步的速度非常快。你已经看到了过去十年带来了什么。这绝对是未来即将发生的事情的预兆。