人工智能的智商测试:超越棋盘,探寻更深层的智慧
曾经,国际象棋被视为智慧的终极考验。然而,当计算机战胜人类,却展现不出我们与智慧相关的其他广阔能力时,人们开始思考:人工智能的智慧究竟在哪里?
如今,人工智能已在围棋、扑克等领域超越人类,甚至在许多电子游戏中技压群雄。然而,研究人员正在开发新的 AI 智商测试,旨在评估更深层次的人类智慧,例如概念学习和类比推理。
这些测试并非易事。计算机在许多任务上仍然举步维艰,这正是测试的意义所在。测试设计者希望这些挑战能够揭示 AI 的不足,并引导该领域朝着最终能够像人类一样思考的机器发展。
Raven’s Progressive Matrices 是一种常见的智商测试,要求测试者通过理解抽象图形的内在结构,从多个选项中选择缺失的图形来完成九个图形的排列。神经网络在这一任务上已经取得了相当的进展。然而,一篇发表在 NeurIPS 大会上的论文提出了一个新的挑战:AI 系统必须从头开始生成一个合适的图像,这将是对其理解模式的终极考验。
“如果你正在开发一个计算机视觉系统,它通常只是识别,而没有真正理解场景中的内容,”特拉维夫大学和 Facebook 的计算机科学家 Lior Wolf 说道,他是这篇论文的资深作者。“这项任务需要理解构成和规则,因此它是一个非常有趣的问题。”研究人员还设计了一个神经网络来应对这一挑战。根据人类评委的评估,该网络的准确率约为 70%,这意味着还有很大的提升空间。
其他测试则更加困难。另一篇 NeurIPS 论文展示了一个由软件生成的 Bongard 问题数据集,这是一种经典的人机测试。在他们的版本中,称为 Bongard-LOGO,测试者会看到一些符合特定模式的抽象草图,以及一些不符合模式的草图,需要判断新的草图是否符合模式。
这些谜题测试的是“组合性”,即分解模式的能力,这是智慧的关键组成部分,加州理工学院的计算机科学家 Anima Anandkumar 说道,她是这篇论文的资深作者。研究人员发现,人类的正确率超过 90%,而最先进的视觉处理算法的正确率仅为 65% 左右(随机猜测的概率为 50%)。“这就是它的魅力所在,”Anandkumar 说道,“如此简单的东西对 AI 来说仍然如此具有挑战性。”他们目前正在开发一个使用真实图像的测试版本。
组合性思维可能有助于机器在现实世界中发挥作用。想象一下一个街道场景,Anandkumar 说道。自动驾驶汽车需要将其分解成汽车和行人等一般概念,才能预测接下来会发生什么。组合性思维还可以使 AI 更具可解释性和可信度,她补充道。人们可以窥视其内部,了解它是如何将证据拼凑在一起的。
更难的测试还在不断涌现。2019 年,谷歌的 AI 研究员 François Chollet 创建了抽象与推理语料库 (ARC),这是一组视觉谜题,涉及人类对几何、数字、物理学甚至目标导向性的核心知识。在每个谜题中,测试者会看到一个或多个包含彩色方块的网格对,每对网格都是一种“前后”网格。测试者还会看到一个新的网格,需要根据推断出的规则填写其对应的网格。
一个名为 Kaggle 的网站举办了一场关于这些谜题的竞赛,并于去年 5 月向表现最佳的三个团队颁发了 20,000 美元的奖金。这些谜题对人类来说相当容易,但最先进的 AI 的正确率仅为 20% 左右。“这是一个巨大的警示信号,它告诉我们,我们遗漏了一些东西,”Chollet 说道,“我们正在缺失某些东西。”
Kaggle 竞赛要求参赛者创建一个能够解决从未见过的推理任务的 AI 系统。每个 ARC 任务包含 3-5 对训练输入和输出,以及一个测试输入,需要根据从训练示例中学习到的模式预测相应的输出。
图片:Kaggle
当前 AI 的进步浪潮主要由多层神经网络(也称为深度学习)驱动。但是,Chollet 说道,这些神经网络在 ARC 上的表现“糟糕透顶”。Kaggle 的获胜者使用了传统的组合手写规则的方法,而不是从大量数据中学习微妙的模式。尽管他认为这两种范式可以协同发挥作用。神经网络可以将混乱的感知数据转换为结构化的形式,以便符号处理可以处理。
Anandkumar 同意需要采用混合方法。她说,深度学习的许多进步现在来自于使其更深更深,使用更大更大的神经网络。“现在的规模如此庞大,我认为我们将看到更多尝试用更少的东西做更多事情的工作。”
Anandkumar 和 Chollet 指出人们对智力存在一个误解:人们将智力与技能混淆。相反,他们说,智力是轻松掌握新技能的能力。这可能是深度学习经常失败的原因。它通常需要大量的训练,并且不能推广到新的任务,而 Bongard 和 ARC 问题则要求只用几个示例来解决各种谜题。也许对 AI 智商的良好测试是让计算机阅读这篇文章,并想出一个新的智商测试。