人工智能在数学推理方面遭遇瓶颈:FrontierMath 挑战
人工智能系统在生成文本、识别图像甚至解决基本数学问题方面表现出色,但在高级数学推理方面却遇到了瓶颈。一个名为 FrontierMath 的突破性新基准测试揭示了当今人工智能距离掌握高等数学的复杂性还有多远。
由 Epoch AI 研究小组开发的 FrontierMath 包含数百个原创的、研究级别的数学问题,这些问题需要深入的推理和创造力——而这些正是人工智能目前严重缺乏的。尽管像 GPT-4o 和 Gemini 1.5 Pro 这样的大型语言模型功能越来越强大,但即使在广泛的支持下,这些系统也只解决了不到 2% 的 FrontierMath 问题。
“我们与 60 多位领先的数学家合作,创建了数百个原创的、极具挑战性的数学问题,”Epoch AI 在 X.com 上的一篇帖子中宣布。“目前的人工智能系统只解决了不到 2%。”目标是看看机器学习模型在复杂推理方面的表现如何,到目前为止,结果令人失望。
FrontierMath 的设计比人工智能模型已经征服的传统数学基准测试要难得多。在 GSM-8K 和 MATH 等基准测试中,领先的人工智能系统现在得分超过 90%,但这些测试开始接近饱和。一个主要问题是数据污染——人工智能模型通常接受与测试集中问题非常相似的问题的训练,这使得它们的表现不如乍看起来那么令人印象深刻。
“现有的数学基准测试,如 GSM8K 和 MATH,正在接近饱和,人工智能模型的得分超过 90%——部分原因是数据污染,”Epoch AI 在 X.com 上发布。“FrontierMath 显著提高了标准。”
相比之下,FrontierMath 中的问题完全是新的,并且从未发表过,专门设计用来防止数据泄露。这些不是可以通过简单的记忆或模式识别来解决的问题。它们通常需要人类数学家花费数小时甚至数天的时间才能解决,并且涵盖了广泛的主题——从计算数论到抽象代数几何。
这种级别的数学推理需要的不只是蛮力计算或简单的算法。它需要菲尔兹奖获得者陶哲轩所说的“深厚领域专业知识”和创造性洞察力。在审查了这个基准测试后,陶哲轩评论道:“这些问题非常具有挑战性。我认为在短期内,基本上唯一解决这些问题的方法是将半专家(例如相关领域的博士生)与现代人工智能和大量其他代数软件包结合起来。”
数学,尤其是在研究层面,是测试人工智能的独特领域。与自然语言或图像识别不同,数学需要精确的逻辑思维,通常需要经过许多步骤。证明或解决方案中的每一步都建立在之前的步骤之上,这意味着一个错误会导致整个解决方案错误。
“数学为评估复杂推理提供了一个独特的沙盒,”Epoch AI 在 X.com 上发布。“它需要创造力和精确逻辑的扩展链——通常涉及复杂的证明——这些证明必须精心计划和执行,但允许对结果进行客观验证。”
这使得数学成为测试人工智能推理能力的理想试验场。系统仅仅生成答案是不够的——它必须理解问题的结构,并通过多层逻辑导航才能得出正确的解决方案。与其他领域不同,在其他领域中,评估可能是主观的或嘈杂的,数学提供了一个干净、可验证的标准:要么问题得到解决,要么没有解决。
但即使可以使用 Python 等工具,这些工具允许人工智能模型编写和运行代码来测试假设并验证中间结果,顶级模型仍然表现不佳。Epoch AI 评估了六个领先的人工智能系统,包括 GPT-4o、Gemini 1.5 Pro 和 Claude 3.5 Sonnet,发现没有一个系统能够解决超过 2% 的问题。
FrontierMath 问题的难度并没有被数学界忽视。事实上,世界上一些顶尖的数学家参与了这个基准测试的制作和审查。菲尔兹奖获得者陶哲轩、蒂莫西·高尔斯和理查德·博彻兹,以及国际数学奥林匹克竞赛(IMO)教练陈永嘉,分享了他们对挑战的看法。
“我所看到的所有问题都不是我的领域,而且看起来都是我完全不知道如何解决的问题,”高尔斯说。“它们似乎比 IMO 问题难得多。”
这些问题的设计不仅是为了难,而且是为了抵制捷径。每一个问题都是“防猜的”,这意味着几乎不可能在不做数学工作的情况下解决。正如 FrontierMath 论文所解释的那样,这些问题有很大的数值答案或复杂的数学对象作为解决方案,在没有正确推理的情况下,随机猜对的可能性不到 1%。
这种方法阻止了人工智能模型使用简单的模式匹配或蛮力方法来偶然找到正确答案。这些问题专门设计用来测试真正的数学理解,这就是为什么它们对当前系统来说如此困难的原因。
尽管存在挑战,但 FrontierMath 代表了评估人工智能推理能力的关键一步。正如研究论文的作者所指出的,“FrontierMath 代表了评估人工智能系统是否拥有研究级数学推理能力的重要一步。”
这不是一件容易的事。如果人工智能最终能够解决像 FrontierMath 中那样的问题,这可能预示着机器智能的重大飞跃——一种超越模仿人类行为,开始接近真正理解的飞跃。
但就目前而言,人工智能在这个基准测试上的表现提醒了我们它的局限性。虽然这些系统在许多领域表现出色,但它们仍然难以处理定义高级数学的深度、多步骤推理。
人工智能研究员马修·巴内特在一系列推文中概括了 FrontierMath 的意义。“关于 FrontierMath,首先要理解的是,它真的非常难,”巴内特写道。“地球上几乎每个人都会得到大约 0% 的分数,即使给他们一整天的时间来解决每个问题。”
巴内特还推测,如果人工智能最终破解了这个基准测试,这将意味着什么。“我认为,一旦 FrontierMath 被完全解决,人类将与一组完全不同的智能生物共存,”他写道。“我们将与人工智能共存,这些人工智能在某种重要的意义上与我们一样聪明。”
虽然这一天可能还很遥远,但 FrontierMath 提供了一条清晰的分界线——一种衡量人工智能真正智能进步的方法。随着人工智能系统的不断改进,它们在这个基准测试上的表现将受到研究人员、数学家和技术人员的密切关注。
Epoch AI 计划随着时间的推移扩展 FrontierMath,添加更多问题并改进基准测试,以确保它仍然是未来人工智能系统的相关且具有挑战性的测试。研究人员还计划定期进行评估,跟踪人工智能模型在不断发展过程中的表现。
与此同时,FrontierMath 为我们提供了一个关于人工智能局限性的迷人视角。它表明,虽然人工智能近年来取得了令人难以置信的进步,但仍然存在一些领域——比如高级数学——人类的专业知识仍然占主导地位。但如果人工智能最终突破了这一局限,这可能代表着我们对机器智能理解的范式转变。
不过,就目前而言,信息很明确:在解决数学中最难的问题方面,人工智能还有很多东西要学。