每次新的 AI 模型发布,都会被吹嘘为在各种基准测试中表现出色。例如,OpenAI 的 GPT-4o 于 5 月发布,其结果显示在多项测试中,其性能超越了其他所有 AI 公司的最新模型。
然而,一项新的研究表明,这些基准测试设计不佳,结果难以复制,而且它们使用的指标往往是任意的。这很重要,因为 AI 模型在这些基准测试中的得分将决定它们受到的审查和监管程度。
“这就像狂野的西部,因为我们没有真正好的评估标准,”斯坦福大学计算机科学博士生、斯坦福大学人工智能安全中心成员安卡·鲁埃尔 (Anka Reuel) 说,她是这篇论文的作者之一。
基准测试本质上是 AI 参加的测试。它可以是像最流行的 MMLU(大规模多任务语言理解基准测试)这样的多项选择题,也可以是对 AI 执行特定任务的能力或其对一系列问题的文本响应质量的评估。
AI 公司经常引用基准测试来证明新模型的成功。“这些模型的开发者往往会针对特定的基准测试进行优化,”佐治亚理工学院心理学教授、语言、智能和思维 (LIT) 实验室负责人安娜·伊万诺娃 (Anna Ivanova) 说,她没有参与斯坦福大学的研究。
这些基准测试已经成为一些政府制定 AI 监管计划的一部分。例如,将于 2025 年 8 月生效的欧盟 AI 法案将基准测试作为一种工具,用于确定模型是否表现出“系统性风险”;如果表现出“系统性风险”,则将受到更高程度的审查和监管。英国人工智能安全研究所在其评估大型语言模型安全性的框架 Inspect 中提到了基准测试。
但现在,它们可能还不足以以这种方式使用。“如果基准测试设计不当,尤其是在高风险用例中,我们可能会产生一种潜在的虚假安全感,”鲁埃尔说。“它可能看起来模型是安全的,但实际上并非如此。”
鉴于基准测试的重要性日益增加,鲁埃尔和她的同事想要研究最流行的例子,以弄清楚什么是好的基准测试,以及我们使用的基准测试是否足够稳健。研究人员首先着手验证开发者发布的基准测试结果,但他们经常无法复制这些结果。要测试基准测试,通常需要一些说明或代码才能在模型上运行它。许多基准测试创建者没有公开发布运行其基准测试的代码。在其他情况下,代码已经过时。
基准测试创建者通常也不会公开发布其数据集中问题的答案。如果他们这样做,公司就可以直接在基准测试上训练他们的模型;这就像让学生在考试前看到试题和答案一样。但这使得它们难以评估。
另一个问题是,基准测试经常“饱和”,这意味着所有问题都已基本解决。例如,假设有一个包含简单数学问题的测试。第一代 AI 模型在测试中获得了 20%,不及格。第二代模型获得了 90%,第三代模型获得了 93%。外部人士可能会看到这些结果,并认为 AI 进步已经放缓,但另一种解释可能是基准测试已经解决,不再是衡量进步的有效指标。它无法捕捉到第二代和第三代模型之间能力的差异。
该研究的目标之一是定义一个好的基准测试的标准列表。“讨论基准测试的质量、我们想要从它们那里得到什么以及我们需要从它们那里得到什么,这绝对是一个重要的问题,”伊万诺娃说。“问题在于,没有一个好的标准来定义基准测试。这篇论文试图提供一套评估标准。这非常有用。”
这篇论文还发布了一个名为 Better Bench 的网站,该网站对最流行的 AI 基准测试进行排名。评分因素包括是否咨询了专家进行设计、测试的能力是否定义明确以及其他基本因素,例如,基准测试是否有反馈渠道,或者是否经过同行评审?
MMLU 基准测试的评分最低。“我不同意这些排名。事实上,我是排名靠前的论文的作者之一,我认为排名较低的基准测试比它们更好,”人工智能安全中心 (CAIS) 主任、MMLU 基准测试的创建者之一丹·亨德里克斯 (Dan Hendrycks) 说。尽管如此,亨德里克斯仍然认为,推动该领域发展最好的方法是构建更好的基准测试。
有些人认为这些标准可能忽略了更大的图景。“这篇论文增加了一些有价值的东西。实施标准和文档标准——所有这些都很重要。它使基准测试变得更好,”专门从事 AI 评估的研究机构 Apollo Research 首席执行官马里乌斯·霍布汉 (Marius Hobbhahn) 说。“但对我来说,最重要的问题是,你是否衡量了正确的东西?你可以勾选所有这些框,但你仍然可能有一个糟糕的基准测试,因为它只是没有衡量正确的东西。”
本质上,即使基准测试设计完美,如果有人真正担心 AI 的黑客能力,那么测试模型分析莎士比亚十四行诗的能力的基准测试可能毫无用处。
“你会看到一个旨在衡量道德推理的基准测试。但它的含义并不一定定义得很好。是否将该领域的专家纳入了这个过程?通常情况下并非如此,”这篇论文的另一位作者、斯坦福大学人工智能研究员阿米莉亚·哈迪 (Amelia Hardy) 说。
有一些组织正在积极努力改善这种情况。例如,来自研究组织 Epoch AI 的一个新的基准测试是在 60 位数学家的参与下设计的,并由两位菲尔兹奖获得者(这是数学领域最负盛名的奖项)验证为具有挑战性。这些专家的参与满足了 Better Bench 评估中的一个标准。目前最先进的模型能够回答该基准测试中不到 2% 的问题,这意味着在该基准测试达到饱和之前还有很长的路要走。
“我们真的试图代表现代数学研究的全部广度和深度,”Epoch AI 副主任塔迈·贝西罗格鲁 (Tamay Besiroglu) 说。尽管测试难度很大,但贝西罗格鲁推测,AI 模型大约需要四到五年才能在该基准测试中取得好成绩。
亨德里克斯的组织 CAIS 正在与 Scale AI 合作创建一个新的基准测试,他声称该基准测试将测试 AI 模型在人类知识前沿的表现,被称为“人类最后的考试”(HLE)。“HLE 是由全球学术界和主题专家团队开发的,”亨德里克斯说。“HLE 包含明确的、不可搜索的、需要博士水平理解才能解决的问题。”如果你想贡献一个问题,可以在这里进行。
尽管关于究竟应该衡量什么存在很多分歧,但许多研究人员都同意,需要更强大的基准测试,尤其是因为它们为公司设定了方向,并且是政府的重要工具。
“基准测试必须真正出色,”哈迪说。“我们需要了解‘真正出色’的含义,而我们现在还没有。”