订阅我们的每日和每周新闻通讯,获取有关行业领先的 AI 报道的最新更新和独家内容。了解更多
近年来,拥有超长上下文窗口的大型语言模型 (LLM) 频频登上新闻头条。将数十万甚至数百万个词元塞进单个提示的能力为开发者打开了无限可能。
但这些长上下文 LLM 究竟能理解并利用它们接收到的海量信息吗?
谷歌 DeepMind 的研究人员推出了 Michelangelo,这是一个旨在评估 LLM 长上下文推理能力的新基准。他们在最新研究论文中发表的发现表明,虽然当前的尖端模型在从大型上下文数据中检索信息方面取得了进展,但它们在需要对数据结构进行推理的任务中仍然举步维艰。
对更强大的长上下文基准的需求
拥有极长上下文窗口的 LLM 的出现,其窗口范围从 128,000 个词元到超过 100 万个词元,促使研究人员开发新的基准来评估其能力。然而,大多数研究都集中在检索任务上,例如流行的“大海捞针”评估,其中模型的任务是在大型上下文中找到特定信息。
“随着时间的推移,模型在长上下文性能方面变得更加强大,”谷歌 DeepMind 的研究科学家 Kiran Vodrahalli 告诉 VentureBeat。“例如,流行的用于检索的‘大海捞针’评估现在已经饱和到极长的上下文长度。因此,确定模型在短上下文机制中能够解决的更难的任务是否也能在长范围内解决变得至关重要。”
检索任务并不一定反映模型对整个上下文的推理能力。模型可能能够找到特定的事实,而无需理解文本不同部分之间的关系。与此同时,现有的评估模型对长上下文进行推理能力的基准存在局限性。
“很容易开发出可以通过仅使用检索和存储在模型权重中的信息来解决的长推理评估,从而‘短路’了对模型使用长上下文能力的测试,”Vodrahalli 说。
为了解决当前基准的局限性,研究人员推出了 Michelangelo,这是一个“用于大型语言模型的最小、合成且未泄露的长上下文推理评估”。
Michelangelo 基于雕塑家将无关的石块从大理石中剔除以揭示底层结构的类比。该基准侧重于评估模型理解其上下文窗口内信息的关系和结构的能力,而不是简单地检索孤立的事实。
该基准包含三个核心任务:
潜在列表:模型必须处理对 Python 列表执行的一系列长操作,过滤掉无关或冗余的语句,并确定列表的最终状态。“潜在列表衡量模型在代码指令流过程中跟踪潜在数据结构属性的能力,”研究人员写道。
多轮共指消解 (MRCR):模型必须生成用户和 LLM 之间长对话的一部分。这要求模型理解对话的结构并解决对先前回合的引用,即使对话包含令人困惑或分散注意力的元素。“MRCR 衡量模型理解自然文本中排序的能力,区分写作的类似草稿,并根据对抗性困难的查询重现指定的先前上下文部分,”研究人员写道。
“我不知道”(IDK):模型会得到一个长故事,并被要求回答关于它的多项选择题。对于某些问题,上下文不包含答案,模型必须能够识别其知识的局限性并以“我不知道”做出回应。“IDK 衡量模型根据所提供的上下文理解它是否知道它不知道什么的能力,”研究人员写道。
Michelangelo 中的任务基于一个名为潜在结构查询 (LSQ) 的新框架。LSQ 提供了一种通用的方法来设计可以扩展到任意长度的长上下文推理评估。它还可以测试模型对隐式信息的理解,而不是简单地检索简单的事实。LSQ 依赖于合成测试数据以避免测试数据泄露到训练语料库中的陷阱。
“通过要求模型从结构中提取信息而不是从键中提取值(从大理石中提取雕塑而不是从干草堆中提取针),我们可以更深入地测试语言模型上下文理解,超越检索,”研究人员写道。
LSQ 与其他评估长上下文 LLM 的方法有三个主要区别。首先,它被明确设计为避免超越检索任务的评估中的短路缺陷。其次,它指定了一种方法来独立地提高任务复杂性和上下文长度。最后,它足够通用,可以涵盖各种推理任务。Michelangelo 中使用的三个测试涵盖了代码解释和对松散书写文本的推理。
“目标是,通过遵循 LSQ 实现的长上下文超越推理评估将导致更少的场景,其中提出的评估简化为解决检索任务,”Vodrahalli 说。
研究人员在 Michelangelo 上评估了十个尖端 LLM,包括 Gemini、GPT-4 和 4o 以及 Claude 的不同变体。他们测试了模型在长达 100 万个词元的上下文中。Gemini 模型在 MRCR 上表现最佳,GPT 模型在潜在列表上表现出色,而 Claude 3.5 Sonnet 在 IDK 上取得了最高得分。
然而,所有模型在推理任务复杂性增加时都表现出显着的性能下降,这表明即使拥有非常长的上下文窗口,当前的 LLM 在对大量信息进行推理的能力方面仍有提升空间。
尖端 LLM 在长上下文窗口上进行推理时遇到了困难(来源:arxiv)
“尖端模型在我们在 Michelangelo 中研究的所有超越检索的推理原语(潜在列表、MRCR、IDK)方面都有提升空间,”Vodrahalli 说。“不同的尖端模型具有不同的优势和劣势——每种类别在不同的上下文范围内和不同的任务上表现良好。似乎在所有模型中普遍存在的是,在长推理任务上的初始性能下降。”
Michelangelo 评估捕捉了长上下文推理所需的必要基本原语,其发现对企业应用具有重要意义。例如,在模型无法依赖其预训练知识并且必须对非常长上下文中的许多不同位置执行多跳推理的现实世界应用中,Vodrahalli 预计性能会随着上下文长度的增长而下降。
“如果文档包含大量与手头任务无关的信息,这尤其如此,这使得模型难以立即区分哪些信息是相关的或不相关的,”Vodrahalli 说。“模型也可能继续在所有与回答问题相关的信息都位于文档中一个特定位置的任务上表现良好。”
研究人员将继续向 Michelangelo 添加更多评估,并希望将其直接提供给其他研究人员,以便他们可以在其模型上进行测试。