大型语言模型(LLM)的一个众所周知的难题是它们倾向于生成不正确或无意义的输出,通常被称为“幻觉”。虽然许多研究都集中在从用户的角度分析这些错误,但来自以色列理工学院、谷歌研究院和苹果的研究人员的一项新研究调查了 LLM 的内部运作机制,揭示了这些模型对真实性的理解比以前认为的要深刻得多。
“幻觉”一词缺乏一个普遍接受的定义,它涵盖了 LLM 错误的广泛范围。为了进行他们的研究,研究人员采用了广泛的解释,将幻觉视为 LLM 产生的所有错误,包括事实上的不准确性、偏差、常识推理失败以及其他现实世界中的错误。
大多数关于幻觉的先前研究都集中在分析 LLM 的外部行为以及检查用户如何感知这些错误。然而,这些方法对模型本身如何编码和处理错误提供了有限的见解。
一些研究人员已经探索了 LLM 的内部表示,表明它们编码了真实性的信号。然而,以前的工作主要集中在检查模型生成的最后一个标记或提示中的最后一个标记。由于 LLM 通常会生成长篇回复,这种做法可能会错过关键细节。
这项新研究采用了不同的方法。研究人员没有只关注最终输出,而是分析了“精确答案标记”,即如果修改这些标记就会改变答案正确性的响应标记。
研究人员在 10 个跨越各种任务的数据集上对 Mistral 7B 和 Llama 2 模型的四个变体进行了实验,这些任务包括问答、自然语言推理、数学问题解决和情感分析。他们允许模型生成不受限制的响应以模拟现实世界中的使用。他们的发现表明,真实性信息集中在精确答案标记中。
“这些模式在几乎所有数据集和模型中都是一致的,这表明 LLM 在文本生成过程中编码和处理真实性的一种通用机制,”研究人员写道。
为了预测幻觉,他们训练了分类器模型,他们称之为“探测分类器”,以根据 LLM 的内部激活来预测与生成输出的真实性相关的特征。研究人员发现,在精确答案标记上训练分类器可以显著提高错误检测率。
“我们证明了训练有素的探测分类器可以预测错误,这表明 LLM 编码了与其自身真实性相关的信息,”研究人员写道。
研究人员还调查了在一个数据集上训练的探测分类器是否可以检测到其他数据集中的错误。他们发现,探测分类器不能跨不同任务进行泛化。相反,它们表现出“特定于技能”的真实性,这意味着它们可以在需要类似技能的任务中进行泛化,例如事实检索或常识推理,但不能跨需要不同技能的任务进行泛化,例如情感分析。
“总的来说,我们的发现表明,模型对真实性具有多方面的表示,”研究人员写道。“它们不是通过单一的统一机制来编码真实性,而是通过多种机制来编码真实性,每种机制对应于不同的真实性概念。”
进一步的实验表明,这些探测分类器不仅可以预测错误的存在,还可以预测模型可能犯的错误类型。这表明 LLM 表示包含有关它们可能失败的具体方式的信息,这对于开发有针对性的缓解策略很有用。
最后,研究人员调查了 LLM 激活中编码的内部真实性信号与其外部行为如何一致。他们在某些情况下发现了一个令人惊讶的差异:模型的内部激活可能正确地识别出正确答案,但它始终生成不正确的响应。
这一发现表明,当前的评估方法仅依赖于 LLM 的最终输出,可能无法准确反映其真实能力。它提出了这样一种可能性,即通过更好地理解和利用 LLM 的内部知识,我们也许能够释放隐藏的潜力并显著减少错误。
这项研究的发现可以帮助设计更好的幻觉缓解系统。然而,它使用的技术需要访问 LLM 的内部表示,这主要在开源模型中可行。
然而,这些发现对该领域具有更广泛的意义。从分析内部激活中获得的见解可以帮助开发更有效的错误检测和缓解技术。这项工作是更广泛的研究领域的一部分,该领域旨在更好地理解 LLM 内部发生了什么以及在每次推理步骤中发生的数十亿次激活。领先的人工智能实验室,如 OpenAI、Anthropic 和 Google DeepMind,一直在研究各种技术来解释语言模型的内部运作机制。这些研究共同可以帮助构建更可靠的机器人和系统。
“我们的发现表明,LLM 的内部表示提供了对其错误的有用见解,突出了模型内部过程与其外部输出之间的复杂联系,并希望为进一步改进错误检测和缓解铺平道路,”研究人员写道。