前途科技
  • 科技
  • AI
    • AI 前沿技术
    • Agent生态
    • AI应用场景
    • AI 行业应用
  • 初创
  • 报告
  • 学习中心
    • 编程与工具
    • 数据科学与工程
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

大型语言模型可识别自身错误

NEXTECH
Last updated: 2024年11月14日 下午8:38
By NEXTECH
Share
14 Min Read
SHARE

大型语言模型(LLM)的一个众所周知的难题是它们倾向于生成不正确或无意义的输出,通常被称为“幻觉”。虽然许多研究都集中在从用户的角度分析这些错误,但来自以色列理工学院、谷歌研究院和苹果的研究人员的一项新研究调查了 LLM 的内部运作机制,揭示了这些模型对真实性的理解比以前认为的要深刻得多。

“幻觉”一词缺乏一个普遍接受的定义,它涵盖了 LLM 错误的广泛范围。为了进行他们的研究,研究人员采用了广泛的解释,将幻觉视为 LLM 产生的所有错误,包括事实上的不准确性、偏差、常识推理失败以及其他现实世界中的错误。

大多数关于幻觉的先前研究都集中在分析 LLM 的外部行为以及检查用户如何感知这些错误。然而,这些方法对模型本身如何编码和处理错误提供了有限的见解。

一些研究人员已经探索了 LLM 的内部表示,表明它们编码了真实性的信号。然而,以前的工作主要集中在检查模型生成的最后一个标记或提示中的最后一个标记。由于 LLM 通常会生成长篇回复,这种做法可能会错过关键细节。

这项新研究采用了不同的方法。研究人员没有只关注最终输出,而是分析了“精确答案标记”,即如果修改这些标记就会改变答案正确性的响应标记。

研究人员在 10 个跨越各种任务的数据集上对 Mistral 7B 和 Llama 2 模型的四个变体进行了实验,这些任务包括问答、自然语言推理、数学问题解决和情感分析。他们允许模型生成不受限制的响应以模拟现实世界中的使用。他们的发现表明,真实性信息集中在精确答案标记中。

You Might Also Like

如何理性认识AI能力边界?Jason Wei斯坦福分享的3大核心框架
OpenAI DevDay 2025:重塑AI开发生态的技术盛宴,多项重磅产品及工具发布
大型企业拥抱混合计算掌控智能
OpenAI Atlas浏览器:深度揭秘鲜为人知的产品细节与ChatGPT的无缝融合

“这些模式在几乎所有数据集和模型中都是一致的,这表明 LLM 在文本生成过程中编码和处理真实性的一种通用机制,”研究人员写道。

为了预测幻觉,他们训练了分类器模型,他们称之为“探测分类器”,以根据 LLM 的内部激活来预测与生成输出的真实性相关的特征。研究人员发现,在精确答案标记上训练分类器可以显著提高错误检测率。

“我们证明了训练有素的探测分类器可以预测错误,这表明 LLM 编码了与其自身真实性相关的信息,”研究人员写道。

研究人员还调查了在一个数据集上训练的探测分类器是否可以检测到其他数据集中的错误。他们发现,探测分类器不能跨不同任务进行泛化。相反,它们表现出“特定于技能”的真实性,这意味着它们可以在需要类似技能的任务中进行泛化,例如事实检索或常识推理,但不能跨需要不同技能的任务进行泛化,例如情感分析。

“总的来说,我们的发现表明,模型对真实性具有多方面的表示,”研究人员写道。“它们不是通过单一的统一机制来编码真实性,而是通过多种机制来编码真实性,每种机制对应于不同的真实性概念。”

进一步的实验表明,这些探测分类器不仅可以预测错误的存在,还可以预测模型可能犯的错误类型。这表明 LLM 表示包含有关它们可能失败的具体方式的信息,这对于开发有针对性的缓解策略很有用。

最后,研究人员调查了 LLM 激活中编码的内部真实性信号与其外部行为如何一致。他们在某些情况下发现了一个令人惊讶的差异:模型的内部激活可能正确地识别出正确答案,但它始终生成不正确的响应。

这一发现表明,当前的评估方法仅依赖于 LLM 的最终输出,可能无法准确反映其真实能力。它提出了这样一种可能性,即通过更好地理解和利用 LLM 的内部知识,我们也许能够释放隐藏的潜力并显著减少错误。

这项研究的发现可以帮助设计更好的幻觉缓解系统。然而,它使用的技术需要访问 LLM 的内部表示,这主要在开源模型中可行。

然而,这些发现对该领域具有更广泛的意义。从分析内部激活中获得的见解可以帮助开发更有效的错误检测和缓解技术。这项工作是更广泛的研究领域的一部分,该领域旨在更好地理解 LLM 内部发生了什么以及在每次推理步骤中发生的数十亿次激活。领先的人工智能实验室,如 OpenAI、Anthropic 和 Google DeepMind,一直在研究各种技术来解释语言模型的内部运作机制。这些研究共同可以帮助构建更可靠的机器人和系统。

“我们的发现表明,LLM 的内部表示提供了对其错误的有用见解,突出了模型内部过程与其外部输出之间的复杂联系,并希望为进一步改进错误检测和缓解铺平道路,”研究人员写道。

Share This Article
Email Copy Link Print
Previous Article 20241114203550153.png 微软简化AI应用开发,AWS面临挑战
Next Article 20241114204005829.jpg 极限环境下的编码器解决方案
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
20251205190349369.jpg
Meta战略大转向:削减30%元宇宙预算,全力押注AI
科技
20251205183721458.jpg
南部非洲古人类基因组改写进化史:20万年隔离与独特基因
科技
20251205180959635.jpg
AMD为对华出口AI芯片支付15%税费,引发美国宪法争议
科技
20251205174331374.jpg
家的定义与核心价值:探索现代居住空间的意义
科技

相关内容

20250114225551278.jpg
AI

模拟理论获200万美元融资,优化电脑资源浪费

2025年1月15日
AI

SAP开源LLM支持扩展,Joule升级为协作代理

2024年10月9日
AI

英伟达携手电信巨头共建6G原生AI网络

2025年7月17日
20250128225424554.jpg
AI

OpenAI 的 o3:五项突破与一个挑战

2025年1月29日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创
  • 学习中心

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏

Copyright © 2025 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号

前途科技
Username or Email Address
Password

Lost your password?

Not a member? Sign Up