前途科技
  • AI
  • 初创
  • 报告
我的兴趣
前途科技前途科技
Font ResizerAa
站内搜索
Have an existing account? Sign In
Follow US
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
AI

元宇宙新内存层:提升知识,减少幻觉

NEXTECH
Last updated: 2025年3月2日 上午6:52
By NEXTECH
Share
13 Min Read
SHARE

大型语言模型的记忆层:提升事实知识,减少幻觉

随着企业在各种应用中不断采用大型语言模型(LLM),一个关键挑战是提高模型的事实知识并减少幻觉。Meta AI 的研究人员在最新论文中提出了“可扩展记忆层”,这可能是解决此问题的几种可能方案之一。

可扩展记忆层为 LLM 添加更多参数,以提高其学习能力,而无需额外的计算资源。这种架构对于那些可以为事实知识预留额外内存,但又希望模型更灵活的推理速度的应用非常有用。

传统的语言模型使用“密集层”在其参数中编码大量信息。在密集层中,所有参数都以其全部容量使用,并且在推理过程中大部分时间同时被激活。密集层可以学习复杂的函数,而增加其容量需要额外的计算和能源资源。

相比之下,对于简单的事实知识,使用具有联想记忆架构的更简单的层将更有效率和可解释。这就是记忆层的作用。它们使用简单的稀疏激活和键值查找机制来编码和检索知识。稀疏层比密集层占用更多内存,但一次只使用一小部分参数,这使得它们在计算方面效率更高。

记忆层已经存在多年,但在现代深度学习架构中很少使用。它们没有针对当前的硬件加速器进行优化。

当前最先进的 LLM 通常使用某种形式的“专家混合”(MoE)架构,该架构使用与记忆层略微相似的机制。MoE 模型由许多专门负责特定任务的较小的专家组件组成。在推理时,路由机制根据输入序列确定哪个专家被激活。PEER 是 Google DeepMind 最近开发的一种架构,它将 MoE 扩展到数百万个专家,从而对推理过程中被激活的参数进行更细粒度的控制。

记忆层在计算方面很轻,但在内存方面很重,这对当前的硬件和软件框架提出了特定的挑战。在他们的论文中,Meta 研究人员提出了几种修改方法来解决这些挑战,并使其能够大规模使用。

Memory layers
记忆层可以在多个 GPU 上并行存储知识,而不会减慢模型速度(来源:arXiv)

首先,研究人员配置了用于并行的记忆层,将它们分布在多个 GPU 上以存储数百万个键值对,而不会改变模型中的其他层。他们还实现了一个特殊的 CUDA 内核来处理高内存带宽操作。此外,他们开发了一种参数共享机制,该机制支持模型中多个记忆层之间共享一组记忆参数。这意味着用于查找的键和值在层之间共享。

这些修改使得在 LLM 中实现记忆层成为可能,而不会减慢模型速度。

“记忆层及其稀疏激活很好地补充了密集网络,为知识获取提供了更大的容量,同时在计算方面很轻,”研究人员写道。“它们可以有效地扩展,并为从业人员提供了一个有吸引力的新方向,可以权衡内存与计算。”

为了测试记忆层,研究人员通过用共享记忆层替换一个或多个密集层来修改 Llama 模型。他们在几个任务上比较了增强记忆的模型与密集 LLM 以及 MoE 和 PEER 模型,包括事实问答、科学和常识世界知识以及编码。

Memory model vs dense layers
在事实问答任务中,一个在 1 万亿个 token 上训练的 13 亿参数记忆模型(实线)的性能接近一个 70 亿参数模型(虚线)的性能,因为它获得了更多记忆参数(来源:arxiv)

他们的研究结果表明,记忆模型在密集基线模型上有了显著的改进,并且可以与使用 2 倍到 4 倍计算资源的模型相媲美。它们还与具有相同计算预算和参数数量的 MoE 模型的性能相匹配。该模型的性能在需要事实知识的任务中尤其显著。例如,在事实问答中,一个具有 13 亿参数的记忆模型的性能接近 Llama-2-7B 的性能,后者在两倍的 token 和 10 倍的计算资源上进行了训练。

此外,研究人员发现,随着他们将实验从 1.34 亿参数扩展到 80 亿参数,记忆模型的优势保持一致。

“鉴于这些发现,我们强烈建议将记忆层集成到所有下一代 AI 架构中,”研究人员写道,同时补充说还有很大的改进空间。“特别是,我们希望能够开发出新的学习方法,以进一步提高这些层的有效性,从而减少遗忘、幻觉和持续学习。”

Share This Article
Email Copy Link Print
Previous Article apollo humanoid robot in a kitting application. Apptronik与Jabil合作生产Apollo人形机器人
Next Article "" 2025年人工智能将走向何方?
Leave a Comment

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

最新内容
Chegg起诉谷歌,指责AI摘要导致流量下滑
初创
20250509225244807.png
周一AI转型:模块化AI打造数字劳动力
AI
AI入门指南:先找问题,再试用,最后选靠谱供应商
AI
20250509174649650.png
Counterpoint:2025年XR面板出货量将增长6%
报告

相关内容

AI

Avarra获800万美元融资,助力AI虚拟人物销售培训

2024年10月4日
AI

深

2025年4月22日
2024年的AI工具展示了其在商业应用中的強大潛力,從提升寫作與組織能力到改進客戶互動與數據分析。
AI

7个颠覆规则的AI工具,重塑商业生产力

2024年12月20日
AI

飞行汽车公司利用人工智能设计车辆

2024年9月28日
Show More
前途科技

前途科技是一个致力于提供全球最新科技资讯的专业网站。我们以实时更新的方式,为用户呈现来自世界各地的科技新闻和深度分析,涵盖从技术创新到企业发展等多方面内容。专注于为用户提供高质量的科技创业新闻和行业动态。

分类

  • AI
  • 初创

快速链接

  • 阅读历史
  • 我的关注
  • 我的收藏
Copyright © 2024 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。 | 京ICP备17045010号-1 | 京公网安备 11010502033860号
前途科技
Username or Email Address
Password

Lost your password?