前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

元宇宙新内存层:提升知识,减少幻觉

洞察2025年3月1日· 5 分钟阅读4 阅读

大型语言模型的记忆层:提升事实知识,减少幻觉 随着企业在各种应用中不断采用大型语言模型(LLM),一个关键挑战 […]

大型语言模型的记忆层:提升事实知识,减少幻觉

随着企业在各种应用中不断采用大型语言模型(LLM),一个关键挑战是提高模型的事实知识并减少幻觉。Meta AI 的研究人员在最新论文中提出了“可扩展记忆层”,这可能是解决此问题的几种可能方案之一。

可扩展记忆层为 LLM 添加更多参数,以提高其学习能力,而无需额外的计算资源。这种架构对于那些可以为事实知识预留额外内存,但又希望模型更灵活的推理速度的应用非常有用。

传统的语言模型使用“密集层”在其参数中编码大量信息。在密集层中,所有参数都以其全部容量使用,并且在推理过程中大部分时间同时被激活。密集层可以学习复杂的函数,而增加其容量需要额外的计算和能源资源。

相比之下,对于简单的事实知识,使用具有联想记忆架构的更简单的层将更有效率和可解释。这就是记忆层的作用。它们使用简单的稀疏激活和键值查找机制来编码和检索知识。稀疏层比密集层占用更多内存,但一次只使用一小部分参数,这使得它们在计算方面效率更高。

记忆层已经存在多年,但在现代深度学习架构中很少使用。它们没有针对当前的硬件加速器进行优化。

当前最先进的 LLM 通常使用某种形式的“专家混合”(MoE)架构,该架构使用与记忆层略微相似的机制。MoE 模型由许多专门负责特定任务的较小的专家组件组成。在推理时,路由机制根据输入序列确定哪个专家被激活。PEER 是 Google DeepMind 最近开发的一种架构,它将 MoE 扩展到数百万个专家,从而对推理过程中被激活的参数进行更细粒度的控制。

记忆层在计算方面很轻,但在内存方面很重,这对当前的硬件和软件框架提出了特定的挑战。在他们的论文中,Meta 研究人员提出了几种修改方法来解决这些挑战,并使其能够大规模使用。

Memory layers
记忆层可以在多个 GPU 上并行存储知识,而不会减慢模型速度(来源:arXiv)

首先,研究人员配置了用于并行的记忆层,将它们分布在多个 GPU 上以存储数百万个键值对,而不会改变模型中的其他层。他们还实现了一个特殊的 CUDA 内核来处理高内存带宽操作。此外,他们开发了一种参数共享机制,该机制支持模型中多个记忆层之间共享一组记忆参数。这意味着用于查找的键和值在层之间共享。

这些修改使得在 LLM 中实现记忆层成为可能,而不会减慢模型速度。

“记忆层及其稀疏激活很好地补充了密集网络,为知识获取提供了更大的容量,同时在计算方面很轻,”研究人员写道。“它们可以有效地扩展,并为从业人员提供了一个有吸引力的新方向,可以权衡内存与计算。”

为了测试记忆层,研究人员通过用共享记忆层替换一个或多个密集层来修改 Llama 模型。他们在几个任务上比较了增强记忆的模型与密集 LLM 以及 MoE 和 PEER 模型,包括事实问答、科学和常识世界知识以及编码。

Memory model vs dense layers
在事实问答任务中,一个在 1 万亿个 token 上训练的 13 亿参数记忆模型(实线)的性能接近一个 70 亿参数模型(虚线)的性能,因为它获得了更多记忆参数(来源:arxiv)

他们的研究结果表明,记忆模型在密集基线模型上有了显著的改进,并且可以与使用 2 倍到 4 倍计算资源的模型相媲美。它们还与具有相同计算预算和参数数量的 MoE 模型的性能相匹配。该模型的性能在需要事实知识的任务中尤其显著。例如,在事实问答中,一个具有 13 亿参数的记忆模型的性能接近 Llama-2-7B 的性能,后者在两倍的 token 和 10 倍的计算资源上进行了训练。

此外,研究人员发现,随着他们将实验从 1.34 亿参数扩展到 80 亿参数,记忆模型的优势保持一致。

“鉴于这些发现,我们强烈建议将记忆层集成到所有下一代 AI 架构中,”研究人员写道,同时补充说还有很大的改进空间。“特别是,我们希望能够开发出新的学习方法,以进一步提高这些层的有效性,从而减少遗忘、幻觉和持续学习。”

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

OpenAI 在 ChatGPT 手机端推出 Codex 编码智能体
TOP1

OpenAI 在 ChatGPT 手机端推出 Codex 编码智能体

OpenAI与苹果合作裂痕加深,考虑采取法律行动
TOP2

OpenAI与苹果合作裂痕加深,考虑采取法律行动

3

微软叫停 Claude Code,全面转向 Copilot CLI

9小时前
微软叫停 Claude Code,全面转向 Copilot CLI
4

2026年科技裁员超10万,AI重塑就业市场

9小时前
2026年科技裁员超10万,AI重塑就业市场
5

法官权衡Anthropic 15亿美元版权和解

5小时前
法官权衡Anthropic 15亿美元版权和解
6

2026年知识库幻觉根治指南:从 Naive RAG 到 Agentic RAG

8小时前
7

腾讯开源Agent Memory,让Token消耗降低61%

8小时前
腾讯开源Agent Memory,让Token消耗降低61%
8

MIT 研究项目因联邦拨款削减缩水10%

9小时前
MIT 研究项目因联邦拨款削减缩水10%
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款