前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

AI推理的瓶颈不在算力,在内存

技术2026年6月1日· 6 分钟阅读0 阅读

大模型推理速度慢,很多人怪算力不够。但真相是:数据在内存和计算单元之间的搬运,才是最大的拖累。减少数据移动,不降低精度,才是当前推理优化最务实的路径。

为什么推理越来越慢?

你用的是 A100 还是 H100?还是国产的昇腾?

很多人以为,跑大模型推理慢,是 GPU 算力不够。于是拼命堆卡,从 8 张加到 32 张。但结果往往不如预期——卡越多,收益越低,甚至出现负加速。

问题的关键不在计算本身,而在内存。

算力过剩,内存稀缺

先看一组数据。在现代 AI 芯片上,计算单元(Matrix Core、Tensor Core)的利用率通常在 20% ~ 40% 之间。也就是说,超过一半的时间,计算单元在空等数据。

为什么会空等?因为数据从显存搬运到计算单元的速度,远赶不上计算单元处理数据的速度。

类比一下:你有一个超级聪明的厨师(计算单元),每秒能切 100 个土豆。但厨房门口只有一个传送带(内存带宽),每秒只能送过来 10 个土豆。厨师大部分时间只能发呆。

这就是典型的内存墙问题。

减少数据搬运,才是解药

传统的优化思路是降低模型精度:FP32 换 FP16,再换 INT8。但这会牺牲准确率,尤其在推理任务中,精度损失不可忽视。

更好的思路是:保持精度不变,减少数据搬运次数。怎么做到?

1. 数据复用

Transformer 推理中,Attention 的计算有大量重复读取。比如一个 token 的 Key、Value 矩阵,会被多个 Query 反复读。如果能把这些数据缓存在离计算单元更近的 SRAM 里,就能大幅减少对显存带宽的依赖。

百度在 Paddle Inference 里做了类似的优化,将 KV Cache 放在 On-Chip 存储,推理吞吐提升了 3 倍。

2. 算子融合

多个小算子合并成一个大算子,中间结果不需要写回显存,直接在寄存器里流水线处理。

比如 LayerNorm + MatMul 合并,数据停留在计算单元内部,带宽占用减少一半。阿里在 Blade 推理引擎里就用这招,对大模型推理效果明显。

3. 非均匀量化

不是一刀切把模型全量化到 INT8。而是对每个权重矩阵分别量化,敏感度高的部分保留 FP16,不敏感的部分压到 INT4。这样总数据量减小,但关键部分的精度没变。

华为 MindSpore 的 QAT 方案就支持这种混合精度,在代码模型上精度损失 <0.3%,内存带宽需求降低 40%。

内存优化,比堆算力更划算

现在业界有一个共识:推理优化从“堆算力”转向“省带宽”。原因很简单:

  • 算力每年翻倍(摩尔定律的延续)
  • 内存带宽每年只增长 <15%

未来差距会越来越大。谁能在数据搬运上做文章,谁就能在推理成本上拉开差距。

国内一些公司已经开始行动。字节跳动在火山引擎上部署大模型推理服务,核心优化点就是 KV Cache 压缩和算子内存复用,成本比直接租 A100 低 60%。

总结

不要被“算力焦虑”带偏了。对于 AI 推理,90% 的问题出在内存。

  • 关注数据复用,减少重复读取
  • 关注算子融合,减少中间回写
  • 关注非均匀量化,在不降精度的前提下缩小数据体积

比买更多卡更重要的,是让每张卡上的数据少跑几趟。

参考:

  • Transformer Inference Arithmetic
  • The Memory Wall in AI
标签:内存带宽模型优化算力焦虑大模型

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

中国生物科技崛起ASCO 2026
TOP1

中国生物科技崛起ASCO 2026

Anthropic估值逼近万亿美元,超越OpenAI
TOP2

Anthropic估值逼近万亿美元,超越OpenAI

3

联邦法官呼吁全国统一规则打击AI伪造法庭引文

22小时前
联邦法官呼吁全国统一规则打击AI伪造法庭引文
4

评分门控:让AI代理不再犯错

2小时前
5

别瞎忙:为什么我们重写SDLC来保护专注力

2小时前
别瞎忙:为什么我们重写SDLC来保护专注力
6

AI的法律人格:管理、责任与机构活化

2小时前
AI的法律人格:管理、责任与机构活化
7

OpenAI向日本大型银行提供GPT-5.5用于网络防御

22小时前
OpenAI向日本大型银行提供GPT-5.5用于网络防御
8

帕博利珠单抗两项大型试验显示持久疗效

22小时前
帕博利珠单抗两项大型试验显示持久疗效
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款