前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们
大模型推理原理、挑战与部署优化解析

大模型推理原理、挑战与部署优化解析

大模型推理原理与部署优化 庞士冠| 华为云PaaS架构与设计团队,大模型部署优化工程师 庞士冠 华为云PaaS架构与设计团队,大模型部署优化工程师 22年硕士毕业加入华为云PaaS服务产品部,23年初开始从事大模 型高效推理和部署优化相关工作,参与公司内多项大模型推理优化 项目,基于昇腾全栈,参与设计开发华为云XTA推理平台,该平台 承载了华为AI辅助内部研发项目、华为云CodeArts Snap研发助手 等推理业务,有效支撑了百万级日活。 01 02 03 大模型推理原理与挑战 大模型推理框架介绍 大模型推理优化技术&实践 04 总结与展望 大模型推理原理与挑战 大模型推理原理与挑战 看行业: 大模型推理需求呈指数级增长 •R1类长思考模型的出现 •豆包、Kimi等交互型生成 式应用涌现 •Cline、Manus等Agent类 产品增多 大模型推理原理与挑战 LLM推理过程通常分为预填充(Prefill)和解码 (Decode)两个阶段。 Prefill阶段:将用户请求的prompt传入大模型, 进行计算,中间结果写入KV Cache并推理出第1 个token。随着Prompt Sequence Length长度 线性增长,对首Token时延(TTFT)指标有要求 的业务通常采用单batch方式执行LLM推理,该 阶段属于计算密集型操作。 Decode阶段:将请求的前1个Token传入大模型, 从显存读取前文产生的KV Cache再进行计算。采 用KV Cache技术后,单Token计算量低,而主要 瓶颈在于搬运参数量,故通常需要采用多batch 方式提升利用率,该阶段属于访存密集型操作。 当前主流大模型架构均以Transformer Based为 主,并采用自回归生成(auto-aggressive generative)模式。即每个Token生成需要经过 LLM模型的

2025年9月
2 下载

报告预览

相关报告

香港大学:2025年人力资源专业人士调研报告

香港大学:2025年人力资源专业人士调研报告

199IT
发布于 2026年5月
移动金融重构全球财富入口:2025投资应用生态全景

移动金融重构全球财富入口:2025投资应用生态全景

199IT
发布于 2026年5月
Microsoft:2026年工作趋势指数年度报告

Microsoft:2026年工作趋势指数年度报告

199IT
发布于 2026年5月
人工智能战略:独立评价集团的探索之旅

人工智能战略:独立评价集团的探索之旅

199IT
发布于 2026年5月
吸引非洲裔受众:品牌如何通过包容性实现增长与影响力

吸引非洲裔受众:品牌如何通过包容性实现增长与影响力

199IT
发布于 2026年5月
贸易合规领导力:驾驭全球格局重构

贸易合规领导力:驾驭全球格局重构

199IT
发布于 2026年5月
Luminate:2026年音乐、电影与电视行业的生成式AI调查报告

Luminate:2026年音乐、电影与电视行业的生成式AI调查报告

199IT
发布于 2026年5月
缩小差距:女性经济机会的数据洞察报告

缩小差距:女性经济机会的数据洞察报告

199IT
发布于 2026年5月

推荐报告

香港大学:2025年人力资源专业人士调研报告
199IT
移动金融重构全球财富入口:2025投资应用生态全景
199IT
Microsoft:2026年工作趋势指数年度报告
199IT
人工智能战略:独立评价集团的探索之旅
199IT
吸引非洲裔受众:品牌如何通过包容性实现增长与影响力
199IT

本周下载排行

01
OpenClaw橙皮书:从入门到精通
218 人已下载2026年3月
02
2026年中国企业AI人才与组织发展报告
60 人已下载2026年2月
03
傅盛 14 天养成 AI 助理“三万”:开启 Agent 新征程
46 人已下载2026年2月
04
OpenClaw蓝皮书:人人可享的AI常驻助手全解析
29 人已下载2026年3月
05
CNNIC:第57次中国互联网络发展状况统计报告
24 人已下载2026年3月
前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款