大模型推理原理、挑战与部署优化解析

大模型推理原理与部署优化庞士冠｜华为云PaaS架构与设计团队，大模型部署优化工程师庞士冠华为云PaaS架构与设计团队，大模型部署优化工程师 22年硕士毕业加入华为云PaaS服务产品部，23年初开始从事大模型高效推理和部署优化相关工作，参与公司内多项大模型推理优化项目，基于昇腾全栈，参与设计开发华为云XTA推理平台，该平台承载了华为AI辅助内部研发项目、华为云CodeArts Snap研发助手等推理业务，有效支撑了百万级日活。 01 02 03 大模型推理原理与挑战大模型推理框架介绍大模型推理优化技术&实践 04 总结与展望大模型推理原理与挑战大模型推理原理与挑战看行业：大模型推理需求呈指数级增长 •R1类长思考模型的出现 •豆包、Kimi等交互型生成式应用涌现 •Cline、Manus等Agent类产品增多大模型推理原理与挑战 LLM推理过程通常分为预填充（Prefill）和解码（Decode）两个阶段。 Prefill阶段：将用户请求的prompt传入大模型，进行计算，中间结果写入KV Cache并推理出第1 个token。随着Prompt Sequence Length长度线性增长，对首Token时延（TTFT）指标有要求的业务通常采用单batch方式执行LLM推理，该阶段属于计算密集型操作。 Decode阶段：将请求的前1个Token传入大模型，从显存读取前文产生的KV Cache再进行计算。采用KV Cache技术后，单Token计算量低，而主要瓶颈在于搬运参数量，故通常需要采用多batch 方式提升利用率，该阶段属于访存密集型操作。当前主流大模型架构均以Transformer Based为主，并采用自回归生成（auto-aggressive generative）模式。即每个Token生成需要经过 LLM模型的

大模型推理原理、挑战与部署优化解析

相关报告

ADB：2025年11月全球贸易融资缺口调查报告

外商投资新格局：未来产业与贸易的转型

M&T Bank：2026年资本市场展望报告

Futureoflife：2025年人工智能安全指数报告

德勤：2026年金融趋势报告

Space Capital：2025年第四季度空间投资报告

2026年中国企业AI人才与组织发展报告

领英助力中企出海：AI时代下的国际化人才培养与布局

大模型推理原理、挑战与部署优化解析

相关报告

ADB：2025年11月全球贸易融资缺口调查报告

外商投资新格局：未来产业与贸易的转型

M&T Bank：2026年资本市场展望报告

Futureoflife：2025年人工智能安全指数报告

德勤：2026年金融趋势报告

Space Capital：2025年第四季度空间投资报告

2026年中国企业AI人才与组织发展报告

领英助力中企出海：AI时代下的国际化人才培养与布局