前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 研究资源
    • 案例研究
    • 报告
    • 工具推荐
    • 术语词典
  • 服务
  • 关于
联系我们
大模型推理原理、挑战与部署优化解析

大模型推理原理、挑战与部署优化解析

大模型推理原理与部署优化 庞士冠| 华为云PaaS架构与设计团队,大模型部署优化工程师 庞士冠 华为云PaaS架构与设计团队,大模型部署优化工程师 22年硕士毕业加入华为云PaaS服务产品部,23年初开始从事大模 型高效推理和部署优化相关工作,参与公司内多项大模型推理优化 项目,基于昇腾全栈,参与设计开发华为云XTA推理平台,该平台 承载了华为AI辅助内部研发项目、华为云CodeArts Snap研发助手 等推理业务,有效支撑了百万级日活。 01 02 03 大模型推理原理与挑战 大模型推理框架介绍 大模型推理优化技术&实践 04 总结与展望 大模型推理原理与挑战 大模型推理原理与挑战 看行业: 大模型推理需求呈指数级增长 •R1类长思考模型的出现 •豆包、Kimi等交互型生成 式应用涌现 •Cline、Manus等Agent类 产品增多 大模型推理原理与挑战 LLM推理过程通常分为预填充(Prefill)和解码 (Decode)两个阶段。 Prefill阶段:将用户请求的prompt传入大模型, 进行计算,中间结果写入KV Cache并推理出第1 个token。随着Prompt Sequence Length长度 线性增长,对首Token时延(TTFT)指标有要求 的业务通常采用单batch方式执行LLM推理,该 阶段属于计算密集型操作。 Decode阶段:将请求的前1个Token传入大模型, 从显存读取前文产生的KV Cache再进行计算。采 用KV Cache技术后,单Token计算量低,而主要 瓶颈在于搬运参数量,故通常需要采用多batch 方式提升利用率,该阶段属于访存密集型操作。 当前主流大模型架构均以Transformer Based为 主,并采用自回归生成(auto-aggressive generative)模式。即每个Token生成需要经过 LLM模型的

2025年9月
1 下载

相关报告

ADB:2025年11月全球贸易融资缺口调查报告

ADB:2025年11月全球贸易融资缺口调查报告

发布于 2026年2月
外商投资新格局:未来产业与贸易的转型

外商投资新格局:未来产业与贸易的转型

发布于 2026年2月
M&T Bank:2026年资本市场展望报告

M&T Bank:2026年资本市场展望报告

发布于 2026年2月
Futureoflife:2025年人工智能安全指数报告

Futureoflife:2025年人工智能安全指数报告

发布于 2026年2月
德勤:2026年金融趋势报告

德勤:2026年金融趋势报告

发布于 2026年2月
Space Capital:2025年第四季度空间投资报告

Space Capital:2025年第四季度空间投资报告

发布于 2026年2月
2026年中国企业AI人才与组织发展报告

2026年中国企业AI人才与组织发展报告

发布于 2026年2月
领英助力中企出海:AI时代下的国际化人才培养与布局

领英助力中企出海:AI时代下的国际化人才培养与布局

发布于 2026年1月

推荐报告

ADB:2025年11月全球贸易融资缺口调查报告
外商投资新格局:未来产业与贸易的转型
M&T Bank:2026年资本市场展望报告
Futureoflife:2025年人工智能安全指数报告
腾讯云RAG技术实践:AI时代激活数据价值与多领域应用探索

本周下载排行

01
2026年中国企业AI人才与组织发展报告
2 人已下载2026年2月
02
德勤:2026年金融趋势报告
1 人已下载2026年2月
03
Space Capital:2025年第四季度空间投资报告
1 人已下载2026年2月
04
领英助力中企出海:AI时代下的国际化人才培养与布局
1 人已下载2026年1月
05
2025年AI眼镜关键技术与产业生态研究报告解读
1 人已下载2026年1月
前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号