前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

Prompt 缓存,一次讲明白

AI 前沿2026年5月21日· 原作者:大迁世界· 5 分钟阅读0 阅读

1 + 2 = 3。 但 2 + 1 是 cache miss。 为什么? 因为缓存匹配靠 prompt 的哈希。 只要顺序变了,哪怕内容一样,哈希也会变。哈希一变,缓存就对不上,整个前缀要重新计算。 所以要记住三条规则。 第一,不要在 session 中途增删工具。 工具定义属于缓存前缀。你改

1 + 2 = 3。

但 2 + 1 是 cache miss。

为什么?

因为缓存匹配靠 prompt 的哈希。

只要顺序变了,哪怕内容一样,哈希也会变。哈希一变,缓存就对不上,整个前缀要重新计算。

所以要记住三条规则。

第一,不要在 session 中途增删工具。

工具定义属于缓存前缀。你改了工具,后面的缓存基本就废了。

第二,不要中途切换模型。

缓存是和模型绑定的。你换成更便宜的模型,也要重建整段缓存。

第三,不要通过修改 prefix 来改变状态。

Claude Code 的做法是,把状态提醒加到下一条用户消息里,而不是改系统前缀。这样 prefix 不变,缓存还能继续命中。

你自己做 Agent 时怎么用?

如果你在做自己的 Agent,结构可以这样安排:

最顶部放 system instructions 和规则。中途不要改。 提前加载所有需要用到的 tools,不要临时增删。 然后放检索到的上下文和文档,在 session 内尽量保持稳定。 底部放对话历史和工具输出。

开启 auto-caching 后,缓存断点会随着对话推进自动前移。

Anthropic 已经在 API 里加入 auto-caching,所以你也可以为自己的 Agent 使用类似方式。

没有 auto-caching 时,你需要自己记住 token 边界。边界错了,就吃不到缓存。

如果需要为了上下文限制做压缩,也要用 cache-safe forking。

也就是保持相同 system prompt、tools 和 conversation,然后把 compaction 作为一条新消息追加进去。

这样压缩请求看起来几乎和上一轮一样,缓存前缀还能继续复用。真正按新 token 计费的,只有那条压缩指令。

怎么判断缓存有没有生效?

看 API 响应里的三个字段:

cache_creation_input_tokens:写入缓存的 token。cache_read_input_tokens:从缓存读取的 token。input_tokens:正常处理的输入 token。

你的缓存效率,可以看 read tokens 和 creation tokens 的比例。

这个指标应该像 uptime 一样持续监控。

因为它直接影响成本。

关键结论

Prompt caching 不是一个“打开就完事”的功能。

它是一种架构纪律。

Claude Code 是一个很好的例子:通过让前缀稳定、工具稳定、上下文结构稳定,它能把 cache hit rate 做到 92%,成本降低 81%。

如果你在做 Agent,这就是蓝图。

Context tax 一定存在。

区别只在于:

你是一直为它付钱,还是从架构上把它消掉。


最后:

  
  


标签:AI

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

从Prompt、Context到Harness,工程的三次进化与终局之战
TOP1

从Prompt、Context到Harness,工程的三次进化与终局之战

特朗普AI行政令:政府将提前审查前沿模型
TOP2

特朗普AI行政令:政府将提前审查前沿模型

3

中国拒批Nvidia降级游戏显卡

4小时前
中国拒批Nvidia降级游戏显卡
4

重新定义Skill开发:保姆级教程&一站式开发助手发布

3小时前
重新定义Skill开发:保姆级教程&一站式开发助手发布
5

微软叫停短信验证,云泄露凸显MFA风险

4小时前
微软叫停短信验证,云泄露凸显MFA风险
6

Anthropic 拓展前沿 AI 对话:与多元传统共探伦理

4小时前
7

ASML CEO确认与马斯克谈Terafab芯片项目

4小时前
ASML CEO确认与马斯克谈Terafab芯片项目
8

埃博拉疫情蔓延,WHO筹备药物试验

4小时前
埃博拉疫情蔓延,WHO筹备药物试验
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款