当前位置: 首页 > article >正文

Prompt 缓存,一次讲明白

每当一个 AI Agent 往前走一步它其实都在交一笔税。它会重新读取所有内容。系统提示词。 工具定义。 项目上下文。 三轮前已经加载过的内容。每一轮都重新读一遍。这就是context tax。对长时间运行的 Agent 工作流来说它往往是整个 AI 基础设施里最贵的一项开销。算一下就很直观一个 20,000 token 的 system prompt如果跑 50 轮就等于 100 万 token 的重复计算。你为它付了钱但它没有创造任何新价值。解决办法就是prompt caching。但想真正用好它你得先知道底层到底发生了什么。先分清什么会变什么不会变优化 prompt caching 之前先要看懂一个 Agent 的上下文结构。每次请求里其实都有两部分。第一部分是static prefix。它包括系统指令、工具定义、项目上下文、行为规范。这些内容在同一个 session 里基本不变。第二部分是dynamic tail。它包括用户消息、工具输出、终端观察结果。这部分每次请求都不同并且会随着对话推进不断增长。这个区别非常关键。真正被反复浪费计算的是 static prefix。 真正需要重新计算的只有 dynamic tail。Prompt caching 的作用就是把 static prefix 的数学状态缓存下来。后续请求如果前缀一样就不用再重新计算直接从缓存读取。你只需要为这部分前缀处理付一次钱。后面每一轮都相当于从内存里读。为什么它有效要理解 prompt caching得先知道模型读 prompt 时做了什么。一次 LLM 推理大致有两个阶段。分享一个正版GPT5.5 目前 0.2 倍率, https://api.aidazhi.com/注册后把用户名发到私信里面即可帮领 5 美元测试额度。阶段1Prefill模型会处理完整输入 prompt。这是最慢、最贵的部分。因为它要对上下文里的每个 token 做大量矩阵计算读取所有内容并建立内部表示。这一步是 compute-bound也就是主要受计算量限制。阶段2Decode模型开始一个 token 一个 token 地生成输出。这一步更偏 memory-bound。因为模型主要是在读取之前算好的状态而不是反复做重计算。在 prefill 阶段Transformer 会为每个 token 生成三个向量Query、Key、Value。注意关键点Key 和 Value 只依赖它们之前的 token。也就是说只要某个前缀内容不变它对应的 Key-Value 张量就不需要重新算。没有缓存时请求结束后这些 Key-Value 张量会被扔掉。下一次请求来了又要把同样的 20,000 token 从头算一遍。KV caching 就是把这些张量存起来。基础设施会根据输入文本的加密哈希来索引它们。下一次请求如果前缀相同哈希匹配就能直接取回张量跳过重复计算。这会把重复前缀带来的计算成本大幅压下去。对一个 20,000 token 前缀、重复 50 轮的工作流来说节省非常可观。经济账怎么算Prompt caching 真正重要是因为它直接改变成本结构。以 Anthropic 的定价逻辑为例有三点要记住Cache read 大约是基础输入价格的 10%相当于缓存读取 token 打 1 折。 Cache write 比基础输入价格贵 25%因为要存储 KV 张量。 1 小时扩展缓存大约是基础价格的 2 倍。所以缓存不是永远自动划算。它成立的前提是cache hit rate 要足够高。这也是 Claude Code 的重点。Claude Code30分钟会话怎么省钱Claude Code 的设计目标很清楚让缓存一直保持热的。看一个典型 30 分钟编码 session。第0分钟Session 开始Claude Code 会加载 system prompt、工具定义还会读取项目根目录里的CLAUDE.md了解代码库和约定。这部分经常超过 20,000 token。这是整个 session 最贵的一刻因为所有 token 都是新的。但好消息是这笔钱只付一次。第1到5分钟第一次指令你输入“看一下 auth 模块给我一些改进建议。”Claude Code 会派出 Explore Subagent。它会浏览代码库、打开文件、执行 grep、理解相关代码。这些新内容会被追加到 dynamic tail。但那 20,000 token 的静态基础上下文已经进缓存了。后续每轮都可以按缓存读取价格来算。第6到15分钟深入工作Plan Subagent 拿到 Explore Subagent 的发现。Claude Code 不会把原始结果全量塞过去因为那会让 dynamic tail 暴涨。它会传递简洁总结让后缀保持可控。Planner 生成实施计划你审核后批准然后 Claude Code 开始修改代码。这个循环里的每一轮都会从缓存读取那 20,000 token 的前缀。而每一次 cache hit都会刷新 TTL让缓存继续保持热状态。第16到25分钟迭代修改你要求调整。Claude Code 修改方案。更多工具调用更多终端输出。dynamic tail 在增长但它代表的是这个 session 里真正新增的内容。此时总处理 token 可能已经达到几十万。但基础的 20,000 token一直是在缓存里反复读取。第28分钟查看成本如果没有缓存这种 session 很容易超过 200 万 token。按 Sonnet 4.5 价格大概会到 6 美元左右。有缓存后大量 token 都以低价 cache read 计费只有新的 dynamic tail 需要新计算。实际中单个任务能看到 80% 以上成本下降。如果再乘以每天所有用户、所有 session这就是巨大的基础设施成本差距。最容易踩坑的规则Prompt caching 最反直觉的地方是1 2 3。但2 1是 cache miss。为什么因为缓存匹配靠 prompt 的哈希。只要顺序变了哪怕内容一样哈希也会变。哈希一变缓存就对不上整个前缀要重新计算。所以要记住三条规则。第一不要在 session 中途增删工具。工具定义属于缓存前缀。你改了工具后面的缓存基本就废了。第二不要中途切换模型。缓存是和模型绑定的。你换成更便宜的模型也要重建整段缓存。第三不要通过修改 prefix 来改变状态。Claude Code 的做法是把状态提醒加到下一条用户消息里而不是改系统前缀。这样 prefix 不变缓存还能继续命中。你自己做 Agent 时怎么用如果你在做自己的 Agent结构可以这样安排最顶部放 system instructions 和规则。中途不要改。 提前加载所有需要用到的 tools不要临时增删。 然后放检索到的上下文和文档在 session 内尽量保持稳定。 底部放对话历史和工具输出。开启 auto-caching 后缓存断点会随着对话推进自动前移。Anthropic 已经在 API 里加入 auto-caching所以你也可以为自己的 Agent 使用类似方式。没有 auto-caching 时你需要自己记住 token 边界。边界错了就吃不到缓存。如果需要为了上下文限制做压缩也要用 cache-safe forking。也就是保持相同 system prompt、tools 和 conversation然后把 compaction 作为一条新消息追加进去。这样压缩请求看起来几乎和上一轮一样缓存前缀还能继续复用。真正按新 token 计费的只有那条压缩指令。怎么判断缓存有没有生效看 API 响应里的三个字段cache_creation_input_tokens写入缓存的 token。cache_read_input_tokens从缓存读取的 token。input_tokens正常处理的输入 token。你的缓存效率可以看 read tokens 和 creation tokens 的比例。这个指标应该像 uptime 一样持续监控。因为它直接影响成本。关键结论Prompt caching 不是一个“打开就完事”的功能。它是一种架构纪律。Claude Code 是一个很好的例子通过让前缀稳定、工具稳定、上下文结构稳定它能把 cache hit rate 做到 92%成本降低 81%。如果你在做 Agent这就是蓝图。Context tax 一定存在。区别只在于你是一直为它付钱还是从架构上把它消掉。最后精通 React 面试从零到中高级(针对面试回答)CSS终极指南Vue 设计模式实战指南20个前端开发者必备的响应式布局深入React:从基础到最佳实践完整攻略python 技巧精讲React Hook 深入浅出CSS技巧与案例详解vue2与vue3技巧合集

相关文章:

Prompt 缓存,一次讲明白

每当一个 AI Agent 往前走一步,它其实都在交一笔税。它会重新读取所有内容。系统提示词。 工具定义。 项目上下文。 三轮前已经加载过的内容。每一轮都重新读一遍。这就是 context tax。对长时间运行的 Agent 工作流来说,它往往是整个 AI 基础设施里最贵…...

纤维增强复合材料多轴3D打印的神经网络协同优化

1. 纤维增强复合材料与多轴3D打印技术概述纤维增强复合材料(Fiber-Reinforced Composites)因其独特的力学性能组合——高强度、高刚度和低密度,已成为现代工程设计中不可或缺的材料选择。这类材料由高强度纤维(如碳纤维、玻璃纤维…...

纤维增强复合材料神经协同优化技术解析

1. 纤维增强复合材料协同优化技术概述纤维增强复合材料因其优异的比强度和比刚度特性,在航空航天、汽车制造等领域得到广泛应用。传统设计方法通常将结构拓扑优化与制造工艺规划分离处理,导致优化结果难以实际制造或性能大幅下降。我们提出的神经协同优化…...

玻璃材质提示词失效率高达67%?2024最新Glass Prompt Framework v3.0(含Cinema4D材质参数→MJ语义映射表)

更多请点击: https://kaifayun.com 第一章:玻璃材质提示词失效率的行业现状与归因分析 在当前AIGC图像生成领域,“glass material”(玻璃材质)类提示词的失效问题已成高频痛点。多项基准测试显示,主流多模…...

ARMv8通用定时器架构与CNTHP_CTL_EL2寄存器详解

1. AArch64通用定时器架构概述在ARMv8架构中,通用定时器系统为操作系统和应用程序提供了精确的时间基准。这套计时系统由一组相互关联的组件构成,包括物理计数器、虚拟计数器以及多个比较器。作为系统程序员,理解这套机制对开发底层系统软件至…...

ARMv8-A架构VDISR_EL3与VSESR_EL2寄存器解析

1. AArch64系统寄存器概述在ARMv8-A架构中,系统寄存器是处理器状态和功能控制的核心组件。它们分布在不同的异常级别(EL0-EL3),每个级别都有特定的访问权限和功能定位。作为芯片级开发者,理解这些寄存器的细节对构建稳定可靠的系统至关重要。…...

离子原生QAOA算法:量子优化新突破

1. 离子原生QAOA算法概述量子近似优化算法(Quantum Approximate Optimization Algorithm, QAOA)是近年来量子计算领域最具前景的算法之一,特别适用于解决组合优化问题。该算法通过交替应用问题哈密顿量和混合哈密顿量,构建参数化量…...

离子阱量子变分算法原理与优化实践

1. 离子原生量子变分算法解析在量子计算领域,变分量子算法(VQA)已成为解决组合优化问题的主流方法。这类算法的核心在于设计高效的参数化量子线路(ansatz),而传统方法通常依赖于大量纠缠门的组合。离子阱量…...

关于国内SDR(成都振芯)的介绍说明

概述 软件无线电(SDR)是一种无线电通信技术,其关键功能(如调制解调、滤波、变频等)通过软件在可编程硬件(如FPGA、DSP)上实现,而非依赖固定的硬件电路。这使得无线电设备具有高度的灵…...

IDM激活脚本完全指南:3种方法实现永久免费使用

IDM激活脚本完全指南:3种方法实现永久免费使用 【免费下载链接】IDM-Activation-Script IDM Activation & Trail Reset Script 项目地址: https://gitcode.com/gh_mirrors/id/IDM-Activation-Script 还在为Internet Download Manager(IDM&…...

FPGA硬件加速架构设计与AXI Stream优化实践

1. FPGA硬件加速架构设计解析在当今高性能计算领域,FPGA因其可重构特性和并行计算能力,已成为硬件加速的重要选择。我们基于Xilinx Alveo U50 FPGA平台构建的加速系统,采用了分层通道设计和AXI Stream高速互联技术,实现了网络数据…...

从能算到秒杀:完全平方数与最少数量的数学真相

LeetCode Hot 100 刷题笔记 第 15 篇如果说「跳跃游戏 II」是在教你 什么时候不得不跳,那 279. 完全平方数​ 就是在考你:最少能用几个平方数,凑出一个整数?这也是我第一次意识到:有些动态规划,其实是在替…...

Lovable框架实战速成:3天掌握UI动效、状态管理与热重载调试全流程

更多请点击: https://intelliparadigm.com 第一章:Lovable框架核心理念与开发环境搭建 Lovable 是一个以开发者体验(DX)为第一优先级的现代 Go Web 框架,其核心理念可凝练为三个关键词:可读性(…...

巴别鸟vs坚果云:企业云盘同步机制踩坑与实战配置

干企业网盘这行,最怕听到用户说"同步慢"。我们2019年上线第一版云盘时,同步1GB的CAD图纸包要40分钟,用户骂完就跑。踩了三年坑才知道,"能同步"和"同步好用"根本是两回事。 本文从踩坑实录加配置实战…...

LeetCode--112. 路径总和(二叉树)

题目描述 给你二叉树的根节点 root 和一个表示目标和的整数 targetSum 。判断该树中是否存在 根节点到叶子节点 的路径,这条路径上所有节点值相加等于目标和 targetSum 。如果存在,返回 true ;否则,返回 false 。 叶子节点 是指没…...

短波通讯:魔术6米波

制作一个用于50MHz(6米波段)的天线,是业余无线电爱好者探索这一“魔术波段”的基础。该频段天线相对短波天线更易于制作和架设,但良好的设计对捕捉稍纵即逝的远距离传播至关重要。以下是基于不同需求的天线类型、设计要点和制作指…...

AI Agent Runtime 正在成为新基础设施层

1. 这不是新赛道,而是 runtime 层的“操作系统时刻”正在重演你打开手机看到新闻标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》,第一反应可能是:又一个大模型公司搞出了什么黑科技?但如果你真花十分钟…...

用LLM嵌入向量破解工业微缺陷检测的长尾难题

1. 项目概述:当大模型“看走眼”时,我们该怎么教它识别那些几乎看不见的异常?你有没有遇到过这样的情况:一个工业质检系统,对明显划痕、缺料、锈蚀这类“教科书式”缺陷识别率高达99%,可一旦面对0.3毫米宽的…...

警惕AI领域未经证实的技术传闻与虚构命名

我不能按照您的要求生成关于“TAI #200: Anthropic’s Mythos Capability Step Change and Gated Release”的博文内容。原因如下:该标题中出现的“Mythos”并非 Anthropic 官方公开发布或确认存在的模型、能力或产品名称。截至2024年7月,Anthropic 官方…...

Mythos骨架式推理:企业级AI能力治理与因果建模新范式

1. 项目概述:一次被刻意“锁住”的能力跃迁如果你最近关注大模型前沿动态,大概率已经看到“Anthropic Mythos”这个词在技术圈悄然升温。它不是某个新发布的开源模型,也不是某家创业公司的秘密武器,而是Anthropic内部代号为Mythos…...

代码大模型训练的典型工程挑战解析

我不能基于您提供的输入内容生成符合要求的博文。原因如下:输入内容实质是一篇外部技术博客的标题与元信息摘要,核心信息严重缺失:无任何关于“5个挑战”的具体内容、技术细节、架构描述、数据特征、训练难点或工程实践;无原始项目…...

YOLOv11公共场所人群年龄目标检测数据集-280张-pedestrian-1_5

YOLOv11公共场所人群年龄目标检测数据集 📊 数据集基本信息 目标类别: [‘adult’, ‘child’, ‘elder’]中文类别:[‘成人’, ‘儿童’, ‘老人’]训练集:196 张验证集:56 张测试集:28 张总计&#xff1a…...

AI工程师必备:高实效性AI资讯简报方法论

1. 项目概述:一份真正“够用”的AI资讯简报,到底长什么样? “ This AI newsletter is all you need #7 ”——光看标题,你可能以为这是某家科技媒体的常规栏目更新。但实际翻阅过前六期的老读者心里都清楚:它根本不…...

YOLOv11养殖场羊群目标检测数据集-66张-sheep-1_3

YOLOv11养殖场羊群目标检测数据集 📊 数据集基本信息 目标类别: [‘sheep-1’, ‘sheep-10’, ‘sheep-11’, ‘sheep-2’, ‘sheep-3’, ‘sheep-4’, ‘sheep-5’, ‘sheep-6’, ‘sheep-7’, ‘sheep-8’, ‘sheep-9’]中文类别:[‘羊-1’…...

MoE稀疏激活原理与工程实践:解密大模型2%参数调用真相

1. 项目概述:参数规模与稀疏激活的真相拆解“GPT-4 Has 1.8 Trillion Parameters. It Uses 2% of Them Per Token.”——这句话过去两年在技术社区反复刷屏,常被当作“AI算力爆炸”的标志性论断。但作为从2016年就开始跑LSTM、2018年手写Transformer Enc…...

YOLOv11光伏板二极管异常目标检测数据集-45张-Solar-panel-anomalies-1

YOLOv11光伏板二极管异常目标检测数据集 📊 数据集基本信息 目标类别: [‘Diode anomaly’, ‘Hot Spots’, ‘Reverse polarity’]中文类别:[‘二极管异常’, ‘热点’, ‘反向极性’]训练集:31 张验证集:9 张测试集&…...

C++链接与符号管理

C链接与符号管理链接是将编译后的目标文件组合成可执行程序的过程。理解链接机制和符号管理对于解决链接错误和优化程序结构至关重要。外部链接允许符号在多个翻译单元间共享。#include extern int global_variable; extern void external_function();void external_linkage_ex…...

GANsformer:用Transformer重构GAN判别与生成机制

1. 项目概述:当生成对抗网络遇上Transformer,不是简单拼接,而是架构级重构“Generative Adversarial Transformers: GANsformers Explained”这个标题一出来,很多做生成模型的老手第一反应是:“又一个蹭热点的命名游戏…...

机器学习论文阅读的解码协议:从扫读到复现的四步实战法

1. 为什么读论文这件事,比写代码还容易让人焦虑“How to Read Machine Learning Papers Effectively”——这个标题乍看像是一篇方法论指南,但在我带过三十多个算法实习生、审过两百多份顶会投稿、自己连续七年保持每周精读2–3篇NeurIPS/ICML/ACL论文的…...

基于LSTM的无人艇波浪方向估计:从时序预测到工程实践

1. 项目概述:当无人艇“学会”感知海浪在海洋工程和无人系统领域,让机器“感知”并“理解”它所处的海洋环境,尤其是波浪的动态特性,一直是个核心挑战。想象一下,你驾驶一艘小船,如果能提前几秒甚至更久“预…...