当前位置: 首页 > article >正文

AI系统的四层缓存架构

别再被“提示词缓存”“语义缓存”绕晕了它们根本不是一回事先上关系图AI系统里的四层缓存很多人把缓存当一个东西聊其实它们是四个不同的层各管各的又互相喂数据。第一层 · 长期知识源项目记忆缓存Project Memory Cache放什么CLAUDE.md、代码规范、架构约定、团队习惯、Skills。特点跨会话稳定复用像公司的制度手册。谁用Agent、项目级长期记忆。第二层 · 检索召回语义缓存Semantic / RAG Cache放什么FAQ向量、文档片段、历史问答召回结果。特点按需检索不是全量塞入。谁用客服、知识库、RAG系统。第三层 · 执行结果工具 / 构建缓存Tool / Build Cache放什么依赖安装、测试环境、工具输出摘要、编译产物。特点避免重复跑环境/命令。谁用AI写代码、CI流水线、Agent重复调用工具。第四层 · 模型入口提示词缓存Prompt Cache放什么系统规则 项目背景切片 历史摘要 当前问题。特点唯一直接给模型看的上下文。谁用每一次大模型推理决定KV-Cache是否命中。它们之间怎么流动项目记忆缓存 → 提示词缓存项目规则被抽取成稳定前缀放进提示词缓存的“项目背景区”。语义缓存 → 提示词缓存按需检索到的文档片段动态注入提示词缓存的上下文中。工具/构建缓存 → 提示词缓存工具执行结果经过摘要/结构化写回提示词缓存的“历史记录”。提示词缓存 → 模型KV-Cache前缀越稳定模型底层计算复用率越高成本越低。一句话总结前三层是“上游仓库”提示词缓存是“唯一送进模型嘴巴里的那口饭”。01. 先搞懂AI为什么像个“金鱼脑”AI记性差不是因为它懒是因为大模型天生无状态。你问它第一次“公司出差餐补多少”它读一遍《员工手册100条》 你的问题。你接着问“那北京和天津有区别吗”你以为它还记得手册内容不它又读一遍《员工手册100条》 上次对话新问题。聊得越久它读得越累费用翻倍涨。缓存干了件什么事让AI把《员工手册》背下来。下次直接答不用重读。→ 速度变快价格变低。02. 怎么把Prompt摆好按“爱不爱动”排座次把Prompt拆成四段按稳定性排序极静区最前“你是一个财务助手”“要讲礼貌”——一万年不变。项目区次前代码规范、产品手册——低频变化。会话区中后多轮历史、工具结果——持续追加。动态区最后当前时间、用户刚发的消息——每轮都变。❌ 错误示例动态内容放最前面System Prompt: 今天是 2026-05-15 14:30:22 你是一个专业的客服助手请用中文回答。 公司退货政策30天内可无理由退货...问题在哪下一秒时间变成14:30:23整个前缀就变了缓存永远命中不了。✅ 正确示例稳定内容前置动态内容后置System Prompt: 你是一个专业的客服助手请用中文回答。 公司退货政策30天内可无理由退货... User Message: 当前时间2026-05-15 14:30 用户问题我想退一件昨天买的衣服为什么对系统提示词完全固定缓存可稳定命中。时间放在用户消息里不影响前缀。03. 最常见的坑时间戳放错位置真事。有人的System Prompt开头写“今天是2026-05-15 14:30你是一个助手……”我说你这哪是写备注这是烧钱。只要时间变一秒前缀就变了缓存永远命中不了。❌ 错误时间戳写在系统提示词里[system] 当前日期2026-05-15 你的角色代码审查助手 规范使用pnpm test运行测试→ 第二天日期变了缓存全部失效。✅ 正确时间戳写在用户消息末尾[system] 你的角色代码审查助手 规范使用pnpm test运行测试 [user] 请审查以下代码。 【当前时间2026-05-15 14:30】→ 系统提示词雷打不动缓存持续命中。✅ 口诀万年历放最后铁规矩摆前头。04. 语义缓存意思差不多也能省精确缓存要求一字不差。语义缓存更聪明用户问“我忘了密码咋办”它发现和“怎么重置密码”意思相近直接复用答案。客服场景很爽但阈值要设好一般0.8~0.9。✅ 语义缓存正确命中示例用户A: 怎么重置密码 用户B: 我忘了密码怎么办 用户C: 密码找不回来了 → 三个问题语义相似度 0.85命中同一个缓存答案。结果三次请求只计算一次省了2/3的成本。❌ 语义缓存误用示例阈值设太松问题1: 员工年假怎么申请 问题2: 外包员工年假怎么申请 相似度阈值设0.7 → 被判定为同一问题 → 把“正式员工流程”返回给外包员工 → 投诉正确做法阈值设到0.85以上或者把“正式员工”和“外包”拆成不同缓存条目。05. 项目记忆缓存CLAUDE.md该放什么很多人把CLAUDE.md当垃圾桶什么都往里塞结果反而拖慢Agent。✅ CLAUDE.md 应该放这些# 项目宪法 - 项目结构: /src, /tests, /docs - 常用命令: pnpm test, pnpm build - 代码规范: ESLint Prettier - 测试方式: Jest 单元测试必须mock网络请求 - 安全边界: 不要硬编码密钥→ 这是“项目宪法”长期稳定每次都能被稳定复用。❌ CLAUDE.md 不应该放这些# 资料仓库 - 今天临时任务: 修复登录页bug - 当前报错全文: Error: Cannot read property... - 上周会议纪要: 讨论了5个需求... - 50页产品PRD全文粘贴问题在哪临时任务、报错、会议纪要——这些东西变一次整个项目记忆缓存就废了。大文档应该按需检索不是全量塞入。06. 工具/构建缓存避免重复跑环境AI写代码时每次跑测试都重新安装依赖那是傻。✅ 正确工具缓存复用依赖和编译结果第一次: npm install (20秒) → 缓存node_modules 第二次: 直接命中缓存 (0.5秒) 第一次: pnpm build (15秒) → 缓存dist 第二次: 代码未变 → 直接复用→ 每次Agent调用工具省下几十秒和大量计算成本。❌ 错误每次调用都重新跑全量流程每轮对话: 安装依赖 → 编译 → 运行测试 → 返回结果 10轮对话 10次重复安装 10次重复编译→ 这是典型的“缓存击穿”该缓存的没缓存。07. 提示词缓存最常见的三个错误❌ 错误1每个用户请求带不同requestId[system] requestId: abc-123-xyz 你是一个助手...→ 每个请求requestId不同前缀全变缓存0命中。❌ 错误2把所有文档塞进系统提示词[system] 公司制度全文2万字 产品手册全文3万字 历史对话记录1万字 当前问题...→ 就算命中缓存每次也要传6万字成本还是高。应该分层按需检索。❌ 错误3暴露20个工具让AI选tools: [search_user, update_order, send_email, create_ticket, fetch_report, ...共20个]→ 每次调用前AI都要把这20个工具定义读一遍。应该按场景分组只给当前需要的3-5个。✅ 正确提示词缓存的最佳实践[system - 极静区] 你是一个电商客服助手用中文回答。 [system - 项目区] 退货政策30天无理由 退款时效3-5个工作日 [user - 动态区] 当前时间2026-05-15 14:30 用户问题我想退货订单号#12345→ 前三段稳定不变缓存命中率极高。只有最后一段变化。08. 四层缓存综合示例一个客服场景假设用户问“外包员工怎么申请年假” 项目记忆缓存长期 └── 员工手册正式员工年假10天外包员工年假5天 语义缓存检索 └── 命中“年假申请流程”相关FAQ片段 提示词缓存组装 └── 系统规则 员工手册摘要 历史对话 当前问题 ️ 工具缓存执行 └── 查询用户类型的工具结果被缓存下次直接复用 ⚡ 最终模型只处理“外包5天”这个增量信息其他全部命中缓存09. 最容易上手的优化动作不用重构现在就做一件事查你们Prompt的前200个字符。❌ 你的Prompt可能长这样今天是2026-05-15用户sessionIdxyz789 你是一个专业的助手...→ 时间sessionId每轮都变缓存永远失效。✅ 改成这样你是一个专业的助手... 后面跟固定规则和项目背景 用户消息【当前时间2026-05-15】【sessionId: xyz789】→ 系统提示词完全固定缓存命中率从0%拉到50%以上。10. 最后三句大实话力气用在刀刃上缓存不是让AI更聪明是让它少做重复计算。金科玉律越不爱变的越往前放变得越快的越往后放。先能看到数据再谈优化没有命中率监控的缓存等于没做。转自https://mp.weixin.qq.com/s/HBxUjgSyaAI7PKRBw87CIQ

相关文章:

AI系统的四层缓存架构

别再被“提示词缓存”“语义缓存”绕晕了,它们根本不是一回事 先上关系图:AI系统里的四层缓存 很多人把缓存当一个东西聊,其实它们是四个不同的层,各管各的,又互相喂数据。 第一层 长期知识源 项目记忆缓存&#x…...

AssetRipper:3步解锁Unity游戏资源逆向提取的终极免费方案

AssetRipper:3步解锁Unity游戏资源逆向提取的终极免费方案 【免费下载链接】AssetRipper GUI Application to work with engine assets, asset bundles, and serialized files 项目地址: https://gitcode.com/GitHub_Trending/as/AssetRipper 在Unity游戏开发…...

FNF-PsychEngine终极指南:3个Lua脚本技巧让游戏体验飙升

FNF-PsychEngine终极指南:3个Lua脚本技巧让游戏体验飙升 【免费下载链接】FNF-PsychEngine Engine originally used on Mind Games mod 项目地址: https://gitcode.com/gh_mirrors/fn/FNF-PsychEngine FNF-PsychEngine是一款功能强大的节奏游戏引擎&#xff…...

YetiForceCRM社区与支持:如何获得帮助并参与开源贡献

YetiForceCRM社区与支持:如何获得帮助并参与开源贡献 【免费下载链接】YetiForceCRM Weve moved! For more information, visit https://github.com/YetiForceCompany/YetiForce 项目地址: https://gitcode.com/gh_mirrors/ye/YetiForceCRM YetiForceCRM是一…...

如何扩展Noisereduce:自定义降噪算法的开发指南

如何扩展Noisereduce:自定义降噪算法的开发指南 【免费下载链接】noisereduce Noise reduction in python using spectral gating (speech, bioacoustics, audio, time-domain signals) 项目地址: https://gitcode.com/gh_mirrors/no/noisereduce Noisereduc…...

HSTracker:为macOS炉石传说玩家打造的数据智能助手

HSTracker:为macOS炉石传说玩家打造的数据智能助手 【免费下载链接】HSTracker A deck tracker and deck manager for Hearthstone on macOS 项目地址: https://gitcode.com/gh_mirrors/hs/HSTracker 在瞬息万变的炉石传说对局中,你是否曾因忘记对…...

终极指南:如何在Mac上免费创建Windows启动盘(3步教程)

终极指南:如何在Mac上免费创建Windows启动盘(3步教程) 【免费下载链接】windiskwriter 🖥 Windows Bootable USB creator for macOS. 🛠 Patches Windows 11 to bypass TPM and Secure Boot requirements. &#x1f47…...

3个步骤:彻底释放华硕笔记本性能的终极指南

3个步骤:彻底释放华硕笔记本性能的终极指南 【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vivobook, Zenbook, Expertbook, …...

AI Scientist-v2论文撰写流程:从实验结果到ICLR格式论文的自动化转换

AI Scientist-v2论文撰写流程:从实验结果到ICLR格式论文的自动化转换 【免费下载链接】AI-Scientist-v2 The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search 项目地址: https://gitcode.com/GitHub_Trending/ai/AI-Sci…...

QMCDecode:3步解锁QQ音乐加密文件,让你的音乐在任何设备自由播放

QMCDecode:3步解锁QQ音乐加密文件,让你的音乐在任何设备自由播放 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载…...

Suno.cn从工具到生态,AI音乐平台的崛起、挑战与本土化之路

2026年,Suno已从一款“文字生成音乐”的玩具,成长为估值25亿美元、年营收超3亿美元的全球AI音乐巨头。然而,在版权风暴与本土化浪潮中,它的故事远未结束。 🚀 一、市场地位与商业成功:Suno的狂飙突进 Suno在2026年的增长堪称现象级。其首席执行官Mikey Shulman宣布,平…...

网易云音乐FLAC无损下载工具:3步轻松获取专业级音质

网易云音乐FLAC无损下载工具:3步轻松获取专业级音质 【免费下载链接】NeteaseCloudMusicFlac 根据网易云音乐的歌单, 下载flac无损音乐到本地.。 项目地址: https://gitcode.com/gh_mirrors/nete/NeteaseCloudMusicFlac 还在为在线音乐平台的音质限制而烦恼吗…...

server.crt“: BIO_new_file() failed (SSL: error:8000000D:system library::Permission denied:calling fo

server.crt": BIO_new_file() failed (SSL: error:8000000D:system library::Permission denied:calling fopen(/ Nginx更换ssl证书报错。 解决方案:关闭selinux 在Linux系统中,SELinux(Security-Enhanced Linux)是一种安全模…...

mimalloc内存分配器深度解析:高性能多线程环境下的内存管理优化方案

mimalloc内存分配器深度解析:高性能多线程环境下的内存管理优化方案 【免费下载链接】mimalloc mimalloc is a compact general purpose allocator with excellent performance. 项目地址: https://gitcode.com/GitHub_Trending/mi/mimalloc C/C开发者在构建…...

如何用MediaCrawler实现7大平台数据采集与追踪:从零到一的完整实战指南

如何用MediaCrawler实现7大平台数据采集与追踪:从零到一的完整实战指南 【免费下载链接】MediaCrawler 小红书笔记 | 评论爬虫、抖音视频 | 评论爬虫、快手视频 | 评论爬虫、B 站视频 | 评论爬虫、微博帖子 | 评论爬虫、百度贴吧帖子 &#x…...

如何快速找回遗忘的压缩包密码:开源工具的完整使用指南

如何快速找回遗忘的压缩包密码:开源工具的完整使用指南 【免费下载链接】ArchivePasswordTestTool 利用7zip测试压缩包的功能 对加密压缩包进行自动化测试密码 项目地址: https://gitcode.com/gh_mirrors/ar/ArchivePasswordTestTool 你是否曾经为加密的压缩…...

VoiceFixer终极指南:三分钟让模糊录音变清晰的免费语音修复神器

VoiceFixer终极指南:三分钟让模糊录音变清晰的免费语音修复神器 【免费下载链接】voicefixer General Speech Restoration 项目地址: https://gitcode.com/gh_mirrors/vo/voicefixer 你是否曾经因为一段珍贵的录音模糊不清而遗憾?也许是重要的会议…...

3步搞定专业级流程图:dagre-d3终极可视化指南

3步搞定专业级流程图:dagre-d3终极可视化指南 【免费下载链接】dagre-d3 A D3-based renderer for Dagre 项目地址: https://gitcode.com/gh_mirrors/da/dagre-d3 还在为创建复杂的流程图而头疼吗?🤔 今天我要向大家介绍一个神奇的工具…...

如何彻底解决TranslucentTB的Microsoft.VCLibs依赖缺失问题:3步诊断与修复指南

如何彻底解决TranslucentTB的Microsoft.VCLibs依赖缺失问题:3步诊断与修复指南 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB …...

58_《智能体微服务架构企业级实战教程》授权与认证之认证方案设计

前言 配套视频教程: 在 Bilibili课堂、CSDN课程、51CTO学堂 同步发售,提供:源码+部署脚本+文档。 bilibili课堂视频教程:智能体微服务架构企业级实战教程_哔哩哔哩_bilibili CSDN课程视频教程:智能体微服务架构企业级实战教程_在线视频教程-CSDN程序员研修院 51CTO学堂…...

[特殊字符]️ 信创服务器深度解析:从CPU到操作系统,一文搞懂国产化替代全栈方案

标签:信创 国产化 服务器 CPU选型 海光 鲲鹏 🎯 开篇导读 你是否在国产化替代项目中不知道选哪款CPU?网上搜到的信创资料要么只讲政策不讲技术,要么直接给产品列表却不解释选型逻辑。本文将从信创服务器的四层架构(硬…...

3分钟搞定:Windows免iTunes安装苹果驱动终极指南

3分钟搞定:Windows免iTunes安装苹果驱动终极指南 【免费下载链接】Apple-Mobile-Drivers-Installer Powershell script to easily install Apple USB and Mobile Device Ethernet (USB Tethering) drivers on Windows! 项目地址: https://gitcode.com/gh_mirrors/…...

[特殊字符] TCP/IP四层协议栈解析——互联网通信的“底层逻辑“

📅 发布时间:2026年5月 | 🏷️ 标签:TCP/IP、网络协议、网络架构、互联网原理、网络层 🔍 SEO关键词:TCP/IP协议栈、四层模型、ARP协议、IP协议、网络通信原理开篇暴击:你正在看这篇文章&#x…...

Diablo Edit2:暗黑破坏神2存档编辑器终极指南,5分钟掌握角色修改神器

Diablo Edit2:暗黑破坏神2存档编辑器终极指南,5分钟掌握角色修改神器 【免费下载链接】diablo_edit Diablo II Character editor. 项目地址: https://gitcode.com/gh_mirrors/di/diablo_edit 你是否曾在暗黑破坏神2中花费数小时刷装备却一无所获&…...

3步掌握StreamCap:开源直播录制工具的终极使用指南

3步掌握StreamCap:开源直播录制工具的终极使用指南 【免费下载链接】StreamCap Multi-Platform Live Stream Automatic Recording Tool | 多平台直播流自动录制客户端 基于FFmpeg 支持监控/定时/转码 项目地址: https://gitcode.com/gh_mirrors/st/StreamCap …...

Fastboot Enhance:Windows平台Android设备管理的终极图形化解决方案

Fastboot Enhance:Windows平台Android设备管理的终极图形化解决方案 【免费下载链接】FastbootEnhance A user-friendly Fastboot ToolBox & Payload Dumper for Windows 项目地址: https://gitcode.com/gh_mirrors/fa/FastbootEnhance Fastboot Enhance…...

如何使用 Graphviz 在 5 分钟内创建专业流程图:Python 数据可视化终极指南

如何使用 Graphviz 在 5 分钟内创建专业流程图:Python 数据可视化终极指南 【免费下载链接】graphviz Simple Python interface for Graphviz 项目地址: https://gitcode.com/gh_mirrors/gr/graphviz 想要快速创建专业流程图吗?Graphviz 是一个强…...

免费解锁WeMod完整功能:Wand-Enhancer终极指南

免费解锁WeMod完整功能:Wand-Enhancer终极指南 【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 还在为WeMod免费版的功能限制而烦恼吗&#x…...

低代码平台表单设计器 unione form editor 布局组件 — 折叠面板

低代码平台表单设计器 unione-form-editor 布局组件 —— 折叠面板 在企业级表单越来越长、内容越来越多的今天,如何让表单保持简洁、可收起、可展开、层级清晰,成为提升填写体验的关键。继栅格、卡片、标签、段落布局之后,今天为大家介绍 折…...

CANN/asc-devkit SIMT fmodf函数

fmodf 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitcode.com/cann…...