当前位置：首页 > article >正文

Memory全解析：截断、总结、检索，AI 的三种记性怎么选

article 2026/5/6 18:53:03

你有没有遇到过这种情况和 AI 聊了十几轮突然它说你刚才说的是什么来着——其实是你塞进 context 的消息太多早几轮的内容被截掉了。或者反过来把所有历史消息都带上token 爆了每次调用都超级贵。Memory 管理是多轮对话系统里最容易踩坑的环节。这篇把三种主流策略从原理到代码全拆一遍。为什么需要 Memory 管理LLM 本质上是无状态的。每次调用 API它都不记得上一次说了什么。要实现记忆唯一的方法是把历史对话放进messages数组传给它。但问题来了上下文窗口有限GPT-4o 是 128K tokens图片、工具调用、系统 prompt 会吃掉大量空间Token 费用是实打实的每次都带上 100 轮历史费用直接乘以历史长度信息密度不均第 1 轮说的我叫小明比第 98 轮的废话重要得多但朴素截断会把它一起丢掉所以Memory 管理本质是一个信息压缩与检索的问题怎么在有限的 token 预算里保住最有价值的上下文三种记忆策略LangChain.js 提供了三种主流 Memory 方案策略一句话定义类比窗口截断只保留最近 N 轮对话鱼的记忆——只记得最近的事摘要总结将历史压缩成一段摘要会议纪要——把几小时的会议浓缩成一页向量检索历史存入向量库按需检索相关片段笔记本搜索——记住所有按需翻出来一、窗口截断Buffer Window Memory只保留最近 K 轮对话更早的直接丢弃。适合闲聊类、上下文不需要跨越太远的场景。import { ChatOpenAI } fromlangchain/openai;import { ConversationChain } fromlangchain/chains;import { BufferWindowMemory } fromlangchain/memory;import { ChatPromptTemplate, MessagesPlaceholder } fromlangchain/core/prompts;const model newChatOpenAI({ modelName: gpt-4o-mini, temperature: 0.7 });const memory newBufferWindowMemory({k: 5, // 保留最近 5 轮returnMessages: true, // ChatModel 必须设为 truememoryKey: chat_history,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是一个友好的 AI 助手。],newMessagesPlaceholder(chat_history), [human, {input}],]);const chain newConversationChain({ llm: model, memory, prompt });// 手动查看/写入 Memoryconst vars await memory.loadMemoryVariables({});console.log(当前窗口:, vars);await memory.saveContext( { input: LangChain 和 LangGraph 有什么区别 }, { output: LangChain 是链式调用LangGraph 是有向图 });二、摘要总结Summary Memory让 LLM 把旧对话压缩成摘要新对话继续追加。历史信息不丢失代价是额外的 LLM 调用。适合长对话、需要保留早期用户背景的场景。import { ChatOpenAI } fromlangchain/openai;import { ConversationSummaryBufferMemory } fromlangchain/memory;import { ConversationChain } fromlangchain/chains;import { ChatPromptTemplate, MessagesPlaceholder } fromlangchain/core/prompts;const cheapModel newChatOpenAI({ modelName: gpt-4o-mini, temperature: 0 });const smartModel newChatOpenAI({ modelName: gpt-4o });// 混合版近期保留原文历史压缩成摘要const memory newConversationSummaryBufferMemory({llm: cheapModel, // 摘要用小模型省钱maxTokenLimit: 1000, // 超过 1000 tokens 触发摘要压缩returnMessages: true,memoryKey: chat_history,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是一个专业的 AI 助手。以下是对话摘要帮助你了解上下文背景。],newMessagesPlaceholder(chat_history), [human, {input}],]);const chain newConversationChain({ llm: smartModel, memory, prompt });// 即使对话很长早期的后端工程师、AI客服等信息都会保留在摘要里const res await chain.invoke({ input: 现在遇到 Memory 管理的问题你有什么建议 });const memVars await memory.loadMemoryVariables({});console.log(当前摘要:, memVars.chat_history);三、向量检索VectorStore Memory把每一轮对话存入向量数据库每次对话用当前输入做语义检索找出最相关的历史片段塞进上下文。适合超长对话和知识密集型问答。import { ChatOpenAI, OpenAIEmbeddings } fromlangchain/openai;import { VectorStoreRetrieverMemory } fromlangchain/memory;import { MemoryVectorStore } fromlangchain/vectorstores/memory;import { ConversationChain } fromlangchain/chains;import { ChatPromptTemplate } fromlangchain/core/prompts;const vectorStore newMemoryVectorStore(newOpenAIEmbeddings());const memory newVectorStoreRetrieverMemory({vectorStoreRetriever: vectorStore.asRetriever(3), // 检索最相关的 3 条memoryKey: relevant_history,inputKey: input,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是专业 AI 助手。以下是从历史对话检索到的相关片段{relevant_history}根据这些上下文回答问题。], [human, {input}],]);const chain newConversationChain({llm: newChatOpenAI({ modelName: gpt-4o-mini }), memory, prompt,});// 预加载历史await memory.saveContext( { input: 我叫小明用的向量库是 Milvus }, { output: 了解Milvus 适合生产环境 });// 跨越多轮后相关信息依然能被语义检索出来await chain.invoke({ input: 我应该用什么向量库 }); // 会检索到 Milvus 相关历史生产环境可以无缝替换为持久化向量库如上一篇讲的 Milvusimport { Milvus } fromlangchain/community/vectorstores/milvus;const milvusStore awaitMilvus.fromExistingCollection(newOpenAIEmbeddings(), { collectionName: conversation_memory, url: http://localhost:19530 });const persistentMemory newVectorStoreRetrieverMemory({vectorStoreRetriever: milvusStore.asRetriever(5),memoryKey: relevant_history,inputKey: input,});选型对比什么场景用哪种维度窗口截断摘要总结向量检索实现复杂度⭐ 极简⭐⭐ 中等⭐⭐⭐ 较高Token 消耗低固定窗口中额外摘要调用低只取相关片段早期信息❌ 会丢失✅ 摘要保留✅ 语义检索保留适合场景闲聊、短对话长对话、上下文连贯知识问答、超长历史推荐指数选型决策树对话轮数 10 轮 → 窗口截断最简单对话轮数 10 轮且上下文连贯性重要 → 摘要总结用混合版 SummaryBuffer对话轮数极长 / 需要精准回溯 → 向量检索追求极致效果 → 摘要向量检索组合常见坑坑1returnMessages忘了设true// ❌ 返回字符串ChatModel 不认识const memory new BufferWindowMemory({ k: 5 });// ✅ 返回 Message 对象适配 ChatModelconst memory new BufferWindowMemory({ k: 5, returnMessages: true });坑2memoryKey和 Prompt 占位符不一致// ❌ memory 用 historyPrompt 用 chat_history直接报错const memory new ConversationSummaryMemory({ memoryKey: history });const prompt ChatPromptTemplate.fromMessages([ new MessagesPlaceholder(chat_history), // 对不上]);// ✅ 保持一致const memory new ConversationSummaryMemory({ memoryKey: chat_history });坑3摘要 Memory 的额外 LLM 调用计入费用摘要每次对话后都会触发一次 LLM。高频场景下费用不可忽视。建议摘要专用小模型并设合理的maxTokenLimit避免频繁压缩。坑4向量检索结果不够稳定向量检索是语义相似度不是精确匹配。用户说你之前说的第 3 点时检索结果可能召回语义相近但并非第 3 点的内容。对明确引用历史的意图可结合时间戳/序号做精确检索。坑5多用户场景 Memory 没做隔离// ❌ 所有用户共享同一个 Memory 实例历史互相污染const sharedMemory newBufferWindowMemory({ k: 5 });// ✅ 按 userId / sessionId 隔离const memoryStore newMapstring, BufferWindowMemory();functiongetMemory(userId: string) {if (!memoryStore.has(userId)) { memoryStore.set(userId, newBufferWindowMemory({ k: 5, returnMessages: true })); }return memoryStore.get(userId)!;}可收藏清单 ✅选型对话 10 轮 →BufferWindowMemory需要保留早期信息 →ConversationSummaryBufferMemory混合版超长对话 / 知识问答 →VectorStoreRetrieverMemory代码规范ChatModel 场景returnMessages: true必须设memoryKey与 Prompt 占位符严格对齐摘要 Memory 的 LLM 单独指定便宜模型多用户按userId/sessionId隔离 Memory 实例性能与成本maxTokenLimit设合理值控制摘要频率向量检索的k值 3~5 条通常够用生产向量库选持久化方案Milvus、Pinecone调试技巧memory.loadMemoryVariables({})随时查看 Memory 内容verbose: true查看完整 LLM 调用链路总结这篇从头到尾拆解了 LangChain 三种 Memory 策略窗口截断实现最简单只保留最近 K 轮适合轻量级闲聊场景摘要总结用 LLM 压缩历史信息不丢失混合版SummaryBuffer是长对话首选向量检索语义召回历史片段适合超长对话和知识密集型问答生产级方案选型核心轮数少用截断轮数多用摘要轮数极长且需精准回溯用向量检索关键细节returnMessages、memoryKey对齐、多用户隔离三个坑几乎人人踩过学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

Memory全解析：截断、总结、检索，AI 的三种记性怎么选

相关文章：

Memory全解析：截断、总结、检索，AI 的三种记性怎么选

安卓手机如何免费获取大模型API密钥并快速接入Taotoken平台

paddlepaddle-gpu安装后报错：cudnn_cnn64_9.dll“ or one of its dependencies.

知识图谱赋能大模型，全球海面温度预测迎来新突破

告别环境配置烦恼：用Docker容器一键搞定Mac上的Go CGO交叉编译（以K8s kubelet为例）

N_m3u8DL-RE深度架构解析：高性能流媒体下载与加密内容处理技术实现

什么是开发语言？开发语言怎么选？

如何用Python实现高并发抢票系统：3个核心技术突破点解析

渔人的直感：FF14钓鱼计时器终极指南与使用教程

告别信号失真！用OTFS技术搞定高速移动场景下的无线通信难题（附与OFDM对比）

大三CSer自救指南：从《量化研究方法》到Kaggle，如何高效搞定体系结构与AI导论？

告别虚拟机！在Ubuntu 20.04上用Qt Creator直接调试远程ARM开发板（以麒麟V10为例）

Cortex-A35嵌入式开发常见问题与调试技巧

从买票看算法：用‘折半搜索’解决洛谷P4799冰球赛购票难题（附C++代码）

STC8H单片机IO口模式怎么选？从准双向到推挽，手把手教你配置寄存器（附代码避坑）

告别功能降级黑盒：手把手教你配置AutoSar FiM模块的Event与FID映射

记第一次运行codex

Rust跨平台应用开发：relic框架架构解析与实战指南

企业级应用如何利用Taotoken统一管理多个AI模型API调用

别再死记硬背了！用STM32CubeMX配置CAN波特率，手把手教你算Tq和采样点

【系统稳态沉思录 · AI底层系列｜第9天】生命系统的平衡法则，刚好对应AI的先天缺失

音视频生成评估框架VABench的设计与实践

不只是跑仿真：用Cadence ADE L的Calculator和Waveform做高效电路debug

全球LLM大模型客户端体验深度测评（二）：国产九大势力各显神通（截至2026年4月）

aws注册过程中的常见问题梳理

WindowsCleaner：让你的Windows系统重获新生的终极清理指南

使用 Taotoken 为你的 Node.js 后端服务稳定接入多模型能力

VSCode 2026在飞腾D2000+银河麒麟V10 SP3上频繁崩溃？揭秘底层glibc版本冲突与3步热修复方案（含patch脚本）

猫抓浏览器插件：5分钟掌握网页资源嗅探终极技巧，轻松下载视频音频图片

不止于测距：用STM32和VL6180X做一个简易的物体接近检测与光强感应装置