当前位置: 首页 > article >正文

Memory全解析:截断、总结、检索,AI 的三种记性怎么选

你有没有遇到过这种情况和 AI 聊了十几轮突然它说你刚才说的是什么来着——其实是你塞进 context 的消息太多早几轮的内容被截掉了。或者反过来把所有历史消息都带上token 爆了每次调用都超级贵。Memory 管理是多轮对话系统里最容易踩坑的环节。这篇把三种主流策略从原理到代码全拆一遍。为什么需要 Memory 管理LLM 本质上是无状态的。每次调用 API它都不记得上一次说了什么。要实现记忆唯一的方法是把历史对话放进messages数组传给它。但问题来了上下文窗口有限GPT-4o 是 128K tokens图片、工具调用、系统 prompt 会吃掉大量空间Token 费用是实打实的每次都带上 100 轮历史费用直接乘以历史长度信息密度不均第 1 轮说的我叫小明比第 98 轮的废话重要得多但朴素截断会把它一起丢掉所以Memory 管理本质是一个信息压缩与检索的问题怎么在有限的 token 预算里保住最有价值的上下文三种记忆策略LangChain.js 提供了三种主流 Memory 方案策略一句话定义类比窗口截断只保留最近 N 轮对话鱼的记忆——只记得最近的事摘要总结将历史压缩成一段摘要会议纪要——把几小时的会议浓缩成一页向量检索历史存入向量库按需检索相关片段笔记本搜索——记住所有按需翻出来一、窗口截断Buffer Window Memory只保留最近 K 轮对话更早的直接丢弃。适合闲聊类、上下文不需要跨越太远的场景。import { ChatOpenAI } fromlangchain/openai;import { ConversationChain } fromlangchain/chains;import { BufferWindowMemory } fromlangchain/memory;import { ChatPromptTemplate, MessagesPlaceholder } fromlangchain/core/prompts;const model newChatOpenAI({ modelName: gpt-4o-mini, temperature: 0.7 });const memory newBufferWindowMemory({k: 5, // 保留最近 5 轮returnMessages: true, // ChatModel 必须设为 truememoryKey: chat_history,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是一个友好的 AI 助手。],newMessagesPlaceholder(chat_history), [human, {input}],]);const chain newConversationChain({ llm: model, memory, prompt });// 手动查看/写入 Memoryconst vars await memory.loadMemoryVariables({});console.log(当前窗口:, vars);await memory.saveContext( { input: LangChain 和 LangGraph 有什么区别 }, { output: LangChain 是链式调用LangGraph 是有向图 });二、摘要总结Summary Memory让 LLM 把旧对话压缩成摘要新对话继续追加。历史信息不丢失代价是额外的 LLM 调用。适合长对话、需要保留早期用户背景的场景。import { ChatOpenAI } fromlangchain/openai;import { ConversationSummaryBufferMemory } fromlangchain/memory;import { ConversationChain } fromlangchain/chains;import { ChatPromptTemplate, MessagesPlaceholder } fromlangchain/core/prompts;const cheapModel newChatOpenAI({ modelName: gpt-4o-mini, temperature: 0 });const smartModel newChatOpenAI({ modelName: gpt-4o });// 混合版近期保留原文历史压缩成摘要const memory newConversationSummaryBufferMemory({llm: cheapModel, // 摘要用小模型省钱maxTokenLimit: 1000, // 超过 1000 tokens 触发摘要压缩returnMessages: true,memoryKey: chat_history,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是一个专业的 AI 助手。以下是对话摘要帮助你了解上下文背景。],newMessagesPlaceholder(chat_history), [human, {input}],]);const chain newConversationChain({ llm: smartModel, memory, prompt });// 即使对话很长早期的后端工程师、AI客服等信息都会保留在摘要里const res await chain.invoke({ input: 现在遇到 Memory 管理的问题你有什么建议 });const memVars await memory.loadMemoryVariables({});console.log(当前摘要:, memVars.chat_history);三、向量检索VectorStore Memory把每一轮对话存入向量数据库每次对话用当前输入做语义检索找出最相关的历史片段塞进上下文。适合超长对话和知识密集型问答。import { ChatOpenAI, OpenAIEmbeddings } fromlangchain/openai;import { VectorStoreRetrieverMemory } fromlangchain/memory;import { MemoryVectorStore } fromlangchain/vectorstores/memory;import { ConversationChain } fromlangchain/chains;import { ChatPromptTemplate } fromlangchain/core/prompts;const vectorStore newMemoryVectorStore(newOpenAIEmbeddings());const memory newVectorStoreRetrieverMemory({vectorStoreRetriever: vectorStore.asRetriever(3), // 检索最相关的 3 条memoryKey: relevant_history,inputKey: input,});const prompt ChatPromptTemplate.fromMessages([ [system, 你是专业 AI 助手。以下是从历史对话检索到的相关片段{relevant_history}根据这些上下文回答问题。], [human, {input}],]);const chain newConversationChain({llm: newChatOpenAI({ modelName: gpt-4o-mini }), memory, prompt,});// 预加载历史await memory.saveContext( { input: 我叫小明用的向量库是 Milvus }, { output: 了解Milvus 适合生产环境 });// 跨越多轮后相关信息依然能被语义检索出来await chain.invoke({ input: 我应该用什么向量库 }); // 会检索到 Milvus 相关历史生产环境可以无缝替换为持久化向量库如上一篇讲的 Milvusimport { Milvus } fromlangchain/community/vectorstores/milvus;const milvusStore awaitMilvus.fromExistingCollection(newOpenAIEmbeddings(), { collectionName: conversation_memory, url: http://localhost:19530 });const persistentMemory newVectorStoreRetrieverMemory({vectorStoreRetriever: milvusStore.asRetriever(5),memoryKey: relevant_history,inputKey: input,});选型对比什么场景用哪种维度窗口截断摘要总结向量检索实现复杂度⭐ 极简⭐⭐ 中等⭐⭐⭐ 较高Token 消耗低固定窗口中额外摘要调用低只取相关片段早期信息❌ 会丢失✅ 摘要保留✅ 语义检索保留适合场景闲聊、短对话长对话、上下文连贯知识问答、超长历史推荐指数选型决策树对话轮数 10 轮 → 窗口截断最简单对话轮数 10 轮且上下文连贯性重要 → 摘要总结用混合版 SummaryBuffer对话轮数极长 / 需要精准回溯 → 向量检索追求极致效果 → 摘要 向量检索组合常见坑坑1returnMessages忘了设true// ❌ 返回字符串ChatModel 不认识const memory new BufferWindowMemory({ k: 5 });// ✅ 返回 Message 对象适配 ChatModelconst memory new BufferWindowMemory({ k: 5, returnMessages: true });坑2memoryKey和 Prompt 占位符不一致// ❌ memory 用 historyPrompt 用 chat_history直接报错const memory new ConversationSummaryMemory({ memoryKey: history });const prompt ChatPromptTemplate.fromMessages([ new MessagesPlaceholder(chat_history), // 对不上]);// ✅ 保持一致const memory new ConversationSummaryMemory({ memoryKey: chat_history });坑3摘要 Memory 的额外 LLM 调用计入费用摘要每次对话后都会触发一次 LLM。高频场景下费用不可忽视。建议摘要专用小模型并设合理的maxTokenLimit避免频繁压缩。坑4向量检索结果不够稳定向量检索是语义相似度不是精确匹配。用户说你之前说的第 3 点时检索结果可能召回语义相近但并非第 3 点的内容。对明确引用历史的意图可结合时间戳/序号做精确检索。坑5多用户场景 Memory 没做隔离// ❌ 所有用户共享同一个 Memory 实例历史互相污染const sharedMemory newBufferWindowMemory({ k: 5 });// ✅ 按 userId / sessionId 隔离const memoryStore newMapstring, BufferWindowMemory();functiongetMemory(userId: string) {if (!memoryStore.has(userId)) { memoryStore.set(userId, newBufferWindowMemory({ k: 5, returnMessages: true })); }return memoryStore.get(userId)!;}可收藏清单 ✅选型对话 10 轮 →BufferWindowMemory需要保留早期信息 →ConversationSummaryBufferMemory混合版超长对话 / 知识问答 →VectorStoreRetrieverMemory代码规范ChatModel 场景returnMessages: true必须设memoryKey与 Prompt 占位符严格对齐摘要 Memory 的 LLM 单独指定便宜模型多用户按userId/sessionId隔离 Memory 实例性能与成本maxTokenLimit设合理值控制摘要频率向量检索的k值 3~5 条通常够用生产向量库选持久化方案Milvus、Pinecone调试技巧memory.loadMemoryVariables({})随时查看 Memory 内容verbose: true查看完整 LLM 调用链路总结这篇从头到尾拆解了 LangChain 三种 Memory 策略窗口截断实现最简单只保留最近 K 轮适合轻量级闲聊场景摘要总结用 LLM 压缩历史信息不丢失混合版SummaryBuffer是长对话首选向量检索语义召回历史片段适合超长对话和知识密集型问答生产级方案选型核心轮数少用截断轮数多用摘要轮数极长且需精准回溯用向量检索关键细节returnMessages、memoryKey对齐、多用户隔离三个坑几乎人人踩过学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

Memory全解析:截断、总结、检索,AI 的三种记性怎么选

你有没有遇到过这种情况:和 AI 聊了十几轮,突然它说"你刚才说的是什么来着?"——其实是你塞进 context 的消息太多,早几轮的内容被截掉了。或者反过来:把所有历史消息都带上,token 爆了&#xff…...

安卓手机如何免费获取大模型API密钥并快速接入Taotoken平台

安卓手机如何免费获取大模型API密钥并快速接入Taotoken平台 1. 注册Taotoken账户 在安卓设备上访问Taotoken官网,点击注册按钮进入账户创建页面。填写邮箱、设置密码并完成手机验证后,系统将自动跳转到控制台界面。新注册用户可获得一定额度的免费Toke…...

paddlepaddle-gpu安装后报错:cudnn_cnn64_9.dll“ or one of its dependencies.

测试环境:python3.10paddlepaddle-gpu3.3.0cuda11.8版本报错信息:ocr PaddleOCR( File "D:\codes\python\read_fast.venv\lib\site-packages\paddleocr_pipelines\ocr.py", line 163, in init super().init(**base_params) File "D:\cod…...

知识图谱赋能大模型,全球海面温度预测迎来新突破

摘要 本文介绍一项来自复旦大学、香港理工大学等机构的最新研究——OKG-LLM框架。该框架首次将海洋知识图谱(OKG)与大语言模型(LLM)深度融合,通过结构化领域知识与精细数值观测数据的协同对齐,实现全球海面…...

告别环境配置烦恼:用Docker容器一键搞定Mac上的Go CGO交叉编译(以K8s kubelet为例)

容器化革命:在Mac上实现零配置的Go CGO交叉编译实战 每次在Mac上尝试为Linux环境编译Go程序时,那些烦人的交叉编译工具链问题总让人头疼。特别是当项目涉及CGO时,各种依赖库和编译器缺失的错误信息足以让最耐心的开发者崩溃。但今天&#xff…...

N_m3u8DL-RE深度架构解析:高性能流媒体下载与加密内容处理技术实现

N_m3u8DL-RE深度架构解析:高性能流媒体下载与加密内容处理技术实现 【免费下载链接】N_m3u8DL-RE Cross-Platform, modern and powerful stream downloader for MPD/M3U8/ISM. English/简体中文/繁體中文. 项目地址: https://gitcode.com/GitHub_Trending/nm3/N_…...

什么是开发语言?开发语言怎么选?

什么是开发语言?开发语言怎么选? 什么是开发语言?开发语言怎么选? 开发语言 一、开发语言发展和变化的过程二、开发语言的分类三、常见的开发语言及其特点四、如何选择开发语言五、开发语言的学习与掌握六、开发语言的未来趋势 …...

如何用Python实现高并发抢票系统:3个核心技术突破点解析

如何用Python实现高并发抢票系统:3个核心技术突破点解析 【免费下载链接】Automatic_ticket_purchase 大麦网抢票脚本 项目地址: https://gitcode.com/GitHub_Trending/au/Automatic_ticket_purchase 在票务市场的激烈竞争中,传统手动抢票方式已无…...

渔人的直感:FF14钓鱼计时器终极指南与使用教程

渔人的直感:FF14钓鱼计时器终极指南与使用教程 【免费下载链接】Fishers-Intuition 渔人的直感,最终幻想14钓鱼计时器 项目地址: https://gitcode.com/gh_mirrors/fi/Fishers-Intuition 你是否曾经在《最终幻想14》的钓鱼过程中因为错过最佳提竿时…...

告别信号失真!用OTFS技术搞定高速移动场景下的无线通信难题(附与OFDM对比)

告别信号失真!OTFS技术如何重塑高速移动场景下的无线通信体验 你是否曾在高铁上尝试视频通话时遭遇画面冻结?或是无人机航拍时因信号中断丢失关键数据?这些困扰背后隐藏着一个共同的通信技术瓶颈——传统正交频分复用(OFDM&#x…...

大三CSer自救指南:从《量化研究方法》到Kaggle,如何高效搞定体系结构与AI导论?

大三计算机科学高效学习路线:从体系结构到AI实战的深度整合策略 计算机专业的大三学年常被称为"知识爆炸期"——体系结构、人工智能导论、编译原理等核心课程接踵而至,而Kaggle竞赛、开源项目等实践机会又不断吸引着我们的注意力。如何在有限时…...

告别虚拟机!在Ubuntu 20.04上用Qt Creator直接调试远程ARM开发板(以麒麟V10为例)

在Ubuntu 20.04上实现Qt Creator与ARM开发板的无缝调试:告别交叉编译的繁琐 嵌入式开发工程师们常常面临一个共同的痛点:在x86主机上为ARM架构设备开发Qt应用程序时,传统的交叉编译流程既繁琐又低效。每次修改代码后,都需要手动编…...

Cortex-A35嵌入式开发常见问题与调试技巧

1. Cortex-A35常见编程问题深度解析在嵌入式系统开发领域,Arm Cortex-A35作为一款高效节能的处理器核心,广泛应用于各类低功耗设备中。但在实际开发过程中,开发者经常会遇到一些与内存管理、异常处理和调试跟踪相关的"坑"。这些问题…...

从买票看算法:用‘折半搜索’解决洛谷P4799冰球赛购票难题(附C++代码)

从买票看算法:用‘折半搜索’解决洛谷P4799冰球赛购票难题(附C代码) 想象你正站在冰球赛售票处,手握有限的预算,面对40场不同价格的比赛门票。如何快速计算出所有可能的观赛组合?这个看似生活化的问题&…...

STC8H单片机IO口模式怎么选?从准双向到推挽,手把手教你配置寄存器(附代码避坑)

STC8H单片机IO口模式实战指南:从电路设计到寄存器配置 第一次接触STC8H系列单片机时,我被它灵活的IO口配置惊艳到了——这哪里还是传统51单片机?四种工作模式、可调驱动能力、内置上下拉电阻,这些特性让它在小项目中几乎可以替代S…...

告别功能降级黑盒:手把手教你配置AutoSar FiM模块的Event与FID映射

告别功能降级黑盒:手把手教你配置AutoSar FiM模块的Event与FID映射 在汽车电子控制单元(ECU)开发中,功能降级策略的设计往往是最容易被忽视却又至关重要的环节。想象一下,当车窗防夹功能因为某个传感器故障而失效时&am…...

记第一次运行codex

一、问的问题 › 我有3个c文件:" file1.c&#xff08;定义变量的地方&#xff09;#include <stdio.h>// 定义全局变量&#xff08;只定义一次&#xff09;int global_var 100;void print_value(){printf("file1.c 中的 global_var %d\n", global_var);}…...

Rust跨平台应用开发:relic框架架构解析与实战指南

1. 项目概述&#xff1a;一个面向未来的跨平台应用构建方案最近在折腾一个个人项目&#xff0c;需要把同一个应用逻辑部署到桌面端、Web端&#xff0c;甚至未来可能还要上移动端。一开始想着用Electron&#xff0c;毕竟生态成熟&#xff0c;但一想到那动辄上百兆的安装包和不算…...

企业级应用如何利用Taotoken统一管理多个AI模型API调用

企业级应用如何利用Taotoken统一管理多个AI模型API调用 1. 企业多模型管理的核心挑战 在智能应用开发过程中&#xff0c;企业常面临多个业务线需要调用不同大模型的情况。不同业务团队可能根据需求选择不同厂商的模型&#xff0c;导致API入口分散、调用标准不统一。技术团队需…...

别再死记硬背了!用STM32CubeMX配置CAN波特率,手把手教你算Tq和采样点

告别手动计算&#xff1a;用STM32CubeMX智能配置CAN总线参数的实战指南 当你第一次在STM32项目中使用CAN总线时&#xff0c;是否曾被数据手册里那些晦涩的位时间参数搞得晕头转向&#xff1f;作为嵌入式开发者&#xff0c;我们经常需要在有限的时间内完成通信模块的配置&#x…...

【系统稳态沉思录 · AI底层系列|第9天】生命系统的平衡法则,刚好对应AI的先天缺失

自然万物运转&#xff0c;始终藏着一套极致的平衡逻辑&#xff1a;草木枯荣自有节律&#xff0c;生态链环环相扣&#xff0c;生命体自我修复、自我调节&#xff0c;即便遭遇外界扰动&#xff0c;也能慢慢回归稳态&#xff0c;在动态变化中存续、生长、进阶。这套历经亿万年验证…...

音视频生成评估框架VABench的设计与实践

1. 项目背景与核心价值在多媒体内容创作领域&#xff0c;音视频生成技术正经历爆发式增长。从文本生成语音&#xff08;TTS&#xff09;、音乐合成到视频内容自动生成&#xff0c;各类AI模型层出不穷。但行业长期面临一个痛点&#xff1a;缺乏统一的评估标准来横向对比不同算法…...

不只是跑仿真:用Cadence ADE L的Calculator和Waveform做高效电路debug

不只是跑仿真&#xff1a;用Cadence ADE L的Calculator和Waveform做高效电路debug 在电路设计的世界里&#xff0c;仿真只是开始&#xff0c;真正的艺术在于如何从海量数据中快速定位问题。当你的电路第一次跑出不符合预期的波形时&#xff0c;那种既兴奋又焦虑的感觉&#xff…...

全球LLM大模型客户端体验深度测评(二):国产九大势力各显神通(截至2026年4月)

全球LLM大模型客户端体验深度测评&#xff08;二&#xff09;&#xff1a;国产九大势力各显神通&#xff08;截至2026年4月&#xff09;前言&#xff1a;在上一篇《海外四大巨头格局解构》中&#xff0c;我们见识了 Claude 的代码沙箱与 GPT 的智能体工作流。但不可否认&#x…...

aws注册过程中的常见问题梳理

我之前帮几个做海外业务开发的朋友梳理项目基础环境&#xff0c;发现大部分人第一次接触aws注册&#xff0c;都会把全部注意力放在后续的服务器配置、应用部署上&#xff0c;反而在注册阶段留下不少隐性问题。这些问题平时不会显现&#xff0c;等到服务正式上线&#xff0c;或者…...

WindowsCleaner:让你的Windows系统重获新生的终极清理指南

WindowsCleaner&#xff1a;让你的Windows系统重获新生的终极清理指南 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服&#xff01; 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否曾经面对C盘爆红的警告束手无策&…...

使用 Taotoken 为你的 Node.js 后端服务稳定接入多模型能力

使用 Taotoken 为你的 Node.js 后端服务稳定接入多模型能力 1. 场景需求与方案选择 假设你正在开发一个需要 AI 对话功能的 Web 应用&#xff0c;后端采用 Node.js 技术栈。这类场景通常面临几个核心需求&#xff1a;需要稳定可靠的大模型调用接口、能够灵活切换不同模型以适…...

VSCode 2026在飞腾D2000+银河麒麟V10 SP3上频繁崩溃?揭秘底层glibc版本冲突与3步热修复方案(含patch脚本)

更多请点击&#xff1a; https://kaifayun.com 第一章&#xff1a;VSCode 2026国产化适配的背景与挑战 随着信创产业加速推进&#xff0c;VSCode 2026 版本被纳入多个省级政务云及央企研发平台的IDE替代清单。其国产化适配不再仅限于基础界面汉化&#xff0c;而是深入到内核级…...

猫抓浏览器插件:5分钟掌握网页资源嗅探终极技巧,轻松下载视频音频图片

猫抓浏览器插件&#xff1a;5分钟掌握网页资源嗅探终极技巧&#xff0c;轻松下载视频音频图片 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 你是…...

不止于测距:用STM32和VL6180X做一个简易的物体接近检测与光强感应装置

从测距到智能感知&#xff1a;STM32与VL6180X的融合应用实战 在创客和物联网开发领域&#xff0c;距离传感器早已不是新鲜事物。但当我们把目光投向STMicroelectronics推出的VL6180X时&#xff0c;会发现这颗小小的传感器芯片蕴含着远超普通红外测距模块的潜力。它集成了高精度…...