当前位置: 首页 > article >正文

AI Agent 为什么必须有“记忆系统”?

导语大模型不是没有智商而是经常没有“记性”。真正能长期干活的 Agent不是靠无限拉长上下文而是靠一套会压缩、会检索、会遗忘、会治理的外置记忆系统。一、先给结论Agent 的记忆系统本质是“上下文工程”很多人做 AI 应用第一反应是模型上下文窗口越来越长了是不是把所有历史都塞进去就行答案是否定的。上下文窗口再长也不是垃圾桶。它会带来三类问题成本变高、延迟变长、噪声变多。更麻烦的是长文本里真正关键的信息不一定被模型稳定抓住。研究“Lost in the Middle”指出相关信息在长上下文中间位置时模型表现可能明显下降。所以真正成熟的 Agent 系统必须把“记忆”从一句抽象口号拆成四件能落地的工程能力记什么把短期任务状态、用户偏好、项目知识、历史经验分层存储。怎么压缩把长聊天和工具日志压缩成目标、约束、决策、待办、证据。怎么找回通过向量检索、关键词检索、结构化过滤、重排评分把最相关的记忆拿回来。怎么放进上下文在有限 Token 预算里把最高信号的信息放到最合适的位置。概念一句话解释工程上怎么做短期记忆当前会话和当前任务的工作台保留最近 N 轮、任务状态、最近工具结果长期记忆跨会话可复用的外部知识向量库、关系库、文档库、用户画像记忆压缩把长历史变成高密度摘要结构化抽取、去重、合并、冲突检测记忆检索按当前问题找回相关记忆Query 改写、多路召回、重排、过滤上下文管理决定本轮 prompt 放什么、放多少、放哪里Token 预算、优先级、证据区、最近对话区二、为什么不能只靠长上下文长上下文确实很重要但它解决的是“模型能看到更多”的问题不等于“模型能稳定用好更多”。如果把 200 页文档、50 轮聊天、20 次工具调用结果全部塞进去模型会面对一个高噪声工作台有些信息过期有些信息重复有些工具日志只是中间过程有些错误结论甚至会污染后续回答。一个简单类比你让人写项目总结不会把微信群从第一天到今天的聊天记录全部贴给他而是会整理一份“项目现状”目标是什么、已经做了什么、关键决策是什么、还剩什么问题、哪些资料可以查。AI Agent 也是一样。上下文工程要解决的不是“塞得更多”而是“每一个 Token 都更值钱”。Anthropic 在 context engineering 文章里把 compaction、structured note-taking、sub-agent 等作为长期任务中的关键手段OpenAI 的短期会话记忆实践也强调 trimming 与 compression以降低成本、延迟和错误传播。三、把记忆分成三类语义、情节、程序做记忆系统之前先别急着选向量库。第一步是把“记忆类型”分清楚。LangChain / LangGraph 文档中把 Agent 长期记忆对应到三类semantic memory、episodic memory、procedural memory。翻成大白话就是记忆类型存什么例子典型存储方式语义记忆稳定事实、偏好、配置用户偏好“文章要多图”、项目域名、API平台JSON画像、关系表、向量片段情节记忆过去发生过的任务过程上次部署失败原因、某次调试路径、成功案例任务轨迹、案例库、时间线程序记忆如何做事的规则和方法输出格式、编码规范、文章风格、工具调用习惯系统提示词、策略配置、Prompt模板这三类记忆不能混在一个大桶里。用户偏好是稳定配置应该写进画像历史调试过程是经验案例应该可检索输出风格是程序记忆应该影响系统提示词。混在一起会导致两个后果召回时噪声很大更新时容易覆盖错。四、记忆压缩不是“总结一下”而是把历史变成可执行资产很多系统的“压缩”只是让模型把聊天记录总结成一段话。这种做法能省 Token但不一定能让 Agent 变聪明。真正有用的压缩应该把原始历史变成结构化资产。建议每次压缩都输出固定字段而不是自由发挥goal当前任务目标最好一句话说清楚。constraints硬约束例如预算、技术栈、域名、合规边界。decisions已经做出的关键决策避免下次反复推翻。facts可复用事实必须带来源、时间、置信度。todos未完成事项最好有优先级和负责人。risks风险、失败原因、容易踩坑的地方。evidence原始证据链接、文件名、日志片段方便追溯。压缩的关键指标不是“摘要有多短”而是“下次恢复任务时是否还能继续做”。过度压缩会丢掉细节压缩太弱又省不了上下文。工程上可以先追求高召回宁可多留一点关键细节跑通后再逐步提高精度删掉冗余。一个实用的记忆摘要 JSON 模板{memory_type: project_state,scope: user:xxx / project:coupon-site,goal: 搭建优惠券导购站先用假数据跑通再接联盟 API,constraints: [域名 deals.eeebb.com, 保留拼多多/淘宝/京东配置位],decisions: [先搭框架和后台配置不等待应用审核],todos: [申请应用, 补齐 API Key, 增加转链日志],confidence: high,source: conversation_summary_2026-05-25}五、记忆检索多路召回 重排 过滤RAG 的经典思路是让模型结合参数内知识与外部非参数记忆RAG 论文中就展示了检索增强对知识密集型任务的价值。放到 Agent 记忆里检索不只是“查知识库”而是“按当前任务把过去最有用的记忆找回来”。一个生产可用的检索链路建议至少包括五步查询改写把用户口语化问题改写成可检索 query。例如“继续弄那个网站”要改写出项目名、域名、平台、时间范围。多路召回向量召回解决语义相近关键词召回解决专有名词结构化过滤解决项目、用户、权限和时间范围。候选过滤先过滤无权限、过期、低置信度、明显冲突的数据避免把毒信息送进上下文。重排评分不要只看相似度要综合相关性、新鲜度、重要度、可靠性、冲突惩罚。上下文打包最后不是把 TopK 全塞进去而是去重、压缩、排序、附带来源。最简单的可落地公式可以这样写最终分 0.45×相关性 0.20×新鲜度 0.20×重要度 0.15×可靠性 - 冲突惩罚 - 重复惩罚。这个公式不需要一开始就完美但必须能调参、能观测、能回放。六、上下文管理决定“放什么、放多少、放哪里”上下文装配的目标是把本轮任务变成一份高密度战术简报。它应该包含稳定规则、当前目标、当前任务状态、关键证据、最近对话、必要工具结果。它不应该包含重复工具日志、已解决报错、无关闲聊、低置信度猜测。建议按照预算来管控 Prompt而不是凭感觉堆内容。对于大多数 Agent 任务一个可参考的预算是上下文区域建议比例内容放置建议系统规则5%-10%角色、边界、输出格式、工具规则开头稳定且短当前目标10%-15%用户最新需求、必须完成的动作开头或结尾强化任务状态15%-25%项目现状、已完成、未完成、关键约束靠前检索证据25%-40%高相关记忆、文档片段、引用来源分条、带来源最近对话10%-15%最近几轮交互保留语气与局部细节适度保留工具结果5%-10%本轮必要工具返回不要塞完整日志只放摘要和关键值一个细节很重要越关键的信息越不要埋在上下文中间。由于长上下文中间位置可能更容易被忽视建议把核心任务、不可违背约束、最终输出要求放在开头或结尾中间区域放可丢失的辅助材料。七、记忆写入策略什么该记什么不该记很多 Agent 记忆系统失败不是因为不会存而是因为存得太多。只要用户说一句话就写入长期记忆最后会变成“记忆垃圾场”。写入长期记忆要有门槛。应该写入谨慎写入不要写入长期稳定偏好文章要通俗、多图、生成 docx一次性情绪表达今天太烦了敏感隐私、临时验证码、密码、密钥项目级关键配置域名、技术栈、回调地址低置信度推断可能喜欢某类风格错误结论、已被用户否定的信息明确决策先做假数据再接 API短期状态本轮临时计划大量重复日志、无关闲聊、爬虫噪声反复出现的问题和成功经验工具中间结果除非能复用无法追溯来源的事实实际工程中可以把写入分成两条路径热路径写入和冷路径写入。热路径在回答前或回答后立刻写入适合关键事实和当前任务状态冷路径在后台定期整理适合长会话压缩、经验抽取、相似记忆合并。热路径响应快但容易误写冷路径质量高但有延迟。八、数据库怎么设计一张“记忆表”远远不够一个可维护的记忆系统至少应该把原始证据、结构化记忆、向量索引和审计信息分开。否则后期做纠错、删除、权限隔离都会非常痛苦。表/集合存储内容关键字段作用memory_items结构化记忆主体id, user_id, scope, type, content_json, importance, confidence, created_at, expires_at管理事实、偏好、决策、摘要memory_embeddings向量索引片段memory_id, embedding, chunk_text, tags语义召回memory_sources原始来源证据memory_id, source_type, source_uri, quote, timestamp追溯和引用memory_events写入/修改/删除日志memory_id, action, actor, diff, reason审计与回滚memory_feedback质量反馈query, selected_memory, used_or_not, user_feedback优化检索与重排如果你要做多用户、多项目系统一定要加 namespace。比如 user_id project_id memory_type避免不同项目的记忆串台。对于企业系统还要加权限字段和数据生命周期字段例如 expires_at、retention_policy、delete_reason。九、记忆治理让记忆变干净而不是越积越脏记忆系统一旦上线就会遇到“记忆污染”用户口误被当成事实、模型推断被当成用户偏好、旧配置覆盖新配置、不同项目的资料互相串台。解决办法不是关闭记忆而是建立治理闭环。置信度每条记忆都应该区分“用户明确说过”“系统观察到”“模型推断”。推断类不能直接当事实使用。时间衰减越旧的记忆权重越低除非它被多次使用或被用户确认。冲突处理新旧信息冲突时不要静默覆盖要保留版本并在必要时提示用户确认。可删除用户要求删除某类记忆时系统必须能定位并清除。可评估每次回答使用了哪些记忆命中了哪些最终是否有帮助都要能记录。十、最容易踩的 8 个坑1. 把所有历史都塞进 Prompt这不是记忆是搬运。结果是更贵、更慢、更乱。2. 摘要没有结构一段自然语言摘要看起来顺但很难检索、更新和冲突检测。3. 只用向量相似度专有名词、域名、订单号、API Key 名称经常需要关键词和结构化过滤。4. 没有来源模型一旦拿错记忆无法追溯是谁写的、什么时候写的、证据是什么。5. 长期记忆不做权限隔离多用户、多项目场景最怕记忆串台这是严重事故。6. 过期记忆不衰减旧配置、旧方案、旧偏好可能误导模型。7. 检索 TopK 固定不变不同任务需要不同数量证据。简单问答可能 3 条足够复杂规划可能需要 10 条。8. 没有评估集没有黄金问题集就不知道记忆系统是真的变好还是只是感觉更智能。十一、从 0 到 1 怎么落地给一条实战路线不要一开始就做“全自动长期记忆大脑”。最稳的路线是先做短期连续性再做结构化压缩然后接入长期检索最后做治理与评估。第一个版本只需要做到三件事第一最近 N 轮 会话摘要让 Agent 不要在一个任务里反复失忆第二固定摘要字段把目标、约束、决策、待办沉淀下来第三按项目和用户隔离记忆避免串台。第二个版本再加向量检索、关键词检索、重排评分和上下文打包。第三个版本再做记忆质量评估、冲突检测、用户可查看/可删除、自动回放测试。十二、一个最小可用架构适合个人项目或中小团队如果你是 0 到 1 做 AI Agent 应用可以用下面这套轻量架构短期记忆Redis / SQLite / Postgres 存最近对话与会话摘要。长期记忆Postgres 存结构化 JSONpgvector 或独立向量库存 embedding。原始证据对象存储或文档表保存关键原文、网页、日志片段。检索服务Query 改写 混合召回 rerank 上下文打包。治理后台查看记忆、删除记忆、标记错误、观察命中率。一个简化的请求流程是用户输入 - 意图解析 - 查询改写 - 检索记忆 - 装配上下文 - 调用模型 - 输出结果 - 抽取新记忆 - 写入或等待后台压缩。十三、总结未来的 Agent不是“记得多”而是“记得准”AI Agent 的长期竞争力不只来自模型参数也来自上下文工程。一个没有记忆管理的 Agent就像一个每次上班都清空工位的人一个有记忆但不治理的 Agent又像一个桌面堆满垃圾文件的人。真正高效的系统应该做到短期记忆保证连续性长期记忆保证个性化和复用压缩保证高密度检索保证相关性上下文管理保证每一轮都聚焦。一句话收尾不要迷信“无限上下文”要建设“可压缩、可检索、可治理的记忆系统”。这才是 AI Agent 从聊天玩具走向生产工具的关键分水岭。

相关文章:

AI Agent 为什么必须有“记忆系统”?

导语:大模型不是没有智商,而是经常没有“记性”。真正能长期干活的 Agent,不是靠无限拉长上下文,而是靠一套会压缩、会检索、会遗忘、会治理的外置记忆系统。一、先给结论:Agent 的记忆系统,本质是“上下文…...

CANN runtime:昇腾NPU 运行时的职责边界

个人主页:ujainu 文章目录前言为什么需要运行时这一层runtime管什么,不管什么Stream:并行的基本调度单位Event:跨Stream的同步锚点内存池化:少一次malloc就少一次卡顿任务队列:从计算图到硬件指令的最后一跳…...

为内部知识库问答机器人集成taotoken多模型能力的架构设计

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为内部知识库问答机器人集成taotoken多模型能力的架构设计 应用场景类,探讨为企业内部知识库构建智能问答机器人时&…...

Windows Cleaner如何5步解决C盘爆红问题?完全指南助你释放宝贵空间

Windows Cleaner如何5步解决C盘爆红问题?完全指南助你释放宝贵空间 【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服! 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 你是否曾经面对C盘爆红的警告束手无…...

星露谷物语SMAPI模组加载器:从新手到专家的完整使用指南

星露谷物语SMAPI模组加载器:从新手到专家的完整使用指南 【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI 星露谷物语SMAPI模组加载器是官方推荐的模组API,它为玩家和开发者提供…...

基于ESP8266的可穿戴Wi-Fi设备:从硬件设计到ESPHome智能控制

1. 项目概述:一个可穿戴的Wi-Fi智能小玩意最近在捣鼓智能家居和可穿戴电子,总想把手边的小物件变得更“聪明”一点。于是,我设计并制作了一个基于ESP8266的可穿戴Wi-Fi设备。它的核心思路很简单:把一块功能强大的Wi-Fi微控制器&am…...

DeTikZify:基于AI的TikZ图形程序自动生成技术深度解析

DeTikZify:基于AI的TikZ图形程序自动生成技术深度解析 【免费下载链接】DeTikZify Synthesizing Graphics Programs for Scientific Figures and Sketches with TikZ. 项目地址: https://gitcode.com/gh_mirrors/de/DeTikZify DeTikZify是一款革命性的多模态…...

基于ESP8266与RGBDigit的Wi-Fi网络时钟:硬件设计、物联网集成与DIY实践

1. 项目概述:一个能感知环境的网络时钟如果你和我一样,对复古又带点科技感的显示设备没有抵抗力,同时又是个喜欢动手折腾的极客,那么这个项目绝对能让你在工作室或家里多一个既实用又炫酷的玩意儿。我说的就是这款基于RGBDigit数码…...

如何快速掌握ncmdumpGUI:Windows平台网易云音乐NCM文件转换完整教程

如何快速掌握ncmdumpGUI:Windows平台网易云音乐NCM文件转换完整教程 【免费下载链接】ncmdumpGUI C#版本网易云音乐ncm文件格式转换,Windows图形界面版本 项目地址: https://gitcode.com/gh_mirrors/nc/ncmdumpGUI 你是否曾经下载了网易云音乐的…...

Hitboxer:终极SOCD按键重映射解决方案,彻底解决游戏按键冲突问题

Hitboxer:终极SOCD按键重映射解决方案,彻底解决游戏按键冲突问题 【免费下载链接】socd Key remapper for epic gamers 项目地址: https://gitcode.com/gh_mirrors/so/socd 在激烈的游戏对战中,你是否曾因同时按下左右方向键而导致角色…...

告别RaiDrive广告!用开源rclone+Alist,免费把阿里云盘/百度网盘变成电脑本地硬盘

开源方案实战:用rcloneAlist打造无广告的云盘本地化体验 每次打开RaiDrive时弹出的广告窗口是否让您感到困扰?商业软件的收费模式是否让您犹豫不决?今天,我们将彻底解决这些问题。通过开源工具Alist和rclone的组合,您不…...

DSP、FPGA、STM32大对决:谁才是嵌入式开发的“天选之子”?

在嵌入式开发的广阔天地里,DSP、FPGA 和 STM32(作为通用 MCU 的典型代表)可以说是三款绕不开的核心处理器。很多初学者甚至有一定经验的工程师在选择时都会陷入纠结:我的项目到底该选哪一个?为了帮你彻底理清思路&…...

别再只会用--nogpgcheck了!手把手教你安全修复PostgreSQL yum源的GPG密钥问题

企业级PostgreSQL部署:安全解决GPG密钥验证的完整方案 当你在生产环境中部署PostgreSQL时,遇到GPG签名验证错误直接使用--nogpgcheck绕过检查,就像因为门锁打不开就直接把门拆掉一样危险。本文将带你深入理解GPG验证机制,并提供一…...

当B站字幕不再只是弹幕:你的个人学习宝库解锁指南

当B站字幕不再只是弹幕:你的个人学习宝库解锁指南 【免费下载链接】BiliBiliCCSubtitle 一个用于下载B站(哔哩哔哩)CC字幕及转换的工具; 项目地址: https://gitcode.com/gh_mirrors/bi/BiliBiliCCSubtitle 还记得那个深夜吗?你正在B站追着某个技术…...

别只盯着主控芯片!拆解STM32最小系统板:电源、时钟、复位三大支柱电路深度解析

STM32最小系统板设计进阶:电源、时钟与复位电路的工程实践 在嵌入式系统开发中,我们常常将注意力集中在主控芯片的功能实现上,却忽略了支撑系统稳定运行的三大基础电路——电源、时钟和复位。这些看似简单的电路模块,实则是整个系…...

深入解析NxDumpTool:Switch游戏文件系统提取的终极指南 [特殊字符]

深入解析NxDumpTool:Switch游戏文件系统提取的终极指南 🎮 【免费下载链接】nxdumptool Generates XCI/NSP/HFS0/ExeFS/RomFS/Certificate/Ticket dumps from Nintendo Switch gamecards and installed SD/eMMC titles. 项目地址: https://gitcode.com…...

告别Appium!用Python+UIAutomator2搞定Android自动化测试(附完整环境搭建与实战代码)

PythonUIAutomator2:Android自动化测试的高效实践指南 在移动应用测试领域,效率与稳定性始终是工程师们追求的核心目标。传统方案如Appium虽然功能全面,但在执行速度和资源消耗方面往往难以满足高频测试需求。本文将带您探索基于Python和UIA…...

终极Windows风扇控制指南:FanControl让你的电脑安静又高效

终极Windows风扇控制指南:FanControl让你的电脑安静又高效 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendin…...

告别Selenium?手把手教你用Playwright录制脚本,5分钟搞定Web自动化测试

5分钟极速上手Playwright脚本录制:零代码实现Web自动化测试当产品经理突然丢给你一个刚上线的电商活动页,要求半小时内完成所有核心链路测试时,传统的手写Selenium脚本显然来不及。作为测试工程师,我最近发现微软开源的Playwright…...

终极虚拟显示器解决方案:ParsecVDisplay完整使用指南

终极虚拟显示器解决方案:ParsecVDisplay完整使用指南 【免费下载链接】parsec-vdd ✨ Perfect virtual display for game streaming 项目地址: https://gitcode.com/gh_mirrors/pa/parsec-vdd ParsecVDisplay是一个基于Parsec虚拟显示驱动(VDD)的独立应用程序…...

如何用Nucleus Co-Op让单机游戏变身本地多人分屏神器

如何用Nucleus Co-Op让单机游戏变身本地多人分屏神器 【免费下载链接】nucleuscoop Starts multiple instances of a game for split-screen multiplayer gaming! 项目地址: https://gitcode.com/gh_mirrors/nu/nucleuscoop 还在为想和朋友一起玩游戏却只有一台电脑而烦…...

基于窗口比较器与晶体管逻辑的可编程非线性电压指示器设计

1. 项目概述:打造一个可编程的“移动光点”电压指示器在电子制作和仪器仪表领域,我们经常需要一个直观的电压指示器。经典的LM3914点/条图显示驱动芯片大家都很熟悉,它能把一个模拟电压信号转换成10个LED的点亮状态,形成移动的光点…...

AI专著生成必备工具,轻松撰写20万字专著,质量与效率双保障!

学术专著的写作是一个严谨的过程,其背后需要大量的资料和数据作为基础。搜集和整理这些资料与数据往往是写作过程中最繁琐且耗时的部分。研究人员需要广泛收集国内外的前沿文献,确保所用文献不仅具备权威性,还要与研究主题密切相关。同时&…...

茉莉花插件:如何让中文文献管理效率提升300%

茉莉花插件:如何让中文文献管理效率提升300% 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件,用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 还在为中文文献的元数据抓…...

5步完美解决Windows 10 PL2303驱动兼容性问题:完整实施方案指南

5步完美解决Windows 10 PL2303驱动兼容性问题:完整实施方案指南 【免费下载链接】pl2303-win10 Windows 10 driver for end-of-life PL-2303 chipsets. 项目地址: https://gitcode.com/gh_mirrors/pl/pl2303-win10 在Windows 10系统中使用PL2303 USB转串口设…...

3分钟快速上手:bilibili-parse视频解析API终极指南

3分钟快速上手:bilibili-parse视频解析API终极指南 【免费下载链接】bilibili-parse bilibili Video API 项目地址: https://gitcode.com/gh_mirrors/bi/bilibili-parse bilibili-parse是一款高效专业的B站视频解析工具,为开发者和内容创作者提供…...

全方位梳理 OpenClaw 部署与使用干货

OpenClaw 一键安装包|可视化部署,简化环境配置流程 ✨适配系统:Windows10/11 64 位 当前版本:v2.7.5(虾壳云版) ✨核心优势:全程可视化操作,不用命令行、不用手动配置 Python/Node…...

VideoDownloadHelper终极指南:解锁浏览器视频下载的完整解决方案

VideoDownloadHelper终极指南:解锁浏览器视频下载的完整解决方案 【免费下载链接】VideoDownloadHelper Chrome Extension to Help Download Video for Some Video Sites. 项目地址: https://gitcode.com/gh_mirrors/vi/VideoDownloadHelper 还在为无法保存网…...

3步搞定B站缓存视频转换:m4s转MP4的终极解决方案

3步搞定B站缓存视频转换:m4s转MP4的终极解决方案 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经在B站缓存了珍贵的视频&a…...

服务器数据下载安全:实时加密与动态访问控制实战

1. 这不是又一个“加个密码”的方案,而是服务器数据流动的实时安检闸机IP-guard安全网关——这个名字在企业IT运维圈里,常被误读为“桌面端U盘管控工具”或“员工上网行为审计系统”。但真正用过它来守服务器的人,会立刻意识到:它…...