当前位置：首页 > article >正文

大模型 Agent 的“记忆”，到底应该怎么设计？

article 2026/4/30 7:11:48

本文解读的是论文《Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework》这篇论文讨论的不是“让模型上下文窗口继续变长”这么简单的问题而是试图回答一个更接近 Agent 落地的核心问题当大模型需要跨多轮对话、跨会话任务、长期用户偏好、动态事实更新和复杂时间推理时系统应该怎样把历史信息存下来、改好、放对位置并在需要时以低成本检索回来。论文的主要贡献是把现有 Agent Memory 方法统一拆成四个模块并在 LOCOMO 和 LONGMEMEVAL 两个长程对话记忆 benchmark 上系统比较代表性方法同时基于实验发现组合出一个新的高性能、低成本记忆框架。论文 Figure 1朴素长上下文提示与记忆增强提示的对比。从论文 Figure 1 可以看到作者真正想强调的是长上下文并不等价于好记忆因为朴素做法会把完整 message history 和当前 query 一起塞进 prompt随着历史变长这种做法会迅速变得 token 密集、高延迟且不可靠相比之下memory-augmented prompting 会在当前 query 到来时先通过 memory system 找到相关信息再把精简后的 evidence 提供给 LLM因此它的目标不是“什么都记住”而是“在正确时刻拿回正确历史”。Agent Memory 统一框架的四个模块。一、这篇论文为什么重要在过去很长一段时间里Agent 记忆系统往往是各做各的MemGPT 更像把 LLM 当作操作系统让模型主动管理记忆Mem0 更强调生产级长期记忆与动态更新Zep 用时间知识图谱组织实体和关系MemTree 把对话组织成树状层级结构MemoryOS 则把记忆分成短期、中期和长期层级。问题在于这些方法在论文中通常只报告整体性能而很少回答一个更细的问题究竟是信息抽取得好还是管理策略有效还是存储结构合理还是检索机制起了决定性作用。本文的价值就在于它把这些方法拆解到同一张架构图里比较使我们不再只能说“某个方法分数更高”而是能够进一步讨论“为什么它更高以及代价是什么”。图片论文 Figure 2Agent Memory 的统一框架。论文给出的统一框架包括四个阶段第一是 Information Extraction负责从当前消息中提取值得写入记忆的信息第二是 Memory Management负责把新信息和旧记忆进行连接、整合、迁移、更新和过滤第三是 Memory Storage负责决定记忆以扁平、层级、向量、图或树等形式存储第四是 Information Retrieval负责在新问题到来时从记忆中找到最相关内容。这个拆法非常适合工程实践因为它把“记忆系统”从一个玄学概念变成了四个可以单独优化、单独替换、单独评测的模块。二、信息抽取记忆系统首先要决定“什么值得记”论文把信息抽取分成三种典型方式最简单的是 direct archiving也就是直接保存原始消息和时间戳更抽象的是 summarization-based extraction通过 LLM 把对话压缩成摘要、关键词和标签更结构化的是 graph-based extraction把对话中的实体关系抽成 subject-predicate-object 三元组并配合时间元数据支持图谱构建和动态更新。图片论文 Figure 4三类信息抽取方式分别对应原文归档、摘要抽取和图谱抽取。这里最容易被误解的一点是结构化并不总是更好因为图谱三元组可以提升组织性和可解释性却也可能在抽取阶段丢掉语境、语气、约束条件和隐含信息论文后续实验中也多次暗示保留原始对话片段对于最终回答很重要尤其当问题需要细节、跨轮推理或上下文还原时只靠摘要或三元组很容易造成语义损失。三、记忆管理真正难的不是存储而是长期维护如果说信息抽取解决的是“写什么”那么记忆管理解决的是“写进去以后怎么办”。论文把记忆管理总结为五类操作连接相关经验、整合碎片记忆、把低层级记忆迁移为高层级记忆、更新已有记忆以及过滤过时或低价值信息。这个部分特别重要因为 Agent 的长期记忆不是静态知识库而是一个会不断被新对话修改、冲突、覆盖和强化的动态系统。图片论文 Figure 5记忆管理流程包括连接、整合、迁移、更新和过滤。论文在 Figure 5 中把 memory management 类比成人类记忆生命周期相关经历会被连接起来零散事件会被抽象成更高层总结短期记忆会在某些条件下迁移到长期存储旧信息会根据新事实被修订低频、过时或重复信息会被过滤掉。这个类比虽然直观但在工程实现中非常困难因为不同方法采用了不同更新范式例如 MemoryBank 使用遗忘曲线式的规则更新Zep 和 MemTree 使用 LLM 进行合并或冲突解决而 MemGPT 和 MemOS 则更偏 agent-based updating让模型自己决定调用什么记忆操作。四、存储与检索向量库不是全部层级结构和图结构同样关键在存储层面论文将方法区分为两个维度一个维度是组织方式也就是扁平存储还是层级存储另一个维度是表示方式也就是向量、图、树或者混合结构。扁平存储实现简单但随着记忆增长容易变成一堆难以维护的记录层级存储可以把短期、中期、长期记忆分开让不同层级承担不同职责图结构适合表达实体关系和多跳路径树结构则适合把大量对话压缩成多粒度摘要使上层节点保留概念结构下层节点保留细节内容。检索层面论文区分了四类方法lexical-based retrieval 依赖关键词和 BM25 等表层匹配vector-based retrieval 依赖 embedding 空间的语义相似度structure-based retrieval 依赖图遍历或树结构扩展LLM-assisted retrieval 则让 LLM 参与 query 改写、实体识别或候选筛选。这里的一个重要启发是长期记忆检索并不应该固定为“embedding top-k”因为不同问题需要不同粒度的检索路径例如姓名、日期和特定短语可能更适合关键词而多跳关系、时间演化和冲突事实则更需要结构化检索或专门的时间处理机制。五、实验设置作者到底比较了什么论文选取了 10 个代表性 Agent Memory 方法包括 A-MEM、MemoryBank、MemGPT、Mem0、Mem0g、MemoChat、Zep、MemTree、MemoryOS 和 MemOS并在两个长程对话记忆 benchmark 上评估它们。LOCOMO 更偏两个人类用户之间的长期对话问答问题类型包括单跳检索、多跳检索、时间推理和开放域知识LONGMEMEVAL 更偏用户与 AI 助手之间的长期交互记忆问题覆盖信息抽取、多会话推理、知识更新和时间推理。评价指标主要使用 F1 和 BLEU-1同时还分析 token cost、上下文扩展性、证据位置敏感性和 backbone 依赖。图片论文 Figure 6LOCOMO 上性能与 token 成本的权衡关系。Figure 6 很适合作为读这篇论文的分水岭因为它展示了一个很现实的事实高性能往往伴随高 token 开销但架构设计会显著改变“花钱是否值得”。MemTree 和 MemOS 的性能较强但 token 成本也高MemoryOS 在性能和成本之间更加均衡MemoChat 和 MemoryBank 成本很低却难以达到足够准确率。这说明 Agent Memory 的工程目标并不是单纯追求最高 F1而是在准确率、延迟、上下文长度、写入成本和检索稳定性之间找到合适平衡。六、总体结果层级化、连接关系和原始信息保留是高性能记忆的关键从 LONGMEMEVAL 和 LOCOMO 的总体结果看树形或层级化方法普遍更强例如 MemTree、MemOS、MemoryOS 和 Zep 都体现出较强竞争力。作者认为这类结构的优势在于它们可以同时保存高层抽象和底层细节上层节点帮助模型快速定位主题下层节点帮助模型还原原始事实因此比单纯扁平向量库更适合长期、多粒度、多会话的记忆任务。图片论文 Figure 8上下文扩展性与证据位置敏感性分析。Figure 8 展示了两个非常关键的鲁棒性现象。第一当 LONGMEMEVAL 的上下文规模从 50% 扩展到 200% 时大多数方法的 F1 会下降说明长期记忆的难点不仅是“能不能召回”更是“在更多无关信息中能不能抗噪声”。第二当 ground-truth evidence 被放在 early、middle、late 不同位置时多数方法对晚近信息更友好也就是说它们存在明显的 recency bias这对真实 Agent 很重要因为用户早期说过的偏好、约束或身份信息可能在很久以后仍然有效但如果系统总是偏向最近几轮就会造成长期个性化失真。图片论文 Figure 9不同任务类别在上下文扩展下的表现变化。Figure 9 进一步说明不同任务对上下文扩展的敏感性并不一样。Knowledge Updates 特别容易受影响因为随着记忆规模增长旧事实、新事实、相似事实和冲突事实会同时出现模型必须判断哪个版本是最新的相比之下Temporal Reasoning 在某些方法中相对稳定因为它依赖事件相对顺序而不是在多个互斥事实之间选择最新版本。这个发现提示我们未来记忆系统很可能需要为“动态事实更新”和“时间推理”设计专门组件而不能只靠通用 embedding 检索。七、新方法把树结构、层级存储和低成本写入组合起来论文最有意思的部分之一是作者并没有停留在评测已有方法而是根据实验观察设计了一个新的记忆框架。这个方法把 MemoryOS 的短期、中期、长期分层思想与 MemTree、MemOS 的树形组织思想结合起来新消息先进入短期 FIFO 队列当短期记忆超过容量后旧消息会按语义相似性切成 segment 并迁移到中期记忆树中叶子节点表示片段摘要父节点表示聚合摘要而访问频率和新近性较高的 segment 会根据 heat score 被提升到长期记忆。图片论文 Figure 11作者提出的新记忆框架。这个新框架的核心不是发明一个全新模块而是把论文前面总结出的经验系统地拼起来短期层保证最近上下文连续性中期树保证多粒度组织长期层保证高价值信息沉淀segment-level 处理则避免逐轮写入带来的高 token 成本。检索时系统会分别从短期、中期和长期记忆中取信息中期记忆还结合 flat vector search 和 tree beam search使模型既能检索高层摘要也能沿树结构找到更细粒度原始消息。图片论文 Figure 10新方法在平均 token 成本上的对比。Figure 10 的重点在于新方法不是单纯靠堆 token 得到高分而是在保持低于 450 tokens 每轮对话平均开销的情况下取得非常强的整体表现。论文在 Table 7 和 Table 8 中显示新方法在 LONGMEMEVAL 和 LOCOMO 上都取得最佳或接近最佳整体 F1并且在 Qwen2.5-7B/72B 等不同 backbone 下保持竞争力这说明合理的记忆架构可以在一定程度上降低对超大 backbone 推理能力的依赖。图片论文 Table 7/8新方法在 LONGMEMEVAL 和 LOCOMO 上的结果。八、这篇论文给 Agent 记忆系统的五条启发第一层级化通常比扁平化更适合长期记忆因为 Agent 既需要高层主题压缩也需要底层原始证据而单层向量库很难同时满足这两个目标。第二原始对话上下文不能被过早丢弃因为摘要和三元组提高了组织性却可能损失语义细节。第三处理粒度决定成本按 segment 而不是逐轮消息写入往往能显著降低 token 消耗。第四记忆更新不应过度依赖破坏式覆盖因为动态重写容易造成旧证据丢失和新近偏置。第五检索策略应当具有路由能力因为不同问题需要关键词、向量、结构遍历或 LLM 辅助检索的不同组合而固定 top-k 很难覆盖所有任务。结语Agent 时代的记忆不是“更长上下文”而是“可维护的长期状态”如果用一句话概括这篇论文它真正提出的是一种从“长上下文崇拜”转向“长期状态管理”的思维方式。对于普通聊天机器人而言把更多历史塞进上下文也许暂时可行但对于长期运行的 Agent、企业助手、科研助手、编程助手和个人助理来说历史信息会持续增长、事实会不断变化、用户偏好会长期存在、旧信息与新信息会发生冲突因此系统必须具备抽取、管理、存储和检索的完整闭环。本文的意义就在于它把 Agent Memory 变成了一个可比较、可诊断、可组合的系统工程问题而不是停留在“模型是否记得住”的抽象讨论上。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

大模型 Agent 的“记忆”，到底应该怎么设计？

相关文章：

大模型 Agent 的“记忆”，到底应该怎么设计？

【VS Code Dev Containers 成本优化白皮书】：20年云原生架构师亲授5大可落地的资源节流策略

泛微OA中如何实现，将选中的明细行数据内容，传送给其他系统或是单独存放

声定向系统改良设计——大功率集成化声频定向扬声器系统

2026最新鲁大师 6.2最终绿化版，去除无用功能和广告

跟着 MDN 学 HTML day_1：(全套原生Input+表单结构拆解)

005、位置、速度、加速度与加加速度

ADLINK Alder Lake-H COM模块技术解析与工业应用

【C++27安全红线】：3类已被标记为deprecated的异常传播模式（含std::exception_ptr隐式转换），9月30日前必须迁移！

SeqTrack模型专题全面调研

别再让多线程搞乱你的计数器！手把手教你用Linux内核atomic_t实现线程安全（附完整代码）

从浪潮服务器到VMware虚拟机：一份通用的Ubuntu 20.04 Netplan静态IP配置避坑手册

vector 核心接口和模拟实现

全志D1s RISC-V开发板：十美元Linux方案解析

白帽子为什么几乎都绕不开 httpx：一款 HTTP 资产探测工具的技术价值

【附Python源码】基于MLP的波士顿房价预测

2026年网红开会语音转文字app多维度实测对比，全面PK后，差距竟然这么大

从SATA到PCIe 4.0：一文看懂SSD速度进化史，你的老硬盘到底慢在哪？

焦虑冷核聚变：软件测试从业者的技术焦虑与突破之道

Kubernetes集群基石：保姆级Containerd配置与CNI网络插件集成指南（含一键脚本）

数据光合作用：软件测试从业者的专业视角

睡眠编译优化：软件测试从业者的专业效能提升指南

小米 MiMo‑V2.5 系列开源，正式入驻 AtomGit！旗舰模型完成全球多家主流芯⽚⼚商深度适配

Tidyverse 2.0报告流水线崩溃了？3分钟定位dplyr::across()与purrr::map()兼容性断点（含vscode调试配置）

长护险护理员实践心得：一年坚守，在专业与陪伴中成长

2026年值得关注的10个中国开源项目

手把手复现NNLM（一）：用PyTorch从零搭建投影层，理解‘查表’就是矩阵乘法

Windows 系统上手动安装 Ubuntu 22.04 到 WSL

2026年AI论文写作辅助工具排名榜单（最近更新）

MOMPnet：深度展开框架在MIMO稀疏恢复中的应用