当前位置: 首页 > article >正文

大模型 Agent 的“记忆”,到底应该怎么设计?

本文解读的是论文 《Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework》这篇论文讨论的不是“让模型上下文窗口继续变长”这么简单的问题而是试图回答一个更接近 Agent 落地的核心问题当大模型需要跨多轮对话、跨会话任务、长期用户偏好、动态事实更新和复杂时间推理时系统应该怎样把历史信息存下来、改好、放对位置并在需要时以低成本检索回来。论文的主要贡献是把现有 Agent Memory 方法统一拆成四个模块并在 LOCOMO 和 LONGMEMEVAL 两个长程对话记忆 benchmark 上系统比较代表性方法同时基于实验发现组合出一个新的高性能、低成本记忆框架。论文 Figure 1朴素长上下文提示与记忆增强提示的对比。从论文 Figure 1 可以看到作者真正想强调的是长上下文并不等价于好记忆因为朴素做法会把完整 message history 和当前 query 一起塞进 prompt随着历史变长这种做法会迅速变得 token 密集、高延迟且不可靠相比之下memory-augmented prompting 会在当前 query 到来时先通过 memory system 找到相关信息再把精简后的 evidence 提供给 LLM因此它的目标不是“什么都记住”而是“在正确时刻拿回正确历史”。Agent Memory 统一框架的四个模块。一、这篇论文为什么重要在过去很长一段时间里Agent 记忆系统往往是各做各的MemGPT 更像把 LLM 当作操作系统让模型主动管理记忆Mem0 更强调生产级长期记忆与动态更新Zep 用时间知识图谱组织实体和关系MemTree 把对话组织成树状层级结构MemoryOS 则把记忆分成短期、中期和长期层级。问题在于这些方法在论文中通常只报告整体性能而很少回答一个更细的问题究竟是信息抽取得好还是管理策略有效还是存储结构合理还是检索机制起了决定性作用。本文的价值就在于它把这些方法拆解到同一张架构图里比较使我们不再只能说“某个方法分数更高”而是能够进一步讨论“为什么它更高以及代价是什么”。图片论文 Figure 2Agent Memory 的统一框架。论文给出的统一框架包括四个阶段第一是 Information Extraction负责从当前消息中提取值得写入记忆的信息第二是 Memory Management负责把新信息和旧记忆进行连接、整合、迁移、更新和过滤第三是 Memory Storage负责决定记忆以扁平、层级、向量、图或树等形式存储第四是 Information Retrieval负责在新问题到来时从记忆中找到最相关内容。这个拆法非常适合工程实践因为它把“记忆系统”从一个玄学概念变成了四个可以单独优化、单独替换、单独评测的模块。二、信息抽取记忆系统首先要决定“什么值得记”论文把信息抽取分成三种典型方式最简单的是 direct archiving也就是直接保存原始消息和时间戳更抽象的是 summarization-based extraction通过 LLM 把对话压缩成摘要、关键词和标签更结构化的是 graph-based extraction把对话中的实体关系抽成 subject-predicate-object 三元组并配合时间元数据支持图谱构建和动态更新。图片论文 Figure 4三类信息抽取方式分别对应原文归档、摘要抽取和图谱抽取。这里最容易被误解的一点是结构化并不总是更好因为图谱三元组可以提升组织性和可解释性却也可能在抽取阶段丢掉语境、语气、约束条件和隐含信息论文后续实验中也多次暗示保留原始对话片段对于最终回答很重要尤其当问题需要细节、跨轮推理或上下文还原时只靠摘要或三元组很容易造成语义损失。三、记忆管理真正难的不是存储而是长期维护如果说信息抽取解决的是“写什么”那么记忆管理解决的是“写进去以后怎么办”。论文把记忆管理总结为五类操作连接相关经验、整合碎片记忆、把低层级记忆迁移为高层级记忆、更新已有记忆以及过滤过时或低价值信息。这个部分特别重要因为 Agent 的长期记忆不是静态知识库而是一个会不断被新对话修改、冲突、覆盖和强化的动态系统。图片论文 Figure 5记忆管理流程包括连接、整合、迁移、更新和过滤。论文在 Figure 5 中把 memory management 类比成人类记忆生命周期相关经历会被连接起来零散事件会被抽象成更高层总结短期记忆会在某些条件下迁移到长期存储旧信息会根据新事实被修订低频、过时或重复信息会被过滤掉。这个类比虽然直观但在工程实现中非常困难因为不同方法采用了不同更新范式例如 MemoryBank 使用遗忘曲线式的规则更新Zep 和 MemTree 使用 LLM 进行合并或冲突解决而 MemGPT 和 MemOS 则更偏 agent-based updating让模型自己决定调用什么记忆操作。四、存储与检索向量库不是全部层级结构和图结构同样关键在存储层面论文将方法区分为两个维度一个维度是组织方式也就是扁平存储还是层级存储另一个维度是表示方式也就是向量、图、树或者混合结构。扁平存储实现简单但随着记忆增长容易变成一堆难以维护的记录层级存储可以把短期、中期、长期记忆分开让不同层级承担不同职责图结构适合表达实体关系和多跳路径树结构则适合把大量对话压缩成多粒度摘要使上层节点保留概念结构下层节点保留细节内容。检索层面论文区分了四类方法lexical-based retrieval 依赖关键词和 BM25 等表层匹配vector-based retrieval 依赖 embedding 空间的语义相似度structure-based retrieval 依赖图遍历或树结构扩展LLM-assisted retrieval 则让 LLM 参与 query 改写、实体识别或候选筛选。这里的一个重要启发是长期记忆检索并不应该固定为“embedding top-k”因为不同问题需要不同粒度的检索路径例如姓名、日期和特定短语可能更适合关键词而多跳关系、时间演化和冲突事实则更需要结构化检索或专门的时间处理机制。五、实验设置作者到底比较了什么论文选取了 10 个代表性 Agent Memory 方法包括 A-MEM、MemoryBank、MemGPT、Mem0、Mem0g、MemoChat、Zep、MemTree、MemoryOS 和 MemOS并在两个长程对话记忆 benchmark 上评估它们。LOCOMO 更偏两个人类用户之间的长期对话问答问题类型包括单跳检索、多跳检索、时间推理和开放域知识LONGMEMEVAL 更偏用户与 AI 助手之间的长期交互记忆问题覆盖信息抽取、多会话推理、知识更新和时间推理。评价指标主要使用 F1 和 BLEU-1同时还分析 token cost、上下文扩展性、证据位置敏感性和 backbone 依赖。图片论文 Figure 6LOCOMO 上性能与 token 成本的权衡关系。Figure 6 很适合作为读这篇论文的分水岭因为它展示了一个很现实的事实高性能往往伴随高 token 开销但架构设计会显著改变“花钱是否值得”。MemTree 和 MemOS 的性能较强但 token 成本也高MemoryOS 在性能和成本之间更加均衡MemoChat 和 MemoryBank 成本很低却难以达到足够准确率。这说明 Agent Memory 的工程目标并不是单纯追求最高 F1而是在准确率、延迟、上下文长度、写入成本和检索稳定性之间找到合适平衡。六、总体结果层级化、连接关系和原始信息保留是高性能记忆的关键从 LONGMEMEVAL 和 LOCOMO 的总体结果看树形或层级化方法普遍更强例如 MemTree、MemOS、MemoryOS 和 Zep 都体现出较强竞争力。作者认为这类结构的优势在于它们可以同时保存高层抽象和底层细节上层节点帮助模型快速定位主题下层节点帮助模型还原原始事实因此比单纯扁平向量库更适合长期、多粒度、多会话的记忆任务。图片论文 Figure 8上下文扩展性与证据位置敏感性分析。Figure 8 展示了两个非常关键的鲁棒性现象。第一当 LONGMEMEVAL 的上下文规模从 50% 扩展到 200% 时大多数方法的 F1 会下降说明长期记忆的难点不仅是“能不能召回”更是“在更多无关信息中能不能抗噪声”。第二当 ground-truth evidence 被放在 early、middle、late 不同位置时多数方法对晚近信息更友好也就是说它们存在明显的 recency bias这对真实 Agent 很重要因为用户早期说过的偏好、约束或身份信息可能在很久以后仍然有效但如果系统总是偏向最近几轮就会造成长期个性化失真。图片论文 Figure 9不同任务类别在上下文扩展下的表现变化。Figure 9 进一步说明不同任务对上下文扩展的敏感性并不一样。Knowledge Updates 特别容易受影响因为随着记忆规模增长旧事实、新事实、相似事实和冲突事实会同时出现模型必须判断哪个版本是最新的相比之下Temporal Reasoning 在某些方法中相对稳定因为它依赖事件相对顺序而不是在多个互斥事实之间选择最新版本。这个发现提示我们未来记忆系统很可能需要为“动态事实更新”和“时间推理”设计专门组件而不能只靠通用 embedding 检索。七、新方法把树结构、层级存储和低成本写入组合起来论文最有意思的部分之一是作者并没有停留在评测已有方法而是根据实验观察设计了一个新的记忆框架。这个方法把 MemoryOS 的短期、中期、长期分层思想与 MemTree、MemOS 的树形组织思想结合起来新消息先进入短期 FIFO 队列当短期记忆超过容量后旧消息会按语义相似性切成 segment 并迁移到中期记忆树中叶子节点表示片段摘要父节点表示聚合摘要而访问频率和新近性较高的 segment 会根据 heat score 被提升到长期记忆。图片论文 Figure 11作者提出的新记忆框架。这个新框架的核心不是发明一个全新模块而是把论文前面总结出的经验系统地拼起来短期层保证最近上下文连续性中期树保证多粒度组织长期层保证高价值信息沉淀segment-level 处理则避免逐轮写入带来的高 token 成本。检索时系统会分别从短期、中期和长期记忆中取信息中期记忆还结合 flat vector search 和 tree beam search使模型既能检索高层摘要也能沿树结构找到更细粒度原始消息。图片论文 Figure 10新方法在平均 token 成本上的对比。Figure 10 的重点在于新方法不是单纯靠堆 token 得到高分而是在保持低于 450 tokens 每轮对话平均开销的情况下取得非常强的整体表现。论文在 Table 7 和 Table 8 中显示新方法在 LONGMEMEVAL 和 LOCOMO 上都取得最佳或接近最佳整体 F1并且在 Qwen2.5-7B/72B 等不同 backbone 下保持竞争力这说明合理的记忆架构可以在一定程度上降低对超大 backbone 推理能力的依赖。图片论文 Table 7/8新方法在 LONGMEMEVAL 和 LOCOMO 上的结果。八、这篇论文给 Agent 记忆系统的五条启发第一层级化通常比扁平化更适合长期记忆因为 Agent 既需要高层主题压缩也需要底层原始证据而单层向量库很难同时满足这两个目标。第二原始对话上下文不能被过早丢弃因为摘要和三元组提高了组织性却可能损失语义细节。第三处理粒度决定成本按 segment 而不是逐轮消息写入往往能显著降低 token 消耗。第四记忆更新不应过度依赖破坏式覆盖因为动态重写容易造成旧证据丢失和新近偏置。第五检索策略应当具有路由能力因为不同问题需要关键词、向量、结构遍历或 LLM 辅助检索的不同组合而固定 top-k 很难覆盖所有任务。结语Agent 时代的记忆不是“更长上下文”而是“可维护的长期状态”如果用一句话概括这篇论文它真正提出的是一种从“长上下文崇拜”转向“长期状态管理”的思维方式。对于普通聊天机器人而言把更多历史塞进上下文也许暂时可行但对于长期运行的 Agent、企业助手、科研助手、编程助手和个人助理来说历史信息会持续增长、事实会不断变化、用户偏好会长期存在、旧信息与新信息会发生冲突因此系统必须具备抽取、管理、存储和检索的完整闭环。本文的意义就在于它把 Agent Memory 变成了一个可比较、可诊断、可组合的系统工程问题而不是停留在“模型是否记得住”的抽象讨论上。学习资源推荐如果你想更深入地学习大模型以下是一些非常有价值的学习资源这些资源将帮助你从不同角度学习大模型提升你的实践能力。一、全套AGI大模型学习路线AI大模型时代的学习之旅从基础到前沿掌握人工智能的核心技能​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取二、640套AI大模型报告合集这套包含640份报告的合集涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师还是对AI大模型感兴趣的爱好者这套报告合集都将为您提供宝贵的信息和启示​因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取三、AI大模型经典PDF籍随着人工智能技术的飞速发展AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型如GPT-3、BERT、XLNet等以其强大的语言理解和生成能力正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。因篇幅有限仅展示部分资料需要点击文章最下方名片即可前往获取四、AI大模型商业化落地方案作为普通人入局大模型时代需要持续学习和实践不断提高自己的技能和认知水平同时也需要有责任感和伦理意识为人工智能的健康发展贡献力量。

相关文章:

大模型 Agent 的“记忆”,到底应该怎么设计?

本文解读的是论文 《Memory in the LLM Era: Modular Architectures and Strategies in a Unified Framework》,这篇论文讨论的不是“让模型上下文窗口继续变长”这么简单的问题,而是试图回答一个更接近 Agent 落地的核心问题:当大模型需要跨…...

【VS Code Dev Containers 成本优化白皮书】:20年云原生架构师亲授5大可落地的资源节流策略

更多请点击: https://intelliparadigm.com 第一章:Dev Containers 成本优化的底层逻辑与价值认知 Dev Containers 并非仅是开发环境的“容器化封装”,其核心成本优化逻辑植根于资源隔离粒度、生命周期可控性与基础设施复用率三重机制。传统虚…...

泛微OA中如何实现,将选中的明细行数据内容,传送给其他系统或是单独存放

前言 近期有个需求:用户提出,他们需要在当前节点去勾选对应明细行的内容,然后将这个明细行里面的最新数据更新到SAP中,能做到一个实时更新的效果 这个需求也就相当于是用户想做到一个能实时更新的一个效果,但是因为泛微OA一些基础的数据更新要么靠jsp文件去更新,要么就…...

声定向系统改良设计——大功率集成化声频定向扬声器系统

声定向系统改良设计——大功率集成化声频定向扬声器系统 摘要 声频定向扬声器系统是一种利用超声波在空气中的非线性传播效应产生高指向性可听声的新型声学设备。针对原有系统在输出功率不足、模块分立程度高、系统集成度低等方面存在的问题,本文提出了一套完整的改良设计方…...

2026最新鲁大师 6.2最终绿化版,去除无用功能和广告

鲁大师 绿化版自用下载 链接: https://pan.xunlei.com/s/VOrMu1Sz2gRGgHFQ21z21-dOA1?pwdrnr3# 本次优化版本实现了多项改进:一是完整精简了功能区里的“工具市场”,点击该菜单不会出现错误提示或导致软件闪退;二是恢复了此前被精简的“驱…...

跟着 MDN 学 HTML day_1:(全套原生Input+表单结构拆解)

很多前端新手写表单只会瞎堆输入框,分不清标签作用、不会规范分组、不懂提交底层逻辑,写出来的表单杂乱无章,对接后端直接失效。 今天严格对标MDN 官方HTML表单入门全规范,结合实操源码,把完整表单拆成模块化区块&…...

005、位置、速度、加速度与加加速度

005 位置、速度、加速度与加加速度 从一次电机“鬼畜”说起 去年调试一台六轴协作机器人,末端执行器走一个简单的S形轨迹。上位机发的位置指令看着很平滑,但电机跑起来就像得了帕金森——高频抖动,偶尔还“咯噔”一下。示波器抓编码器反馈,位置曲线确实光滑,但速度曲线像…...

ADLINK Alder Lake-H COM模块技术解析与工业应用

1. ADLINK基于Alder Lake-H的COM模块技术解析在嵌入式系统领域,COM(Computer-on-Module)技术一直是实现高性能、标准化设计的关键方案。最近ADLINK推出的Express-ADP(COM Express Type 6)和COM-HPC-cADP(CO…...

【C++27安全红线】:3类已被标记为deprecated的异常传播模式(含std::exception_ptr隐式转换),9月30日前必须迁移!

更多请点击: https://intelliparadigm.com 第一章:C27异常处理安全增强的演进背景与强制迁移动因 C27 将首次引入 noexcept 语义的静态可验证性强化机制,其核心动因源于现代系统软件对异常路径侧信道攻击(如 stack-unwinding tim…...

SeqTrack模型专题全面调研

SeqTrack 目标跟踪算法的配置文件,命名规则:seqtrack:模型名称,指的是 SeqTrack(Sequence Tracking),一种基于序列建模的目标跟踪算法。b / l:代表模型的 Backbone(主干网…...

别再让多线程搞乱你的计数器!手把手教你用Linux内核atomic_t实现线程安全(附完整代码)

多线程计数器的救星:Linux内核atomic_t实战指南 在开发Linux内核模块或驱动时,你是否遇到过这样的场景:多个中断处理程序或内核线程需要同时访问同一个计数器变量,而简单的int类型变量会导致数据竞争?传统的解决方案可…...

从浪潮服务器到VMware虚拟机:一份通用的Ubuntu 20.04 Netplan静态IP配置避坑手册

从物理服务器到虚拟化平台:Ubuntu 20.04 Netplan静态IP配置全场景指南 当你需要在不同硬件环境中部署Ubuntu 20.04时,网络配置往往是第一个需要跨越的技术门槛。无论是浪潮、戴尔等品牌服务器,还是VMware、VirtualBox等虚拟化平台&#xff0c…...

vector 核心接口和模拟实现

std::vector 是 C STL 最常用的动态数组,底层是连续内存,支持动态扩容、随机访问。下面先梳理核心接口,再用 C 手写模拟实现(底层原理 完整代码)。一、vector 核心接口(常用)1. 构造与析构cpp运…...

全志D1s RISC-V开发板:十美元Linux方案解析

1. 开源硬件新选择:基于全志D1s RISC-V的十美元Linux开发板最近在开源硬件圈出现了一个有趣的新玩具——Xassette-Asterisk开发板。这块采用全志D1s RISC-V处理器的小板子最吸引人的地方在于其惊人的性价比:整套BOM成本可以控制在10美元以内。作为对比&a…...

白帽子为什么几乎都绕不开 httpx:一款 HTTP 资产探测工具的技术价值

1 安装与初始化 # 全局安装 OpenSpec npm install -g fission-ai/openspeclatest # 在项目目录下初始化 cd /path/to/your-project openspec init 初始化时,OpenSpec 会提示你选择使用的 AI 工具(Claude Code、Cursor、Trae、Qoder 等)。 3 O…...

【附Python源码】基于MLP的波士顿房价预测

【附Python源码】基于MLP的波士顿房价预测 房价预测作为机器学习领域的经典入门问题,其价值不仅在于算法本身,更在于完整建模流程的掌握。 本项目将基于Boston Housing数据集,详细介绍如何使用PyTorch构建一个多层神经网络回归模型&#xf…...

2026年网红开会语音转文字app多维度实测对比,全面PK后,差距竟然这么大

作为做了5年的互联网HR,上个月赶上校招集中面试加季度OKR面谈,手机里堆了快20小时的录音,原来手动整理天天加班到八九点,痛定思痛把市面上火的几款网红语音转文字app全测了一遍。对比了多款工具,听脑AI是综合体验最好的…...

从SATA到PCIe 4.0:一文看懂SSD速度进化史,你的老硬盘到底慢在哪?

从SATA到PCIe 4.0:存储技术的速度革命与底层逻辑 当你在2023年组装一台新电脑时,打开电商网站的SSD页面会看到令人眼花缭乱的参数:SATA III、M.2 NVMe、PCIe 3.04、PCIe 4.04...这些术语背后是存储技术近20年的进化史。理解这场速度革命的关键…...

焦虑冷核聚变:软件测试从业者的技术焦虑与突破之道

在软件测试领域,技术迭代的浪潮从未如此汹涌。AI驱动的自动化工具、云原生架构的普及,以及低代码平台的崛起,正以周甚至天为单位重塑测试流程。这种高速演进催生了一种独特的职业焦虑——我们称之为“焦虑冷核聚变”。正如冷核聚变曾被视为科…...

Kubernetes集群基石:保姆级Containerd配置与CNI网络插件集成指南(含一键脚本)

Kubernetes集群基石:保姆级Containerd配置与CNI网络插件集成指南 1. 为什么选择Containerd作为Kubernetes容器运行时? 在构建生产级Kubernetes集群时,容器运行时的选择直接影响集群的稳定性和性能。作为CNCF毕业项目,Containerd以…...

数据光合作用:软件测试从业者的专业视角

在碳中和时代,数据光合作用作为一种创新计算模式,正迅速崛起。它将植物光合作用过程转化为可量化、可分析的数据流,驱动AI模型和能源系统。对于软件测试从业者而言,这一领域带来了前所未有的挑战:如何确保生物数据采集…...

睡眠编译优化:软件测试从业者的专业效能提升指南

在软件测试领域,效率与精准度是核心追求。测试脚本的冗余、环境资源的浪费以及人为失误常导致测试周期延长与质量波动。本文创新性地将编译优化技术与睡眠科学相融合,提出“睡眠编译优化”框架。通过类比编译原理中的优化策略(如常量折叠、循…...

小米 MiMo‑V2.5 系列开源,正式入驻 AtomGit!旗舰模型完成全球多家主流芯⽚⼚商深度适配

近日,Xiaomi MiMo-V2.5 系列大模型全量开源并入驻 AtomGit AI,以开放协议、全模态能力、百万上下文窗口,与全球开发者共建 Agent 生态。 模型开源地址: MiMo-V2.5:https://ai.atomgit.com/XiaomiMiMo/MiMo-V2.5 MiMo-…...

Tidyverse 2.0报告流水线崩溃了?3分钟定位dplyr::across()与purrr::map()兼容性断点(含vscode调试配置)

更多请点击: https://intelliparadigm.com 第一章:Tidyverse 2.0报告流水线崩溃的典型现象与影响评估 常见崩溃表征 Tidyverse 2.0 升级后,基于 rmarkdown quarto 的自动化报告流水线常在渲染阶段突然中断,表现为 R 进程静默退…...

长护险护理员实践心得:一年坚守,在专业与陪伴中成长

作为一名长护险护理员,我(杨菊萍)已从事这份工作一年多。在这一年多的实践中,我从青涩到熟练,从懵懂到坚定,不仅提升了专业技能,更读懂了这份职业的意义与价值,现将我的工作心得分享…...

2026年值得关注的10个中国开源项目

2024年值得关注的10个中国开源项目 开源技术正成为全球创新的重要驱动力,中国在这一领域的贡献日益显著。2024年,一批优秀的中国开源项目崭露头角,涵盖人工智能、云计算、数据库、开发工具等多个领域。这些项目不仅技术领先,还具…...

手把手复现NNLM(一):用PyTorch从零搭建投影层,理解‘查表’就是矩阵乘法

手把手复现NNLM(一):用PyTorch从零搭建投影层,理解‘查表’就是矩阵乘法 在自然语言处理领域,神经网络语言模型(NNLM)是一个里程碑式的模型,它不仅开创了用神经网络处理语言任务的先…...

Windows 系统上手动安装 Ubuntu 22.04 到 WSL

第 1 步:下载 Ubuntu 安装包 打开https://cloud-images.ubuntu.com/wsl/jammy/current,下载ubuntu-jammy-wsl-amd64-wsl.rootfs.tar.gz 第 2 步:创建存放目录 # 创建 Ubuntu 的安装目录 mkdir E:\WSL\Ubuntu 第 3 步:导入到 WSL…...

2026年AI论文写作辅助工具排名榜单(最近更新)

结合综合性能、学术场景适配、用户口碑、功能完整性四大核心维度,2026年主流AI论文写作工具综合排名正式发布,按推荐指数从高到低排序,明确各工具优势与适用场景。第一梯队:全流程学术解决方案(★★★★★)…...

MOMPnet:深度展开框架在MIMO稀疏恢复中的应用

1. MOMPnet:高维MIMO稀疏恢复的深度展开框架解析在毫米波大规模MIMO系统中,信道估计和用户定位面临着两个核心挑战:传统稀疏恢复方法对硬件损伤敏感,而纯数据驱动的机器学习方法又缺乏可解释性。MOMPnet通过深度展开技术将多维正交…...