当前位置: 首页 > article >正文

大模型记忆体:赋予AI“过目不忘”能力的核心机制(收藏版)

本文深入探讨了大型语言模型LLM记忆体的重要性与设计要素。文章首先定义了大模型记忆的概念从狭义的外部存储到广义的参数记忆阐述了记忆在LLM中的双重作用。接着从认知心理学、自我演进和应用需求三个角度论证了LLM Agent需要记忆的必要性。文章详细分析了记忆模块的设计包括记忆来源内部交互、跨交互历史、外部知识、记忆形式文本/外部记忆与参数记忆以及记忆操作写入、管理、读取。通过介绍Reflexion、MemoryBank、RET-LLM、Generative Agents、MemGPT、ChatDB等代表性记忆机制展示了当前大模型记忆体的多样化设计思路。最后文章以M3-Agent为例探讨了多模态智能体长期记忆机制的最新进展并强调了记忆体在AI落地和产品化过程中的关键作用。引言在人类认知中记忆是智能的基石它使我们能够累积经验、适应变化并做出复杂决策。同样地对于大型语言模型LLMs而言记忆系统在很大程度上决定了它们能否真正实现长期交互、个性化服务和动态知识更新。最近大语言模型在各种领域取得了惊人的成功但传统的基础LLM往往倾向于一次性完成任务并不具备与环境持续交互、自主学习的能力。要让LLM朝着通用人工智能AGI的目标更进一步研究人员开始尝试赋予LLM-Agent基于LLM的自主智能体以“记忆”模块使其能够像智能体一样在环境中不断积累知识、反思经验并在后续决策中调用过去的信息。从本质上讲在大模型时代记忆指的是AI系统保留、回忆并利用过去交互信息以改善未来响应的能力。没有记忆智能体就无法根据历史调整行为就无法在长对话中保持一致更无法实现真正的自主演化。埃利·威塞尔Elie Wiesel 诺贝尔和平奖获得者曾经说过“没有记忆就没有文化。没有记忆就没有文明没有社会没有未来。Without memory, there is no culture. Without memory, there would be no civilization, no society, no future.https://cj.sina.com.cn/articles/view/2096315820/7cf33dac00101bz5k”因此无论是从人类智能启发还是从打造更强大的AI代理出发为LLM构建高效的记忆机制已成为学术界和工业界共同关注的前沿课题。本文将系统介绍大模型记忆体LLM Memory这一研究领域的核心概念和最新进展。我们将首先回答“什么是大模型的记忆”明确关键定义然后讨论“为什么需要记忆”从多角度阐述记忆模块的重要性接着深入分析记忆模块的设计要素记忆的来源、形式和操作并列举当前具有代表性的记忆机制和实现框架最后介绍该领域的评测方法与基准并展望未来的挑战与研究方向。什么是大模型的记忆大模型的记忆通常指LLM代理中用于存储和管理历史信息的模块帮助模型“记住”交互过程中的重要信息以供后续推理使用。从定义上可以分为狭义和广义两种视角狭义的记忆:专指LLM代理在运行过程中建立的、用于保存交互历史的外部存储模块。这部分记忆通常不包含在模型原有参数中而是通过额外的数据结构如文本日志、向量数据库等记录对话内容、环境反馈等信息供代理在需要时检索与调用。换言之狭义记忆是LLM在推理时“外挂”的工作存储器。广义的记忆:除了上述外部存储也包括模型本身参数中所蕴含的知识。LLM经过海量语料训练其参数中隐含了对世界知识的记忆我们称之为参数记忆。与此对应代理运行时维护的外部记录可称为非参数记忆或文本记忆。广义上LLM-Agent的记忆系统应综合考虑模型固有知识和运行时新增信息两者共同构成智能体的完整记忆。需要注意人类的记忆体系常被分为工作记忆短期记忆和长期记忆。同样地在LLM代理中也存在类似划分上下文窗口可被视为模型的即时工作记忆其容量有限且会随对话轮数增长而被新信息冲刷而通过记忆模块存储下来的历史则扮演长期记忆的角色。传统LLM缺乏人类般的记忆体系往往将每次对话视作独立的episode缺乏跨对话的持久记忆关联。因此最新研究提出引入类人工作记忆框架来增强LLM的记忆能力例如引入集中式工作记忆中心Working Memory Hub以及情景缓冲区Episodic Buffer用于在不同对话回合之间保持连续的记忆链条。这种架构试图赋予LLM更持续的上下文连贯性支持复杂任务中的细粒度推理和协作场景。简而言之大模型的记忆模块就是赋予LLM以“过目不忘”的能力——既包括模型训练时内化的长期知识也包括交互过程中即时获取并保存的动态信息。为什么LLM Agent需要记忆赋予LLM代理记忆能力的必要性可以从以下几个角度来理解认知心理学视角人类智能依赖短期记忆与长期记忆共同运作。工作记忆让我们在当前任务中暂存信息长期记忆则让我们保留经验和技能。同理LLM若缺乏类似的记忆模块就无法在长对话或连续任务中保持对先前情境的掌握导致上下文碎片化和推理中断。研究指出传统LLM代理缺乏跨交互情境的记忆深度和连续性难以进行复杂推理。因此引入记忆模块是为了弥补LLM在连续推理方面的先天不足让其具备更接近人类的认知架构。自我演进视角真正智能的Agent应该能够从过去的成功或失败中学习逐步改进自身策略。LLM作为Agent如果没有记忆每次互动都将从零开始无法累积经验。例如Reflexion方法通过让代理将一次任务尝试中的错误记录下来并在后续尝试时反思改进实现了类似人类“试错学习”的能力。又如有些工作允许代理跨对话检索以往任务的细节使其在重复任务时表现出渐进改进。这种跨回合的经验累积正是通过记忆模块实现的。可见记忆赋予LLM代理一定程度的自适应、自主进化能力让其朝着持续学习者的方向发展。应用需求视角在实际应用中许多场景都要求AI具有长久记忆和个性化能力。例如作为个人助理的LLM需要记住用户提供的个人信息、历史喜好以便提供贴心定制的服务在角色扮演和社交模拟中智能体需要记忆过去的互动以维持人设、一贯的性格特点在开放世界游戏中智能体要牢记已探索的区域、完成的任务和NPC关系等以合理推进剧情。没有记忆这些场景下LLM的表现将非常有限甚至无法使用。此外对于代码助手、推荐系统等需要反复迭代的任务记忆历史上下文能够提升响应的连贯性和正确性。正如一篇综述所言记忆模块在强化LLM代理的长期交互能力、个性化服务以及动态知识更新方面起关键作用。“记忆”使LLM代理真正成为“Agent”而非一次性回答机。正因为如此人们将记忆模块视为LLM-Agent区别于原始LLM的标志性组件。有研究统计截至2025年约85%的AI产品已集成某种形式的记忆管理机制可见业界对这一能力的重视程度。大模型记忆模块的设计来源、形式与操作要构建大模型的记忆我们需要回答存什么、以何种形式存以及如何存取这三个基本问题。对应地记忆模块设计可以从记忆来源、记忆形式和记忆操作三方面展开。1. 记忆的来源记忆内容可以来源于LLM-Agent与环境交互的不同阶段和不同渠道交互过程内部in-trial即当前对话或当前任务执行过程中产生的信息。例如在一次对话中用户提供的新事实、代理执行动作得到的观察结果都属于当前回合内需记忆的内容。跨交互历史cross-trial指先前完成的对话或任务中累积的信息。LLM-Agent可以从过去的多个session中提取经验如以前解决类似问题的方法、失败的教训等。许多研究开始允许代理存取跨会话记忆以提高长程任务的成功率。Reflexion就是一个典型例子——它不仅记录本次尝试的信息也利用先前多次尝试的反馈来改进策略。外部知识除了代理自身的交互经验还可以将外部知识库视为记忆来源。例如接入互联网、文档数据库等使LLM能够记忆并检索不在训练语料中的新知识。这方面和**检索增强生成RAG**技术有相通之处即把外部知识作为模型的长期记忆供其查询。然而RAG通常针对静态知识而这里更强调持续更新的知识库作为Agent的环境记忆来源。简而言之记忆来源涵盖内部交互日志、跨任务经验和外部知识三类。优秀的记忆模块往往综合利用多种来源的信息使代理既不忘“小我”的经历又能借鉴“大千世界”的知识。2. 记忆的形式存储形式决定了记忆内容如何表示和保存。目前主要有两大类形式文本形式的记忆外部记忆以自然语言片段、符号或结构化数据的形式存储信息。例如将对话记录直接保存为文本日志或提取关键事实存入数据库/表格。这种形式的优点是可解释、易于扩展和编辑——开发者或用户可以直接阅读、修改记忆内容。例如有工作采用SQL数据库来充当记忆通过查询语句检索所需信息。又如ChatDB系统中智能体会生成SQL语句执行查询实现类似人脑按需索引记忆的功能。文本化的记忆还包括向量表示存储即将文本嵌入向量后存入向量库如FAISS在读取时通过向量相似度检索。本质上向量库记忆还是存储了可解释的信息文本片段的某种索引。参数形式的记忆内置记忆指存储在模型参数权重或内部向量中的知识。LLM经过训练后其参数以隐式方式编码了海量知识可看作模型的长期“潜记忆”。参数记忆的信息密度极高通过连续空间的向量表示丰富语义相比逐字存文本要高效得多。同时查询也很快捷——模型权重可以被直接访问以回答相关问题而无需逐条扫描外部记录。在信息丰富度和访问效率上参数记忆有天然优势。两种形式各有千秋文本/外部记忆可读可写但相对低效参数记忆高效浓缩但不可直接解释或即时更新。例如当需要修改或注入新知识时编辑外部记忆要容易得多而调整模型参数则昂贵且存在遗忘副作用。因此许多系统选择结合两种形式用参数记忆承载通用背景知识用外部记忆记录动态信息。近期也有研究探索两者融合的新形式比如通过生成式器官Genomic Transformer将外部记忆逐步吸纳进模型但目前主流方案仍是参数文本记忆分工。3. 记忆的操作有了存储介质和内容来源仍需要设计操作机制来实现记忆的写入、管理和读取。对应地记忆模块一般包含以下基本操作记忆写入Memory Writing把新的信息存入记忆库的过程。当智能体接收到环境知觉或对话内容后需决定哪些信息需要写入记忆以及如何表示存储。简单策略是“有闻必录”将原始信息不加筛选地全部存下更高级的做法是提炼摘要或提取关系后再存。例如TiM模型会提取实体关系并存入一个结构化数据库将相似内容归为一组以压缩存储。又如MemoChat在对话进行时不断将近期对话的主题摘要生成关键字作为索引存储。还有一些Agent采用自主写入策略MemGPT代理能够根据上下文自行决定更新内存无需人工设定规则每当检测到重要信息出现就写入。总的来说写入操作的核心是在信息完整和噪声过滤之间权衡提取对后续任务最有用的内容进行存储。记忆管理Memory Management随着交互进行记忆库会越来越庞大因此需要对已有记忆进行组织和优化包括融合、抽象和遗忘等机制。许多研究从人类大脑工作机制获得灵感引入“回顾-反思”过程让代理对已有记忆进行二次加工。例如MemoryBank引入了反复摘要和反思机制每天结束时代理将当天累积的对话提炼成高层次摘要抓取关键事件类似人类回忆一天中最重要的事。通过长周期的这种处理MemoryBank代理还能逐步形成对用户个性特征的“洞察”构建用户画像。此外该系统采用艾宾浩斯遗忘曲线理论来管理记忆强度对长时间未访问的记忆逐渐减弱其权重频繁使用的则加强巩固从而模拟人类长期记忆的形成过程。另一方面遗忘机制也很重要代理会丢弃不相关或过旧的信息以腾出空间、避免干扰。比如Voyager在游戏环境中会根据反馈更新或舍弃无效策略的记忆从而不断精炼行为。再如Generative Agents让角色在关键事件积累到一定程度时触发反思生成更抽象的高层记忆如角色的人生哲理使得记忆体系呈层次化结构。记忆管理好的系统能够让代理的知识与时俱进且保持组织良好既不忘记重要事也不被陈旧信息拖累。记忆读取Memory Reading当代理需要利用过往信息进行推理决策时就要从记忆库中检索相关内容并载入到当前上下文中。读取的关键在于相关性检索——记忆库往往包含海量条目如何快速找到与当前任务最有关的那些是系统设计难点。常见做法是通过语义相似度检索例如MemoryBank使用双塔结构将每条记忆编码为向量当前对话也编码为向量然后利用FAISS近似最近邻搜索找出最相似的记忆片段。另一种思路是基于查询语言ChatDB的代理在需要回忆时会生成SQL查询语句对内存数据库进行查询相当于让LLM自己形成检索指令来提取信息。还有工作引入了Chain-of-Memory记忆链机制预先让模型列出一串可能相关的记忆标签从而更有针对性地检索。此外为避免干扰有研究在读取时提供思维链提示让模型忽略无关记忆。无论技术细节如何实现上经常采用向量索引库、知识图谱等作为后台支持。举例来说ExpeL使用了一个FAISS向量池作为记忆库每次查询返回与当前任务最相似的若干条历史轨迹供代理参考。优秀的记忆读取机制可以做到既召回有用的信息又不引入无关噪音并能在复杂任务中结合多条记忆进行综合推理。记忆模块的设计需要在写入、管理、读取三个环节形成闭环不断记录重要信息持续整理已有记忆并在需要时提取相关知识支援决策。许多最新研究的精妙之处正是在这三方面提出创新方案。下面我们通过几个典型工作来具体介绍大模型记忆机制的发展。代表性记忆机制实例与进展近年来多种记忆模型被提出并应用到LLM代理中。下面列举若干具有代表性的方案以展示当前“大模型记忆体”的多样化设计思路Reflexion (Shinn et al., 2023)提出让代理在任务失败后进行自我反思将本轮试错经验以及跨轮次的反馈写入记忆。具体来说Reflexion在每次Agent行动后记录反馈并在随后的对话中检索这些记录作为提示指导模型避免重复错误。通过同时整合回合内和跨回合信息该方法显著增强了代理解决复杂推理问题的能力。它证明了让LLM记住自己的错误并迭代改进可达到类似人类逐步学习的效果。论文地址https://arxiv.org/abs/2404.13501MemoryBank (Zhong et al., 2024)这是面向长期对话场景的记忆方案。MemoryBank的特色在于引入动态记忆强化与遗忘机制借鉴艾宾浩斯遗忘曲线模型系统会逐渐减弱长期未使用的记忆权重增强近期常用记忆从而模拟人脑对记忆的巩固与淡忘过程。同时它让代理在每日对话结束时生成高层次摘要记录当天发生的主要事件并不断累积对用户个性的“洞察”。也就是说MemoryBank不仅存事实还逐日提炼用户画像等抽象知识使代理在长期陪伴用户的过程中变得越来越“了解”对方。实验中它被用于创建一个名为“SiliconFriend”的长期AI陪伴聊天机器人能够随着时间推移展现出更贴近用户的个性化行为论文地址https://www.researchgate.net/publication/379280304_MemoryBank_Enhancing_Large_Language_Models_with_Long-Term_MemoryRET-LLM (Modarressi et al., 2023):该方案旨在为LLM提供通用读写存储能力。RET-LLM设计了显式的Memory API包括读操作检索记忆和写操作记录记忆可与环境交互过程结合。在实际应用中它类似给LLM配备一个笔记本LLM可以调用read(memory_key)去检索相关内容或用write(note)将新信息记录下来。这种模块化读写接口使记忆管理变得清晰可控也方便集成到各种agent框架中。RET-LLM在多任务环境中验证了其有效性让LLM能够更灵活地调度内部记忆相当于有了随时查询和更新自身“记忆库”的能力。论文地址https://arxiv.org/abs/2305.14322Generative Agents (Park et al., 2023):虽然最初是社会模拟方向的工作但其内建的记忆机制非常值得关注。Generative Agents让多个LLM驱动的角色在虚拟社区中生活对每个Agent维护一个长久记忆存储其中记录了该角色经历的所有事件和感受。为了防止记忆爆炸增长系统会为每条记忆分配一个“重要性”分数当重要性累计到一定阈值时触发角色的自我反思。反思过程将多条相关记忆提炼成更高层的抽象见解例如“我似乎和邻居关系很好”并写回记忆库。同时角色在每次行动前会根据当前情境从记忆库中检索最相关的若干记忆综合考虑相似度和最近性拼接成提示以保证角色行为的一致性和逼真度。Generative Agents开创性地展示了LLM利用记忆实现类人连续性和行为多样性的潜力堪称记忆增强代理的里程碑。论文地址https://arxiv.org/abs/2304.03442MemGPT (Packer et al., 2023)这是一个受操作系统内存分层启发的架构。MemGPT将LLM的上下文记忆划分为双层结构一层是主上下文RAM容量较小但读取迅速在推理时直接作为模型输入另一层是外部上下文硬盘容量大且持久存放超出上下文窗口之外的信息。推理过程相当于在RAM中加载当前需要的内容而久远或次要的信息则置于“硬盘”等待调用。这个架构还包含类似缓存的策略会优先保留最近使用的信息以提升性能。MemGPT证明了将计算机体系结构理念用于LLM记忆管理的可行性实现了对固定上下文窗口的突破。简单来说它让LLM拥有了快速内存大容量外存的组合使长上下文处理更高效。论文地址https://arxiv.org/abs/2310.08560ChatDB (Qian et al., 2023)ChatDB将记忆存储与传统数据库技术结合提出用关系型数据库来存储对话记忆。每轮对话生成的内容被结构化存入SQLite数据库中并通过自然语言查询LLM生成SQL语句来检索过往信息。这一方案有趣地等价于在LLM外部附加了一个“知识库”并用NL-SQL作为接口。测试表明相比将所有历史直接放入提示不如让模型自己检索更为准确高效。ChatDB的成果表明将记忆问题转化为数据库查询问题是可行的并提供了记忆模块与现有数据库生态集成的新思路。论文地址https://arxiv.org/abs/2306.03901(以上只是众多工作的冰山一角此外还有Self-Controlled Memory、Hierarchical Memory、Graph Memory、Personalized Long-term Memory等诸多方向的探索这里不一一赘述。幸运的是目前已经有学者对这些研究进行了系统整理并开发了工具库供社区使用。)值得一提的是MemEngine是近日发布的一个统一内存框架库。研究者梳理了近年大量记忆模型并在MemEngine中以模块化方式实现了十多种典型记忆机制如上文提及的MemoryBank、MemGPT、Generative Agents等。论文地址https://arxiv.org/abs/2505.02099MemEngine将记忆功能划分为三级底层是通用记忆函数如检索、总结等基础工具供调用中层是记忆操作如写入、管理、读取的具体实现高层则是记忆模型完整的记忆方案组合。通过这种分层设计MemEngine实现了记忆模块的即插即用和组合复用开发者可以方便地在不同Agent中切换或插入不同记忆模型进行试验。例如只需修改配置文件即可让你的Agent从使用“长上下文记忆”切换为“MemoryBank机制”或“向量数据库记忆”等。MemEngine的推出表明该领域的研究成果正加速沉淀为可复用的工程工具这将有助于学术和工业界更快地探索高级记忆体对于LLM-Agent的作用。NEW研究之一M3-Agent-具有长期记忆的多模态智能体框架论文地址https://www.arxiv.org/abs/2508.09736开源地址https://github.com/ByteDance-Seed/M3-Agent方法与架构M3-AgentSeeing, Listening, Remembering, and Reasoning是字节跳动团队提出的一种多模态智能体框架能够处理长时间的视频和音频输入并构建可持久存取的长期记忆。该框架包含两个主要流程首先是记忆化进程Memorization智能体对实时获取的视觉和听觉流进行分片处理每 30 秒切分为一段 clip提取关键的信息生成情景记忆episodic memory和语义记忆semantic memory并统一写入内部的“记忆图谱”结构。接下来是控制进程Control当用户在任意时刻提出查询时智能体会在记忆图谱中检索相关内容利用大模型执行多轮推理整合信息最终生成答案。这一架构使得 M3-Agent 能像人类一样“一边感知、一边记忆”并在需要时从记忆中提取帮助完成复杂任务。值得一提的是M3-Agent 构建在强大的大语言模型基础之上底座使用 Qwen2.5-Omni-7B分别针对记忆构建和任务控制进行了功能定制记忆化模型负责将感知片段转换为记忆图谱中的节点信息控制模型负责根据查询检索记忆并生成回答。训练过程中记忆化模型使用了超过 70 万对 (视频片段,记忆) 的监督数据进行微调控制模型则采用了强化学习PPO训练并借助 GPT-4o 作为奖励模型优化答案的合理性。记忆机制设计M3-Agent 的核心是其长期记忆机制以实体中心的多模态记忆图谱形式存在。具体来说智能体以图结构来组织记忆节点代表从环境中识别的关键实体、事件或场景等信息例如人物、物体、地点和发生的事件节点携带多模态内容包括视觉模态的关键帧图像、听觉模态的音频嵌入特征以及对应的自然语言描述。不同节点之间通过有向边相连边的类型体现事件的时间先后关系、空间包含关系以及语义关联等。每当写入记忆时记忆化模块对新的视频片段进行分析检测并识别人脸、物体、环境等转换为结构化的记忆节点一方面记录具体情景内容另一方面提取抽象语义信息。这些节点被持续地加入记忆图谱并通过边与既有节点关联以更新环境知识。管理记忆方面M3-Agent 的记忆图谱采用实体为索引组织信息使得相同角色或事物相关的事件形成连贯链条避免碎片化同时语义相似或相关的内容也通过关联边连接方便后续按意义检索。在读取记忆时控制模块会根据用户查询自动生成检索意图通过匹配问题中的实体或语义线索在记忆图谱中检索出相关节点子图。随后控制模块基于检索的记忆内容与大模型进行多轮推理必要时可以逐步引用图谱中的不同记忆节点最终产出准确的回答。这种记忆机制借鉴了人类记忆的双重形式情景记忆提供对具体经历片段的逐步累积而语义记忆则逐渐沉淀出对环境的抽象知识。M3-Agent 将二者融合于统一的图谱中使智能体对所处环境具有更深刻一致的理解和更持久的记忆能力。创新点与特点M3-Agent 的创新在于首次将图结构长期记忆引入多模态大模型代理。不同于以往仅依赖有限上下文窗口的多模态模型该方法通过实体级别的记忆图谱突破了时长限制实现“所见即所得”的持久记忆保存和调用。具体而言相比过往视觉问答模型在几分钟视频后就遗忘早先内容M3-Agent 能将长达数小时的视频内容存储为结构化知识图谱哪怕在若干天后仍可精确定位并回忆特定细节。同时该工作提出了情景********语义双层记忆的范式情景记忆节点记录了时间序列上的具体观察如人物在某时刻的动作语义记忆节点则累积跨时间的知识如角色身份、物体属性这种分层记忆设计使模型既不会丢失细节又能提炼一般知识具备更类人化的认知能力。在检索和推理方面M3-Agent 实现了自主的记忆检索与多轮推理循环控制模块能够根据任务需要反复查询记忆图谱中的不同节点逐步缩小解答范围。这种Agent式的循环检索-****推理机制结合了检索增强Retrieval-Augmented和逐步推理Reasoning的优点让模型可以在广阔的长期记忆中挖掘线索类似人类思考过程中在大脑记忆中翻找相关回忆并综合推理的过程。此外为了评估多模态长期记忆的效果作者构建了全新的M3-Bench****基准涵盖机器人视角和网络视频两类长视频数据以及多种考察智能体记忆与理解能力的任务这也是首个专门面向多模态智能体长期记忆的评测基准。实验设计与评测方式为了验证长期记忆机制的有效性论文作者设计了M3-Bench长视频问答基准。该基准包括两部分M3-Bench-robot收集了100段由真实机器人佩戴摄像头拍摄的长时第一视角视频平均长达1.5小时M3-Bench-web则汇集了929段来自互联网的多场景长视频平均时长20分钟。针对每段视频基准提供了多轮的人类编写问答对问题专门设计为需要利用长期记忆和跨模态理解才能正确回答。例如在人类家庭场景中可能提问“37分钟后绿碗被放在哪里”要求模型回忆并定位对应画面又如在跨模态场景中可能提问“视频后半段出现的讲话内容与画面是否一致”需要模型综合语音与视觉记忆来判断。标注的问题类型主要覆盖人物识别与动态如角色身份、情绪、行为、物体跟踪与状态如物体类别、位置变化、事件因果触发因素与结果以及跨模态一致性语音描述与画面是否匹配等四大类。这些维度全面考察了智能体对人、物、事件的长期记忆及理解以及融合多模态信息推理的能力。在评测指标上作者主要采用问答准确率来衡量模型能否基于记忆正确回答问题。实验中M3-Agent 与多个基线方法进行了对比重点比较了记忆能力对任务表现的影响。其中最强的基线是采用 GPT-4o 和 Gemini-1.5-pro 模型构建的提示式代理它在没有显式长期记忆模块的情况下通过提示工程来处理长视频问答。结果显示M3-Agent 明显优于所有基线在机器人视角数据集上准确率比上述GPT-4oGemini基线高出6.7%在网络长视频集上高出7.7%在公开的长视频问答数据集 VideoMME-long 上也高出5.3%。综合来看M3-Agent 相较传统不带外部记忆的多模态模型有约5–8%的准确率提升。这一显著优势验证了长期记忆机制对多模态任务的重要价值。当然应当看到评测方式仍以问答准确率这一下游任务性能为主并未对记忆模块本身进行独立测评。例如尚没有单独度量“M3-Agent 能记住多少信息、遗忘速率如何”等指标。不过由于问答对精准覆盖了各类记忆需求场景模型在这些任务上的优劣已能反映记忆机制的有效性。总体而言M3-Bench的任务设计合理且全面涵盖了记忆广度长时跨度、多样内容和记忆应用深度跨模态、一致性推理为评估多模态智能体的记忆能力提供了有力依据。开源资源与影响M3-Agent 发布了完整的开源代码、模型和数据供研究者使用。项目源码托管在 GitHubByteDance-Seed/M3-Agent其中包括从视频预处理、记忆图谱生成到推理问答的全套 pipeline 实现以及基于 ByteDance Seed 团队强化学习框架 verl 的训练脚本。同时作者在 Hugging Face 上公开了记忆化模型和控制模型的权重方便直接加载使用提供的模型权重采用 Apache-2.0 开源许可证允许自由研究和应用。此外完整的M3-Bench长视频问答数据集包括视频片段和问答标注也以 CC BY-4.0 协议开放获取研究者可以在 Hugging Face Datasets 平台下载该数据。我在写此文的时候整理资料发现了一个实践教程这里引用一下https://www.xugj520.cn/archives/m3-agent-video-memory-guide.html大模型记忆体在git上高热项目我大体把这些项目做了一下分类1、通用记忆层 / 记忆服务直接给 Agent/应用加“长期记忆”2、框架内置 / 配套的记忆能力与代理/工具链深度集成3、学术实现 / 参考基线论文同名或官方代码4、第二大脑 / RAG 应用强调个人或企业知识的“长期记忆化”类别项目GitHub 仓库Stars≈核心定位典型场景关键特性/亮点通用记忆层/服务mem0ai/mem038.3k通用长期记忆层个性化画像、事件记忆、应用级持久化即插即用兼容多框架含 LlamaIndex 插件/集成生态活跃通用记忆层/服务图谱getzep/graphiti16.9k图谱化/时序化记忆多会话、跨时序抽取与装配Temporal/Graph Memory客户端多语言工程化完善通用记忆层/服务MemTensor/MemOS2.3k“Memory OS”/统一记忆原语端到端评测、方法对比统一记忆 API多基准对比含 LOCOMO 等通用记忆层/服务memodb-io/memobase2.0k画像驱动的长期记忆中心多产品/多角色应用记忆ProfileEvents可部署Helm/Playground通用记忆层/服务KGkingjulio8238/Memary2.3k记忆层 知识图谱Demo/PoC、ReAct Agent多图存储Neo4j/FalkorDB可视化面板框架内置/配套run-llama/llama_index43.8k数据/代理框架内置记忆应用内短/长时记忆多种记忆对象如摘要缓冲与 mem0 等深度互通框架内置/配套openai/openai-agents-python13.7k官方 Agents SDK会话记忆快速构建可持久会话Session 可插拔持久化接口与 OpenAI 生态直连框架内置/配套langchain-ai/langmem0.97kLangChain/LangGraph 长期记忆库现有 LangGraph 应用加记忆热路径记忆、后台管理、与 LangGraph 原生存储对接学术实现/基线letta-ai/letta原 MemGPT17.9k分层记忆/内存管理范式记忆型代理样板RAM/外存分层、回收策略、自我监控论文引用广学术实现/基线Victorwz/LongMem0.81k长时记忆增强训练/推理方法复现、研究对比记忆库融合机制NeurIPS 2023 论文同名实现学术实现/基线wangyu-ustc/MemoryLLM M0.21k可自更新的长期记忆训练/评测脚本面向模型级记忆注入与检索ICML 方向扩展学术实现/基线BytedTsinghua-SIA/MemAgent0.60k记忆增强代理任务级记忆调度检索/写入策略与代理调度细节清晰第二大脑/RAG 应用QuivrHQ/quivr28k–38k“第二大脑”/知识记忆前台个人/企业知识助手一站式 RAG/多数据源常作长期记忆承载层行为/体验记忆示例joonspk-research/generative_agents19.5k生成式代理小镇体验式记忆拟人行为、教学演示重要性评分、反思摘要、情境检索的标志性范式整体来说要“即插即用/生产记忆层”优先看mem0、Zep/Graphiti、MemOS、Memobase按你的数据拓扑/时序需求定。已有框架LlamaIndex/LangGraph/OpenAI Agents直接用其内置记忆或接mem0/Zep。做研究/基线复现Letta(MemGPT)、LongMem、MemoryLLM、MemAgent是常见“论文↔代码”桥梁。做“第二大脑**/****知识助手”Quivr这类平台可快速把记忆化的知识**接到聊天/工作流。总结一下花时间整理这个主要是记忆体这个工作后续的工程化要求极高而且又是不可或缺的一个环节。目前模型“能力”的热度远远盖过了记忆体但是并不是这个工作不重要。在AI落地和产品化的过程中我们必须重视让ai像人类一样“见闻广博且善于记忆总结”这样才有真正的实用性。AI来源于数据最终也需要落回到数据本身。如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。但是具体到个人只能说是“最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包✅ 从零到一的 AI 学习路径图✅ 大模型调优实战手册附医疗/金融等大厂真实案例✅ 百度/阿里专家闭门录播课✅ 大模型当下最新行业报告✅ 真实大厂面试真题✅ 2026 最新岗位需求图谱所有资料 ⚡️ 朋友们如果有需要《AI大模型入门进阶学习资源包》下方扫码获取~① 全套AI大模型应用开发视频教程包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点② 大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通③ 大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。④ AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。⑤ 大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。⑥ 大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。以上资料如何领取为什么大家都在学大模型最近科技巨头英特尔宣布裁员2万人传统岗位不断缩减但AI相关技术岗疯狂扩招有3-5年经验大厂薪资就能给到50K*20薪不出1年“有AI项目经验”将成为投递简历的门槛。风口之下与其像“温水煮青蛙”一样坐等被行业淘汰不如先人一步掌握AI大模型原理应用技术项目实操经验“顺风”翻盘这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。以上全套大模型资料如何领取

相关文章:

大模型记忆体:赋予AI“过目不忘”能力的核心机制(收藏版)

本文深入探讨了大型语言模型(LLM)记忆体的重要性与设计要素。文章首先定义了大模型记忆的概念,从狭义的外部存储到广义的参数记忆,阐述了记忆在LLM中的双重作用。接着,从认知心理学、自我演进和应用需求三个角度论证了…...

烙印资产方法拆解:从判断到落地的完整框架

一、先给定义烙印资产是什么:烙印资产是品牌围绕核心价值建立的、可被消费者快速识别与反复记忆的信号系统,通常由语言烙印、符号烙印、场景烙印与信任配称组成。一句话结论:消费者不会替品牌主动记忆,品牌必须主动把自己的价值做…...

手机AI本地部署实战万字图文学习笔记(Termux+Python + 轻量文本生成模型Llama3-8b-Q4)

未来可以规划的方向 Ubuntu 桌面 AI 开发 VS Code 远程连接 Termux 电脑写代码 → 手机运行 做桌面端 Qt 软件 搭建独家的 CSV 私有记忆系统 命令行智能助手 语音助手,学习语音识别和语音合成 LLM大模型接入audio模型,LLM生成提示词导入diffusion图像模型 学习如何将大模型导…...

systemd看门狗与softdog对比分析

作为Linux内核工程师,在选择用户态进程的存活性检测机制时,softdog和systemd看门狗是两种不同层次、不同复杂度的方案。两者的核心区别在于:softdog是一个内核级别的、全局的系统复位机制,而systemd看门狗是用户态服务管理框架内的…...

官宣!全球 PostgreSQL 大神再度集结,HOW 2026 正式定档

全球 PostgreSQL 大神再度集结,HOW 2026 正式定档...

闲鱼鱼小铺pc端下载链接与web端连接记录

PC端下载连接 添加链接描述 web端连接 添加链接描述 需要鱼小铺L5...

Hermes-Agent 简明指南

自从OpenClaw发布以来,几乎每周都有新的智能体被创建,尝试它们所有几乎变得不可能。但有一个新智能体引起了很多人包括我的注意。 它在GitHub上只有6k星,相比之下 OpenClaw有307k星(在撰写本文时)。然而,与…...

用Exo搭建本地800亿参数AI集群

在上一篇文章 *《我用16GB Mac Mini打造AI powerhouse——LM Studio Link如何改变一切》*中,我探索了通过在强大的机器上使用LM Studio Link来在较小设备上运行AI模型的方法。 如果我想反其道而行之——将多台机器的CPU、GPU和RAM资源整合起来,运行单台…...

2026 天津 AI 获客 GEO 服务商选型指南

一、行业痛点与榜单筛选标准当前,国内近七成实体企业及制造业商家正面临线上曝光不足、本地搜索排名靠后、客户转化效率低下等获客难题,严重制约企业数字化发展进程。AI生成式引擎优化(GEO)技术凭借精准的本地化内容布局、智能搜索…...

大家都会 AI vibe coding后,13年程序员的优势在哪?

当大家都会用 AI vibe coding 时,“会写代码”这件事本身会越来越不稀缺,但 “能把复杂系统做对、做稳、做成” 反而更稀缺。13 年经验的程序员,真正的优势不在“打字速度”,而在下面这些地方: 不是会生成代码&#xf…...

提示工程架构师分享深度学习在提示工程应用实践的云服务集成

从模型到云端:深度学习驱动的提示工程实践与云服务无缝集成指南 摘要/引言:当提示工程遇上深度学习与云原生,AI开发的效率革命来了 你是否也曾经历这些AI开发痛点? 精心设计的提示词在复杂任务中效果飘忽,调参十次不…...

java毕业设计基于Java的线上一流课程教学辅助系统

前言 基于Spring BootJava的线上一流课程教学辅助系统是一种功能全面、易于使用且高效的教学工具。它能够帮助教师更好地开展教学活动,提升教学质量;同时,也能为学生提供更加便捷、高效的学习方式。一、项目 介绍 开发语言:Java 框…...

位、字节和字的关系与应用

计算机存储单位详解:位、字节、字的关系与应用 在计算机科学领域,"位"、"字节"和"字"是最基础也是最重要的存储单位概念。理解这些单位的定义、关系及其在实际应用中的作用,对于深入学习计算机原理、编程和网…...

用了三周ArkClaw,我说说真实感受

用了三周ArkClaw,我说说真实感受作为一个OpenClaw老玩家,从最早的裸奔源码到现在换ArkClaw,已经稳定用了三周。今天不说官话,说说真实的使用感受,给打算入坑的朋友参考。## 第一印象:真的能开箱即用&#x…...

全网都在抢的「AI龙虾」大乱斗!4家神仙打架,普通人只能看馋

最近科技圈被一只龙虾霸屏了!OpenClaw风刮得超大,各大厂纷纷下场做"懒人版",不用懂代码、不用配环境,点一下就能拥有AI打工人。AI龙虾大乱斗最近科技圈被一只龙虾霸屏了!OpenClaw风刮得超大,各大…...

HarmonyOS开发过程中ArkTs和H5之间相互通信

在鸿蒙开发过程中,我们常常用到后面中加载一个h5页面,就是webview组件中加载可以一个h5的页面,但是他们之间有需要有一些通信,例如h5需要掉用一些原生的api或者原生的方法。原生页面中又需要掉用h5的函数。 通过阅读华为官方文档中…...

打破运维数据孤岛:燕千云平台CMDB运维监控一体化解决方案

前言如今企业IT架构正向高并发、分布式及混合云环境演进。传统的烟囱式运维工具体系导致了“监控数据孤岛”、“资产配置滞后”以及“故障根因难定位”等核心痛点。燕千云平台立足于CMDB(配置管理数据库)监控(Monitoring)MCM&…...

OpenClaw 史诗级更新:AI 终于 “长脑子”!Context Engine 让记忆自由插拔,Token 成本直降 90%,GPT-5.4 都被卷哭

2026 年 3 月 7 日,OpenClaw 发布 v2026.3.7 版本,被社区称为 “史上最强更新”——89 项提交、200Bug 修复,核心推出Context Engine(上下文引擎)插件接口,彻底解决 AI “健忘症” 难题,实现记忆…...

SGLang部署Qwen3.5-27B量化版及评测

随着人工智能技术的快速发展,大语言模型的本地化部署成为企业和开发者的一项重要需求。Qwen3.5-27B-GPTQ-Int4 作为阿里Qwen3.5系列的重要模型,在保持高性能的同时,通过 INT4 量化大幅降低了部署成本,使其能够在消费级显卡上流畅运…...

Nginx性能优化与监控

一、核心优化方向worker 进程配置worker_processes auto;:自动匹配 CPU 核心数worker_connections 10240;:单进程最大连接数(需配合系统 ulimit)worker_rlimit_nofile 65535;:提升最大文件句柄数事件模型优化nginxeven…...

vector声明初始化

vector<int> sub(5, 10) 确实代表**“给我造 5 个位置&#xff0c;里面全都填上 10”**。这是 vector 最基础的用法之一。 那为什么还能用 (v.begin(), v.begin() 3) 这种长相完全不同的写法呢&#xff1f; 其实&#xff0c;C 的容器非常聪明&#xff0c;它内部提供了好…...

AI赋能软件测试:未来已来,你准备好了吗?

引言 在数字化转型的浪潮中&#xff0c;软件测试作为保障产品质量的关键环节&#xff0c;正面临着前所未有的挑战。 传统的测试方法已难以满足快速迭代和复杂场景的需求&#xff0c;而人工智能&#xff08;AI&#xff09;的引入&#xff0c;则为软件测试带来了革命性的变化。…...

meson使用介绍

Meson 是一个现代化的构建系统&#xff0c;旨在提供比传统 CMake 更加简洁、高效和易用的构建体验。它使用一种类似 Python 的声明式 DSL&#xff08;领域特定语言&#xff09;来描述构建规则&#xff0c;并默认配合 Ninja 作为后端构建工具&#xff0c;能够显著提升增量编译的…...

第1节:现代GPU硬件架构精讲

文章目录前言一、GPU vs CPU&#xff1a;为什么GPU适合并行计算&#xff1f;二、GPU的整体架构&#xff1a;从芯片到核心2.1 GPU的层级结构2.2 A100/H100芯片架构图三、SM内部架构详解3.1 SM&#xff08;流式多处理器&#xff09;内部结构3.2 一个SM的详细数据&#xff08;以A1…...

干饭随心选系统

1. 字典模块&#xff08;数据存储&#xff09;字典嵌套是处理 “结构化多维度数据” 的核心方式&#xff0c;比如 “饭馆” 作为一个实体&#xff0c;包含多个属性&#xff0c;用内层字典封装更清晰&#xff1b;列表适合存储 “有序的序列数据”&#xff08;如历史记录、菜单&a…...

LVGL运行lv_timer_handler时卡死

今天在一块板子上调试LVGL&#xff0c;一运行就卡死&#xff0c;调试半天没有发现问题。LCD驱动确认无误&#xff0c;直接调LCD驱动可以正常显示。调试跟踪&#xff0c;发现是在调用lv_timer_handler时卡死&#xff0c;中间调用了一些内存管理函数&#xff0c;最终进入Hardfalu…...

从单打独斗到团队作战,多智能体协同如何重塑未来工作?

从早期规则化的对话机器人&#xff0c;到具备感知、理解、执行能力的单一智能体&#xff0c;再到可自主分工、协同决策的多智能体系统&#xff0c;AI 正在完成一次从工具 → 助手 → 团队的范式跃迁。 今天&#xff0c;单一智能体已经高度成熟&#xff1a;它能理解自然语言、调…...

hive数据库模糊查询表名

文章目录一、MySQL模糊查询表名二、Hive模糊查询表名一、MySQL模糊查询表名 &#xff08;1&#xff09;查询所有表名 -- 查询所有表名 show tables;(2) 模糊查询表名 -- 查询包含aaa的表名 show tables like %aaa%二、Hive模糊查询表名 &#xff08;1&#xff09;查询所有…...

CTF选手必须收藏的100个实战解题思路,CTF实战解题思路大全,CTF赛前必看解题宝典!

CTF竞赛的核心逻辑 • 核心目标&#xff1a;快速拆解问题&#xff08;Flag导向&#xff09;、工具链协作、模式化思维。 • 关键原则&#xff1a;先广度后深度&#xff08;优先收集信息&#xff09;、分治策略&#xff08;拆解复杂任务&#xff09;。 第一部分&#xff1a;We…...

IO模型与高性能原理

Redis IO模型与高性能原理 引言&#xff1a;Redis为什么这么快&#xff1f; Redis 之所以能够实现极高的性能&#xff0c;主要基于以下三个核心设计&#xff1a; 完全基于内存操作&#xff1a;所有数据存储在内存中&#xff0c;读写速度远超磁盘单线程模型&#xff1a;避免了…...