当前位置: 首页 > article >正文

CoMAM:让多智能体记忆系统学会“团队协作“的强化学习框架

图解CoMAM让多智能体记忆系统学会团队协作的强化学习框架开篇导读你有没有想过为什么和AI对话久了它还是记不住你的偏好上下文窗口限制是根本原因——LLM只能看到有限的历史对话。为了解决这个问题研究者们设计了记忆系统用多个智能体协作管理长期对话历史然后按需检索。但问题随之而来这些记忆智能体各自为战分别被优化却没人保证它们合起来效果好。就像一支球队每个球员单练都很强但上场配合一塌糊涂。来自中国科技大学的研究团队在论文《Collaborative Multi-Agent Optimization for Personalized Memory System》CoMAM中提出了一个优雅的解法把多个记忆智能体的执行过程建模为马尔可夫决策过程MDP用协作强化学习联合优化并通过自适应贡献分配让每个智能体的局部改进与全局目标对齐。核心结果在 PersonaMem 基准上CoMAM 相比最强基线提升最高16.7%跨 32K、128K、1M 三种上下文长度设置全面领先。论文背景为什么记忆系统需要协作优化现有记忆系统的架构一个典型的多智能体记忆系统由三类智能体组成提取智能体Extraction Agent从原始对话历史中抽取细粒度记忆关键事件、事实画像智能体Profile Agent将细粒度记忆进一步抽象为粗粒度用户画像偏好、行为模式检索智能体Retrieval Agent根据用户查询检索相关记忆生成个性化回答Figure 1左图展示三个智能体在训练过程中奖励的变化曲线右图对比独立优化与联合优化在不同上下文长度下的全局性能差距联合优化最高提升 12%。独立优化的根本缺陷现有方法如 Memory-R1、Mem-α的做法是分别用强化学习或提示工程优化各智能体的局部任务。这看似合理却存在根本问题局部最优 ≠ 全局最优。提取智能体可能抽取了大量细节但这些细节并不是检索智能体真正需要的画像智能体总结的偏好也未必符合回答特定查询的需求。各智能体的独立策略在联合推理时产生冲突导致全局性能下降。如图所示联合优化相比独立优化在 32K/128K/1M 三种上下文长度下分别提升了 12%、7.7%、8.2%。核心挑战为什么联合优化很难Figure 2左侧展示智能体的异构性与异步执行问题右侧展示局部目标与全局目标对齐的难题。论文明确指出联合优化面临两大挑战挑战 1异构性与异步性Heterogeneity Asynchrony三个智能体的配置完全不同提取智能体周期性处理历史对话检索智能体在收到查询时才激活。它们的参数空间离散、结构复杂难以端到端优化。挑战 2局部-全局对齐Local-Global Alignment要促进协作需要让智能体的局部改进与全局目标对齐。但如果简单地把全局奖励平均分给各智能体会导致功劳不清——贡献大的智能体和贡献小的拿一样的奖励优化信号模糊。CoMAM 框架详解Figure 3CoMAM 框架全貌。左侧展示三个智能体的 MDP 轨迹采样中间展示局部与全局奖励右侧展示自适应贡献分配计算最终奖励的过程。CoMAM 提出两个核心机制来解决上述挑战机制一执行轨迹 MDP 正则化CoMAM 将三个智能体的异步执行过程建模为一个顺序马尔可夫决策过程MDP步骤状态动作智能体s₀ → s₁原始对话历史 H抽取细粒度记忆 MfExtraction Agents₁ → s₂细粒度记忆 Mf抽象粗粒度画像 McProfile Agents₂ → s₃多粒度记忆 M 查询 q检索记忆并生成回答 pRetrieval Agent通过 MDP 建模智能体间的依赖关系被嵌入状态转移——前一个智能体的输出直接成为下一个的输入使所有智能体能够在同一训练轨迹中同步更新解决了异构性和异步性问题。每个智能体都有对应的局部任务奖励提取智能体信息覆盖率F1 得分衡量与ground-truth证据的匹配程度画像智能体抽象合理性冻结 LLM 评分检索智能体检索精度覆盖率精确率加权全局奖励统一为查询回答准确率是否与ground-truth完全匹配。机制二自适应贡献分配仅靠 MDP 还不够——全局奖励如何分配给各智能体是关键。CoMAM 提出用NDCG归一化折扣累积增益衡量每个智能体局部奖励与全局奖励的排名一致性vnNDCG(σ(Rlocal,n),σ(Rglobal))v_n \text{NDCG}(\sigma(R_{\text{local},n}), \sigma(R_{\text{global}}))vn​NDCG(σ(Rlocal,n​),σ(Rglobal​))一致性高的智能体其局部表现与全局表现高度相关获得更大的全局奖励权重wnexp⁡(vn)∑n′exp⁡(vn′)w_n \frac{\exp(v_n)}{\sum_{n} \exp(v_{n})}wn​∑n′​exp(vn′​)exp(vn​)​最终每个智能体的优化奖励为rfinal,n(i)rn(i)wn⋅r3(i)r^{(i)}_{\text{final},n} r^{(i)}_n w_n \cdot r^{(i)}_3rfinal,n(i)​rn(i)​wn​⋅r3(i)​这一设计不需要手动设置权重完全由智能体的实际贡献动态决定。实验结果主实验全面超越 SOTATable 1在 PersonaMem 基准上CoMAMOurs对比所有基线的查询回答准确率。加粗为最优下划线为次优。在 PersonaMem 基准跨 32K、128K、1M 三种上下文长度Qwen 和 Llama 两个模型家族上CoMAM 全面领先对比类别代表方法最大差距无记忆系统Base、RAG18~30%提示工程记忆CAM、MemoryBank14~22%RL记忆独立优化Memory-R1、Mem18.5~16.7%最值得注意的是CoMAM 相比最强的 RL 基线Memory-R1、Mem1仍有显著优势说明联合优化带来的协作增益是真实且稳健的。细粒度分析7种查询类型全面领先Figure 4在 PersonaMem 的 7 种个性化查询类型上CoMAM橙色相比 Base、RAG、CAM、Memory-R1 的详细表现对比32K/128K/1M 三个设置。7 种查询类型覆盖了从回忆用户分享的事实到跨场景泛化的各类个性化需求。CoMAM 在所有类型上均表现最优尤其在需要细节记忆Type 1和抽象偏好理解Type 6的任务上优势明显——这正是多粒度记忆设计的价值体现。消融实验每个设计都不可缺消融1三个智能体缺一不可移除任意一个智能体提取/画像/检索都会导致显著性能下降2~8%验证了三类记忆的互补性。此外有智能体但不训练的变体同样明显弱于 CoMAM说明 RL 优化本身是必要的。消融2MDP 正则化是关键策略32K128K1M独立 RL0.570.610.59MDP RLCoMAM0.640.700.66MDP 联合优化相比独立 RL 提升 4~9%验证了将执行轨迹建模为 MDP 的有效性。消融3自适应分配 固定权重 纯局部/全局奖励Figure 5左图展示 CoMAM 对分配权重的敏感性自适应权重始终优于任何固定权重右图展示不同分配策略对三个智能体局部任务表现的影响。自适应权重不仅提升了全局性能还同步提升了每个智能体的局部任务表现——自适应分配引导智能体以有利于整体系统的方式优化局部策略。训练效率联合优化还带来了额外的效率优势智能体并行训练总收敛步数大幅减少例如 128K 设置独立优化 790 步 vs 联合优化 350 步且推理延迟不受训练范式影响。与现有方法的核心区别维度现有方法CoMAM优化范式独立优化分阶段训练联合优化端到端 MDP 轨迹策略设计共享策略 or 独立单阶段异构策略 序列 MDP奖励分配纯全局奖励 or 等权分配基于 NDCG 一致性的自适应分配协作方式隐式训练后组合显式状态转移嵌入依赖局限性与未来方向论文坦诚地指出两点局限智能体任务范围有限当前框架仅包含提取/画像/检索三类智能体记忆修改、去重等高级能力尚未纳入。静态 MDP 正则化当前训练时的 MDP 为静态顺序结构推理时智能体以不同频率异步运行构建智能体周期性运行检索智能体按需激活。未来可探索更灵活的动态 MDP 以更好地模拟实际部署场景。总结CoMAM 提供了一个简洁而有力的答案来解决多智能体记忆系统如何协作优化的问题MDP 正则化将异构异步的智能体执行统一到一条可微的训练轨迹解决异构性问题自适应贡献分配用 NDCG 量化每个智能体对全局目标的贡献自动分配公平的优化信号解决局部-全局对齐问题协同增效联合优化不仅提升全局性能还强化了各智能体的局部专业能力这一思路的价值不止于记忆系统——任何需要多个专业智能体协作完成复杂任务的场景多步推理、工具调用、检索增强生成都可以从这种把异构协作建模为 MDP 自适应信用分配的范式中获益。论文信息Collaborative Multi-Agent Optimization for Personalized Memory System中国科技大学 上海人工智能实验室Preprint 2026。

相关文章:

CoMAM:让多智能体记忆系统学会“团队协作“的强化学习框架

图解CoMAM:让多智能体记忆系统学会"团队协作"的强化学习框架 开篇导读 你有没有想过,为什么和AI对话久了,它还是记不住你的偏好?上下文窗口限制是根本原因——LLM只能看到有限的历史对话。为了解决这个问题,…...

2026最新版 Android Studio 安装与配置全教程(保姆级)

哈喽各位小伙伴~ 想要入门Android开发,第一步就是把开发环境搭好。今天这篇博客,我会带你从零开始安装Android Studio,覆盖下载、安装、SDK配置、模拟器、环境变量、新建项目全流程,新手也能一次成功,少走弯…...

jdbc通信原理

一、普通查询(默认行为) 正确流程 JDBC客户端通过Socket与MySQL服务器建立TCP连接。客户端发送SQL查询语句。MySQL服务器执行查询,将结果集数据从存储引擎读出,放入服务器内核的发送缓冲区(位于操作系统内核空间&#…...

从零构建RAG系统:小白程序员必备的全局观与收藏指南

本文旨在帮助读者建立RAG系统的全局观,从离线解析、Query理解、在线召回到上下文生成,详细阐述了四大模块及其间的六个关键联动点,如Chunk大小与LLM窗口的配合、Query解析结果对检索策略的指导等。文章强调模块间的相互影响,并通过…...

量化开发实战手册·第2篇:数据源选型五大维度——像评估股票一样科学评估你的行情接口

这是《量化开发实战手册》系列的第二篇文章。在第一篇里,我帮你梳理了主流数据源的优缺点和适用场景。但很多读者问:到底怎么科学地评估一个行情接口?看官网介绍都挺好,一用就踩坑。今天,我从产品体验官的视角&#xf…...

Python 免费开源库精选:那些“不要钱”却“值千金”的神器

⚠️ 再次长文预警!前方是“免费开源”的宝藏海洋!⚠️📢 写在前面(老规矩): 嘿,朋友!既然你看到了这里,说明你对 Python 的**“免费午餐”很感兴趣!&#x1…...

从零开始复现 ThinkPHP RCE:Docker + Burp Suite 实战

目录 1. 漏洞概述 2. 环境搭建 2.1 安装 Docker 与 Docker Compose 2.2 部署 Vulhub 靶场 2.3 启动环境 3. 漏洞验证 3.1 浏览器直接验证 3.2 Burp Suite 抓包改包验证 4. 深入利用——获取 Webshell 4.1 写入一句话木马 4.2 使用蚁剑连接 5. 漏洞原理简析 6. 修复…...

RK3568之pinctrl子系统和GPIO子系统

第1章 两个子系统的区别与联系1.1 pinctrl子系统主要功能:引脚复用(pin multiplexing)和引脚配置(pin configuration)。引脚复用:一个物理引脚可能有多个功能,例如可以是GPIO、串口TX、I2C SCL等…...

2026京东校招全攻略:笔试面试、高频题、看这一篇就够了

2026京东校招全攻略:笔试面试、高频题、看这一篇就够了 数据来源:真实面经整理 京东校招公开信息交叉校验 | 更新时间:2026年3月 校招大礼包获取 获取方法 京东后端面试里,一个很有代表性的问题是: Redis 分布式锁&a…...

IDM抓取网页动态资源:从嗅探原理到实战捕获全攻略

# IDM抓取网页动态资源:从嗅探原理到实战捕获全攻略## 引言在当今Web 2.0时代,绝大多数网站采用AJAX、动态加载、流媒体等技术呈现内容。传统的“右键另存为”已无法捕获这些**动态资源**——视频被切分为ts片段、图片通过XHR接口加载、数据以JSON格式传…...

网工必看!一文搞定华为高可用组网实战:VRRP + BFD + NQA 联动深度解析

摘要:本文以一个企业园区网综合实验为核心,完整呈现从拓扑规划到逐条命令配置的全过程。实验涵盖 VRRP 双网关冗余、BFD 快速故障检测、NQA 链路质量探测、静态路由与浮动路由等多项企业级高可用技术。文章详细讲解每一条命令的含义与作用,适合备考 HCIA/HCIP 的同学、网络运…...

ESP32硬件检测程序

ESP32硬件检测程序 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文…...

走出文安婚介所的计算与失落:在那次免费的重逢里,我读懂了平凡生活的底层逻辑

我叫陆远,是一名长期伏案、与各种底层代码和复杂算法打交道的软件开发工程师。三十岁之前,我的生活一直是以一种近乎线性的逻辑在运行:在上海的一家互联网大厂卷了六年,攒下了一些存款,也透支了大部分的睡眠。两年前&a…...

把AI装进微信?OpenClaw实现多平台AI助手实战

把AI装进微信?OpenClaw实现多平台AI助手实战 前言 你是否曾想过:在微信上直接和AI对话,让它帮你写代码、解答问题、甚至管理日程?之前这种需求只能通过各种不稳定的第三方机器人实现,直到我发现了OpenClaw——一个开…...

SolidWorks 拉伸凸台 - 命令属性 - 薄壁特征

示例 6-8-2、拉伸切除 - 薄壁特征开放草图新建一个文件;前视基准面;画一个开放的草图;给这个轮廓,使用 拉伸凸台命令,它也会拉伸;默认会开启薄壁特征;单向,10mm,意思是将…...

基于五类数据集的Faster RCNN目标检测算法在缺陷检测中的应用:共计1800张VOC格式...

基于FasterRCNN目标检测的缺陷检测算法 数据集包含五类别(具体如图所示) 共计1800张图 包含VOC格式数据集Faster RCNN模型最近在搞工业质检项目,发现Faster R-CNN在缺陷检测上还挺能打。手头有个五类缺陷的数据集(划痕、气泡、氧化…...

2026年沈阳路灯厂TOP10榜单揭晓,哪家实力最强?

大家好,今天给大家带来一个热门话题:2026年沈阳路灯厂TOP10榜单揭晓!哪家实力最强?让我们一起来看看吧!榜单揭晓1. 沈阳晟光户外照明设施销售有限公司(简称:晟光路灯)2. 飞利浦照明3…...

人工智能代理AI Agent如何自动化CRM、Jira、计费和Slack之间的工作流程

当单一业务流程跨越多个系统时 在泰山老父公司中,工作流程早已超越单一系统。销售在CRM中进行,开发在Jira中,财务在计费系统中,日常沟通则在Slack中完成。这些平台各有其用途,且在独立时运行得相当有效。 当单个业务…...

【前端】最好用的本地组件库调试工具 yalc

在开发和编写多个软件包(私有或公共)时,您经常需要在本地环境中的其他项目中使用最新/正在开发的版本,而无需将这些软件包发布到远程注册表。NPM和 Yarn 通过类似的符号链接包方法来解决这个问题。虽然这种方法在很多情况下都有效…...

目标函数(含罚函数处理)

蜣螂优化(DBO)算法 工程实际,求目标函数最小值,图中所求例子为一个压力容器设计成本最小,为4变量,4个不等式约束。 采用罚函数将4约束问题转变为无约束问题。 代码注释完整,非常容易带入自己想要求的问题。深夜撸代码发…...

【OpenCV 图像变换实战:旋转、模板匹配与金字塔操作】

在计算机视觉领域,图像变换是最基础也最核心的操作之一。无论是简单的图像旋转、精准的模板匹配,还是用于图像分层处理的金字塔操作,都是实现图像增强、目标检测、图像重建的关键技术。本文将结合实战代码,系统讲解 OpenCV 中这三…...

C语言介绍:起源、特性、应用领域及如何为学其他语言打基础

C语言(C Language) 发音(Pronunciation):C yǔyn 大致意思(General Meaning):C语言是一种普遍使用的高级程序设计语言,在软件研发以及系统编程方面有着广泛运用。 详细阐…...

C语言:通用高级编程语言,现代编程语言母语及应用领域介绍

C语言,是一种被称作通用的、高级的编程语言,它是在1972年,由美国贝尔实验室的Dennis Ritchie进行开发的。C语言具备简洁、高效以及可移植的特性,在系统软件、嵌入式系统和应用程序开发当中被广泛应用。 现代编程语言的母语 有这样…...

cmu15445 25fall lec3个人笔记

lec3 database storage从应用层面转到构建层面query-planning->operator execution->access method->buffer pool manager->disk manageragendafile storage,page layout,tuple layout 行(row)为主存储顺序io(sequencial)耗时少于随机io(random access) 所以在DBMS…...

API 安全: 保护 AI 应用的交互接口

API 安全: 保护 AI 应用的交互接口你好,我是陈涉川,欢迎你来到我的专栏。在前面的章节中,我们刚刚结束了模型微调的炼狱,成功让大模型记住了企业的安全基线,并掌握了复杂的代理(Agent&#xff0…...

企业用智能体要投入多少成本?2026避坑指南与主流产品横评

2026年3月,AI Agent 正处于从“生成式问答”向“自主执行”跨越的爆发期。 企业在考虑企业用智能体要投入多少成本时,绝不能只看一张软件报价单。 真正的成本是由算力消耗、Token思维税、隐性维保、人力溢价构成的综合体系。 作为深耕自动化领域7年的评测…...

【AI智能体】——OpenClaw(龙虾)深度研究分享(五)clawhub: command not found 全网最稳解决方案

🦞 OpenClaw 终极排坑:clawhub: command not found 全网最稳解决方案 (Windows / Mac / Linux 全平台通用・保姆级)🔥 前言 最近 OpenClaw(小龙虾)真的火炸了! 但 80% 的人刚装上就卡…...

当LSTM遇上注意力:手把手教你玩转时序预测

Attention-LSTM时序预测,单输入单输出 基于注意力机制attention结合长短期记忆网络LSTM时间序列预测, 单输入单输出模型 MATLAB版本为2020b及其以上 中文注释清晰,非常适合科研小白 评价指标包括:R2、MAE、MSE、RMSE等时序预测总让人头疼&…...

拒绝加班!这套一键生成建筑模型的方法,让甲方当场傻眼

一、概述 在智慧城市建设、城市规划设计、游戏场景搭建以及数字孪生应用等领域,三维建筑模型的构建始终是基础且关键的一环。传统建模方式依赖人工描图、手动拉伸,不仅耗时耗力,而且难以保证数据的现势性与准确性。尤其是面对大范围城市级别…...

【实时Linux工业PLC解决方案系列】第三十六篇 - 实时Linux PLC定时器高精度控制

一、简介:为什么高精度定时器是工业PLC的"心脏"?在工业自动化领域,PLC(可编程逻辑控制器)的定时精度直接决定了控制系统的响应速度和稳定性。传统PLC依赖专用硬件实现毫秒级定时,而现代实时Linux…...