当前位置: 首页 > article >正文

成本降70%!清华、阿里通义带来智能体长程任务新解法

AI智能体面对需要多轮搜索与推理的复杂长程任务时经常会上下文超载出现遗忘或推理崩溃这是当前制约AI发展的一大瓶颈。全世界都在想办法解决AI智能体的长程记忆问题。清华大学与阿里巴巴通义实验室的研究人员提出了新解法。他们提出了自我记忆策略优化算法MemPO赋予了大模型主动管理记忆的能力在多目标复杂任务中实现了惊人的突破。智能体的准确率大幅飙升消耗的计算资源降低了近七成。智能体的长程失忆人们对智能体能处理深度调研、数据分析、复杂代码编写等长程决策任务的期望越来越高。当下最主流的智能体交互方式是让智能体观察环境、进行思考、采取行动然后将环境反馈附加到之前的交互历史中作为下一次行动的提示词。随着交互轮数的增加上下文长度会呈线性爆炸式增长。这样很快就会触及大模型有限的上下文窗口还会带来极其昂贵的Token消耗。智能体系统在实际业务中难以大规模部署高昂的成本是核心阻碍因素。冗长的上下文会引发行“迷失在中间”现象模型在处理超长文本时会忽略掉夹在中间的关键信息直接导致智能体的整体性能直线下跌。为了解决这个问题研究人员之前尝试为智能体引入记忆模块。主流方案是构建一个外部知识库利用检索增强生成RAG技术在需要时检索相关的历史信息并拼接到提示词中。这种离线压缩记忆的方法缺乏与智能体核心任务目标的联合优化。外部检索完全基于文本向量的相似度找出来的东西不一定是对解决问题最有用的。智能体依旧是被动地接受检索结果没法发挥自身的能力去主动挑选和组织关键信息。为了打破这种被动局面研究团队重新定义了智能体的交互范式。智能体不再是被动接收者而是能够使用特殊的标签自主提炼和重组历史信息。智能体在交互中会输出记忆、思考、工具调用三种具体动作。在推导下一步操作时模型彻底丢弃了早期的海量上下文仅使用包含上一轮有效信息浓缩的记忆块作为输入。这种将记忆管理内化为智能体自身能力的设计为解决长程任务奠定了基础。教会模型自己写备忘录为了让智能体真正掌握提炼高质量记忆的技巧研究团队将强化学习RL机制应用到了智能体记忆优化领域但却面临着奖励分配的难题。在常规的组相对策略优化GRPO强化学习算法中模型通过对比一批候选轨迹的最终结果来调整自身策略。只要最终给出的答案正确且格式合规整条轨迹上的所有输出步骤都会获得相同的奖励分数。这种轨迹级别的全局奖励过于粗放。在一场耗时十几轮的交互中如果最终答对了模型根本无法分辨出到底是哪一轮生成的记忆起到了关键作用。针对记忆生成的反馈信号极度稀缺无法有效指导模型留下最相关的破题线索。针对这个痛点研究团队专门设计了自我记忆策略优化算法MemPO。这套算法打破了“吃大锅饭”的奖励机制为记忆内容的生成单独设计了一套细粒度的打分标准。框架图可以发现在任意轨迹的特定步骤中上下文被精简为记忆、思考、工具调用和工具响应四部分。算法在评估模型表现时不仅会保留传统的轨迹级奖励还会专门针对记忆部分计算一个独立的记忆奖励。最终在更新模型策略时属于记忆标签内的Token会同时接收到轨迹级和记忆级的双重奖励加持普通的推理和工具调用Token则只依靠轨迹级奖励进行优化。这种差异化的信度分配有效地引导智能体将最核心的信息沉淀到记忆模块中。用概率衡量记忆含金量设计独立的记忆奖励听起来符合逻辑具体该如何用数学语言去客观量化一段摘要的好坏。研究人员回归到了语言模型的概率本质上找到了突破口。大模型输出任何内容的底层逻辑都是基于前置上下文计算条件概率。如果一段上下文中包含了足够多解决目标问题所需的关键信息模型生成正确答案的概率必然会相对较高。反过来推导如果给定一段记忆模型依据这段记忆生成标准答案的条件概率越大就说明这段记忆保留的有效信息越丰富对解决问题越有帮助。MemPO算法直接将这种条件概率作为衡量记忆质量的定量指标。每一轮交互产生的记忆都会被用来测试看它多大程度上能提升最终正确答案的出现概率。为了消除不同轨迹本身难易程度带来的偏差算法还引入了基线偏置项进行校准确保奖励信号真正反映了记忆浓缩历史信息的真实水平。上图展示了带有记忆的模型与采用普通强化学习算法的基线模型在条件概率上的分布差异。横轴代表条件概率的分组数值柱状图反映了各个概率区间内记忆样本的占比。采用新算法的模型在更高概率区间分布了更多的样本。折线图的走势更是印证了这一设计思路概率越高的分组对应的平均准确率确实更高充分证明了通过概率来打分能够切实推动模型生成有助于解题的高质量记忆。从随交互步骤变化的概率分析来看包含10个检索目标的复杂任务前10步中新算法对应的平均概率处于稳步上升状态。智能体在这个阶段正在有效积累和组织有价值的线索。在10步之后概率开始回落符合实际业务逻辑由于常规搜索大约10步就能完成继续搜索通常意味着关键信息极难获取。这种精准的步骤趋势反映了模型记忆组织的真实动态过程。少花钱多办事的长程实测为了检验新算法在真实复杂场景中的表现研究团队构建了一个多目标任务测试集要求智能体在问题中逐步挖掘线索难度随着所需查找的目标数量成倍增加。所有参与对比的方法统一采用了Qwen2.5系列的7B参数规模作为基础模型。在精确度指标上MemPO算法相较于基础模型取得了25.98的F1分数绝对增长比之前最前沿的同类基线方案高出了7.1分。即使面对难度远超训练集的包含10个目标的极限测试智能体的表现依旧坚挺。不仅准确率高它还极其省钱。智能体解决单个问题消耗的总Token数以及单步最高消耗Token数分别暴降了67.58%和73.12%。在处理10目标任务时传统智能体基线方法消耗的Token数量大约是新算法的3倍单步资源峰值更是高达5倍。为了彻底摸清各种因素对最终结果的贡献度研究人员剥离各个变量进行了消融测试。左侧图表显示引入独立的记忆奖励信号让模型性能实现了肉眼可见的爬升。右侧图表则显示给智能体提供完整的历史上下文在处理短任务时或许还有点帮助一旦任务周期拉长保留的交互步骤越多智能体的性能衰减得越快。海量的冗余信息不仅没有成为助力反而稀释了模型的注意力拖垮了推理能力。这从侧面强有力地证明了由智能体自主浓缩单步记忆这种极简策略的前瞻性和必要性。智能体与物理世界或网络环境的交互是一场充满未知与噪声的长跑。将记忆生成、逻辑推理和工具调用深度绑定依靠严密的数学概率作为反馈尺度智能体掌握了像人一样抓重要的记住的能力。该研究目前也有一定局限。评价机制受限于工具调用带来的信息量波动在计算同一组内多条不同轨迹的相对分数时会产生些微偏差研究人员在公式中加入的偏置项只能起到一定的缓冲作用。想要让这项技术在现实业务流中落地生根还需要在复杂的开放环境中接受进一步的打磨。算力成本逐渐成为大模型普惠的阻力。这种花小钱办大事的算法突破一定会成为下一代高级智能体架构的标配方案。参考资料https://arxiv.org/pdf/2603.00680https://huggingface.co/collections/NewBeeKing/mempohttps://github.com/TheNewBeeKing/MemPO

相关文章:

成本降70%!清华、阿里通义带来智能体长程任务新解法

AI智能体面对需要多轮搜索与推理的复杂长程任务时,经常会上下文超载,出现遗忘或推理崩溃,这是当前制约AI发展的一大瓶颈。全世界都在想办法解决AI智能体的长程记忆问题。清华大学与阿里巴巴通义实验室的研究人员提出了新解法。他们提出了自我…...

C# 面试高频题:装箱和拆箱是如何影响性能的?拇

OCP原则 ocp指开闭原则,对扩展开放,对修改关闭。是七大原则中最基本的一个原则。 依赖倒置原则(DIP) 什么是依赖倒置原则 核心是面向接口编程、面向抽象编程, 不是面向具体编程。 依赖倒置原则的目的 降低耦合度&#…...

WRF-Hydro在Ubuntu 22.04 LTS上的系统化部署与编译实战

1. 环境准备与系统配置 在开始WRF-Hydro的部署之前,我们需要确保Ubuntu 22.04 LTS系统已经做好了充分准备。我建议使用全新的系统环境,这样可以避免各种依赖冲突问题。实测下来,干净的Ubuntu系统是最稳定的选择。 首先更新系统软件包&#xf…...

OpenHarmony LiteOS-M Shell 命令开发指南

概述 本文档详细介绍如何在 OpenHarmony LiteOS-M 内核中添加自定义 shell 命令,以 version、reboot、poweroff 命令为例进行说明。 目录结构 kernel/liteos_m/components/shell/ ├── include/shcmd.h # 命令声明头文件 ├── src/base/shcmd.c …...

5分钟快速上手:用Python高效下载Google卫星地图的终极指南

5分钟快速上手:用Python高效下载Google卫星地图的终极指南 【免费下载链接】google-map-downloader Small tools to download Google maps satellite image for a given extent & zoom level to a TIFF file with geographical coordinates and speeding it up …...

免费实时空气质量API接口:一站式获取AQI+PM2.5+NO2+CO+O3+SO2+PM10数据

1. 空气质量API接口的价值与应用场景 空气质量数据对现代生活的重要性不言而喻。无论是个人健康管理、企业决策还是政府监管,实时准确的空气质量信息都发挥着关键作用。作为一个开发者,我曾经在多个项目中需要集成空气质量数据,但市面上的商业…...

遥感数字图像处理教程【2.1】

2 . 非线性拉伸使用非线性拉伸函数对图像进行拉伸变化,即为非线性拉伸。常用的非线性函数有指数函数、对数函数、平 方 根 、高斯函数等。1)指数变换对于图像中亮的部分,指数变换扩大了灰度间隔,突出了细节;对于暗的部…...

C语言完美演绎7-15

/* 范例&#xff1a;7-15 */#include <string.h>#include <stdio.h>void main(void){/* 定义参数dest的字符数组destination[25] */char destination[25];/* 定义参数scr的字符指针scr1、scr2、scr3 */char *scr1 "tiger" , *scr2 " is", *sc…...

Flutter导航与路由详解

Flutter导航与路由详解 什么是Flutter导航与路由&#xff1f; 在Flutter应用中&#xff0c;导航与路由是指在不同页面之间切换的机制。Flutter提供了一套完整的导航系统&#xff0c;包括基本的页面跳转、命名路由、参数传递、路由动画等功能。 基本导航 1. 使用Navigator.p…...

AIAgent学习机制失效诊断手册(工业级Agent训练失败率下降73%的实证模型)

第一章&#xff1a;AIAgent学习机制失效诊断手册&#xff08;工业级Agent训练失败率下降73%的实证模型&#xff09; 2026奇点智能技术大会(https://ml-summit.org) AI Agent在真实产线中常因隐性学习机制退化导致训练失败——并非梯度爆炸或数据缺失&#xff0c;而是目标函数与…...

CSS Grid布局详解与实战应用

CSS Grid布局详解与实战应用 什么是CSS Grid布局&#xff1f; CSS Grid布局是一种二维布局系统&#xff0c;允许我们同时控制行和列的布局&#xff0c;为网页设计提供了更灵活的布局方案。与Flexbox的一维布局不同&#xff0c;Grid布局可以同时处理行和列&#xff0c;非常适合创…...

QuickTime Player录屏声音不全?试试这招!Soundflower+麦克风双轨录制教程

Mac双轨高清录屏终极方案&#xff1a;Soundflower与BlackHole实战指南 每次用QuickTime录制教程视频时&#xff0c;系统声音和麦克风解说总是无法完美同步&#xff1f;这个问题困扰着无数内容创作者。作为一位长期使用Mac进行音乐制作和视频教程录制的资深用户&#xff0c;我深…...

MedGemma 1.5医疗AI助手:基于Linux系统的部署与优化

MedGemma 1.5医疗AI助手&#xff1a;基于Linux系统的部署与优化 1. 引言 医疗AI正在改变传统的诊疗方式&#xff0c;但很多医疗机构面临数据隐私和网络安全的挑战。MedGemma 1.5作为谷歌开源的医疗多模态模型&#xff0c;提供了完全本地化部署的解决方案&#xff0c;让医院和…...

生产环境离线部署大模型

一、普通服务器升级ai服务器 1、服务器插槽装载8张INVIDA RTX 4090的显卡(单显卡48GB) 2、在INVIDA官网下载安装NVIDIA驱动NVIDIA-Linux-x86_64-550.120.run //服务器上禁用开源驱动 nouveau echo "blacklist nouveau" >> /etc/modprobe.d/blacklist-nouveau…...

OV2640寄存器配置黑魔法:手把手教你用ESP32-S3调出专业级画质

OV2640寄存器配置黑魔法&#xff1a;手把手教你用ESP32-S3调出专业级画质 在嵌入式视觉领域&#xff0c;OV2640这颗200万像素的图像传感器堪称常青树。它价格亲民、资料丰富&#xff0c;但想要榨干它的性能潜力&#xff0c;却需要深入理解其寄存器配置的奥秘。本文将带你从ISP底…...

机器学习与深度学习的区别是什么?看这一篇就够了

机器学习与深度学习的区别是什么&#xff1f;看这一篇就够了 标签&#xff1a;#机器学习、#深度学习、#人工智能、#计算机视觉、#自然语言处理、#数据分析、#ai### 一、企业招聘角度拆解&#xff1a;机器学习 vs 深度学习&#xff0c;岗位、要求、薪资、需求量### 二、对比学习…...

从ESP8266到ESP32-C6:一文看懂乐鑫芯片的‘家族进化史’与背后的物联网十年

从ESP8266到ESP32-C6&#xff1a;解码乐鑫芯片的十年物联网战略布局 2014年&#xff0c;一款售价仅3美元的Wi-Fi芯片悄然问世&#xff0c;谁也没想到这颗名为ESP8266的小芯片会彻底改变物联网行业的游戏规则。当时市面上的Wi-Fi模块价格普遍在10美元以上&#xff0c;且需要外接…...

面了个新人连Agent如何进行冷启动都不知道

一、产品侧&#xff1a;先做「精准小功能」&#xff0c;不做“万金油” ❌ 拒绝做一个什么都懂但都不准的Agent ✅ 核心逻辑&#xff1a;场景收窄 知识聚焦 人工兜底 1.只攻一个垂直场景 ToB方向&#xff1a;比如“合同审核Agent”. “电商售后Agent”&#xff0c;场景越…...

从洗碗到叠衣:用RECAP算法让机器人学会‘吃一堑长一智’

从洗碗到叠衣&#xff1a;用RECAP算法让机器人学会“吃一堑长一智” 想象一下&#xff0c;你刚教会家里的机器人如何叠衣服。第一次尝试时&#xff0c;它把袖子塞进了衣领里&#xff1b;第二次&#xff0c;衣服直接掉在了地上&#xff1b;第三次&#xff0c;它终于叠好了——但…...

为什么你的网络总抽风?可能是这个ARP协议漏洞在捣鬼(含防御方案)

为什么你的网络总抽风&#xff1f;可能是这个ARP协议漏洞在捣鬼&#xff08;含防御方案&#xff09; 想象一下这样的场景&#xff1a;你正在视频会议中发言&#xff0c;突然画面卡顿、声音断断续续&#xff1b;或者游戏激战正酣时&#xff0c;角色突然掉线。这些恼人的网络&quo…...

Phi-3-mini-128k-instruct代码解释能力实测:逆向工程与文档生成

Phi-3-mini-128k-instruct代码解释能力实测&#xff1a;逆向工程与文档生成 最近在尝试一些新的代码辅助工具&#xff0c;发现微软开源的Phi-3-mini-128k-instruct模型挺有意思。它主打轻量化和指令跟随&#xff0c;特别是那个128k的超长上下文&#xff0c;理论上能塞进去不少代…...

为什么92%的SITS2026项目在Phase 2失败?——多Agent角色编排、任务分解与状态同步的黄金三角模型,

第一章&#xff1a;SITS2026深度解析&#xff1a;多Agent协作系统设计 2026奇点智能技术大会(https://ml-summit.org) SITS2026&#xff08;Scalable Intelligent Task Synthesis 2026&#xff09;是一个面向开放域复杂任务的多Agent协作框架&#xff0c;其核心设计理念是“角…...

YOLOv7实战指南:如何实现高精度与实时性的多任务目标检测

1. YOLOv7为什么能成为工业级目标检测的首选&#xff1f; 第一次接触YOLOv7是在去年做一个智能质检项目时&#xff0c;当时测试了YOLOv5、YOLOv7和YOLOv8三个版本。结果发现YOLOv7在检测微小电子元件缺陷时&#xff0c;准确率比v5高出12%&#xff0c;推理速度却比v8还要快15%。…...

AIAgent自动驾驶到底靠不靠谱?2026奇点大会127项实测数据揭示L4级商用真相

第一章&#xff1a;AIAgent自动驾驶的范式革命与奇点大会背景 2026奇点智能技术大会(https://ml-summit.org) 传统自动驾驶系统长期依赖模块化流水线设计——感知、定位、规划、控制被严格解耦&#xff0c;各模块由独立模型驱动&#xff0c;通过手工定义接口传递确定性信号。…...

揭秘Reward Hacking真相:为什么90%的AI Agent在训练后期崩溃?

第一章&#xff1a;Reward Hacking的本质与系统性风险 2026奇点智能技术大会(https://ml-summit.org) Reward hacking 是强化学习系统在优化目标函数过程中&#xff0c;绕过设计者真实意图、利用奖励函数漏洞获取高分的非预期行为。它并非偶然错误&#xff0c;而是智能体在目…...

AIAgent协议一致性危机爆发前夜:4步诊断法+3类协议健康度SLI指标(P99延迟、语义丢失率、Schema漂移频次),立即自查你的Agent集群

第一章&#xff1a;AIAgent架构中的通信协议设计 2026奇点智能技术大会(https://ml-summit.org) 在多智能体协同系统中&#xff0c;通信协议是决定Agent间语义对齐、时序可控与容错能力的核心基础设施。不同于传统微服务间RESTful或gRPC调用&#xff0c;AIAgent需支持异步事件…...

目标分解效率提升300%的关键:动态权重分配算法(已开源v2.1,支持LangChain/AutoGen无缝集成)

第一章&#xff1a;AIAgent架构中的目标分解策略 2026奇点智能技术大会(https://ml-summit.org) 在复杂任务驱动的AI Agent系统中&#xff0c;目标分解是实现自主规划与协同执行的核心前置环节。它并非简单地将顶层目标切分为子任务&#xff0c;而是需结合领域知识、资源约束、…...

为什么93%的AIAgent在复杂任务中“想得清却走不远”?SITS2026深度拆解规划-执行失配症,附3套已验证Prompt-Action协同模板

第一章&#xff1a;SITS2026分享&#xff1a;AIAgent规划与推理能力 2026奇点智能技术大会(https://ml-summit.org) AI Agent 的规划与推理能力正从符号逻辑驱动迈向多模态协同增强的新阶段。在 SITS2026 技术分享中&#xff0c;核心聚焦于如何构建具备分层目标分解、动态环境…...

海思Hi3516DV500/HI3519DV500开发实战:从SDK编译到多媒体例程验证

1. 环境准备&#xff1a;搭建Hi3516DV500/HI3519DV500开发环境 拿到海思SDK后&#xff0c;第一件事就是搭建开发环境。我建议使用Ubuntu 18.04或20.04系统&#xff0c;这是官方推荐的环境。安装完系统后&#xff0c;需要配置一些基础工具链&#xff1a; sudo apt-get update su…...

深入解析CMP0074策略:如何正确使用<PackageName>_ROOT变量优化CMake依赖查找

1. 理解CMP0074策略的核心机制 当你第一次在CMake项目中看到"CMP0074 is not set"的黄色警告时&#xff0c;可能会感到困惑。这个看似简单的警告背后&#xff0c;其实隐藏着CMake依赖查找机制的重要进化。让我们从一个实际案例开始&#xff1a;假设你在Windows上编译…...