当前位置: 首页 > article >正文

一篇不错的自进化Agents最新系统性综述

近期厦门大学、香港理工大学、马里兰大学、华盛顿大学圣路易斯分校、UIUC、新加坡管理大学等多机构联合发布了一篇关于Self-Evolving Agents自进化智能体的系统性综述A Systematic Survey of Self-Evolving Agents: From Model-Centric to Environment-Driven Co-Evolution当 LLM Agent 不再只是被人类标注数据训练出来而是能够主动探索、获得反馈、更新策略、积累经验时我们应该如何理解它的“自进化”图1Self-Evolving Agents 代表性工作发展趋势从2022年到2026年围绕 Agent 的研究快速从以模型自身能力增强为中心逐步走向通过环境交互获取反馈、积累经验并进一步发展为模型与环境相互驱动、共同进化的新范式。一条越来越清晰的技术主线正在形成Agent 的能力边界不只取决于模型参数也取决于它如何与环境交互并从交互中持续获得可用的学习信号。为什么需要 Self-Evolving Agents传统 Agent 系统大多依赖一个“两阶段范式”Pre-Training通过大规模语料学习通用世界知识Post-Training通过 SFT、RLHF、RLAIF 或任务数据让模型学习特定的 Agentic 能力。这个范式已经极大推动了 LLM Agent 的发展但它也有一个越来越明显的瓶颈Agent 越复杂对高质量监督信号的依赖就越强而高质量人类标注、人工奖励和专家反馈很难无限扩展。对于简单问答任务人类可以直接写答案对于复杂 Agent任务人类不仅要判断最终答案还要理解多步规划、工具调用、环境反馈、错误恢复和长期状态变化。监督成本急剧上升。Self-Evolving Agents 应用更关键的是如果 Agent 永远依赖人类提供学习信号那么它的能力上限很容易被人类经验、标注规模和预定义任务边界限制住。因此Self-Evolving Agents 的核心动机是让 Agent 从被动接受人类监督转向主动构造问题、探索环境、生成反馈、修正策略并在闭环中持续提升。这篇 survey 将 Self-Evolving Agents 概括为两个核心特征Strong autonomy with minimal human supervision尽量减少对外部人工监督的依赖Active exploration through interaction通过内部推理或外部环境交互主动探索和改进。换句话说自进化 Agent 不再只是一个“被训练好的模型”而更像是一个可以参与自身成长过程的系统。统一分类三条自进化路线这篇 survey 最重要的贡献是提出了一个统一 taxonomy将 Self-Evolving Agents 划分为三大范式Model-Centric Self-Evolution模型中心自进化Environment-Centric Self-Evolution环境中心自进化Model-Environment Co-Evolution模型-环境共同进化。图2Self-Evolving Agents 统一分类框架图2给出了全文的核心分类框架。这个框架的关键之处在于它不是简单按照任务类型或技术模块划分而是按照“进化发生在哪里”来组织整个领域如果进化主要发生在模型内部就是 Model-Centric如果进化来自模型对外部知识、经验、工具和结构的利用就是 Environment-Centric如果模型和环境都在持续变化并互相推动对方变强就是 Model-Environment Co-Evolution。这一视角的重要性在于它将原本分散的研究方向统一到一个递进式框架中从模型内部计算与参数更新驱动的能力增强到环境交互与反馈驱动的经验积累再到模型与环境相互适应、共同演化。图3Self-Evolving Agents 技术谱系总览图3进一步展开了 Self-Evolving Agents 的完整技术分类将不同演化路径下的方法系统组织起来展示了该领域从内部能力增强、外部环境交互到模型-环境共同演化的整体技术版图。它基本可以作为理解当前 Self-Evolving Agents 研究格局的一张技术地图。Model-Centric Self-Evolution模型先自己变强第一条路线是Model-Centric Self-Evolution。这类方法的基本假设是模型内部已经包含大量潜在能力只是没有被充分激发。因此自进化首先可以从模型自身出发通过更多推理计算、更好的搜索策略或者自生成训练数据来提升能力。这一路线可以进一步分成两类3.1 Inference-Based Evolution推理时自进化这类方法不更新模型参数而是在单次推理过程中投入更多计算资源让模型“想得更充分”。代表方向包括Parallel Sampling并行采样多条推理路径再通过投票、排序或一致性判断选择答案Sequential Self-Correction生成、反思、修正形成多轮自我纠错Structured Reasoning将推理过程组织成树、图等结构。它的本质是用更多 test-time compute 换取更可靠的单次输出。但问题也很明显这种改进通常是临时的。推理结束后模型参数没有变化能力不会被真正内化。3.2 Training-Based Evolution训练时自进化相比之下Training-Based Evolution 追求长期能力提升。模型会生成数据、筛选数据、评估数据并通过 SFT 或 RL 将新能力写回参数。这篇 survey 将其分为两条路线Synthesis-Driven Offline Self-Evolving离线生成合成数据再用于训练Exploration-Driven Online Self-Evolving在线探索、实时反馈、持续更新策略。图4离线合成驱动进化与在线探索驱动进化对比图4很好地展示了二者差异。离线合成方法更像“模型给自己出教材”可以高效启动但容易受限于初始模型能力在线探索方法则更像“模型不断在探索中试错”能够发现新的策略但对反馈质量、训练稳定性和探索效率要求更高。这也是为什么近年来 R-Zero、Absolute Zero、Agent0等工作受到关注它们不满足于让模型复述已有知识而是尝试让模型通过自博弈、环境反馈或任务探索获得新的训练信号。Environment-Centric Self-Evolution环境成为能力来源第二条路线是Environment-Centric Self-Evolution。如果说 Model-Centric 方法主要关注模型内部如何变强那么 Environment-Centric 方法强调Agent 的进化不只来自参数更新也来自它如何利用外部知识、经验、工具、记忆和多 Agent 结构。这篇 survey 将环境中心自进化分为四个方向Static Knowledge Evolution静态知识演化Dynamic Experience Evolution动态经验演化Modular Architecture Evolution模块架构演化Agentic Topology EvolutionAgent 拓扑演化。4.1 Static Knowledge Evolution从回答问题到主动找知识传统 RAG 通常是“用户问问题系统检索相关文档”。但 Agentic RAG 和 Deep Research 更进一步Agent 会判断自己缺什么知识主动生成查询、浏览网页、收集证据、整合推理并最终生成结构化报告。这意味着检索不再只是一个前置模块而成为 Agent 推理链条中的主动认知行为。4.2 Dynamic Experience Evolution从知识到经验知识解决的是 “what is”经验解决的是 “how to do”。很多 Agent 任务不是缺知识而是缺经验哪种工具调用顺序更稳定哪类错误应该如何恢复哪些历史失败能指导当前决策哪些 workflow 可以复用到新任务因此Dynamic Experience Evolution 关注如何从历史轨迹、成功案例、失败反馈和执行日志中提炼可复用经验。图5静态知识演化与动态经验演化对比图5将 Static Knowledge Evolution 和 Dynamic Experience Evolution 放在一起对比。前者更适合知识密集型任务例如问答、搜索和研究后者更适合逻辑密集、长程规划、多轮交互和 embodied tasks因为这些任务更依赖可迁移的行为经验。4.3 Modular Architecture Evolution记忆、工具和接口也要进化Agent 与环境交互并不是直接发生的而是通过一系列模块完成的例如Memory ModuleTool ModuleInteraction InterfaceProtocolSkill Library。这些模块本身也可以演化。例如Memory 不再只是一个向量数据库而可以是一个能够主动决定保留、遗忘、合并、重写和路由的系统。Tool 也不只是预定义 API而可以被 Agent 自动创建、组合和维护。Interaction Interface 也可以被设计得更适合模型理解和操作从而提升 Agent 的稳定性。这说明 Agent 的能力提升不仅是“模型更强”也是“系统结构更适合模型发挥”。4.4 Agentic Topology Evolution多 Agent 结构自己演化多 Agent 系统过去常常依赖人工设计角色和流程例如 planner、executor、critic、reviewer 等。但在复杂任务中固定流程未必最优。因此Agentic Topology Evolution 研究如何让多 Agent 的通信结构、角色分配、团队规模和协作拓扑自动搜索或动态调整。这类方法的核心问题是多 Agent 系统的组织形式能不能也成为一个可学习、可优化、可进化的对象Model-Environment Co-Evolution未来的关键方向第三条路线也是这篇 survey 最强调的未来方向是Model-Environment Co-Evolution。前两类方法各有局限Model-Centric 方法容易缺乏外部验证可能出现错误累积、自我强化幻觉和高方差轨迹过估计Environment-Centric 方法虽然引入了外部知识和反馈但很多环境仍然是静态的、单任务的、不可扩展的。因此一个更理想的方向是不只是模型适应环境而是环境也随着模型能力变化而变化。图6模型-环境共同进化相对于前两类范式的优势图6总结了 Model-Environment Co-Evolution 的优势环境可以根据 Agent 能力动态调整难度按需提供有针对性的反馈并扩展为多任务、可验证、可持续增长的训练场。这一路线包含两个核心方向5.1 Multi-Agent Policy Co-Evolution在多 Agent 场景中环境本身可以由其他 Agent 构成。Agent 之间的协作、竞争、评价和沟通会形成一个动态学习场。例如多个 Agent 可以通过 peer evaluation 互相提供反馈也可以通过多 Agent 强化学习共同优化策略。此时环境不再是静态背景而是由其他正在学习的智能体共同组成。5.2 Environment Training另一条路线是直接训练或生成环境。理想环境应该具备几个特征能够提供可验证反馈能够根据 Agent 能力自动调整难度能够生成多样化任务能够支持长期、开放式探索。Reasoning Gym、AgentGym、Agent-World等工作都在朝这个方向发展。这也是本文的一个重要判断未来 Self-Evolving Agents 的核心挑战不只是训练更强的 Agent而是设计能够和 Agent 一起成长的环境。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

一篇不错的自进化Agents最新系统性综述

近期,厦门大学、香港理工大学、马里兰大学、华盛顿大学圣路易斯分校、UIUC、新加坡管理大学等多机构联合发布了一篇关于 Self-Evolving Agents(自进化智能体) 的系统性综述: A Systematic Survey of Self-Evolving Agents: From M…...

告别复杂抠图!ComfyUI-BiRefNet-ZHO:5分钟实现专业级图像视频背景去除

告别复杂抠图!ComfyUI-BiRefNet-ZHO:5分钟实现专业级图像视频背景去除 【免费下载链接】ComfyUI-BiRefNet-ZHO Better version for BiRefNet in ComfyUI | Both img & video 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-BiRefNet-ZHO …...

3步解锁Unity游戏无限可能:MelonLoader模组加载器完全指南

3步解锁Unity游戏无限可能:MelonLoader模组加载器完全指南 【免费下载链接】MelonLoader The Worlds First Universal Mod Loader for Unity Games compatible with both Il2Cpp and Mono 项目地址: https://gitcode.com/gh_mirrors/me/MelonLoader 你是否曾…...

从Windows桌面到Raspberry Pi Zero W2:.NET 9跨架构边缘调试7大约束条件对照表,第4项已被微软标记为P0阻塞问题

更多请点击: https://intelliparadigm.com 第一章:.NET 9跨架构边缘调试的演进背景与核心挑战 随着物联网与边缘计算场景爆发式增长,.NET 应用正加速部署于 ARM64、RISC-V 等异构硬件平台。.NET 9 首次将跨架构调试能力深度集成至 dotnet-du…...

【紧急预警】DOTS 2.0正式版中已被移除的API兼容层正在 silently 拖垮你的构建速度:3类高危Deprecated调用检测脚本(附自动化修复工具)

更多请点击: https://intelliparadigm.com 第一章:DOTS 2.0构建性能退化根源的紧急定位与认知升级 在 Unity DOTS 2.0 生态中,构建(Build)阶段的性能退化往往隐匿于 JobSystem 调度器初始化、Burst 编译缓存失效或 En…...

HiveWE完整指南:现代化地图编辑器让魔兽争霸3地图制作变得简单

HiveWE完整指南:现代化地图编辑器让魔兽争霸3地图制作变得简单 【免费下载链接】HiveWE A Warcraft III world editor. 项目地址: https://gitcode.com/gh_mirrors/hi/HiveWE 还在为传统魔兽争霸3地图编辑器的卡顿和复杂操作而烦恼吗?HiveWE是一款…...

12306ForMac:macOS原生抢票助手的深度开发指南

12306ForMac:macOS原生抢票助手的深度开发指南 【免费下载链接】12306ForMac An unofficial 12306 Client for Mac 项目地址: https://gitcode.com/gh_mirrors/12/12306ForMac 还在为节假日抢票而烦恼吗?作为Mac用户,你是否厌倦了在虚…...

PHP 8.9扩展模块沙箱逃逸事件频发!资深内核工程师亲授3类ZTS模式下ZVAL引用计数绕过防护代码

更多请点击: https://intelliparadigm.com 第一章:PHP 8.9扩展模块沙箱逃逸事件全景透视 PHP 8.9 并非官方发布版本(截至 2024 年,PHP 最高稳定版为 8.3),但该名称被多个安全研究团队用作代号&#xff0c…...

从显示器校准到手机修图:揭秘伽马变换(Gamma)如何影响你看到的每一个像素

从显示器校准到手机修图:揭秘伽马变换(Gamma)如何影响你看到的每一个像素 你是否曾经遇到过这样的情况:同一张照片在电脑显示器上看起来色彩鲜艳、亮度适中,但传到手机后却显得暗淡无光?或者在专业显示器上…...

从Applied Intelligence高被引论文看2024年AI研究热点:CV、优化、异常检测

从Applied Intelligence高被引论文看2024年AI研究热点:CV、优化、异常检测 计算机视觉、优化算法和异常检测正在成为人工智能领域最具活力的研究方向。最近翻阅了Applied Intelligence期刊2023-2024年的高被引论文,发现这些领域不仅保持着高速发展&#…...

PyTorch模型加载进阶:用load_state_dict实现预训练权重迁移和部分参数加载

PyTorch模型加载进阶:用load_state_dict实现预训练权重迁移和部分参数加载 在深度学习项目中,模型权重的迁移和复用是提升开发效率的关键技能。当你从Hugging Face或TorchVision获取一个预训练模型时,如何将这些宝贵的知识迁移到自己的模型架…...

暗黑破坏神2存档编辑器:可视化编辑神器,轻松打造完美角色存档

暗黑破坏神2存档编辑器:可视化编辑神器,轻松打造完美角色存档 【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor d2s-editor是一款专为《暗黑破坏神2》玩家设计的开源存档可视化编辑工具。这个免费、简单易用…...

Chrome插件开发踩坑记:从Manifest V2到V3迁移,我遇到的5个典型问题与解决方案

Chrome插件开发实战:Manifest V3迁移的5个关键挑战与破解之道 去年第一次将公司核心插件迁移到Manifest V3时,我在凌晨三点盯着控制台里那条"Cannot access chrome.extension"的错误信息,突然意识到这次升级远不止修改版本号那么简…...

STM32驱动SYN6288语音模块,中文播报乱码?Keil编码设置和强制类型转换避坑指南

STM32与SYN6288语音模块中文乱码问题深度解析 引言 在嵌入式语音交互项目中,中文播报功能往往成为开发者的一道坎。最近接手一个智能家居控制面板项目,使用STM32F103驱动SYN6288语音模块时,英文播报一切正常,但切换到中文就变成了…...

SD-WEBUI模型太多太乱?试试这招:用同名TXT和图片文件打造你的专属模型库

SD-WEBUI模型管理革命:用同名文件打造智能模型库 当你第一次打开SD-WEBUI的models文件夹时,是否被那些看似随机的文件名搞得晕头转向?v1-5-pruned-emaonly.safetensors、chilloutmix_NiPrunedFp32Fix.safetensors...这些晦涩的命名让模型管理…...

别再手动框选了!用Grounding DINO+SAM,一句话让AI自动抠出图片里的任何东西

一句话解锁精准抠图:Grounding DINOSAM 智能组合实战指南 当设计师需要在200张商品图中批量提取所有手表,当电商运营要快速抠出模特身上的新款连衣裙,当内容创作者想从杂乱背景中分离出特定物体——传统手动操作就像用镊子捡芝麻。现在&#…...

AI编码助手技能库开发指南:从提示词到自动化工作流

1. 项目概述:为AI编码助手打造的个人技能库如果你和我一样,日常重度依赖 Claude Code、Cursor 这类 AI 编码助手,那你一定遇到过这样的场景:想让 AI 帮你设计一个 API 接口,或者生成一份项目文档,你需要在聊…...

SoC原型验证工程师日常:除了FPGA,我们还在用哪些“烧钱”的硬件平台?

SoC原型验证工程师的硬件平台选择:从FPGA到天价仿真器的实战指南 芯片验证领域的新人常常带着憧憬踏入这个行业,却很快会被各种硬件平台的价格标签吓到——动辄数百万美元的设备只是入门配置。作为一线工程师,我们每天都在与这些"烧钱机…...

GitHub中文化插件:让英文GitHub界面无障碍使用的终极解决方案

GitHub中文化插件:让英文GitHub界面无障碍使用的终极解决方案 【免费下载链接】github-chinese GitHub 汉化插件,GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 你是否曾经面…...

百度网盘直链解析:3步告别限速,免费享受高速下载

百度网盘直链解析:3步告别限速,免费享受高速下载 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘的非会员下载速度烦恼吗?每…...

身份证OCR识别准确率99.9%+是如何炼成的?图像矫正、翻拍检测、复印件判断技术全解析

身份证OCR识别准确率99.9%是如何炼成的?图像矫正、翻拍检测、复印件判断技术全解析 你知道一张模糊、倾斜甚至带反光的身份证照片,最终能被OCR精准识别出所有文字,背后的技术经历了多少次“考验”吗? 本文从技术原理角度&#xff…...

低代码≠低调试能力,.NET 9智能诊断引擎全拆解,3步定位Async死锁+内存泄漏双难题

更多请点击: https://intelliparadigm.com 第一章:低代码≠低调试能力:.NET 9智能诊断引擎的范式跃迁 .NET 9 引入的智能诊断引擎(Intelligent Diagnostics Engine, IDE)彻底重构了低代码开发中的问题发现与修复逻辑—…...

【.NET 9低代码实战白皮书】:20年微软MVP亲授——零前端经验3天搭建生产级CRUD应用

更多请点击: https://intelliparadigm.com 第一章:.NET 9低代码开发全景概览 .NET 9 正式将低代码能力深度融入平台原生架构,通过 Microsoft.Extensions.LowCode 命名空间、可视化组件注册系统和声明式工作流引擎,为开发者提供开…...

Java外部函数安全配置白皮书(仅限内部技术委员会解密版):禁用dlopen RTLD_GLOBAL、启用符号版本控制与沙箱化加载

更多请点击: https://intelliparadigm.com 第一章:Java外部函数安全配置白皮书导论 Java平台自JDK 16起引入了Foreign Function & Memory API(FFM API)的孵化特性,并于JDK 22正式成为标准API(JEP 454&…...

从CT原始数据到3D结节检测模型:一份给医学图像新手的Luna16预处理与FROC评估全流程拆解

从CT原始数据到3D结节检测模型:医学图像处理全流程实战指南 第一次接触医学图像分析时,我被那些复杂的文件格式和专业术语搞得晕头转向。记得当时盯着电脑屏幕上的.mhd和.raw文件发呆,完全不知道如何将它们转换成可用的数据格式。如果你现在也…...

告别重复劳动:用快马ai为你的团队定制高效mysql一键安装脚本

告别重复劳动:用快马AI为你的团队定制高效MySQL一键安装脚本 MySQL作为最流行的开源数据库之一,几乎每个开发项目都离不开它。但每次新项目启动时,重复的安装配置过程总让人头疼——不同项目可能需要不同版本、不同参数配置,还要…...

快马平台快速生成魔鬼面具主题网页原型,三分钟验证创意设计

最近在设计一个以"魔鬼面具"为主题的创意项目时,发现从概念到落地往往需要反复修改,传统方式耗时耗力。于是尝试用InsCode(快马)平台快速生成原型,整个过程意外地顺畅。 原型构思阶段 首先明确需要展示的核心元素:一个具…...

基于OpenClaw Starter快速构建Python多智能体系统:从原理到实践

1. 项目概述与核心价值最近在探索多智能体系统(Multi-Agent System, MAS)的落地应用时,我偶然在GitHub上发现了一个名为custer488/openclaw-multi-agent-starter的项目。这个项目名本身就很有意思,“OpenClaw”让人联想到一个开放…...

解决OpenAI API的SSLEOFError:从urllib3版本冲突到系统SSL环境的全面排查指南

深入解析OpenAI API的SSLEOFError:从底层原理到系统级排查 当你兴致勃勃地调用OpenAI API准备开发下一个惊艳的AI应用时,突然遭遇SSLEOFError报错,那种感觉就像在高速公路上突然爆胎。这个看似简单的SSL错误背后,往往隐藏着从代码…...

2025届学术党必备的六大AI写作方案横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek DeepSeek系列论文,系统地阐述了大规模语言模型的前沿技术架构,其核心…...