当前位置: 首页 > article >正文

记录我重写了 Agent 的 Plan 系统:为什么 Replan 是可进化 Agent 的关键

摘要Agent 项目都在讲自主规划但落到工程上往往是开场列一份 Todo或者让模型临场改主意。我最近在维护SkillLite的时候遇到一个在更底层的事把重新规划做成一个可观测、可度量、可沉淀为进化信号的系统事件。本文结合真实的 Rust 代码聊聊为什么我最终选择了显式 replan而不是更自然但难以计量的隐式再决策。先说选型各家 Agent 的 Replan 到底长什么样在展开实现之前我觉得更重要的是先把几条路线摆出来比较否则很容易读了半天代码却不知道这些取舍是在对抗什么。如果只聚焦在replan 机制本身我会把主流方案分成这五类系统Replan 的典型形态一句话理解最适合的场景CursorPlan Mode执行前生成可编辑 Markdown 计划用户确认后执行执行中无自动 replan先规划再执行replan 靠用户发起IDE 内编码任务、人工审核计划、改动有限的单次任务Claude Code模型调用TodoWrite持续更新 todo 列表更新任务板长任务推进、人机共视、状态可见OpenClaw观察结果后自然再决策必要时借助 Plan Skill 重新分解下一轮重新判断怎么做灵活协同、复杂任务、可变规划深度Manusplanner 在外部工作区如task_plan.md持续修订路线图持续改写任务路线图多 agent 编排、长上下文任务、强 context engineeringSkillLite模型显式调用update_task_plan替换待执行计划一次正式的计划替换事件单 Agent、自进化、可度量、可复盘结论重视人工审核计划、确保每步可控→CursorPlan Mode 路线很强重视任务可见性和进度维护→Claude Code那类 Todo 路线很强重视灵活推理和自然再决策→OpenClaw这种路线很强重视多 agent 编排、大任务上下文管理→Manus这类路线很强重视 replan 可计数、可统计、可沉淀为 evolution 信号→SkillLite当前这套更合适SkillLite选择的不是最智能的方案而是当前目标下追求可衡量的工程化的方案。一、问题从哪里来隐式 Replan 的三个死角Agent 的replan 是一个比较常见的模块但很多系统里的 replan 本质上是隐式发生的这轮执行失败了模型下一轮换了个思路你感觉它好像重新规划了一下但系统里没有任何正式的 replan 记录这种方式做 demo 够用但真正想做自进化系统三个缺点会很快暴露出来。一没法定义到底有没有 replan失败后重试一次算不算 replan整套计划重写算不算系统里没有明确事件这些边界都是模糊的。二没法统计失败原因是任务拆错了工具选错了还是最初规划就偏了如果 replan 只是模型临场换了个说法你之后分析不出任何稳定规律。三没法复现今天第 5 轮改主意明天第 3 轮就换了。对 demo 来说无所谓对工程系统来说这种行为根本没法复盘也不可能进化。所以SkillLite从一开始就定下一条设计原则replan 不能只是模型脑子里的临时改主意必须是系统中的正式且可记录事件。二、SkillLite 的做法让 Replan 变成工具调用SkillLite的 planning 结构比较直接对话开始前Agent 先生成一份任务列表每个任务包含四个字段{ id: u32, description: String, tool_hint: OptionString, // 建议用哪个工具/skill 执行 completed: bool, }tool_hint是和 Claude Code Todo 最大的区别。普通 Todo 只知道要做什么而tool_hint额外带了原本打算怎么做。这一点对 evolution 信号很关键后面会展开。执行过程中如果发现当前计划不适用模型不是换个说法继续答而是显式调用一个工具update_task_plan调用之后系统会把这次 replan 记录为一个离散事件replan_count加一新计划替换待执行部分。从这一刻起replan 就是一个可计数、可追踪、可回放的事件不再是模糊的它好像改过主意。三、核心代码解读3.1handle_update_task_planreplan 不是口头建议而是状态修改代码位于crates/skilllite-agent/src/agent_loop/helpers.rspub(super) fn handle_update_task_plan( arguments: str, planner: mut TaskPlanner, skills: [LoadedSkill], event_sink: mut dyn EventSink, ) - ToolResult { // 1. 解析 LLM 提交的新任务列表 // 2. 校验tasks 不能为空 // 关键新计划要先过和初始 planning 一样的清洗 增强 planner.sanitize_and_enhance_tasks(mut new_tasks, skills); // 保留已完成任务只替换待执行部分 let completed_tasks: VecTask planner .task_list .iter() .filter(|t| t.completed) .cloned() .collect(); let next_id completed_tasks.iter().map(|t| t.id).max().unwrap_or(0) 1; for (i, t) in new_tasks.iter_mut().enumerate() { t.id next_id i as u32; t.completed false; // 新计划里的 completed 一律重置 } let mut merged completed_tasks; merged.extend(new_tasks.clone()); planner.task_list merged; // 通知事件系统replan 成为可记录的离散事件 event_sink.on_task_plan(planner.task_list); ToolResult { content: format!(Task plan updated ({} tasks). Continue with the new plan., new_tasks.len()), is_error: false, ..Default::default() } }这段代码背后有三个设计决策值得注意第一replan 是状态修改不是文字风格变化。系统里planner.task_list真实改变了不是模型只是说了一段不一样的话。第二已完成任务被保留。新计划不会覆盖历史只替换还没做的部分避免replan 一次之前努力清零。第三新计划不是直接执行的要先被系统接住。sanitize_and_enhance_tasks这层防御非常关键。3.2sanitize_and_enhance_tasks模型可以提建议系统负责接住这是一个很容易被忽视但非常关键的实现在crates/skilllite-agent/src/task_planner.rsfn sanitize_task_hints(tasks: mut [Task], skills: [LoadedSkill]) { for task in tasks.iter_mut() { if let Some(ref hint) task.tool_hint { if !Self::is_hint_available(hint, skills) { tracing::info!( Stripped unavailable tool_hint {} from task {}: {}, hint, task.id, task.description ); // 把幻觉出来的 hint 直接清掉不让它进执行链路 task.tool_hint None; } } } } pub fn sanitize_and_enhance_tasks(self, tasks: mut VecTask, skills: [LoadedSkill]) { Self::sanitize_task_hints(tasks, skills); self.auto_enhance_tasks(tasks); // 检测缺失步骤并自动补齐 }做这层的原因模型在 replan 时同样会幻觉。常见的问题有写出根本不存在的tool_hint、漏掉关键步骤、把没完成的任务标成completed。如果不做清洗replan 看起来像纠错实际上只是重新生成了一份新的错误计划。最终原则只有一句话replan 和初始 planning必须走同一套清洗和增强逻辑。3.3 软上限允许反思但不允许无限犹豫把 replan 做成显式事件之后很快会遇到一个新问题模型有时候会陷入不停改计划但不执行的循环。SkillLite在crates/skilllite-agent/src/agent_loop/execution.rs里做了软上限const MAX_REPLANS_PER_SESSION: usize 3; if is_replan { state.replan_count 1; let mut r handle_update_task_plan(arguments, planner, skills, event_sink); if !r.is_error state.replan_count MAX_REPLANS_PER_SESSION { r.content.push_str( \n\n⚠️ You have now replanned 3 time(s). \ Please STOP replanning and EXECUTE the current plan step by step. ); } r }同时在单任务工具调用过深时系统也会明确给出两个出口而不是只鼓励硬试pub fn build_depth_limit_message(self, max_calls: usize) - String { let current_id self.current_task().map(|t| t.id).unwrap_or(0); format!( You have used {} tool calls for the current task. \ Call complete_task(task_id{}) to record completion. \ If the current approach is clearly wrong, \ you may call update_task_plan with a revised task list instead., max_calls, current_id ) }这两段代码体现同一个工程判断不硬拦保留模型自救空间但也不放任防止系统陷入假忙状态。四、为什么没有选其他方案为什么不像 Cursor 那样做 Plan ModeCursor 的 Plan Mode 是目前编辑器 Agent 里做得比较有特色的一套用户按 ShiftTab 进入规划模式Cursor 先研究代码库、提问、生成一份带文件路径和代码引用的可编辑 Markdown 计划用户确认后再正式执行。这个设计有它的优势人机协作感很强用户能在执行前看到完整的执行路线可以直接改掉不对的步骤适合编码改动场景计划里直接标注要改哪些文件执行后有 diff 视图可回滚降低大改动的风险高风险任务先规划、人确认再执行但这套方案有一个局限replan 是人发起的不是 Agent 自主触发的。一旦进入执行阶段Cursor 的 Agent 模式就是纯 ReAct 循环每轮最多 25 次工具调用没有任何任务结构也没有 mid-execution 的自动 replan 机制。如果执行中发现计划不对只能用户重新输入重走一遍。这对提升编码体验来说已经够了。但对SkillLite想做的事完全不够用系统没法自主识别当前路径不对并触发 replanreplan 不计入任何指标没有replan_count没有 per-task 工具绑定没有tool_hint不产生 evolution 所需的工具模式信号无人值守跑批时一旦卡住就只能超时没有自救路径Cursor Plan Mode 的核心价值是人类把关编码计划而不是让 Agent 在执行中自主纠偏。两者要解决的问题根本不在同一个层面。4.1 为什么不直接照搬 Claude Code 的 TodoClaude Code的 Todo 路线有很明显的优点显式、可见、用户和模型都能实时感知任务进度。但它的核心强项是进度维护不是执行策略学习。Claude Code的 todo 项只有content、status、activeForm没有 per-task 的工具绑定。这意味着你知道哪些任务做完了但你不知道这类任务原本打算用什么工具做。而SkillLite的 evolution 引擎需要这一层信息哪类任务经常和哪个工具绑定哪些tool_hint频繁导致失败或 replan任务类型和工具模式之间有没有可学习的稳定映射所以SkillLite不能丢掉tool_hint。没有这个字段evolution 信号就弱了一层。如果说 Claude Code 的 Todo 更像执行进度结构那SkillLite的 plan/replan 更像可进化的执行信号载体。4.2 为什么不选 OpenClaw 的隐式再决策OpenClaw的规划体系我很欣赏按任务复杂度动态决定规划深度L0 到 L4执行中根据观察结果自然再决策Task Router 还支持并行波次和依赖图。但灵活恰恰是它对我的最大障碍。如果 replan 是模型下一轮自然改主意那你很难定义这次是否发生了 replan。一旦这个定义不清晰后面这些事都做不了统计首次成功率计算平均 replan 次数比较无 replan 成功和多次 replan 成功案例的差异从失败轨迹里提炼可复用规则SkillLite的 evolution 引擎强依赖这些可计数的信号。如果 replan 不是离散事件整条进化链路的数据基础就不稳了。4.3 为什么 Manus 的路线也不是当前的参考系从公开资料来看Manus是一个强 planner 强 context engineering 多 agent 协作的体系任务路线写进task_plan.md结合notes.md、context.md等外部工作区持续推进。这套方案对复杂开放任务非常适合planner 可以随时改写路线上下文外化也解决了长任务的信息压缩问题。但SkillLite当前的目标不是做一个超级总控 agent而是做一个可复制、可进化、可度量的单 Agent 最小闭环。Manus的启发对SkillLite更多是间接的外部工作区有价值、planner 和 executor 分层有价值、context 工程化很关键。但在replan 的离散可计数性这件事上它没有提供直接参考。五、为什么 Replan 是进化系统的入口不只是执行辅助做完这轮分析我越来越确信一件事SkillLite里的 planning/replanning已经不是执行层的小功能而是进化系统的入口。Agent 想真正变好靠的不是抽象意义上的更聪明而是这些更具体的能力把任务拆对给当前任务配上合适的执行策略在失败时及时换路不死磕把这些经验沉淀成下一次更好的决策这些能力必须依赖结构化信号才能沉淀下来。而结构化信号的前提就是 replan 要是一个明确发生过的事件可以被记录、被统计、被分析、被学习。从这个角度看planning 不再只是让对话更有条理而是让系统知道它到底是怎么变好的。六、后续还想继续打磨的几个点这轮把 replan 做成离散事件的设计完成后我觉得还有几个地方值得继续优化空计划时更早退出。如果 planning 结果是[]说明任务可能根本不需要工具这时继续给满额迭代预算会浪费轮数。规划解析失败要更可观测。当前 fallback 到单任务是合理的但系统最好明确打日志便于后续分析 prompt 质量。在更多卡住场景提示 replan。连续失败、无工具调用、深度用尽这些情况应该更一致地引导模型考虑改计划而不只是反复重试。七、总结系统里的 replan到底是模型偷偷改主意还是一个能被记录、度量、复用的正式事件这两者的差别比模型用哪个版本或者prompt 怎么写都要更根本。因为 replan 不只是让 Agent 能纠错它是系统能不能从每一次执行里学习的前提。SkillLite当前的选择是显式 planning 显式 replan tool_hint 绑定 软限制约束。它可能不够像人但在单细胞、可复制、可进化这个目标下应该是目前探索下来比较稳的工程解法。

相关文章:

记录我重写了 Agent 的 Plan 系统:为什么 Replan 是可进化 Agent 的关键

摘要Agent 项目都在讲"自主规划",但落到工程上,往往是开场列一份 Todo,或者让模型临场改主意。我最近在维护SkillLite 的时候遇到一个在更底层的事:把"重新规划"做成一个可观测、可度量、可沉淀为进化信号的系…...

数据智能体目前能做到多少准确率?

📐 2026 年行业实测数据 主流厂商技术路线准确率对比引言"准确率"是衡量数据智能体能力的核心指标,也是企业选型时最关心的问题。95% 的准确率意味着什么?为什么有些厂商声称 99%,实际使用却频频出错?不同技…...

基于本体论的应用到底能做什么?

🧠 从哲学思想到企业实践 行业技术观察引言"本体论"(Ontology)这个词听起来哲学味十足,但正在成为企业级 AI 应用的核心技术。从 Palantir 的 4000 亿市值神话,到国内 UINO、字节、帆软等厂商的技术探索&am…...

前端进阶之路

后端接口调用学习 看懂request.js,学习接口请求封装 import store from /store import config from /config import { getToken } from /utils/auth import errorCode from /utils/errorCode import { toast, showConfirm, tansParams } from /utils/commonlet ti…...

第178章 星际殖民的伦理(墨子)

弦光研究院星际殖民伦理委员会的圆形会议厅内,空气凝重得仿佛能够拧出水来。椭圆形的会议桌中央,全息投影展示着"神谕"提出的火星殖民方案细节,那些闪烁的基因图谱和生理改造示意图像一把把钥匙,试图打开通往人类进化新…...

高职Zigbee点对点开发-物联网应用开发

题目:ZigBee 设备功能开发 使用两个蓝色 ZigBee 节点盒进行组网通讯,并分别命名为节点端和控制端。 节点端上安装双联继电器模块并外接风扇、照明灯。根据任务要求完成功能开发。 任务要求: 在控制端点击 SW1 键后,板上的 LED1 灯…...

小白避坑指南:玩客云部署小雅AList最常见的5个错误及解决方法(2024最新版)

小白避坑指南:玩客云部署小雅AList最常见的5个错误及解决方法(2024最新版) 最近几年,用闲置的玩客云刷个轻NAS系统,再通过Docker部署各种服务,成了不少技术爱好者低成本折腾的乐趣。其中,将“小…...

告别TeamViewer?在Ubuntu上使用VNC Viewer实现轻量级远程控制的3种方法

告别商业远程工具:在Ubuntu上构建高效、自主的VNC远程协作体系 最近和几位做独立开发的朋友聊天,大家不约而同地吐槽起一件事:那些曾经“免费”的商业远程工具,如今变得越来越“不友好”。连接不稳定、频繁弹出商业使用提醒、甚至…...

OpenWRT在龙芯平台的神操作:如何定制专属路由器系统(2K1000实测)

OpenWRT在龙芯平台的神操作:如何定制专属路由器系统(2K1000实测) 最近几年,身边不少做网络设备开发的朋友,都开始把目光投向自主可控的硬件平台。龙芯的2K系列处理器,凭借其开放的生态和不错的性能&#xf…...

自媒体必备!Bidili Generator生成独特东方风格配图全攻略

自媒体必备!Bidili Generator生成独特东方风格配图全攻略 做自媒体最头疼的事情之一,就是找配图。要么版权有问题,要么风格不统一,要么根本找不到符合文章意境的图片。尤其是当你写的内容带有东方文化、古典美学、国风元素时&…...

一个基于 .NET 开源、功能强大的分布式微服务开发框架

前言今天大姚给大家分享一个基于 .NET 开源、功能强大的分布式微服务开发框架:Anno.Core。Anno.Core 项目介绍Anno.Core 是一个基于 .NET 开源、功能强大的分布式微服务开发框架,致力于简化分布式、微服务系统的构建。框架原生支持 gRPC 和 Thrift 两种高…...

小学生也能搞定!用ChatGPT4+MindShow快速生成AI主题PPT(附详细Markdown模板)

小学生也能搞定!用ChatGPT4MindShow快速生成AI主题PPT(附详细Markdown模板) 最近,我邻居家上五年级的孩子小宇,学校要举办一个科技主题周活动,他主动报名想做一个关于“AI如何改变学习”的演讲。孩子兴致勃…...

学生党如何低成本仿制拜亚动力A1功放?我的实战经验与零件清单分享

学生党如何低成本仿制拜亚动力A1功放?我的实战经验与零件清单分享 作为一名在校学生,同时又是一名音频DIY爱好者,我深知在有限的预算和条件下,想要复刻一台经典设备是多么具有挑战性。拜亚动力A1耳放,在耳机发烧友圈子…...

5分钟搞定uniapp地图marker聚合:从配置到点击事件全流程指南

5分钟搞定uniapp地图marker聚合:从配置到点击事件全流程指南 地图功能在移动应用开发中扮演着至关重要的角色,无论是展示门店位置、追踪物流轨迹,还是呈现共享资源分布,清晰、高效的地图展示都是提升用户体验的关键。在uni-app开发…...

M-Robots OS实战指南:如何用开源鸿蒙打造工业机械臂多机协同系统(附避坑清单)

M-Robots OS实战指南:如何用开源鸿蒙打造工业机械臂多机协同系统(附避坑清单) 如果你最近在工业自动化圈子里待过,大概率会听到一个名字:M-Robots OS。这个基于开源鸿蒙(OpenHarmony)的机器人操…...

华为路由器帧中继配置实战:Hub-and-Spoke模式下RIP与OSPF的坑点解析

华为路由器帧中继配置实战:Hub-and-Spoke模式下RIP与OSPF的坑点解析 在当今企业广域网架构中,虽然MPLS、SD-WAN等新技术层出不穷,但帧中继(Frame Relay)作为一种经典、稳定且成本效益高的非广播多路访问(NB…...

国密SM3 vs SHA-256:实测对比哈希速度与碰撞率(附性能测试代码)

国密SM3与SHA-256深度对决:从理论到实战的性能与安全全景剖析 在当今数据驱动的时代,哈希算法如同数字世界的基石,默默支撑着密码学、数据完整性校验、区块链乃至数字签名等众多关键应用。对于技术决策者而言,选择一个合适的哈希算…...

GB28181模拟环境搭建:从零到一的实战避坑指南

1. 为什么你需要一个GB28181模拟环境? 如果你正在开发或者测试一个和视频监控相关的平台,尤其是涉及到国标GB28181协议对接,那你肯定遇到过这样的场景:手头没有真实的IPC(网络摄像机)或者NVR(网…...

STM32F103低功耗模式实战:从寄存器到HAL库的全面解析

1. 为什么你的STM32项目耗电那么快?聊聊低功耗的“刚需” 你是不是也遇到过这种情况?辛辛苦苦用STM32F103做了个小玩意儿,比如一个无线温湿度计或者一个便携式数据记录仪,满心欢喜地装上电池,结果没两天就没电了。检查…...

Qt实战:用QToolBox打造动态可配置的侧边栏工具集(附完整代码)

Qt实战:用QToolBox打造动态可配置的侧边栏工具集(附完整代码) 在开发复杂的桌面应用程序时,尤其是那些面向专业用户的工具软件,一个清晰、灵活且可定制的用户界面至关重要。想象一下,你正在构建一个集成开发…...

从init.rc到StorageManager:图解Android 13存储服务启动全流程

从init.rc到StorageManager:图解Android 13存储服务启动全流程 如果你曾经好奇过,当按下Android设备的电源键,从内核启动到你能在文件管理器中看到“内部存储”和“SD卡”这个过程中,背后究竟发生了什么,那么这篇文章就…...

Guohua Diffusion 模型压缩与蒸馏:在边缘设备上运行的探索

Guohua Diffusion 模型压缩与蒸馏:在边缘设备上运行的探索 想让Guohua Diffusion这样强大的文生图模型在你的手机或者小型开发板上跑起来吗?这听起来像是个天方夜谭,毕竟这类模型动辄数十亿参数,对计算和内存的需求高得吓人。但现…...

HI3516CV608开发板实战:如何用ARM Cortex-A7双核+0.2T NPU打造智能监控摄像头(附配置清单)

HI3516CV608开发板实战:用双核A7与0.2T NPU构建你的智能视觉中枢 最近在捣鼓一个智能门铃的项目,核心需求很简单:能看清人脸、识别出是熟人还是陌生人,并且功耗要低,最好能靠电池撑上几个月。市面上现成的方案要么太贵…...

2025年最新VSCode插件离线下载攻略:手动拼接URL获取VSIX文件(附脚本)

2025年VSCode插件离线部署实战:从URL构造到企业级分发方案 最近在给团队配置一批新的开发环境时,我遇到了一个典型的企业场景:内网隔离环境下的VSCode插件部署。官方市场页面上的那个“Download Extension”按钮早已消失不见,而团…...

ICM vs 传统探索方法:在稀疏奖励环境下的性能对比实验

当环境沉默不语:ICM如何让智能体在“零反馈”中学会探索 想象一下,你被蒙上眼睛,扔进一个巨大而复杂的迷宫,唯一的目标是找到出口。但这里没有“你走对了”的提示音,也没有“此路不通”的警告。只有在最终推开出口大门…...

Windows提权实战:5种常见漏洞利用与防御指南(附详细命令)

Windows权限提升实战:从漏洞原理到防御加固的深度解析 在Windows安全领域,权限提升始终是攻防对抗的核心战场。无论是渗透测试人员验证系统安全性,还是安全运维人员加固防线,深入理解提权漏洞的成因、利用手法及防御策略&#xff…...

效率提升:基于快马AI自动化监控与修复战网更新服务睡眠模式

最近在和朋友联机打游戏时,经常遇到一个烦人的问题:战网客户端(Battle.net)的更新服务时不时就“睡着了”,显示“战网更新服务进入了睡眠模式,正尝试唤醒它”。每次都得手动去任务管理器里找服务、重启&…...

OpenWrt UCI 命令行实战:从网络配置到Luci管理界面部署

1. 初识UCI:OpenWrt的配置“总开关” 刚接触OpenWrt的朋友,第一次登录到那个黑乎乎的命令行界面时,多半会有点懵。没有熟悉的图形化设置页面,只有一个闪烁的光标,这路由器该怎么设置?别急,这正是…...

UI-TARS-desktop快速上手:无需代码实现浏览器自动化控制

UI-TARS-desktop快速上手:无需代码实现浏览器自动化控制 你是不是也厌倦了每天在浏览器里重复那些枯燥的点击、复制、粘贴操作?比如每天都要登录后台查看数据,或者在不同网站间来回切换收集信息。这些工作不仅耗时,还容易出错。 …...

FireRedASR Pro命令行工具开发:快速脚本调用与批量处理

FireRedASR Pro命令行工具开发:快速脚本调用与批量处理 你是不是也遇到过这样的场景?手头有一堆音频文件需要转成文字,一个一个打开软件、上传文件、点击识别,效率低得让人抓狂。或者,你想把语音识别功能集成到自己的…...