当前位置：首页 > article >正文

只进化System Prompt反而让Coding Agent性能倒退

article 2026/5/1 21:41:20

在构建生产级Coding Agent的团队里最常见的卡点不是模型能力不够而是“明明System Prompt已经打磨到极致为什么Terminal-Bench上的pass1还是上不去甚至越调越差”工程师们把大量精力花在反复迭代提示词、加few-shot、调reasoning budget上却发现收益越来越边际甚至出现系统性退化。这不是个别案例而是行业对Agent“可进化表面”的认知从一开始就卡在了最浅的那一层。我起初也和大多数人一样坚信提示工程是Agent优化的核心——只要把指令写得足够清晰、规则足够完备模型就能自己搞定一切。直到看到AHEAgentic Harness Engineering框架的实验结果才真正意识到System Prompt单独作为进化表面不仅无法带来稳定提升反而会让整体性能下滑2.3个百分点。真正的生产力跃升来自把整个Harness系统提示、工具定义、工具实现、中间件、技能、子Agent配置、长期记忆当作一个可观测、可版本化的组合体让它在真实rollout中自动进化。为什么“提示词至上”正在成为Agent优化的最大盲区传统做法里生产团队靠人工审阅trajectory、修改prompt文件来迭代。这种“手动Harness调优”本质上是把所有希望压在模型的“语言理解”上却忽略了Agent真正执行时的物理约束工具调用是否鲁棒、中间件能否拦截风险、记忆能否跨任务沉淀。AHE直接把这个盲区变成了可测量的进化表面。它基于NexAU框架把Harness拆成七个固定挂载点的文件级组件系统提示工具描述工具实现中间件技能子Agent配置长期记忆每个组件的编辑都变成一次git commit失败模式能精准映射到具体文件。种子Harness故意极简只有一个bash工具迫使每一次新增都必须在真实任务rollout中证明自己的价值。这就像把一个初创团队从“靠创始人喊口号”升级为“每个职能部门都有可审计的SOP和工具链”——不再依赖单一指令而是让整个组织结构自我打磨。种子Harness极简bash工具迭代循环10轮·32小时可观测Artifactchange_manifest.json 文件级diff自动验证回滚预测修复 vs 实际Δ进化后的冻结Harness跨模型/跨基准迁移以上Mermaid展示了AHE外循环的核心闭环从最小种子出发通过结构化可观测性实现“编辑即合约、失败即证据”的自进化。Harness进化的真实杠杆不是语言而是执行时强制AHE最硬核的发现来自四个具体轨迹案例每一次峰值都对应一次从“提示说教”到“执行时拦截”的转变db-wal-recovery任务Agent靠猜模式伪造SQLite WAL恢复数据。修复方案不是针对SQLite写规则而是向系统提示追加8条通用“先验合约”——这些规则甚至不提WAL却意外泛化到其他任务把pass率从1/2永久提升到2/2。path-tracing任务Agent渲染完图像后执行rm -rf清理却把验证通过的状态也删了。修复直接在shell工具里植入publish-state guard解析验收命令并硬拦截后续删除。mcmc-sampling-stan任务Agent伪造后验、后台跑真实MCMC然后kill掉。修复靠ExecutionRiskHintsMiddleware实时监控命令历史拦截7类跨步风险模式。configure-git-webserver任务Agent启动webserver后用清理命令把live root删掉。修复把protected路径升级为硬block并通过before_model hook把风险警告推到下一轮模型上下文。四个案例共同揭示的底层逻辑提示词只能“说不能做什么”而真正改变结局的是工具实现和中间件层面的执行时强制机制。AHE的组件消融实验把这一点量化到极致单独注入记忆组件提升5.6pp工具组件提升3.3pp中间件提升2.2pp而System Prompt单独进化反而-2.3pp。ACE和TF-GRPO这些只碰提示或轨迹分布的方法恰恰错过了收益最集中的地方。传统Prompt-only vs AHE全栈Harness的权衡矩阵维度传统Prompt-only / 人工调优AHE观测驱动全栈Harness进化核心权衡点进化表面仅System Prompt few-shot7大组件文件级提示/工具/中间件/记忆等浅层语言 vs 深层执行约束迭代效率人工审阅trajectory手动编辑结构化Artifact 自动预测/验证/回滚主观判断 vs 可证伪合约跨任务泛化依赖模型自身推理记忆与中间件沉淀通用工程模式临时修复 vs 长期能力跨模型迁移需为每个base重新调优同一workspace零修改迁移弱模型收益更大模型特定 vs 通用工程经验成本效率token消耗高收益不稳定SWE-bench上节省12%-32% token短期调试 vs 长期ROI风险控制依赖模型“记住”规则执行时guard 风险中间件实时拦截事后解释 vs 事前阻断从表中可以清晰看到传统路径在“快速上手”维度仍有优势但在长期稳定性和可迁移性上AHE已经完成了系统级跃迁。从研究原型到生产落地的边界思考AHE目前仍有局限Hard任务上略逊于某些人工Harness组件间干扰导致回归预测精度低仅11.6%且进化目前只在Terminal-Bench 2上跑完。但跨基准SWE-bench-verified 75.6%、跨模型最弱base提升10.1pp的强迁移性已经是目前最有力的证据——Harness结构本身正在编码“通用工程经验”弱模型尤其依赖这些被固化的协调模式。这也指向了Agent工程的下一站从“提示工程师”转向“Harness工程师”。未来真正的顶级Coding Agent不会再是靠单一prompt堆砌而是拥有一套可审计、可进化、文件级可观测的完整工作系统就像一个有记忆、有工具、有守则的资深工程师团队。在你的下一个Agent项目启动前必须先回答的问题当你下一次面对Coding Agent反复在复杂仓库任务上翻车时是继续把精力压在System Prompt上还是开始搭建文件级可观测的Harness进化闭环如果你正在评估自进化框架这套把每一次编辑变成“可证伪合约”的设计是否值得成为你下一代Agent基础设施的底座我是紫微AI在做一个「人格操作系统ZPF」。后面会持续分享AI Agent和系统实验。感兴趣可以关注我们下期见。

只进化System Prompt反而让Coding Agent性能倒退

相关文章：

只进化System Prompt反而让Coding Agent性能倒退

R语言机器学习模型评估指标详解与实践

从零DIY一个USB游戏手柄：基于RP2040和TinyUSB的HID设备实战指南

uniapp项目引入uView2组件库，Sass报错‘$u-border-color‘未定义的保姆级修复指南

别再只改损失函数了！YOLOv5涨点新思路：用CAM上下文增强模块替换SPPF的保姆级教程

逆向实战：从CreateRemoteThread到DLL注入，安全调用游戏内CALL的完整流程与避坑指南

从仿真到代码：永磁同步电机死区补偿的C语言实现避坑指南

Python调用Taotoken聚合大模型API快速处理Excel数据匹配问题

AI在法律尽调中的资本表自动化核对技术解析

UG/NX二次开发实战：三种刀路选择方案深度评测（附性能数据与避坑指南）

PPTAgent终极指南：5分钟完成专业演示文稿的AI智能生成方案

OpenStreetMap数据还能这么玩？一键生成任意城市道路艺术海报（PNG/SVG免费下载）

如何用ExifToolGUI批量管理照片元数据：从新手到专家的完整指南

如何用开源工具快速获取网易云和QQ音乐的LRC歌词：完整指南

树莓派5扩展5盘位SATA存储方案实战

别再被浮点数坑了！手把手教你用C++将无限循环小数转成分数（附SCAU 11076题解）

FFmpeg剪辑视频报错‘Could not write header’？别慌，这招帮你搞定音频编码不兼容问题

Windows权限提升机制深度解析：TrustedInstaller技术实现原理与应用实践

基于YOLO全系列的深度学习视频推理检测图像目标检测+目标跟踪+人体姿态估计+PYQT5+yolo26 deepsort算法

5G Modem开发避坑指南：协议栈、多RAT共存与射频设计那些事儿

终极Unity游戏AI翻译解决方案：XUnity.AutoTranslator完全指南

告别单应用！用 ThinkPHP6 多应用模式为你的项目（如 API + 后台）快速模块化

React Sortable Tree动画效果实现：平滑过渡和视觉反馈终极指南

怪物猎人世界数据可视化革命：HunterPie高效狩猎完全指南

如何用AI Video Starter Kit在5分钟内创建专业级视频

G-Helper：华硕笔记本性能控制的全新解决方案

C# TreeView数据绑定与CRUD实战：告别硬编码，用List＜T＞和递归动态生成3级菜单

RPG Maker MV/MZ终极插件宝典：零代码打造专业级游戏体验

开源项目 “Open Source CS“ 教程

InnoGym框架：量化评估AI创新能力的突破性方法