当前位置: 首页 > article >正文

训练环境决定 AI Agent 天花板:Harness 如何塑造 RL 训练循环

最近 Cursor 发布 Composer 1.5 的消息刷屏了。他们的 RL 训练规模直接扩大了 20 倍后训练计算量甚至超过了预训练阶段。更关键的是所有训练都发生在和生产环境完全一致的沙箱里——同样的代码编辑器、同样的语义搜索、同样的终端命令。这让我突然意识到对于现在的 AI Agent 开发来说训练用的 “Harness”训练环境已经不是一个可有可无的辅助工具而是整个系统成败的关键。很多实验室都在围绕 Harness 做文章今天就来拆解一下他们的做法以及为什么环境质量直接决定了模型的上限。什么是 Agent Harness先搞清楚核心概念强化学习RL大家都知道就是让模型在尝试中学习通过奖励好的结果、惩罚坏的结果来进步。传统的 RLHF人类反馈强化学习主要是单轮对话模型生成回答后让人打分训练步数也就几百步。而Agentic RL完全是另一个维度多轮交互一次 rollout完整尝试可能包含上百次工具调用动作空间极其复杂用哪些工具、什么顺序、并行还是串行奖励极其稀疏复杂任务成功率可能只有 1/1000每个 rollout 要消耗几十万到上百万 token还需要完整的沙箱操作系统环境但 Agentic RL 有一个巨大优势奖励可验证。测试能不能通过、代码能不能运行、linter 有没有报错这些都是客观的不需要人来主观打分。这让 RL 步骤能轻松做到上万次。Harness 指的就是这个训练环境。它包括可用的工具集合、反馈机制、沙箱系统等。模型只会学习环境允许它学的东西。打个比方给你十个精心设计的工具你就能熟练用好它们要是把一百个工具一股脑扔进去模型大概率就随机乱选了。正如 Phil Schmid 说的“竞争优势不再是 prompt而是你的 Harness 能捕获的 trajectories轨迹。”各大实验室的 Harness 实践拆解Cursor生产环境即训练环境20x RL ScalingCursor 的最大亮点是训练环境和生产环境完全一致。他们有三类服务器Trainer用 PyTorch 自定义 MXFP8 内核加速运算Inference Server基于 Ray 框架编排 rolloutEnvironment Server同时启动几十万的微 VM每个 VM 都是完整的 Cursor agent 环境里面跑全套工具因为生产服务器和训练服务器代码相同他们直接复用了现有的 Background Agents 基础设施。这让训练过程中自然涌现了很多能力模型学会了复杂代码库搜索、自主修复 linter 错误、写单元测试、逐步增加并行工具调用还从“疯狂编辑”转向“先多读文件”。他们甚至还跑了第二个训练循环用 agent 的 session traces 训练语义搜索 embedding 模型。分析哪些文件应该早点被检索用 LLM 打分然后训练 embedding 去匹配。结果代码库问答准确率提升明显大代码库的代码保留率也涨了 2.6%。Harness 产生数据 → 数据优化搜索 → 搜索再提升 Harness形成完美闭环。最终 Composer 1.5 在 Terminal-Bench 2.0 上达到了 47.9%超过了 Claude Sonnet 4.5。CognitionModel Harness 同步迭代GRPO 强健 RewardCognition 把 model、harness、工具、prompt 当成一个整体同时开发。他们采用了 GRPOGroup Relative Policy Optimization算法比传统 PPO 更省内存、更准不需要单独的 critic 模型。奖励设计也很讲究除了传统测试还有代码质量 rubric 和 agentic grading。他们专门做了 “reward hardening”让人类专家多轮攻击 grader来减少 false positive 和 “AI slop”功能能用但代码很烂。环境用 Otterlink VM hypervisor支持几万并发机器速度达到 950 tokens/s是 Haiku 4.5 的 6 倍接近 SOTA 编码水平。OpenAI Codex隔离容器 Calibrated HonestyOpenAI 在隔离云容器里训练每个任务预装真实代码和开发环境断网后开始 trajectory。他们特别训练模型学会“诚实”——不可能的任务上从训练前只有 15% 会说“我做不到”训练后提升到 85%。后面版本还引入 compaction让模型能跨多个 context window 总结自己的进度。他们 harness 团队的实证最狠3 个工程师、5 个月用纯 agent 建了一个 100 万行代码的产品、1500 个 PR全程没手动写一行代码——全靠精心设计的 Harness。Windsurf真实开发者工作流训练Windsurf 则另辟蹊径。他们用 “Shared Timeline Data Model” 捕获编辑器里真实的开发者操作包括中断、上下文切换、部分构建等。模型学的是“flow awareness”也就是开发者真实的编码节奏而不是孤立的完美任务。研究证实环境质量决定模型天花板2025年底到2026年初的几篇论文CSO、CARL、CORECRAFT、RAGEN 等都指向同一个结论模型在什么环境里训练就决定了它能学到什么。关键发现一只有约 16% 的步骤真正重要CSO 研究。大部分动作对最终结果影响极小。把 RL 更新聚焦在这些 critical steps 上能带来 37% 的相对提升。关键发现二真实高保真环境训练出来的能力更容易泛化。合成 benchmark 上表现相似的模型在真实复杂环境中差距会拉得很大。关键发现三坏环境会制造 “Echo Trap”。模型早期还会认真思考权衡训练后就退化成重复模板推理多样性消失。解决方案是设计更多样化的初始状态和合理的交互粒度。坏的 Harness 让训练信号被稀释好 Harness 则创造更多有价值的决策时刻。对开发者的启发与应用Harness 设计比 prompt 更重要。未来竞争的核心将是 trajectories 的质量而不是单纯的提示词。建立正反馈闭环。好的 harness 产生好的数据好的数据训练出更好的 model再反过来优化 harness。这个循环会持续 compound。关注可验证性和真实性。在构建自己的 agent 系统时要尽早设计好沙箱、验证机制和 reward 系统避免模型学到“自信地犯错”。实际场景应用企业内部代码助手、运维自动化 agent、复杂客服工作流等都可以借鉴这种思路——让训练环境贴近真实生产场景。这个趋势很明显model 和 harness 的界限正在模糊。谁能把这个循环跑得更快更稳谁就能在 AI Agent 赛道上领先一步。总结Agent Harness 不是训练后才加的“外挂”而是训练环境本身。它直接塑造了模型能学到什么、怎么学。Cursor、Cognition、OpenAI 等实验室的实战加上最新研究都在告诉我们要让 AI Agent 真正强大必须把精力花在打造高质量的训练环境上。这个 Harness 与 Model 相互强化的循环才是未来 AI Agent 能力持续进化的核心引擎。我是紫微AI我们下期见。完

相关文章:

训练环境决定 AI Agent 天花板:Harness 如何塑造 RL 训练循环

最近 Cursor 发布 Composer 1.5 的消息刷屏了。他们的 RL 训练规模直接扩大了 20 倍,后训练计算量甚至超过了预训练阶段。更关键的是,所有训练都发生在和生产环境完全一致的沙箱里——同样的代码编辑器、同样的语义搜索、同样的终端命令。 这让我突然意识…...

Maxwell Optislang的谐响应与多物理场计算在永磁电机多目标优化参数化建模及电磁振...

maxwell ,optislang 谐响应,,多物理场计算永磁电机多目标优化参数化建模电磁振动噪声仿真永磁电机的多物理场优化就像在玩一场精密的多维拼图游戏。当电磁性能、振动噪声和热特性这几个看似矛盾的指标需要同时满足时,传统单学科优…...

焊接机器人破局船舶制造难题

​​在船舶制造领域,大型复杂船体因尺寸大、结构复杂、空间狭小等特点,传统手工焊接质量波动大、一致性差,成为制约行业升级的关键瓶颈。如今,洲翔龙门和悬臂式焊接机器人凭借"手、眼、脑"协同的智能系统,正…...

AIGC时代下SEO的变革:从关键词堆砌到智能内容生成

引言:当SEO遇见AIGC,是颠覆还是赋能? 搜索引擎优化(SEO)领域正经历着一场由人工智能生成内容(AIGC)驱动的深刻变革。从早期的关键词堆砌到如今的内容为王,SEO的核心始终围绕着“理解…...

MySQL国产化替代:数据类型适配与迁移成本优化实战

很多企业做数据库国产化替代时,最核心的焦虑莫过于:“用了这么多年MySQL,换国产库是不是要重写所有SQL?改表结构?调应用代码?停机好几天?” 其实答案可以很简单:只要选对具备深度MyS…...

土壤热通量变送器怎么选?优质厂商推荐及选型指南来了!

在生态环境监测、岩土工程建设、气象研究及农业精细化发展的当下,土壤热通量作为反映土壤能量平衡、热传导特性的核心指标,其精准监测对科研探索、工程安全与生产优化具有重要意义。土壤热通量变送器作为捕捉这一指标的关键设备,其测量精度、…...

YOLOv12全网首发:CVPR2026 Transformer注意力 | BinaryAttention 1-bit注意力,推理提速100%,超越FlashAttention2

💡💡💡问题点:Transformer 已取得广泛而显著的成功,但其注意力模块的计算复杂性仍然是视觉任务的主要瓶颈。现有方法主要采用 8-bit 或 4-bit 量化来平衡效率与精度 💡💡💡措施:我们通过理论论证指出,注意力的二值化保留了基本的相似性关系,并提出了 BinaryAt…...

智能安防感知方案:从被动响应到主动关怀 | Smart Security Sensing Solutions: From Passive Response to Active Care

引言:安防感知的演进与核心痛点 | Introduction: The Evolution and Core Challenges of Security Sensing传统的安防系统,如摄像头和门窗传感器,主要扮演“事后记录”或“边界报警”的角色。它们往往在事件发生后才发出警报,缺乏…...

910b A100 GPU - IDC行业服务器托管与租用

现在IDC圈里聊到高性能计算,昇腾910b和NVIDIA A100这两款GPU绝对是绕不开的话题。特别是随着大模型训练、科学计算这类业务越来越普及,企业对高性能算力的需求已经不再是“有就行”,而是要求稳定、高效、可扩展。 先说说A100,这是…...

PTA 串的算法设计 4 求某链串的子串算法

作者 张鏖烽单位 湖南工程学院设计一个算法求链串s的子串:Sub_LinkStr(LinkString *s,int i, int j);函数接口定义:LinkString * Sub_LinkStr(LinkString *s,int i, int j);//求链串s的子串,子串存在则输出子串,否则输出空串其中i…...

如何执行Install-Package

pwoershell执行[Net.ServicePointManager]::SecurityProtocol [Net.ServicePointManager]::SecurityProtocol -bor [Net.SecurityProtocolType]::Tls12Get-PackageProvider -ListAvailableInstall-PackageProvider -Name NuGet -MinimumVersion 2.8.5.201 -ForceInstall-Packa…...

模块化编程下的FOC工程源码解析:获取ABZ编码器初始电角度差的方法及其在工业量产中的应用

编码器foc工程源码 编码器为1000线ABZ编码器 源码中含有foc初始电角度差的获取方法 模块化编程 非常适合工业量产和移植最近在搞一个FOC(Field Oriented Control,磁场定向控制)项目,用的是1000线的ABZ编码器。这个编码器精度高&…...

智能楼道灯控制器(有完整资料)

资料查找方式:特纳斯电子(电子校园网):搜索下面编号即可编号:HJJ-32-2022-020设计简介:本设计是基于单片机的智能楼道灯控制器,主要实现以下功能:1.能通过蓝牙远程控制led照明灯&…...

英伟达“龙虾”乐园开张在即:硅谷现场装配AI助手引燃AI热潮!

本周,全球AI算力巨头英伟达(NVIDIA)将在加州圣何塞掀起一场别开生面的科技盛宴——英伟达年度旗舰盛会GTC(GPU技术大会)即将开幕,而今年的GTC则被业界戏称为“龙虾大会”。据36氪独家报道,除了发…...

AI面试系统选型指南:为什么企业级安全是不可妥协的底线

AI面试系统正在成为现代招聘流程中不可缺少的组成部分。它不仅能够显著压缩面试周期、降低HR的重复性工作负担,更重要的是,通过标准化的评估框架,有效减少人为偏见对招聘决策的影响。然而,当越来越多的企业开始将AI面试纳入正式招…...

电商品牌数字化获客工具排行榜适配精准需求

电商品牌数字化获客工具排行榜适配精准需求一、行业背景与排行依据据《2026中小企业数字化获客白皮书》数据显示,当前国内83%的电商品牌面临获客成本攀升、用户精准度不足的问题,人工运营效率仅为自动化工具的17%,数字化获客已成为企业增长的…...

esp网络时钟

配件ESP32 30P CP2102 Type-C 开发板 0.96寸 OLED 屏幕 (I2C接口) 接线#四针oled接线 SDA -> ESP32 的 G21 SCL -> ESP32 的 G22 VCC -> ESP32 的 3V3 GND -> ESP32 的 GNDIDE&#xff1a;Arduino IDE安装U8g2lib字体库#include <WiFi.h> #include <U8g2l…...

2026年期货量化软件多品种支持排名_全市场覆盖对比

免责声明&#xff1a;本文基于个人使用体验&#xff0c;与任何厂商无商业关系。内容仅供技术交流参考&#xff0c;不构成投资建议。 一、前言 期货量化策略往往需要覆盖多个品种、多周期。不同期货量化软件在品种覆盖、周期支持、多合约并发等方面差异明显。做了多年期货量化&…...

Pixelium Design 更新:首版表格上线,完善表单、导航、反馈及视觉组件

前言 最近在维护我的像素风组件库 Pixelium Design&#xff0c;它迎来了一波不小的更新。 这次更新不仅带来了功能完善的像素风表格组件&#xff0c;还新增了不少输入组件、导航组件和反馈组件&#xff0c;补全了基础能力。此外&#xff0c;这次的改动&#xff0c;还带来了一…...

招聘系统如何扛住“校招/大促”流量峰值?——高并发下不宕机,保障万人级招聘季稳定

博主介绍&#xff1a; 所有项目都配有从入门到精通的安装教程&#xff0c;可二开&#xff0c;提供核心代码讲解&#xff0c;项目指导。 项目配有对应开发文档、解析等 项目都录了发布和功能操作演示视频&#xff1b;项目的界面和功能都可以定制&#xff0c;包安装运行&#xff…...

期货程序化交易日志分析_问题定位与优化

免责声明&#xff1a;本文基于个人使用体验&#xff0c;与任何厂商无商业关系。内容仅供技术交流参考&#xff0c;不构成投资建议。 一、前言 程序化交易运行中会产生大量日志&#xff0c;合理的日志设计和分析能快速定位问题、优化策略。做了二十年期货交易&#xff0c;我积累…...

【ASP.NET CORE】 8. 集成 JWT 认证授权

本系列专栏基于杨中科老师的《ASP.NET Core技术内幕与项目 实战》&#xff0c;本人记录梳理的学习笔记&#xff0c;有部分的增补和省略。更全面系统的讲解&#xff0c;请看杨老师的视频课&#xff1a;【.NET教程&#xff0c;.Net Core视频教程&#xff0c;杨中科主讲】。 一、…...

关于QT修改了UI文件重新运行界面却没变化的问题

目录 1. 核心原因&#xff1a;uic 没有重新编译 2. 影子构建 问题 3. CMake 或 qmake 项目文件配置问题 4. Qt Designer 保存路径错误 5. 极端情况&#xff1a;C 缓存/旧对象 6. 检查运行路径 如果以上你都排除了&#xff0c;还有一个问题&#xff0c;也是我遇到的问题&a…...

DBA 经验:MySQL性能最重要的参数只有2个!

在日常的MySQL性能优化工作中&#xff0c;面对几百个配置参数&#xff0c;常常让人眼花缭乱。但经过多年的实战经验&#xff0c;我发现真正起决定性作用的参数其实只有两个。今天&#xff0c;我就把这压箱底的经验分享给大家——调好这两个参数&#xff0c;你的MySQL性能就成功…...

关于电脑开机输入密码后只显示鼠标问题

前景&#xff1a;网上遇到提到的在资源管理器处重启explorer.exe进程无反应&#xff0c;但是注意到昨天晚上关机前有window系统更新提醒&#xff0c;那时没有理会就直接关机了&#xff0c;结果第二天就出现了现在的问题。解决办法&#xff1a;在输入密码处点击“重启并更新”即…...

2026美妆行业自动图文发布工具推荐指南

2026美妆行业自动图文发布工具推荐指南行业背景与推荐依据据《2025年美妆行业数字化营销白皮书》显示&#xff0c;美妆行业线上营销投入占比已达68%&#xff0c;其中小红书、抖音两大平台的内容营销贡献了超过70%的线上获客量。随着内容营销的深化&#xff0c;美妆品牌普遍面临…...

收藏!小白程序员必看:深度拆解AI大模型技术架构,从算力到落地全链路逻辑

本文从工程实现角度&#xff0c;逐层拆解AI大模型技术架构&#xff0c;涵盖算力、数据、算法、能力及应用等层面。从GPU集群到分布式存储&#xff0c;从机器学习框架到多模态融合&#xff0c;再到内容生成、专业工具及多模态交互能力&#xff0c;最后探讨金融、工业、医疗等行业…...

人工智能——实验环境搭建

计算机科学与技术系实验报告课程名称&#xff1a;人工智能实验班级&#xff1a;网络工程2班 姓名&#xff1a; 学号&#xff1a; 成绩&#xff1a; 实验项目名称&#xff1a;实验环境搭建一、实验目的及要求搭建好人工智能后期实验环境&#xff0…...

【笔试真题】- 小红书-2026.03.11

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围在线刷题 bishipass.com 小红书-2026.03.11 本次三题均对应历史原题,红薯已经连续好几场是这样了 题目一:完美数字 这题的关键在于满足条件的连续正整数乘积其实非常少,可以先把所…...

2.项目背景:基于销量可视化的手机价位段智能选型平台

(未完成) 一.项目背景 1.行业与市场现状 2026 年开年&#xff0c;中国智能手机市场呈现总量承压、结构分化、价格上移的深度调整态势。据 Counterpoint 数据&#xff0c;1 月国内智能手机销量同比下降 23%&#xff0c;IDC 预测全年出货量约 2.78 亿台、同比下滑 2.2%&#xf…...