当前位置：首页 > article >正文

太猛了！用 OpenClaw-RL，AI 边聊天边自我进化，「白嫖」用户交互数据训出更强模型？

article 2026/3/14 21:40:57

研究背景每一个已经上线的 AI Agent其实每天都在丢弃金矿。每次 Agent 执行完一个动作环境就会给它一个下一状态信号 ——可能是用户的回复、工具的执行结果、GUI 界面的变化或者是测试的通过与否。现有的系统把这些信号仅仅当作下一步的输入上下文来用然后就扔掉了。但这篇论文的核心洞察是这些信号远不止于此。它们其实暗含了对上一步动作打分的信息用户不满意重新问、测试挂了、程序报错甚至还暗含了应该怎么改的方向性信息用户说你应该先看文件再改这不就是在告诉模型该怎么做吗。研究者把这两种被浪费掉的信号分别叫做评估性信号Evaluative signals和指令性信号Directive signals。前者告诉模型这一步做得好不好后者告诉模型这一步应该怎么改。在此基础上他们提出了OpenClaw-RL这套框架让 Agent 在正常被使用的过程中把每一次交互都转化为训练信号实现边聊边学的在线强化学习。这个框架的贡献可以总结为几个层面第一在系统层面实现了四个完全解耦的异步模块推理服务、环境交互、奖励判断、策略训练互不阻塞真正做到了零中断服务第二在算法层面提出了两种互补的信号利用方式分别处理评估性信号和指令性信号第三在应用层面同一套基础设施同时支持个人对话 Agent 的个性化学习以及 Terminal、GUI、SWE、Tool-call 等通用 Agent 场景的大规模 RL 训练。“代码链接https://github.com/Gen-Verse/OpenClaw-RL相关工作这个领域其实并不缺相关工作但 OpenClaw-RL 的切入角度和它们都有本质区别。RL 对齐与策略优化这块RLHF 和 PPO 奠定了基础DPO 用偏好优化绕开了显式 Reward ModelGRPO 通过组内相对优势估计去掉了 Critic 网络DeepSeek-R1 和 DAPO 进一步把这套方法做大规模落地。但这些方法共同的特点是离线、批量先收集数据再训练训练的时候服务要暂停或者重新部署完全不适合在线场景。Agentic RL 与工具使用这块SWE-agent、DigiRL、WebRL 等工作针对各自特定环境做了专项 RL 训练但都是一个环境配一套 pipeline没法统一。ArCHer 和 LOOP 虽然关注多轮信用分配但同样依赖预先收集好的数据。**过程奖励模型PRM**这块Math-Shepherd、GenPRM、ReasonFlux-PRM 这些工作证明了步骤级监督远强于只看最终结果但几乎都只在数学推理场景验证过而且都是离线用预先标注好的数据跑的。On-policy 蒸馏与 Hindsight 方法这块HIR 用事后反馈重标注指令STaR 用答案提示重新生成推理链Buffer of Thoughts 用思维模板增强 promptSuperCorrect 从 Teacher 提取层次化模板做跨模型纠错。这些都证明了把修正信息加进上下文能显著改善输出质量但都基于预先构建好的数据集无法在线使用。OpenClaw-RL 的特别之处在于它把上面所有这些线索——PRM 的密集信号、Hindsight 的方向性重标注、On-policy 蒸馏的 token 级监督——统一到了一个在线、异步、多流的训练框架里不需要预先收集数据不需要外部更强的 Teacher 模型直接从正在发生的交互里学。核心方法整个框架建立在一个四组件异步架构上策略服务SGLang、环境服务器、PRM 评判SGLang/API、策略训练Megatron四者完全解耦并行运行互不等待。这是实现零中断在线学习的工程基础。在算法层面论文提出了两种互补的方法。第一种Binary RL评估性信号 → 标量过程奖励对于每一个动作等下一个状态到来之后让 PRM Judge 评估这一步做得好不好输出一个。为了稳定性跑次独立投票取多数然后直接把这个结果当作 Advantage 用带非对称裁剪的 PPO 代理目标来更新策略其中加上 KL 惩罚项。第二种Hindsight-Guided On-Policy DistillationOPD指令性信号 → token 级方向监督这个方法的核心想法很直觉用户说你应该先看文件再改这句话不只是在打分它告诉了模型如果提前知道这个提示我会生成什么不同的 token。于是把这个 hint 拼到原始 prompt 后面得到增强上下文然后用同一个模型充当自己的 Teacher在这个增强上下文下计算原始回答每个 token 的概率和未增强时的概率做差的 token说明 Teacher知道 hint认为这个 token 更合适学生应该把它的概率调高的 token 则相反。这就实现了token 级别的方向性梯度而不是一个标量把整个回答都往同一个方向推。而且整个过程不需要额外的 Teacher 模型不需要预先配对的偏好数据模型就是自己的 Teacher。OPD 的执行流程分四步走Judge 从里提炼出 1-3 句简洁可操作的 hint从次调用里选最长的合格 hint信息量最大拼接增强 prompt计算 token 级 Advantage 并送入训练队列。注意过滤很严格没有有效 hint 的样本直接丢弃——OPD 用样本数量换信号质量。两种方法合并使用时Advantage 直接加权叠加默认。Binary RL 覆盖全部样本保证梯度密度OPD 在有明确修正信号的样本上提供 token 级精细方向——两者完美互补。对于通用 Agent 场景还引入了步骤级过程奖励把过程奖励和结果奖励加和并按相同步骤索引分组做标准化解决长时序任务中只有终态奖励导致的稀疏信号问题。实验效果个人 Agent 个性化实验这边用 LLM 模拟了两个场景一个学生用 OpenClaw 写作业但不想被发现是 AI 写的一个老师用 OpenClaw 批改作业要写得具体友好。基础模型的拟合分只有 0.17满分 1.0效果很差。更新 8 步更新 16 步Binary RL0.250.23OPD0.250.72Combined0.760.81结果很说明问题Binary RL 单独用效果提升有限OPD 单独用前期慢后期猛因为有效样本比较稀疏两者合用 8 步就能从 0.17 飙到 0.76非常炸裂。具体来看效果学生场景里原来的回答满是 markdown 加粗、Step 1/2/3 这种一看就是 AI 的格式训练之后输出变得自然口语化直接给答案和简短说明很像学生手写的风格。老师场景里原来只会输出正确答对了训练之后变成了表扬具体步骤、指出细节、语气友好带 emoji 的详细点评。仅仅 24-36 次交互就有这么明显的变化。通用 Agent RL 实验这边Terminal/GUI/SWE/Tool-call 四个场景都跑通了用了 128/64/64/32 个并行环境覆盖不同模型大小和模态。过程奖励的引入对长时序任务提升明显集成奖励Outcome Process仅 Outcome———Tool-call0.300.17GUI0.330.31Tool-call 场景提升特别大从 0.17 到 0.30接近翻倍。这验证了在长时序 Agent 任务里只靠最终结果奖励信号太稀疏步骤级 PRM 是必要的。论文总结这篇论文的核心 insight 其实很朴素但很有力AI 和人交互产生的每一条反馈都是免费的训练数据现有系统全浪费了。OpenClaw-RL 用一套异步解耦的工程框架加上两个互补的算法Binary RL 提炼评分、OPD 提炼修正方向让模型在正常服务用户的同时悄悄更新自己——个人用得越多它就越懂你Agent 跑得越多它就越能干。这才是真正的在用中学。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】n/img_convert/b08fb7bf908d3faa4310503cd1bae6a2.jpeg)配套文档资源全套AI 大模型学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】

太猛了！用 OpenClaw-RL，AI 边聊天边自我进化，「白嫖」用户交互数据训出更强模型？

相关文章：

太猛了！用 OpenClaw-RL，AI 边聊天边自我进化，「白嫖」用户交互数据训出更强模型？

Flutter 三方库 sample_downloader 鸿蒙适配指南 - 实现海量样本数据自动化并行采集、在 OpenHarmony 上打造高效下载调度防御线实战

从PDF到RAG知识库

Go 微服务架构下的 API 网关实践——Kong 深度解析与实战

第二章第一性原理：底层结构——公理、推导与边界

LangChain框架入门：概念介绍及环境配置

深入了解JVM

每日算法练习：LeetCode 169. 多数元素 ✅

下载亚马逊Corretto 17的方法（OpenJDK 17发行版）

ACS X轴回零程序项目实战版

从零开始：构建具有幻觉缓解能力的AI原生应用

C++ 标准库提供了一组丰富的输入/输出功能

通常，当我们需要用到数字时，我们会使用原始的数据类型

C++ 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言

OSVR - Open-Source Virtual Reality - 开源虚拟现实

Visual Studio 2015 - 格式化代码

Altium生成Gerber及CAM350、DFM检查

SpringCloud动态路由利器--router4j

深度解析对抗训练自编码器（Adversarial Autoencoder, AAE）

Leetcode：单调栈系列

联合循环——23 电厂建筑屋顶防雷，盘柜中性点地排设计说明

【广度优先搜索】【分类讨论】900. 最佳运动员的比拼回合

【计网】什么是移动计算？中国Java之父余胜军被刷爆的CDN又是什么？

史上最全msys2下载配置操作步骤

wow-iot 编码指南

【大数据】分布式存储系统GFS与HDFS、高可用与高容错解析

PyCaret高性能计算：GPU加速训练指南

pydata-book沟通技巧：如何向非技术人员解释数据分析结果

从Swin到VMamba：视觉Transformer的效率革命

终极SSH文件系统指南：sshfs如何让远程文件访问像本地一样简单