当前位置: 首页 > article >正文

太猛了!用 OpenClaw-RL,AI 边聊天边自我进化,「白嫖」用户交互数据训出更强模型?

研究背景每一个已经上线的 AI Agent其实每天都在丢弃金矿。每次 Agent 执行完一个动作 环境就会给它一个下一状态信号 ——可能是用户的回复、工具的执行结果、GUI 界面的变化或者是测试的通过与否。现有的系统把这些信号仅仅当作下一步的输入上下文来用然后就扔掉了。但这篇论文的核心洞察是这些信号远不止于此。它们其实暗含了对上一步动作打分的信息用户不满意重新问、测试挂了、程序报错甚至还暗含了应该怎么改的方向性信息用户说你应该先看文件再改这不就是在告诉模型该怎么做吗。研究者把这两种被浪费掉的信号分别叫做评估性信号Evaluative signals和指令性信号Directive signals。前者告诉模型这一步做得好不好后者告诉模型这一步应该怎么改。在此基础上他们提出了OpenClaw-RL这套框架让 Agent 在正常被使用的过程中把每一次交互都转化为训练信号实现边聊边学的在线强化学习。这个框架的贡献可以总结为几个层面第一在系统层面实现了四个完全解耦的异步模块推理服务、环境交互、奖励判断、策略训练互不阻塞真正做到了零中断服务第二在算法层面提出了两种互补的信号利用方式分别处理评估性信号和指令性信号第三在应用层面同一套基础设施同时支持个人对话 Agent 的个性化学习以及 Terminal、GUI、SWE、Tool-call 等通用 Agent 场景的大规模 RL 训练。“代码链接https://github.com/Gen-Verse/OpenClaw-RL相关工作这个领域其实并不缺相关工作但 OpenClaw-RL 的切入角度和它们都有本质区别。RL 对齐与策略优化这块RLHF 和 PPO 奠定了基础DPO 用偏好优化绕开了显式 Reward ModelGRPO 通过组内相对优势估计去掉了 Critic 网络DeepSeek-R1 和 DAPO 进一步把这套方法做大规模落地。但这些方法共同的特点是离线、批量先收集数据再训练训练的时候服务要暂停或者重新部署完全不适合在线场景。Agentic RL 与工具使用这块SWE-agent、DigiRL、WebRL 等工作针对各自特定环境做了专项 RL 训练但都是一个环境配一套 pipeline没法统一。ArCHer 和 LOOP 虽然关注多轮信用分配但同样依赖预先收集好的数据。**过程奖励模型PRM**这块Math-Shepherd、GenPRM、ReasonFlux-PRM 这些工作证明了步骤级监督远强于只看最终结果但几乎都只在数学推理场景验证过而且都是离线用预先标注好的数据跑的。On-policy 蒸馏与 Hindsight 方法这块HIR 用事后反馈重标注指令STaR 用答案提示重新生成推理链Buffer of Thoughts 用思维模板增强 promptSuperCorrect 从 Teacher 提取层次化模板做跨模型纠错。这些都证明了把修正信息加进上下文能显著改善输出质量但都基于预先构建好的数据集无法在线使用。OpenClaw-RL 的特别之处在于它把上面所有这些线索——PRM 的密集信号、Hindsight 的方向性重标注、On-policy 蒸馏的 token 级监督——统一到了一个在线、异步、多流的训练框架里不需要预先收集数据不需要外部更强的 Teacher 模型直接从正在发生的交互里学。核心方法整个框架建立在一个四组件异步架构上策略服务SGLang、环境服务器、PRM 评判SGLang/API、策略训练Megatron四者完全解耦并行运行互不等待。这是实现零中断在线学习的工程基础。在算法层面论文提出了两种互补的方法。第一种Binary RL评估性信号 → 标量过程奖励对于每一个动作 等下一个状态 到来之后让 PRM Judge 评估这一步做得好不好输出一个 。为了稳定性跑 次独立投票取多数然后直接把这个结果当作 Advantage 用带非对称裁剪的 PPO 代理目标来更新策略其中 加上 KL 惩罚项 。第二种Hindsight-Guided On-Policy DistillationOPD指令性信号 → token 级方向监督这个方法的核心想法很直觉用户说你应该先看文件再改这句话不只是在打分它告诉了模型如果提前知道这个提示我会生成什么不同的 token。于是把这个 hint 拼到原始 prompt 后面得到增强上下文 然后用同一个模型充当自己的 Teacher在这个增强上下文下计算原始回答 每个 token 的概率和未增强时的概率做差的 token说明 Teacher知道 hint认为这个 token 更合适学生应该把它的概率调高 的 token 则相反。这就实现了token 级别的方向性梯度而不是一个标量把整个回答都往同一个方向推。而且整个过程不需要额外的 Teacher 模型不需要预先配对的偏好数据模型就是自己的 Teacher。OPD 的执行流程分四步走Judge 从 里提炼出 1-3 句简洁可操作的 hint从 次调用里选最长的合格 hint信息量最大拼接增强 prompt计算 token 级 Advantage 并送入训练队列。注意过滤很严格没有有效 hint 的样本直接丢弃——OPD 用样本数量换信号质量。两种方法合并使用时Advantage 直接加权叠加默认 。Binary RL 覆盖全部样本保证梯度密度OPD 在有明确修正信号的样本上提供 token 级精细方向——两者完美互补。对于通用 Agent 场景还引入了步骤级过程奖励把过程奖励和结果奖励加和并按相同步骤索引分组做标准化解决长时序任务中只有终态奖励导致的稀疏信号问题。实验效果个人 Agent 个性化实验这边用 LLM 模拟了两个场景一个学生用 OpenClaw 写作业但不想被发现是 AI 写的一个老师用 OpenClaw 批改作业要写得具体友好。基础模型的拟合分只有 0.17满分 1.0效果很差。更新 8 步更新 16 步Binary RL0.250.23OPD0.250.72Combined0.760.81结果很说明问题Binary RL 单独用效果提升有限OPD 单独用前期慢后期猛因为有效样本比较稀疏两者合用 8 步就能从 0.17 飙到 0.76非常炸裂。具体来看效果学生场景里原来的回答满是 markdown 加粗、Step 1/2/3 这种一看就是 AI 的格式训练之后输出变得自然口语化直接给答案和简短说明很像学生手写的风格。老师场景里原来只会输出正确答对了训练之后变成了表扬具体步骤、指出细节、语气友好带 emoji 的详细点评。仅仅 24-36 次交互就有这么明显的变化。通用 Agent RL 实验这边Terminal/GUI/SWE/Tool-call 四个场景都跑通了用了 128/64/64/32 个并行环境覆盖不同模型大小和模态。过程奖励的引入对长时序任务提升明显集成奖励Outcome Process仅 Outcome———Tool-call0.300.17GUI0.330.31Tool-call 场景提升特别大从 0.17 到 0.30接近翻倍。这验证了在长时序 Agent 任务里只靠最终结果奖励信号太稀疏步骤级 PRM 是必要的。论文总结这篇论文的核心 insight 其实很朴素但很有力AI 和人交互产生的每一条反馈都是免费的训练数据现有系统全浪费了。OpenClaw-RL 用一套异步解耦的工程框架加上两个互补的算法Binary RL 提炼评分、OPD 提炼修正方向让模型在正常服务用户的同时悄悄更新自己——个人用得越多它就越懂你Agent 跑得越多它就越能干。这才是真正的在用中学。假如你从2026年开始学大模型按这个步骤走准能稳步进阶。接下来告诉你一条最快的邪修路线3个月即可成为模型大师薪资直接起飞。阶段1:大模型基础阶段2:RAG应用开发工程阶段3:大模型Agent应用架构阶段4:大模型微调与私有化部署配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】n/img_convert/b08fb7bf908d3faa4310503cd1bae6a2.jpeg)配套文档资源全套AI 大模型 学习资料朋友们如果需要可以微信扫描下方二维码免费领取【保证100%免费】

相关文章:

太猛了!用 OpenClaw-RL,AI 边聊天边自我进化,「白嫖」用户交互数据训出更强模型?

研究背景 每一个已经上线的 AI Agent,其实每天都在"丢弃金矿"。每次 Agent 执行完一个动作 ,环境就会给它一个下一状态信号 ——可能是用户的回复、工具的执行结果、GUI 界面的变化,或者是测试的通过与否。现有的系统把这些信号仅…...

Flutter 三方库 sample_downloader 鸿蒙适配指南 - 实现海量样本数据自动化并行采集、在 OpenHarmony 上打造高效下载调度防御线实战

欢迎加入开源鸿蒙跨平台社区:https://openharmonycrossplatform.csdn.net Flutter 三方库 sample_downloader 鸿蒙适配指南 - 实现海量样本数据自动化并行采集、在 OpenHarmony 上打造高效下载调度防御线实战 前言 在参与构建鸿蒙(OpenHarmony&#x…...

从PDF到RAG知识库

打造可配置、可扩展的自动化预处理流水线:从PDF到RAG知识库在构建RAG(检索增强生成)系统的过程中,文档预处理是决定检索质量的基础环节。然而,面对多源异构文档(如PDF、图片、扫描件)&#xff0…...

Go 微服务架构下的 API 网关实践——Kong 深度解析与实战

Go 微服务架构下,Kong 作为高性能 API 网关,凭借其插件化架构和多协议支持,能够帮助团队解决微服务治理中的复杂问题。本文将从架构原理、核心实践到生产优化,结合 Go 语言生态,深入解析 Kong 的落地应用。 01. Kong网关:Go微服务架构的统一入口 1.1 微服务架构下的网关…...

第二章 第一性原理:底层结构——公理、推导与边界

第二章 第一性原理:底层结构——公理、推导与边界 一、开篇:为什么你的"第一性原理"总是失效? 很多人听完马斯克的故事,热血沸腾地宣称自己也要用第一性原理思考。结果却是: 拆解问题很彻底,推导过程很严密,最终结论却与现实严重脱节。要么执行不下去,要么…...

LangChain框架入门:概念介绍及环境配置

一、langchain框架及相关概念 1、大语言模型 LLM(大语言模型)的本质,是基于 Transformer 架构中的解码器部分构建的生成式模型,核心逻辑很简单 —— 根据上文输入的 token 序列,预测下一个最可能的 token&#xff0c…...

深入了解JVM

堆的内存划分堆分为新生代和老年代,新生代占三分之一,老年代占三分之二 新生代又分成Eden和两个Survivor两个区,比例为8:1:1 新对象优先在Eden区分配,满了就会触发Minor GC,存活的放到幸存区&am…...

每日算法练习:LeetCode 169. 多数元素 ✅

大家好,我是你们的算法小伙伴。今天我们来练习一道经典的数组问题 ——LeetCode 169. 多数元素,它的最优解法「摩尔投票法」非常巧妙,是面试中的高频考点。题目描述给定一个大小为 n 的数组 nums,返回其中的多数元素。多数元素是指…...

下载亚马逊Corretto 17的方法(OpenJDK 17发行版)

Corretto 17的定义 Corretto 17是亚马逊(Amazon)提供的免费、多平台、生产就绪的OpenJDK 17发行版。作为OpenJDK的下游版本,它完全兼容Java SE标准,并提供长期支持(LTS),适用于企业级应用开发和…...

ACS X轴回零程序 项目实战版

代码INT iAxis REAL HomeVel REAL SearchLimitVel REAL HomeOffset REAL timeoutiAxis 0 HomeVel 5 SearchLimitVel 10 HomeOffset 157 timeout 50000VEL(iAxis) SearchLimitVel ACC(iAxis) VEL(iAxis) * 10 DEC(iAxis) VEL(iAxis) * 10 JERK(iAxis) VEL(iAxis) * 100…...

从零开始:构建具有幻觉缓解能力的AI原生应用

从零开始:构建具有幻觉缓解能力的AI原生应用 关键词:AI原生应用、幻觉缓解、从零开始构建、人工智能、应用开发 摘要:本文将带领大家从零开始构建具有幻觉缓解能力的AI原生应用。我们会先介绍相关背景知识,解释核心概念,接着阐述核心算法原理和具体操作步骤,通过数学模型…...

C++ 标准库提供了一组丰富的输入/输出功能

C 基本的输入输出 C 标准库提供了一组丰富的输入/输出功能,我们将在后续的章节进行介绍。本章将讨论 C 编程中最基本和最常见的 I/O 操作。 C 的 I/O 发生在流中,流是字节序列。如果字节流是从设备(如键盘、磁盘驱动器、网络连接等&#xff0…...

通常,当我们需要用到数字时,我们会使用原始的数据类型

C 数字 通常&#xff0c;当我们需要用到数字时&#xff0c;我们会使用原始的数据类型&#xff0c;如 int、short、long、float 和 double 等等。这些用于数字的数据类型&#xff0c;其可能的值和数值范围&#xff0c;我们已经在 C 数据类型一章中讨论过。 #include <iostrea…...

C++ 是一种静态类型的、编译式的、通用的、大小写敏感的、不规则的编程语言

要判断这个关于C的描述是否准确&#xff0c;我们可以从以下几个方面来分析&#xff1a; 1. 静态类型 静态类型语言要求在编译时确定变量的类型&#xff0c;且类型在程序运行过程中一般不会改变。C属于静态类型语言&#xff0c;和C、Java等类似&#xff0c;在声明变量时必须指定…...

OSVR - Open-Source Virtual Reality - 开源虚拟现实

OSVR - Open-Source Virtual Reality - 开源虚拟现实1. OSVR Organization2. OSVR Developer PortalReferenceshttp://www.osvr.org/ http://www.osvr.org/cn-zh/ 虚拟现实是一种重现实际或虚构环境&#xff0c;模拟用户在其中真实存在的沉浸式数字娱乐形式。这种体验还模拟感…...

Visual Studio 2015 - 格式化代码

Visual Studio 2015 - 格式化代码1. 格式化代码References1. 格式化代码 Ctrl K, Ctrl D - 格式化文档 Ctrl K, Ctrl F - 格式化选择 References [1] Yongqiang Cheng (程永强), https://yongqiang.blog.csdn.net/...

Altium生成Gerber及CAM350、DFM检查

完成 PCB 板图的设计并交给供应商进行打样或是量产时&#xff0c;一般不会直接给供应商 PCB 源文件&#xff0c;那就需要生成 Gerber文件。那么如何生成 Gerber文件及用 CAN350软件或华秋DFM 进行检查。 目录&#xff1a; 一、Gerber文件清单 二、Gerber各文件讲解 三、生成…...

SpringCloud动态路由利器--router4j

前言 本文介绍Java的动态路由中间件&#xff1a;router4j。router4j用于SpringCloud项目&#xff0c;它可以将某个url请求路由到指定的机器上&#xff0c;也可以将所有请求强制转到指定机器。 问题描述 Java后端在开发SpringCloud项目时如果同一个应用起了多个实例&#xff…...

深度解析对抗训练自编码器(Adversarial Autoencoder, AAE)

深度解析对抗训练自编码器&#xff08;Adversarial Autoencoder, AAE&#xff09; 在异常检测和生成模型领域&#xff0c;自编码器&#xff08;AutoEncoder&#xff09;通过压缩与重构学习数据的内在规律。然而&#xff0c;传统 AE 的隐藏空间&#xff08;Latent Space&#xf…...

Leetcode:单调栈系列

本人总结的单调栈大概有三类&#xff1a; 求右边第一个比该元素大&#xff08;小&#xff09;的元素求左边第一个比该元素大&#xff08;小&#xff09;的元素求两边比该元素大&#xff08;小&#xff09;的元素 前两类一般是中等难度的题&#xff0c;完成一次单调栈即可&…...

联合循环——23 电厂建筑屋顶防雷,盘柜中性点地排设计说明

一、屋顶防雷 &#xff08;1&#xff09;放电类型&#xff1a; 90%云对地放电是负极性&#xff0c;总的来说&#xff0c;放电开始于云端的负电荷而扩展到正电荷的地面。然而&#xff0c;大量的放电现象发生在云层之间。 &#xff08;2&#xff09;雷电波幅&#xff1a; 80%雷击…...

【广度优先搜索】【分类讨论】900. 最佳运动员的比拼回合

作者推荐 视频算法专题 本文涉及知识点 广度优先搜索 分类讨论 LeetCode : 1900. 最佳运动员的比拼回合 n 名运动员参与一场锦标赛&#xff0c;所有运动员站成一排&#xff0c;并根据 最开始的 站位从 1 到 n 编号&#xff08;运动员 1 是这一排中的第一个运动员&#xff…...

【计网】什么是移动计算?中国Java之父余胜军被刷爆的CDN又是什么?

目录 一、移动计算 1. 理解移动计算 2. 应用实例 二、数据缓存和内容分发网络&#xff08;CDN&#xff09; 1. 数据缓存 2. 内容分发网络&#xff08;CDN&#xff09; 3. CDN与数据缓存的联系 三、余胜军开了个网站&#xff0c;说CDN被刷爆了&#xff0c;他是什么意思&…...

史上最全msys2下载配置操作步骤

史上最全msys2下载配置操作步骤一&#xff0c;MSYS2简介二&#xff0c;软件下载三&#xff0c;pacman配置四&#xff0c;总结&#xff01;推荐参考B站视频&#xff1a;《3分钟搞定msys2的安装与配置》 一&#xff0c;MSYS2简介 面向Windows的软件分发与构建平台 MSYS2是一个…...

wow-iot 编码指南

项目地址&#xff1a;https://github.com/wow-iot3/wow_linux_eval 1、命名规则 &#xff08;1&#xff09;数据类型整数类型使用<stdint.h>内定义格式&#xff0c;约束为&#xff1a;int8_t/uint8_tint16_t/uint16_tint32_t/uint32_tint64_t/uint64_t&#xff08;2&…...

【大数据】分布式存储系统GFS与HDFS、高可用与高容错解析

目录 一、Chunk & Block 二、Master & Chunk Server&#xff1a;存储与计算的解耦&#xff1f; 1. 不准确&#xff01; 2. 调度与存储处理的解耦 解耦的具体含义 为什么这样设计&#xff1f; 3. NameNode & DataNode NameNode&#xff08;元数据管理&…...

PyCaret高性能计算:GPU加速训练指南

PyCaret高性能计算&#xff1a;GPU加速训练指南 【免费下载链接】pycaret An open-source, low-code machine learning library in Python 项目地址: https://gitcode.com/gh_mirrors/py/pycaret PyCaret是一个开源的低代码机器学习库&#xff0c;通过GPU加速功能可以显…...

pydata-book沟通技巧:如何向非技术人员解释数据分析结果

pydata-book沟通技巧&#xff1a;如何向非技术人员解释数据分析结果 【免费下载链接】pydata-book wesm/pydata-book: 这是Wes McKinney编写的《Python for Data Analysis》一书的源代码仓库&#xff0c;书中涵盖了使用pandas、NumPy和其他相关库进行数据处理和分析的实践案例和…...

从Swin到VMamba:视觉Transformer的效率革命

从Swin到VMamba&#xff1a;视觉Transformer的效率革命 【免费下载链接】VMamba 项目地址: https://gitcode.com/gh_mirrors/vm/VMamba 在计算机视觉领域&#xff0c;设计计算效率高的网络架构一直是持续的需求。随着视觉Transformer的发展&#xff0c;从Swin Transfor…...

终极SSH文件系统指南:sshfs如何让远程文件访问像本地一样简单

终极SSH文件系统指南&#xff1a;sshfs如何让远程文件访问像本地一样简单 【免费下载链接】sshfs File system based on the SSH File Transfer Protocol 项目地址: https://gitcode.com/gh_mirrors/ssh/sshfs sshfs是一款基于SSH文件传输协议的文件系统客户端&#xff…...