当前位置: 首页 > article >正文

SPA-RL:通过Stepwise Progress Attribution训练LLM智能体

SPA-RL:通过Stepwise Progress Attribution训练LLM智能体

在大语言模型(LLM)驱动智能体发展的浪潮中,强化学习(RL)面临着延迟奖励这一关键挑战。本文提出的SPA-RL框架,通过创新的分步进度归因机制,将最终奖励分解为细粒度的中间信号,为LLM智能体训练带来了突破性进展,在多个基准任务上刷新了性能上限,一起来探索这一前沿成果!

论文标题
SPA-RL: Reinforcing LLM Agents via Stepwise Progress Attribution

来源
arXiv:2505.20732v1 [cs.CL] + https://arxiv.org/abs/2505.20732

PS: 整理了LLM、量化投资、机器学习方向的学习资料,关注同名公众号 「 亚里随笔」 即刻免费解锁

文章核心

研究背景

大语言模型(LLM)作为智能体在网页导航、具身交互等多步规划任务中展现出强大能力,强化学习(RL)因序贯决策优化特性成为训练关键技术。然而,这类任务普遍存在延迟奖励问题:仅任务完成时提供最终反馈,导致早期动作难以获得有效指导

现有过程监督方法(如 StepAgent、PRM4A)虽尝试引入中间信号,但多局限于局部动作优化,忽视与长期目标的一致性;传统 PPO 算法在长周期任务中,因优势函数指数衰减导致梯度无法有效传播,进一步加剧了训练困境。如何为 LLM 智能体设计兼具全局目标对齐与细粒度指导的中间奖励信号,成为突破 RL 训练瓶颈的核心挑战。

研究问题

1. 延迟奖励分配难题: 传统RL中仅任务完成时获得最终奖励,难以将反馈有效传递给早期步骤,导致智能体无法明确各动作对目标的贡献。

2. 局部优化局限性: 现有过程监督方法(如StepAgent、PRM4A)多关注局部动作优化,忽视与长期目标的一致性,易陷入次优解。

3. PPO算法在长周期任务中的失效: 稀疏奖励下PPO的优势函数因指数衰减无法有效传播梯度,尤其在超过20步的长轨迹中性能急剧下降。

主要贡献

1. 提出SPA框架: 首创分步进度归因(Stepwise Progress Attribution, SPA)机制,将最终奖励分解为各步骤的进度贡献,通过进度估计器实现奖励再分配,确保中间信号与全局目标一致。

2. 融合进度与执行信号: 设计融合奖励函数 r t f u s e d = α c t + β g t r_t^{fused} = \alpha c_t + \beta g_t rtfused=αct+βgt,其中 c t c_t ct为步骤贡献分数, g t g_t gt为动作可执行性信号,兼顾任务进度与环境适配性。

3. 跨基准性能突破: 在WebShop、ALFWorld、VirtualHome三大环境中,SPA-RL平均提升成功率2.5%、grounding准确率1.9%,显著优于StepAgent、RAGEN等SOTA方法。

方法论精要

1. 核心框架流程

行为克隆(BC)预训练: 通过监督微调使LLM智能体获得基础任务规划能力,采用ReAct风格的思维-动作对格式。

进度估计器训练: 利用MLP从LLM隐藏层提取特征,预测每步动作对任务完成的贡献分数 c ^ t \hat{c}_t c^t,通过最小化 L P E = 1 ∣ D ∣ ∗ M ∑ ( R ^ − R ) 2 \mathcal{L}_{PE} = \frac{1}{|\mathcal{D}|*M}\sum(\hat{R} - R)^2 LPE=DM1(R^R)2确保累计贡献匹配最终奖励。

RL优化: 将融合奖励 r t f u s e d r_t^{fused} rtfused接入PPO算法,替代稀疏终端奖励,通过GAE计算优势函数 A ^ t f u s e d \hat{A}_t^{fused} A^tfused

2. 关键参数设计

进度估计器采用轻量级MLP,接入预训练LLM(Llama-3.2-3B-Instruct)的最后隐藏层。

融合奖励权重 α = 1 \alpha=1 α=1 β = 0.5 \beta=0.5 β=0.5,平衡进度贡献与执行可行性。

探索阶段设置M=10次rollout step,解码温度0.7以覆盖多样轨迹。

3. 创新性技术组合

全局-局部联合优化: 进度估计器从全局任务完成视角分解奖励,同时通过ground truth信号 g t g_t gt约束局部动作可行性。

无监督探索策略: 基于基础智能体 π b a s e \pi_{base} πbase进行无示范rollout,构建探索数据集 D e x p l o r e D_{explore} Dexplore,避免手动设计探索方案的局限性。

4. 实验验证逻辑

数据集:WebShop(网页导航)、ALFWorld(家庭任务)、VirtualHome(具身交互),覆盖不同复杂度的长周期任务。

基线方法:包括SFT、PPO、StepAgent、RAGEN、PRM4A等,对比监督学习、传统RL及过程监督方法。

实验洞察

1. 性能优势

  • ALFWorld:在未见任务中成功率达79.1%(StepAgent为75.4%),grounding准确率93.7%,其中PICK任务提升至95.8%。
  • WebShop:成功率64.1%,超越RAGEN(63%)。
  • VirtualHome:长周期任务成功率53.4%,grounding准确率81.6%,均为SOTA。

2. 效率与长周期适应性

  • 在25-29步的长轨迹任务中,SPA-RL相较PPO提升25%,证明其对长周期任务的优化能力。
  • 采用LoRA进行参数高效微调,训练效率提升3倍,显存占用降低40%。

3. 消融研究

  • 无ground truth信号:成功率降至77.6%,证明 g t g_t gt对动作执行有效性的关键作用。
  • 无分步进度:grounding准确率提升至94.2%,但成功率下降至77.6%,说明进度信号对全局目标对齐的必要性。
  • 随机/平均奖励对比:随机中间奖励使成功率低于PPO基线,验证进度估计器的有效性。

分析与讨论

1. 进度估计器有效性验证

在ALFWorld环境中对比五种奖励机制发现,SPA-RL通过进度估计器生成的中间奖励显著优于随机分配(Random)、平均分配(Mean)等启发式策略。其中"MC"(蒙特卡洛估计)作为强基线,成功率仅77.6%,而SPA-RL达到79.1%,证明进度估计器能有效捕捉各步骤对任务完成的真实贡献,避免了传统方法中奖励信号与实际进度脱节的问题。

2. 长周期任务适应性分析

通过划分不同步骤区间评估发现,SPA-RL在25-29步的长轨迹任务中相较PPO提升25%,而在4步以内的短任务中优势不显著。这表明其核心价值在于通过分步奖励归因解决长周期任务中的信用分配难题,尤其适合需要多步协同的复杂场景,而短任务中终端奖励已足够指导优化。

3. 信用分配机制对比

从信用分配维度分析,现有方法中轨迹级分配(如GRPO)因粒度粗糙性能普遍低于73%,而SPA-RL采用的令牌级分配通过奖励再分配实现全局目标对齐,成功率达79.1%。研究还指出,尽管令牌级方法计算复杂度较高,但相比局部优化的过程监督方法,其在长期目标一致性上具有不可替代的优势,为未来RL算法设计提供了"细粒度分配+全局约束"的新方向。

相关文章:

SPA-RL:通过Stepwise Progress Attribution训练LLM智能体

SPA-RL:通过Stepwise Progress Attribution训练LLM智能体 在大语言模型(LLM)驱动智能体发展的浪潮中,强化学习(RL)面临着延迟奖励这一关键挑战。本文提出的SPA-RL框架,通过创新的分步进度归因机…...

【深度学习】9. CNN性能提升-轻量化模型专辑:SqueezeNet / MobileNet / ShuffleNet / EfficientNet

SqueezeNet / MobileNet / ShuffleNet / EfficientNet 一、背景与动机 随着深度神经网络在图像识别任务上取得巨大成功,它们的结构越来越深、参数越来越多。然而在移动端或嵌入式设备中: 存储资源有限推理计算能力弱能耗受限 因此,研究者…...

Relational Algebra(数据库关系代数)

目录 What is an “Algebra” What is Relational Algebra? Core Relational Algebra Selection Projection Extended Projection Product(笛卡尔积) Theta-Join Natural Join Renaming Building Complex Expressions Sequences of Assignm…...

【C/C++】面试常考题目

面试中最常考的数据结构与算法题,适合作为刷题的第一阶段重点。 ✅ 分类 & 推荐题目列表(精选 70 道核心题) 一、数组 & 字符串(共 15 题) 题目类型LeetCode编号两数之和哈希表#1盛最多水的容器双指针#11三数…...

Chorme如何对于youtube视频进行画中画背景播放?

画中画可以让你小窗播放,然后浏览器放后台还可以做点别的事情。 B站直接可以选择小窗播放,游览器最小化就可以,但是youtube的小窗播放游览器一切换就不显示了。 其实是因为youtube的小窗播放不是真的小窗播放。要想真的实现需要在youtube视…...

017搜索之深度优先搜索——算法备赛

深度优先搜索 如果说广度优先搜索是逐层扩散,那深度优先搜索就是一条道走到黑。 深度优先遍历是用递归实现的,预定一条顺序规则(如上下左右顺序) ,一直往第一个方向搜索直到走到尽头或不满足要求后返回上一个叉路口按…...

从单机到集群,再到分布式,再到微服务

我会尽量详细讲解,从单机到集群,再到分布式和微服务每个层次的概念、特点和应用场景。同时也会探讨C是否适合做微服务项目。 一、从单机到集群,再到分布式,再到微服务——详细解析 1. 单机(Single Machine&#xff09…...

关于ios点击分享自动复制到粘贴板的问题

前言 Android 系统没有什么特别的要求,实现这个也比较容易。但ios在某些情况下就会出现问题。 如果ios是点击之后,请求接口,再把接口的内容赋值给粘贴板肯定行不通,会被ios系统拦截,导致赋值失败或者赋值为空。建议使…...

Hive的JOIN操作如何优化?

Hive的JOIN操作优化是提升查询性能的关键,尤其是在处理大数据量时。以下是详细的JOIN优化策略和实现方法: 一、MapJoin(小表广播优化) 核心原理 将小表全量加载到每个MapTask的内存中,避免Shuffle,直接在…...

React Native 实现抖音式图片滑动切换浏览组件-媲美抖音体验的滑动式流畅预览组件

写在前面 “如何让用户像刷抖音一样浏览我们的图片列表?” —— 这个需求背后隐藏着性能、体验和交互设计的多重挑战。本文将带你从零实现一个高性能的React Native图片浏览器,支持分页预加载、横向滑动预览、文字展示和缓存优化,打造媲美原…...

睿抗机器人开发者大赛CAIP-编程技能赛-历年真题 解题报告汇总 | 珂学家

前言 汇总 睿抗机器人开发者大赛CAIP-编程技能赛-历年真题 解题报告汇总 2024年 2024 睿抗机器人开发者大赛CAIP-编程技能赛-本科组 (国赛) 解题报告 2024 睿抗机器人开发者大赛CAIP-编程技能赛-本科组(省赛)解题报告 2024 睿抗机器人开发者大赛CAI…...

【c++】【数据结构】AVL树

目录 AVL树的定义AVL树的部分模拟实现平衡因子的引入平衡因子的向上调整旋转算法单旋算法右单旋左单旋 双旋算法左右双旋右左双旋 AVL树的定义 AVL树本质是一种搜索二叉树,传统的二叉搜索树我们都有所了解,其在理想情况下也就是接近满二叉树时拥有极高的…...

【原神 × 插入排序】刷圣遗物也讲算法:圣遗物评分系统背后的排序逻辑你真的懂吗?

📘 改编自:王争《数据结构与算法之美》 🎮 游戏演绎:米哈游《原神》 🧠 核心关键词:插入排序、排序算法、评分系统、属性评价、强化圣遗物、冒泡排序对比 🧭 引言:原神刷本=刷排序? 玩《原神》的玩家每天日常是啥?体力用来刷圣遗物、精通头、暴击头、攻充沙………...

ORB-SLAM2学习笔记:ExtractorNode::DivideNode和ORBextractor::DistributeOctTree函数详解

一、ExtractorNode::DivideNode void ExtractorNode::DivideNode(ExtractorNode &n1, ExtractorNode &n2, ExtractorNode &n3, ExtractorNode &n4) {const int halfX = ceil(static_cast<float>(UR.x-UL.x)/2);const int halfY = ceil(static_cast<f…...

nt!MmMapViewInSystemCache函数分析PointerPte的填充

第一部分&#xff1a; 1: kd> kc # 00 nt!MmMapViewInSystemCache 01 nt!CcGetVacbMiss 02 nt!CcGetVirtualAddress 03 nt!CcMapData 04 Ntfs!NtfsMapStream 05 Ntfs!NtfsReadBootSector 06 Ntfs!NtfsMountVolume 07 Ntfs!NtfsCommonFileSystemControl 08 Ntfs!NtfsFspDis…...

3D Tiles高级样式设置与条件渲染(3)

二、基于地理距离的条件渲染 1.根据与特定点的距离设置样式 在某些应用中&#xff0c;我们可能需要根据建筑物与某个特定点&#xff08;如地标建筑&#xff09;的距离来设置样式。以下代码示例展示了如何根据建筑物与广州塔的距离来设置颜色和可见性&#xff1a; tiles3d.styl…...

通义灵码深度实战测评:从零构建智能家居控制中枢,体验AI编程新范式

一、项目背景&#xff1a;零基础挑战全栈智能家居系统 目标&#xff1a;开发具备设备控制、环境感知、用户习惯学习的智能家居控制中枢&#xff08;PythonFlaskMQTTReact&#xff09; 挑战点&#xff1a; 需集成硬件通信(MQTT)、Web服务(Flask)、前端交互(React) 调用天气AP…...

头歌之动手学人工智能-Pytorch 之优化

目录 第1关&#xff1a;如何使用optimizer 任务描述 编程要求 测试说明 真正的科学家应当是个幻想家&#xff1b;谁不是幻想家&#xff0c;谁就只能把自己称为实践家。 —— 巴尔扎克开始你的任务吧&#xff0c;祝你成功&#xff01; 第2关&#xff1a;optim.SGD 任务描述…...

基于谷歌ADK的智能客服系统简介

Google的智能体开发工具包&#xff08;Agent Development Kit&#xff0c;简称ADK&#xff09;是一个开源的、以代码为中心的Python工具包&#xff0c;旨在帮助开发者更轻松、更灵活地构建、评估和部署复杂的人工智能智能体&#xff08;AI Agent&#xff09;。ADK 是一个灵活的…...

(一)视觉——工业相机(以海康威视为例)

一、工业相机介绍 工业相机是机器视觉系统中的一个关键组件&#xff0c;其最本质的功能就是将光信号转变成有序的电信号。选择合适的相机也是机器视觉系统设计中的重要环节&#xff0c;相机的选择不仅直接决定所采集到的图像分辨率、图像质量等&#xff0c;同时也与整个系统的运…...

DAY 36 超大力王爱学Python

仔细回顾一下神经网络到目前的内容&#xff0c;没跟上进度的同学补一下进度。 作业&#xff1a;对之前的信贷项目&#xff0c;利用神经网络训练下&#xff0c;尝试用到目前的知识点让代码更加规范和美观。探索性作业&#xff08;随意完成&#xff09;&#xff1a;尝试进入nn.Mo…...

基于React + TypeScript构建高度可定制的QR码生成器

前言 在现代Web应用中&#xff0c;QR码已成为连接线上线下的重要桥梁。本文将详细介绍如何使用React TypeScript Vite构建一个功能强大、高度可定制的QR码生成器&#xff0c;支持背景图片、文本叠加、HTML模块、圆角导出等高级功能。 前往试试 项目概述 技术栈 前端框架:…...

DeepSeek进阶教程:实时数据分析与自动化决策系统

进阶教程:实时数据分析与自动化决策系统 1. 实时数据流处理架构 class StreamProcessor:def __init__(self):self.window_size = 60 # 滑动窗口大小(秒)self.analytics_engine = AnalyticsEngine() # 复用之前的分析引擎def process_kafka_stream(self, topic):"&quo…...

visual studio 2022 初学流程

本文采用总-分的形式讲述流程 1.前端外部可以使用的接口 ExternalDataWebService.asmx?opReportWaterForWayder 新建ExternalDataWebService.asmx 文件 <% WebService Language"C#" CodeBehind"~/App_Code/ExternalDataWebService.cs" Class…...

SRD-12VDC-SL-C 继电器‌接线图解

这个继电器可以使用12伏的直流电源控制250伏和125伏的交流电&#xff0c;也可以控制30伏和28伏的直流电&#xff0c;电流都为10安。 此继电器有5个引脚&#xff0c;各个的作用如下&#xff1a; 引脚4和引脚5为触点&#xff0c; 引脚1和引脚3为线圈引脚&#xff0c;接12伏的直…...

基于开源链动2+1模式AI智能名片S2B2C商城小程序的企业组织生态化重构研究

摘要&#xff1a;本文以互联网时代企业组织结构变革为背景&#xff0c;探讨开源链动21模式AI智能名片S2B2C商城小程序在推动企业从封闭式向开放式生态转型中的核心作用。通过分析传统企业资源获取模式与网络化组织生态的差异&#xff0c;结合开源链动21模式的裂变机制、AI智能名…...

前端面经 两栏布局

两栏布局 float实现 1.给父盒子加float:hidden实现BFC 2.给左盒子加浮动float:left 给宽度 flex布局 1父盒子 display:flex 2左盒子 固定宽度 3.右盒子 flex:1 三栏布局 法1&#xff1a;浮动实现 1 父盒子overflow:hidden 实现BFC 2左盒子:float:left 3右盒子 :floa…...

2,QT-Creator工具创建新项目教程

目录 1,创建一个新项目 demo_01.pro(项目配置文件) 类似 CMakeList.txt widget.h(头文件)​ main.cpp(程序入口)​ widget.cpp(源文件)​ widget.ui(界面设计文件)​ 1,创建一个新项目 依次选择: 设置路径: 选择编译器: 如果选择CMake, 就会生成cmakel…...

《深入解析SPI协议及其FPGA高效实现》-- 第一篇:SPI协议基础与工作机制

第一篇&#xff1a;SPI协议基础与工作机制 1. 串行外设接口导论 1.1 SPI的核心定位 协议本质 &#xff1a; 全双工同步串行协议&#xff08;对比UART异步、IC半双工&#xff09;核心优势 &#xff1a; 无寻址开销&#xff08;通过片选直连&#xff09;时钟速率可达100MHz&…...

2025年5月6日 飞猪Java一面

锐评 鸡蛋鸭蛋荷包蛋 我的蛋仔什么时候才能上巅峰凤凰蛋? 1. 如何保证数据库数据和redis数据一致性 数据库数据和 redis 数据不一致是在 高并发场景下更新数据的情况 首先我们要根据当前保持数据一致性的策略来决定方案 如果采取的策略是先删除缓存 更新数据库 我们假设现…...