当前位置: 首页 > article >正文

TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革

在大语言模型(LLMs)推理能力不断提升的当下,如何让模型更高效地解决复杂计算和推理任务成为关键。本文介绍的TORL(Tool-Integrated Reinforcement Learning)框架给出了全新方案。它通过强化学习让大模型自主运用计算工具,性能提升显著,为LLMs发展开辟新方向,一起来了解吧!

论文标题
TORL: Scaling Tool-Integrated RL
来源
arXiv:2503.23383v1 [cs.CL] 30 Mar 2025
https://arxiv.org/abs/2503.23383

开源代码:https://github.com/GAIR-NLP/ToRL

文章核心

研究背景

大语言模型(LLMs)借助强化学习(RL)展现出强大推理能力,同时工具集成推理(TIR)也在提升模型解决复杂计算任务方面发挥重要作用,但现有方法仍存在局限。

研究问题

  1. 多数现有工具集成推理(TIR)方法通过从更强模型提取轨迹进行监督微调(SFT),限制了模型探索最优工具使用策略的能力。
  2. 部分应用RL到SFT训练模型的工作,其工具集成在RL框架内的实现透明度低,难以深入理解。
  3. 传统语言模型推理在面对复杂计算、方程求解等精确计算任务时表现不佳。

主要贡献

  1. 创新训练框架:提出TORL框架,直接从基础模型进行强化学习,突破了先前监督微调的限制,让模型能通过广泛探索发现最优工具利用策略,这与基于预定模式改进的方法有本质区别。
  2. 显著性能提升:在Qwen2.5-Math基础模型实验中,TORL-7B在AIME24测试上准确率达到43.3%,比无工具集成的RL模型高14%,比现有最好的工具集成推理(TIR)模型高17%,在多个数学基准测试中均优于基线模型。
  3. 揭示认知行为:发现模型在训练过程中展现出多种新兴认知行为,如策略性工具调用、对无效代码生成的自我调节以及计算和分析推理之间的动态适应,这些行为无需明确指令,仅通过奖励驱动学习就能出现。
  4. 开源资源推动研究:开源了实现代码、数据集和模型,为研究社区进一步推进工具增强语言模型的发展提供了支持。

方法论精要

  1. 核心算法 / 框架:TORL 将工具集成推理(Tool Integrated Reasoning,TIR)与强化学习相结合。TIR 允许大语言模型在推理过程中融入可执行代码,通过迭代的推理与代码执行流程解决问题。在这个过程中,模型会构建推理轨迹,其中包含自然语言推理、生成的代码以及代码的执行结果。强化学习则直接基于基础语言模型展开,使模型在与环境的交互中不断探索,学习到最优的工具利用策略。

  1. 关键参数设计原理:超参数 c 在 TORL 中至关重要,它用于控制模型在单次响应生成时允许的最大工具调用次数。由于工具集成会引入 GPU 空闲时间,工具调用频率与训练速度呈反比,设置 c 值能够平衡训练效率和模型性能。当模型的工具调用次数达到 c 时,系统会忽略后续的代码执行请求,强制模型切换到纯文本推理模式。
  2. 创新性技术组合

  • 提示模板设计:运用特定的提示模板(如设定的用户与助手对话模板),引导模型自动输出包含代码块的推理内容。一旦检测到代码终止标识符,系统会暂停文本生成,执行最新的代码块,并将结构化的执行结果插入到上下文当中,推动模型后续的推理。
  • 执行环境选择与优化:选择 Sandbox Fusion 作为代码执行环境,它虽然存在一定的延迟,但具备稳定、准确和响应性良好的特点,且能提供隔离的执行环境,有效避免执行错误对整个训练过程的影响。同时,针对 Sandbox Fusion 生成的详细错误信息,只提取最后一行关键信息,减少上下文长度,保留关键错误提示
  • 奖励函数设计:采用基于规则的奖励函数,正确答案给予 1 的奖励,错误答案则为 -1。考虑到代码执行与问题解决准确性的关联,对于包含不可执行代码的响应,会额外给予 -0.5 的奖励惩罚,以此激励模型生成可执行且有助于解决问题的代码。
  1. 实验验证方式
  • 数据集构建:从 NuminaMATH、MATH 和 DeepScaleR 等来源收集奥林匹克级数学竞赛问题,经过初步筛选去除证明类问题和验证标准模糊的题目,得到 75,149 个可验证问题。再运用 LIMR(一种强化学习数据蒸馏技术),提取高质量样本并平衡难度分布,最终构建出包含 28,740 个问题的数据集用于后续实验。
  • 实验设置:使用 veRL 框架和 GRPO 算法开展 RL 实验,选择 Sandbox Fusion 作为代码解释器。设置滚动批次大小为 128,每个问题生成 16 个样本。为增强模型的探索能力,实验中省略 KL 损失并将温度设置为 1。以 Qwen - 2.5 - Math 系列模型作为基础模型,默认最大工具调用次数 c 为 1,且在默认实验中仅保留答案正确性奖励。
  • 评估基准:采用贪婪解码(temperature = 0)对所有模型进行评估,选择多个具有挑战性的数学基准测试,包括 AIME24、AIME25、MATH500、OlympiadBench 和 AMC23,将 TORL 模型与多种基线模型(如 Qwen2.5 - Math - 1.5B - Instruct、Qwen2.5 - Math - 1.5B - Instruct - TIR 等)进行对比,以此评估 TORL 模型的性能表现。

实验洞察

  1. 性能优势:在AIME24测试中,TORL-1.5B准确率达到26.7%,相比Qwen2.5-Math-1.5B-Instruct-TIR提升了13.3%;TORL-7B准确率为43.3% ,相比Qwen2.5-Math-7B-Instruct-TIR提升了10.0%。在多个数学基准测试的平均准确率上,TORL-1.5B达到48.5% ,超越Qwen2.5-Math-1.5B-Instruct-TIR(41.3%);TORL-7B达到62.1% ,相比其他同基础模型的开源模型有显著提升,绝对改进幅度达14.7%。
  2. 效率突破:研究发现增加最大工具调用次数c虽然能提升模型性能,但会降低训练速度。例如将c从1提高到2时,模型平均准确率提升约2% ,但训练速度明显下降,平均单步时间从237秒增加到288秒(在8*A800 GPU系统上测量)。
  3. 消融研究:分析关键设置对模型的影响时发现,引入代码可执行性奖励并没有提升模型性能。可能是因为对执行错误的惩罚使得模型为避免错误生成过于简单的代码,从而影响解决问题的能力。同时,模型在训练过程中,随着训练步数增加,使用代码解决问题的比例、正确执行代码的比例都在上升,且能识别和减少无效代码生成,验证了模型自主学习和优化工具使用策略的有效性

本文由AI辅助完成。

相关文章:

TORL:解锁大模型推理新境界,强化学习与工具融合的创新变革

在大语言模型(LLMs)推理能力不断提升的当下,如何让模型更高效地解决复杂计算和推理任务成为关键。本文介绍的TORL(Tool-Integrated Reinforcement Learning)框架给出了全新方案。它通过强化学习让大模型自主运用计算工…...

Maven 依赖坐标与BOM统一管理

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…...

华为OD机试真题——通过软盘拷贝文件(2025A卷:200分)Java/python/JavaScript/C++/C语言/GO六种最佳实现

2025 A卷 200分 题型 本文涵盖详细的问题分析、解题思路、代码实现、代码详解、测试用例以及综合分析; 并提供Java、python、JavaScript、C、C语言、GO六种语言的最佳实现方式! 本文收录于专栏:《2025华为OD真题目录全流程解析/备考攻略/经验…...

participant中participantid的来源和用途

ParticipantQos中的wire_protocol(WireProtocolConfigQos类型)成员中存在participant_id成员: DomainParticipantImpl::DomainParticipantImpl(...) {...participant_id_ qos_.wire_protocol().participant_id; } 如果用户不指定&…...

【论文阅读25】-滑坡时间预测-PFTF

本文提出了一种前瞻性失稳时间预测方法(PFTF),可用于实时或拟实时预测滑坡、冰崩等地质灾害的失稳时间。该方法基于改进的反速度法(Inverse Velocity Method),通过多窗口平滑、迭代更新、以及自动识别加速起…...

解决AWS中ELB的目标群组中出现不正常数

当如下图中不正常数>0且小于等于目标总数时,我们需要更改相应的配置,这是针对那些没有检查方式的实例,从而采取反向配置方式 1、切换到运行健康检查,然后进行编辑各个检查指标 2、编辑如下 3、切换到属性进行编辑如下...

【TeamFlow】4.3.4 长度单位

以下是针对长度单位的实现方案,包含完整的文件结构和详细实现: 文件结构更新 src/ └── units/└── base/├── length.rs # 基础长度单位└── length/├── metric.rs # 公制单位├── imperial.rs # 英制单位├── astronomical.r…...

【Qt/C++】QPrinter关于QInternal::Printer的解析

1. 问题分析 QInternal::Printer在Qt框架中并不是一个直接暴露给用户的API。相反,它是一个枚举值,用于标识QPaintDevice的类型。在Qt中,QPaintDevice是一个抽象类,用于任何可以进行绘制的设备,如窗口、图像、打印机等…...

方案精读:华为智慧园区解决方案【附全文阅读】

随着数字化发展,园区面临转型需求。华为智慧园区解决方案应运而生,其基于物联网、大数据、云计算等技术,构建数字化使能平台,涵盖综合安防、人员与车辆管理、绿色能源、资产管理等多领域应用场景,解决传统园区在安全、效率、能耗等方面的痛点。通过实现系统互联、数据融合…...

【Java面试笔记:基础】13.谈谈接口和抽象类有什么区别?

在 Java 中,接口(Interface) 和 抽象类(Abstract Class) 都是实现多态和代码抽象的机制,但它们在设计目的、语法特性及使用场景上有显著差异。 1. 接口和抽象类的区别 接口(Interface) 定义:接口是对行为的抽象,是抽象方法的集合,用于定义 API 规范。 特点: 不能…...

03-Java入门-JDK的安装和下载

03-Java入门-JDK的安装和下载 1. 安装JDK 1)JDK概述 JDK定义: JDK(Java Development Kit)是Java开发者工具包,包含Java编译器、Java运行时环境(JRE)以及其他开发工具。作用: 必须安装JDK才能使用Java进行…...

开源作业调度框架Quartz框架详细使用说明

Quartz框架详细使用说明 Quartz 是一个功能强大的开源作业调度框架,广泛用于在Java应用程序中执行定时任务。以下是Quartz框架的详细使用说明、完整代码示例、同类框架对比以及总结表格。 1. Quartz框架概述 特点: 灵活的调度:支持多种调度方…...

C++算法(14):K路归并的最优解法

问题描述 给定K个按升序排列的数组,要求将它们合并为一个大的有序数组。例如,输入数组[[1,3,5], [2,4,6], [0,7]],合并后的结果应为[0,1,2,3,4,5,6,7]。 解决方案 思路分析 合并多个有序数组的高效方法是利用最小堆(优先队列&…...

如何配置 Conda 使用镜像源加速

如何配置 Conda 使用镜像源加速 为了提高使用 Anaconda 或 Miniconda 时包管理的速度,特别是在国内网络环境下,可以通过配置镜像源来实现更快的下载。以下是详细的步骤说明: 1. 安装 Conda(如果尚未安装) 如果你还没…...

【OS】深入理解Linux的五种IO模型

最近逛论坛在知乎看到一篇非常不错的文章,遂收藏,分享给大家 又加深了对io模型的理解 知乎一篇文章:深入理解Linux的五种IO模型 Linux的五种IO模型 阻塞I/O (Blocking I/O) • 特点:进程在数据准备和拷贝阶段均被挂起&#xff…...

67 款 App 因违规收集个人信息被通报 隐私合规检测成重新上架门槛

4 月 22 日,国家网络与信息安全信息通报中心通报 67 款违法违规收集使用个人信息的移动应用,涉及教育、金融、政务等多个领域。此次通报是 2025 年个人信息保护专项行动的重要成果,依据《网络安全法》《个人信息保护法》等法律法规&#xff0…...

前端热门面试题day1

内容回答较粗糙,如有疑问请自行搜索资料 什么是vue中的slot?它有什么作用 Vue中的Slot(插槽)就像给组件预先留的“内容停车位”,让父组件能把自定义内容“塞”到子组件的指定位置。它的主要作用是: 灵活定…...

华为AR1200 telnet设置

华为路由配置TELNET登 📺 启动TELNET服务 在华为路由器上启动TELNET服务,执行以下命令: telnet server enable 🔑 配置AAA认证 进入AAA认证配置,创建一个路由器登录帐号admin123,并设置密码为huawei123&…...

基于ESP32 - S3的MD5校验算法的C语言例程

下面是一个基于ESP32 - S3的MD5校验算法的C语言例程。在ESP32 - S3上实现MD5校验,你可以使用ESP-IDF(Espressif IoT Development Framework)提供的功能。 步骤: 创建项目:使用ESP-IDF创建一个新的项目。编写代码&…...

django软件开发招聘数据分析与可视化系统设计与实现(源码+lw+部署文档+讲解),源码可白嫖!

摘要 时代在飞速进步,每个行业都在努力发展现在先进技术,通过这些先进的技术来提高自己的水平和优势,招聘信息管理系统当然不能排除在外。软件开发招聘数据分析与可视化系统是在实际应用和软件工程的开发原理之上,运用Python语言…...

Maven中的(五种常用依赖范围)

Maven 定义了 五种常用依赖范围(scope),它们控制着: 哪些依赖会编译时参与哪些依赖会打包进 WAR/JAR哪些依赖会传递给其他模块哪些依赖只在测试中才有效 Maven 常用的依赖范围(scope) scope编译需要测试需…...

Python内置函数-aiter()

Python内置函数 aiter() 用于获取异步可迭代对象的异步迭代器,是异步编程中的核心工具之一。 1. 基本概念 异步可迭代对象:实现了 __aiter__() 和 __anext__() 方法的对象,支持 async for 循环。 异步迭代器:通过 aiter() 获取的…...

面试篇:Java并发与多线程

基础概念 什么是线程?线程和进程的区别是什么? 线程 是程序执行的最小单位,它是 CPU 调度和执行的基本单元。一个进程可以包含多个线程,这些线程共享进程的资源(如内存),但每个线程有自己的栈…...

Windows 同步技术-计时器队列和内存屏障

计时器队列 CreateTimerQueue 函数为计时器创建队列。 此队列中的计时器(称为 计时器队列计时器)是轻量级对象,可用于指定要在指定到期时间到达时调用的回调函数。 等待作由 线程池中的线程执行。 若要将计时器添加到队列,请调用…...

基于无障碍跳过广告-基于节点跳过广告

2025-04-22 一些广告的关闭是叉图标,获取到的信息也没什么特征,这种广告怎么跳过 用autojs无障碍的节点定位ui控件位置,点击...

内存管理(Linux程序设计)

内存管理 目录 内存管理 一.简单的内存分配 代码功能概述 代码流程图 变量声明 动态内存分配 内存分配错误检查 向内存写入字符串 设置退出状态并退出程序 二.请求全部的物理内存 代码功能概述 变量声明 三..可用内存 四.滥用内存 1.代码功能(预期 …...

element-ui、element-plus表单resetFields()无效的坑

一、基本前提: 1、form组件上必须要有ref 2、form-item上必须要有prop属性 二、新增/编辑用一个el-dialog时,先新增再编辑没问题,先编辑再新增未清空 原因 在没有点新增或着编辑时,我的el-dialog弹出框里的内容是空白的&…...

LeetCode 252 会议室 III(Meeting Rooms III)题解与模拟面试

1. 引言 在现代办公和协作中,会议室的高效利用至关重要。LeetCode 252 题“会议室 III”要求我们在给定一组会议的时间区间后,计算同一时间段内需要开的最少会议室数量,以保证所有会议能顺利进行。本题不仅是经典的区间调度问题变形&#xf…...

基于HPC的气候模拟GPU加速实践全流程解析

基于HPC的气候模拟GPU加速实践全流程解析 关键词:气候模型、GPU加速、CUDA编程、性能优化、分布式训练 摘要: 本文针对全球气候模拟中10^12级网格点实时计算需求,提出基于CUDA的并行计算架构。通过改进WRF模式的分块矩阵乘法算法&#xff0c…...

【CSS】层叠,优先级与继承(三):超详细继承知识点

目录 继承一、什么是继承?2.1 祖先元素2.2 默认继承/默认不继承 二、可继承属性2.1 字体相关属性2.2 文本相关属性2.3 列表相关属性 三、不可继承属性3.1 盒模型相关属性3.2 背景相关属性 四、属性初始值4.1 根元素4.2 属性的初始值4.3 得出结论 五、强制继承5.1 in…...