当前位置：首页 > article >正文

rStar论文精读

article 2026/3/13 21:55:55

论文简介

论文标题：《Mutual reasoning makes smaller LLMs stronger problem-solvers》
论文地址：https://arxiv.org/abs/2408.06195
录用会议：ICLR2025

背景与挑战

挑战1：在SLM中平衡exploration与exploitation。一些方法有很大的exploitation但限制任务多样性泛化性不好；一些方法有很大的exploration但产生很多较差的结果，需要很多次尝试才能获得理想结果，消耗推理资源大。

方法

在这里插入图片描述
为了解决挑战1，设置了5个模拟人类的推理动作以进行彻底的探索；为了解决挑战2，使用了针对SLM设计奖励函数去评估中间步骤，而不是使用不可靠的自我评估。此外，使用另一个SLM作为鉴别器来增强MCTS过程，与生成器SLM相互验证每个轨迹的正确性。

在这里插入图片描述

动作空间

MCTS生成的核心是动作空间，它定义了树探索的范围。大多数基于MCTS的方法使用单一的动作类型来构建树。例如，在RAP中，动作是提出下一个子问题，而在AlphaMath（Chen et al., 2024a）和MindStar（Kang et al., 2024）中，动作是生成下一个推理步骤。然而，依靠单一的动作类型很容易导致空间探索无效。因此为了解决以上问题，使用了人类思考的方法进行推理.

A1: Propose an one-step thought.
A2: Propose the remaining thought steps.
A3: Propose next sub-question along with its answer.
A4: Answer the sub-question again.
A5: Rephrase the question/sub-question.

蒙特卡洛模拟

蒙特卡洛搜索过程参考了Alpha Go的推理过程。
在某个Node处，有5个Action可供选择，Q都被初始化为0。
每次进行rollout时都根据UCT的值进行选择节点。在这里插入图片描述
这样，收集了一些较为随机的rollout

奖励函数

没用使用特定的奖励函数模型，而是使用了模拟打分的方式作为奖励函数。引入了另一个SLM’，屏蔽后i步，通过前i-1步直接推理到结尾。比较SLM’完成的答案是否与原始轨迹t匹配。如果它们一致，将t视为最终选择的有效轨迹。

考虑学生在没有老师反馈的情况下解决问题。一个对自己的解不确定的学生（SLM1）可能会请同伴（SLM2）审查他们的推理过程。如果同伴在给定相同的初始步骤后得到相同的答案，学生就会对自己的解更有信心。这种同伴验证过程反映了我们旨在实现的互推理一致性。由SLM1进行最终轨迹选择。

轨迹获得的奖励 = rollout过程中给出的奖励 * SLM2给出的答案奖励

我们通过将每个轨迹的奖励乘以从 rollout 中获得的终端节点的置信度得分来计算每个轨迹的最终得分。最终得分最高的轨迹被选为解。

rStar论文精读

论文简介

背景与挑战

方法

动作空间

蒙特卡洛模拟

奖励函数

相关文章：

rStar论文精读

【动态规划】对局匹配（分组线性DP）

python 提取视频中的音频

self.cls_token在 Vision Transformer (ViT) 模型中的训练阶段和推理阶段的行为和作用的异同

【量化科普】Leverage，杠杆

247g 的工业级电调，如何让无人机飞得更 “聪明“？——STONE 200A-M 深度测评

Maven Deploy Plugin如何使用？

Node.js：快速启动你的第一个Web服务器

自定义日志回调函数实现第三方库日志集成：从理论到实战

Linux练级宝典-＞任务管理和守护进程

C语言：计算并输出三个整数的最大值并对三个数排序

工具（十二）：Java导出MySQL数据库表结构信息到excel

如何设计微服务及其设计原则？

ACL初级总结

调优案例一：堆空间扩容提升吞吐量实战记录

C语言 —— 此去经年梦浪荡魂音 - 深入理解指针（卷一）

计算机毕业设计：留守儿童的可视化界面

golang算法二叉树对称平衡右视图

c++20 Concepts的简写形式与requires 从句形式

Chatbox通过百炼调用DeepSeek

【数据结构】6栈

PyTorch 入门学习

mov格式视频如何转换mp4？

数据结构与算法：动态规划dp：子序列相关力扣题（下）：392. 判断子序列、115.不同的子序列

二进制求和（js实现，LeetCode：67）

【C#】使用DeepSeek帮助评估数据库性能问题，C# 使用定时任务，每隔一分钟移除一次表，再重新创建表，和往新创建的表追加5万多条记录

【openGauss】物理备份恢复

蓝桥杯备赛-基础练习 day1

实验四 Python聚类决策树训练与预测基于神经网络的MNIST手写体识别

【原创】在高性能服务器上，使用受限用户运行Nginx，充当反向代理服务器[未完待续]