当前位置：首页 > news >正文

【偏好对齐】通过ORM直接推导出PRM

news 2025/7/8 12:21:33

论文地址：https://arxiv.org/pdf/2412.01981

相关博客
【自然语言处理】【大模型】 ΨPO：一个理解人类偏好学习的统一理论框架
【强化学习】PPO：近端策略优化算法
【偏好对齐】PRM应该奖励单个步骤的正确性吗？
【偏好对齐】通过ORM直接推导出PRM

一、PRM的成本和性能困境

1. ORM和PRM

在强化学习中，奖励模型用于评估模型的输出。常见的两种奖励模型是结果奖励模型（ORM）和过程奖励模型（PRM）。ORM为整个响应分配一个稀疏奖励，而PRM则为每个中间步骤提供奖励。

ORM和PRM奖励分配方式。令 $x$ 表示指令， $y$ 为包含n个步骤的响应， $y_t$ 为第t步的响应， $y_{<t}$ 表示前t-1步的响应。PRM为第t步分配的奖励为 $r^{t}_{\theta}(y_{<t},y_t)$ 。令Q值 $q_{\theta}^t(y_{<t},y_t)$ 表示基于响应 $y_{<t}$ 和当前步骤 $y_t$ 的奖励 $r_{\theta}$ 的期望值。先前的研究将过程奖励定义为每个步骤的正确性，而近期研究则将其定义为优势值。即Q值之差： $r_{\theta}^t:=q_{\theta}^t-q_{\theta}^{t-1}$ 。

2. PRM的优势

效果。结果奖励模型和过程奖励模型都能够提供奖励以评估模型的输出。然而，PRM在训练和推理时都表现出优于ORM的优势。

效率。PRM提供密集的步骤级奖励能让强化学习（RL）训练变得稳定且高效。

3. PRM的困境

尽管PRM很有效，但其训练难度更大，主要挑战在于训练数据的收集。为了收集PRM的训练数据，通常需要使用蒙特卡洛树搜索（MCTS）进行自动步骤标注。

MCTS基于指令和前t步的响应来采样多条轨迹，每条轨迹都会产生一个最终答案。但是，这种方法会带来高额的额外成本，并且由于标注过程存在噪声，可能会导致性能欠佳。

4. MCTS估计的问题

估计策略：

在MCTS中，有两种常见的标签估计策略：

硬估计：如果有任意rollout是正确的，那么步骤tt被标注为1，否则为0。即 $l_t=\max\{c_1,c_2,\dots,c_N\}$ 。
软估计：步骤t被标注为所有rollout中正确答案的比例，也就是 $l_t=\sum_{t=1}^N c_t/N$ 。

令ORM为 $\theta$ ，基于硬估计数据训练的PRM为 $\theta_h$ ，基于软估计数据训练的PRM为 $\theta_s$ ，那么两种策略的Q值表示为
$q_{\theta_h}^t(y_{<t},y_t)=\max_{y|y_{<t}} r_{\theta}(y),q_{\theta_s}^t(y_{<t},y_t)=\mathbb{E}_{\pi_{ref}(y|y_{<t})}r_{\theta}(y) \\$
潜在问题：

尽管硬估计和软估计都有其合理性，但它们都存在噪音问题。具体来说：

硬估计： $q_{\theta_h}^t$ 表示给定 $y_{<t}$ 的情况下的最大结果奖励 $r_{\theta}$ ，而不是期望值，因此会高估 $Q$ 值。
软估计：对于 $q_{\theta_s}^t$ ，由于策略模型的能力通常有限，要针对困难的指令采样处正确的解决方案很难，会受假阴性噪音的影响，从而低估 $Q$ 。

二、通过ORM直接构造PRM

MCTS虽然能够不借助人工来构造PRM数据，但是成本高昂且奖励值估计不准确。那么不通过MCTS，而是直接基于ORM来构造过程奖励可以吗？

1. 基于ORM构造PRM

ORM采用DPO中定义的形式，即 $r_{\theta}(y):=\beta\log\frac{\pi_{\theta}(y)}{\pi_{\text{ref}}(y)}$ 。令 $q_{\theta}^t(y_{<t},y_t):=\sum_{i=1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{<i})}{\pi_{\text{ref}}(y_i|y_{<t})}$ ，那么 $q_{\theta}^t$ 是 $r(\theta)$ 的指数平均值，即
$q_{\theta}^t(y_{<t},y_t)=\beta\log\mathbb{E}_{\pi_{ref}(y|y_{\leq t})}e^{\frac{1}{\beta}r_{\theta}(y)} \\$
所以， $q_{\theta}^t$ 表示结果奖励 $r_{\theta}$ 在步骤 $t$ 处的精确期望值，即Q值。

既然， $q_{\theta}^t$ 是Q值，那么若令过程奖励值为优势值，则可以直接计算 $r_{\theta}^t$ 为
$r_{\theta}^t:=q_{\theta}^t-q_{\theta}^{t-1}=\sum_{i=t-1}^t\beta\log\frac{\pi_{\theta}(y_i|y_{<i})}{\pi_{\text{ref}}(y_i|y_{<i})} \\$

2. 隐式PRM的奖励估计更合理

$q_{\theta_{s}}^t=\mathbb{E}_{\pi_{ref}(y|y_{<t})}r_{\theta}(y)\leq q_{\theta}^t(y_{<t},y_t)\leq\max_{y|y_{<t}}r_{\theta}(y)=q_{\theta_h}^t \\$

上面提出的隐式PRM理论上介于 $q_{\theta_s}^t$ 和 $q_{\theta_h}^t$ 之间，而 $q_{\theta_s}^t$ 和 $q_{\theta_h}^t$ 分别会低估和高估Q值，因此 $q_{\theta}^t$ 的估计更加准确且鲁棒性更强。

三、实验

1. 效果

在这里插入图片描述

论文中各种隐式PRM的效果优于baseline。

2. 效率