当前位置：首页 > news >正文

【自然语言处理】【大模型】 ΨPO：一个理解人类偏好学习的统一理论框架

news 2025/7/12 14:42:56

一个理解人类偏好学习的统一理论框架 《A General Theoretical Paradiam to Understand Learning from Human Preferences》

论文地址：https://arxiv.org/pdf/2310.12036.pdf

相关博客
【自然语言处理】【大模型】 ΨPO：一个理解人类偏好学习的统一理论框架
【强化学习】PPO：近端策略优化算法

一、简介

通过强化学习来学习人类偏好(RLHF)主要依赖于两个重要的近似。第一个假设是成对的偏好可以被单个奖励值所替代；第二个假设是基于奖励值训练的奖励模型能够泛化到分布外的数据上。近期，DPO方法已经可以从收集的数据中直接学习策略，而不需要奖励建模阶段。然而，这个方法严重依赖于第一个假设。

本文中，试图对这些实际中的算法进行更深入的理论理解。特别地，本文推导了一个新的通用目标函数 $\Psi\text{PO}$ 来从人类偏好中学习，并且绕过了两个假设。这个新的目标函数可以对RLHF和DPO的行为进行更深入的分析。

二、符号

给定上下文 $x\in\mathcal{X}$ ，其中 $\mathcal{X}$ 是有限的上下文空间，并假设 $\mathcal{Y}$ 是有限动作空间。策略 $\pi\in\Delta_{\mathcal{Y}}^{\mathcal{X}}$ 会为每个上下文 $x\in\mathcal{X}$ 关联一个离散概率分布 $\pi(\cdot|x)\in\Delta_{\mathcal{Y}}$ ，其中 $\Delta_{\mathcal{Y}}$ 是 $\mathcal{Y}$ 上的离散分布集合。使用 $\mu\in\Delta_{\mathcal{Y}}^{\mathcal{X}}$ 表示行为策略。对于给定的上下文 $x$ ， $y,y'\sim\mu(x)$ 是由行为策略独立生成的两个动作。这两个动作交由人类进行标注，标注结果表示为 $y_w\succ y_l$ ，其中 $y_w$ 和 $y_l$ 分别表示 ${y,y'\}$ 中的偏好样本和非偏好样本。 $p^*(y\succ y'|x)$ 表示给定上下文 $x$ 的情况下，人类偏好 $y$ 优先于 $y^{'}$ 的概率。之所以将其表示为概率，是因为不确定性来自于偏好产生的人的选择。因此，
$p^*(y\succ y'|x)=\mathbb{E}_h[\mathbb{I}\{\text{h prefers y to }y'\text{ give x}\}] \tag{1} \\$
其是关于人的期望。此外，这里也引入一个已知 $x$ ，生成 $y$ 相较于分布 $\mu$ 的期望偏好，表示为 $p^*(y\succ\,u|x)$ ：
$p^*(y\succ\mu|x)=\mathbb{E}_{y'\sim\mu(\cdot|x)}[p^*(y\succ y'|x)] \tag{2} \\$
对于任意的两个策略 $\pi,\mu\in\Delta_{\mathcal{Y}}^{\mathcal{X}}$ 以及上下文分布 $\rho$ ，那么策略 $\pi$ 对于 $\mu$ 的总偏好为
$p^*_{\rho}(\pi\succ\mu)=\mathop{\mathbb{E}}_{x\sim\rho,y\sim\pi(\cdot|x)}[p^*(y\succ\mu|x)] \tag{3}\\$
实际中，无法直接观测到 $p^*$ ，仅能从具有均值 $p^*(y\succ y'|x)$ 的伯努利分布从采样 $I (y, y^{'} ∣ x)$ 。特别地，假设可以通过数据集 $\mathcal{D}=(x_i,y_i,y_i')_{i=1}^N=(x_i,y_{w,i}\succ y_{l,i})_{i=1}^N$ 来访问偏好，其中 $N$ 是数据集的尺寸。此外，对于一个一般性的有限集合 $\mathcal{S}$ ，一个离散概率分布 $\eta\in\Delta_{\mathcal{S}}$ 和一个实值函数 $f\in\mathbb{R}^{\mathcal{S}}$ ，那么 $f$ 在 $\eta$ 下的期望表示为 $\mathbb{E}_{s\sim\eta}[f(s)]=\sum_{s\in\mathcal{S}}f(s)\eta(s)$ 。对于一个有限数据集 $\mathcal{D}=(s_i)_{i=1}^N$ ，每个 $s_i\in\mathcal{S}$ 且有一个实值函数 $f\in\mathbb{R}^{\mathcal{S}}$ ，那么 $f$ 在 $\mathcal{D}$ 下的经验期望为 $\mathbb{E}_{s\sim\mathcal{D}}[f(s)]=\frac{1}{N}\sum_{i=1}^N f(s_i)$ 。

三、背景知识

1. RLHF

标准RLHF范式有两个阶段：(1) 学习奖励模型；(2) 基于学习到的奖励来优化策略。

学习奖励模型。奖励模型的学习是通过训练一个区分偏好和非偏好的二分类模型，通常使用Bradley-Terry模型来构建分类模型。给定上下文 $x$ ，动作 $y$ 的奖励表示为 $r (x, y)$ 。Bradley-Terry模型通过对两个奖励进行sigmoid变换来表示偏好函数 $p(y\succ y'|x)$ ：
$p(y\succ y'|x)=\sigma(r(x,y)-r(x,y')) \tag{4}\\$
其中 $\sigma(\cdot)$ 是sigmoid函数。给定数据集 $\mathcal{D}=(x_i,y_{w,i}\succ y_{l,i})_{i=1}^N$ ，可以通过优化下面的损失函数来学习奖励函数
$\mathcal{L}(r)=-\mathbb{E}_{(x,y_w,y_l)\sim\mathcal{D}}\Big[\log(p(y_w\succ y_l|x))\Big] \tag{5}\\$
优化策略。基于奖励函数 $r (x, y)$ ，RLHF的目标就是通过优化策略 $\pi\in\Delta_{\mathcal{Y}}^{\mathcal{X}}$ 来最大化期望奖励，同时通过KL散度来最小化 $\pi$ 和reference策略 $\pi_{\text{ref}}\in\Delta_{\mathcal{Y}}^{\mathcal{X}}$ ：
$J(\pi)=\mathbb{E}_{\pi}[r(x,y)]-\tau D_{\text{KL}}(\pi\parallel\pi_{\text{ref}}) \tag{6}\\$
其中上下文 $x$ 是从 $\rho$ 中采样的，动作 $y$ 是从策略 $\pi(\cdot|x)$ 采样的。散度 $D_{\text{KL}}(\pi\parallel\pi_{\text{ref}})$ 定义为
$D_{\text{KL}}(\pi\parallel\pi_{\text{ref}})=\mathbb{E}_{x\sim\rho}[\text{KL}(\pi(\cdot|x)\parallel\pi_{\text{ref}}(\cdot|x))] \tag{7}\\$
其中
$\text{KL}(\pi(\cdot|x)\parallel\pi_{\text{ref}}(\cdot|x))=\mathbb{E}_{y\sim\pi(\cdot|x)}\Big[\log\Big(\frac{\pi(y|x)}{\pi_{\text{ref}}(y|x)}\Big)\Big] \tag{8}\\$
公式(6)的目标函数可以通过PPO来优化。RLHF+PPO在实际中取得了很好的效果。

2. DPO

一个可以替代上述RL范式的方法是直接偏好优化(DPO)，其能避免训练reward模型。DPO的损失函数为
$\min_{\pi}\mathbb{E}_{(x,y_w,y_l)\sim\mathcal{D}}\Big[-\log\sigma\Big(\tau\log(\frac{\pi(y_w|x)}{\pi(y_l|x)})-\tau\log(\frac{\pi_{\text{ref}}(y_w|x)}{\pi_{\text{ref}}(y_l|x)})\Big)\Big] \tag{9}\\$
上述损失函数也可以写作
$\min_{\pi}\mathop{\mathbb{E}}_{x\sim\rho;y,y'\sim\mu}\Big[-p^*(y\succ y'|x)\log\sigma\Big(\tau\log(\frac{\pi(y|x)}{\pi(y'|x)})-\tau\log(\frac{\pi_{\text{ref}}(y|x)}{\pi_{\text{ref}}(y'|x)})\Big)\Big] \tag{10}\\$

四、偏好优化的统一目标

本文基于最大化偏好的非线性函数构建了一个RLHF的统一目标函数。设 $\Psi:[0,1]\rightarrow\mathbb{R}$ 是一个非递减函数，reference策略为 $\pi_{\text{ref}}\in\Delta_{\mathcal{Y}}^{\mathcal{X}}$ ， $\tau\in\mathbb{R}_+^*$ 是用于正则化的正实数，那么定义 $\Psi$ 偏好优化目标函数( $\Psi\text{-preference optimisation objective},\Psi\text{PO}$ )为
$\max_{\pi}\mathop{\mathbb{E}}_{\substack{x\sim\rho\\y\sim\pi(\cdot|x)\\y'\sim\mu(\cdot|x)}}[\Psi(p^*(y\succ y'|x))]-\tau D_{\text{KL}}(\pi\parallel\pi_{\text{ref}}) \tag{11} \\$
该目标函数在最大化偏好概率的非线性函数的同时，使用KL散度来鼓励策略接近 $\pi_{\text{ref}}$ 。该目标函数受公式(6)启发，下面的章节会展示其能够推广至RLHF和DPO。

1. DPO和RLHF的深入分析

为了符号简单，忽略依赖 $x$ 。使用公式(11)的 $\Psi$ 偏好目标函数来链接DPO和RLHF。下述命题建立了这种联系

命题1。假设 $\Psi(q)=\log(q/(1-q))$ 。当Bradley-Terry模型对 $p^*$ 成立，那么就存在 $r:\mathcal{Y}\rightarrow\mathbb{R}$ 使得
$p^*(y\succ y')=\sigma(r(y)-r(y'))\tag{12}\\$
那么公式(11)的最优策略，公式(6)中RLHF目标函数的最优策略以及公式(10)中DPO目标函数的最优策略是相同的。

证明。在Bradley-Terry模型成立的假设下，有
$\begin{align} \mathop{\mathbb{E}}_{y'\sim\mu}[\Psi(p^*(y\succ y'))]&=\mathop{\mathbb{E}}_{y'\sim\mu}\Big[\Psi\Big(\frac{e^{r(y)}}{e^{r(y)}+e^{r(y')}}\Big)\Big] \\ &=\mathop{\mathbb{E}}_{y'\sim\mu}[\log(e^{r(y)}/e^{r(y')})] \\ &=\mathop{\mathbb{E}}_{y'\sim\mu}[r(y)-r(y')] \\ &=r(y)-\mathop{\mathbb{E}}_{y'\sim\mu}[r(y')] \\ \end{align} \tag{13}\\$
这相当于(6)的奖励上添加一个常数。因此，公式(6)的最优策略和公式(11)的最优策略相同。此外，在DPO的论文中已经证明了公式(6)和公式(10)具有相同的最优策略。

将该命题应用在公式(11)的目标函数，在BT假设下DPO和RLHF的封闭解可以写作
$\pi^*(y)\propto\pi_{\text{ref}}(y)\exp\Big(\tau^{-1}\mathbb{E}_{y'\sim\mu}[\Psi(p^*(y\succ y'))]\Big) \tag{14}\\$

2. 弱正则和过拟合

偏好概率的高度非线性变换意味着偏好概率接近于1的小改进和偏好概率接近50%的大改进具有相同的激励作用。

考虑一个简单的例子，两个动作 $y$ 和 $y^{'}$ 满足 $p^*(y\succ y')=1$ ，即相比 $y^{'}$ 总是偏好 $y$ 。Bradley-Terry模型需要 $(r(y)-r(y'))\rightarrow\infty$ 来满足公式(4)。若将其插入至最优策略(14)中，无论 $\tau$ 取值为何都有
$\begin{align} \frac{\pi^*(y')}{\pi^*(y)}&=\frac{\pi_{\text{ref}}(y')}{\pi_{\text{ref}}(y)}\exp\Big(\tau^{-1}\mathbb{E}_{y'\sim\mu}[\Psi(p^*(y'\succ y'))-\Psi(p^*(y\succ y'))]\Big) \\ &=\frac{\pi_{\text{ref}}(y')}{\pi_{\text{ref}}(y)}\exp(\tau^{-1}\mathbb{E}_{y'\sim\mu}[r(y')-r(y)])=0 \end{align}\tag{15} \\$
即 $\pi_{\text{ref}}(y')=0$ 。因此，当偏好越确定则KL正则化的效果也就越弱。

KL正则化的这种弱点在有效数据中会更加明显，因为仅能够获得偏好的样本估计 $\hat{p}(y\succ y')$ 。例如，即使真实的偏好时 $p^*(y\succ y')=0.8$ ，但仅通过少量数据估计则很可能有 $\hat{p}(y\succ y')=1$ 。这种情况下，对于任意的 $\tau$ ，经验最优策略将会有 $\pi(y')=0$ 。这也意味着模型很可能会过拟合。

*为什么标准的RLHF对这个问题更加鲁棒呢？*DPO虽然能够避免拟合奖励函数，但是在真实实践中，当经验偏好的概率位于集合 ${0,1\}$ 中，奖励函数通常是欠拟合的。位于 ${0,1\}$ 的偏好概率的最优奖励是无限的，但是可以避免取到这些值。奖励函数的欠拟合对于获得最终策略至关重要，DPO虽然避免了奖励函数的训练，但也损失了欠拟合奖励函数带来的策略正则化。

五、IPO：基于恒等映射的 $\Psi\text{PO}$

DPO虽然能够避免奖励函数的训练，但是容易过拟合。基于对DPO的分析，需要确保公式(11)中的KL正则化在偏好为 ${0,1\}$ 的情况下仍然有效。因此，考虑公式(11)中的 $\Psi$ 为恒等映射，那么就能直接正则化总偏好：
$\max_{\pi}p^*_{\rho}(\pi\succ\mu)-\tau D_{\text{KL}}(\pi\parallel\pi_{\text{ref}}) \tag{16}\\$
优化公式(14)的标准方法是RLFH，但是使用强化学习并估计奖励模型的成本高昂。受DPO启发，能够为公式(16)求解一个经验解来避免强化学习和奖励模型。

1. 推导

寻根问题。令 $g(y)=\mathbb{E}_{y'\sim\mu}[\Psi(p^*(y\succ y'))]$ ，然后有
$\pi^*(y)\propto\pi_{\text{ref}}(y)\exp(\tau^{-1}g(y)) \tag{17}\\$
对于任意 $y,y'\in\text{Supp}(\pi_{\text{ref}})$ ，我们有
$\frac{\pi^*(y)}{\pi^*(y')}=\frac{\pi_{\text{ref}}(y)}{\pi_{\text{ref}}(y')}\exp\Big(\tau^{-1}(g(y)-g(y'))\Big) \tag{18}\\$
令
$h^*(y,y')=\log\Big(\frac{\pi^*(y)\pi_{\text{ref}}(y')}{\pi^*(y')\pi_{\text{ref}}(y)}\Big)\tag{19} \\$
那么公式(18)可以重排为
$h^*(y,y')=\tau^{-1}(g(y)-g(y'))\tag{20} \\$
那么对于策略 $\pi$ ，定义有
$h_{\pi}(y,y')=\log\Big(\frac{\pi(y)\pi_{\text{ref}}(y')}{\pi(y')\pi_{\text{ref}}(y)}\Big)\tag{21} \\$
而目标是求解等式
$h_{\pi}(y,y')=\tau^{-1}(g(y)-g(y'))\tag{22} \\$
若 $\Psi$ 为恒等函数，公式(22)为
$h_{\pi}(y,y')=\tau^{-1}\Big(p^*(y\succ\mu)-p^*(y'\succ\mu)\Big)\tag{23}\\$
寻找问题可以表达为单个最优化问题 $L(\pi)$
$L(\pi)=\mathop{\mathbb{E}}_{y,y'\sim\mu}\Big[\Big(h_{\pi}(y,y')-\frac{p^*(y\succ\mu)-p^*(y'\succ\mu)}{\tau}\Big)^2\Big]\tag{24} \\$
显然， $L(\pi^*)=0$ ，即 $\pi^*$ 是 $L(\pi)$ 的全局最小值。

定理2. 假设 $\text{Supp}(\mu)=\text{Supp}(\pi_{\text{ref}})$ ，并定义 $\Pi$ 为满足 $\text{Supp}(\pi)=\text{Supp}(\mu)$ 的策略 $\pi$ 的集合。那么 $\pi\rightarrow L(\pi)$ 在集合 $\Pi$ 上有唯一的局部/全局最小值 $\pi^*$ 。

证明。根据假设 $\pi^*\in\Pi$ 以及定义 $\forall\pi\in\Pi$ ，以及由于 $L(\pi)$ 是平方项的期望，所以 $L(\pi)\geq 0$ 。根据公式(20)可知 $L(\pi^*)=0$ ，因此可以推断出 $\pi^*$ 是 $L$ 的全局最优值。下面将展示 $L$ 在 $\Pi$ 中没有其他局部/全局最小值。

记 $J=\text{Supp}(\mu)$ 。通过logits 向量 $s\in\mathbb{R}^{J}$ 来参数化集合 $\Pi$ ，对于 $y\in J$ 令 $\pi_s(y)=\exp(s(y))/\sum_{y'\in J}\exp(s(y'))$ ，否则 $\pi_s(y)=0$ 。令 $\mathcal{L}(s)=L(\pi_s)$ 是logits $s$ 的目标函数。
$\mathcal{L}(s)=\mathbb{E}_{y,y'\sim\mu}\Big[\Big[ \frac{p^*(y\succ\mu)-p^*(y'\succ\mu)}{\tau}-(s(y)-s(y'))-\log\Big(\frac{\pi_{\text{ref}}(y')}{\pi_{\text{ref}}(y)}\Big) \Big]^2\Big]\tag{25} \\$
目标函数是logits $s$ 的二次函数。此外，通过展开上面的二次函数，损失值可以表达为平方项之和
$\sum_{y,y'\in J}\mu(y)\mu(y')(s(y)-s(y'))^2\tag{26} \\$
因此这是一个半正定二次函数，因此是凸的。因此可以推断出损失函数 $\mathcal{L}(s)$ 的所有局部最小值即为全局最小值。 $\pi_s$ 是从 $s$ 到 $\pi$ 的满连续映射，可以很容易的证明 $L$ 的每个局部最小值 $\pi$ 都对于于 $\mathcal{L}$ 的局部最小值 $\mathcal{S}_{\pi}$ 。因此， $L$ 的所有局部最小值都是全局最小值。

2. IPO的采样损失

为了能够获得IPO的采样损失值，需要对公式(24)右侧进行无偏估计。为了这个目标，考虑Population IPO Loss
$\mathbb{E}_{y,y'\sim\mu}\Big[(h_{\pi}(y,y')-\tau^{-1}I(y,y'))^2\Big]\tag{27} \\$
其中 $I (y, y^{'})$ 是从均值为 $p^*(y\succ y')$ 的伯努利分布中采样的，即相比于 $y^{'}$ 更偏好 $y$ 时 $I (y, y^{'})$ 为1，否则为0。这样就能直接获得一个可用的基于采样的损失值，通过从偏好数据集中采样 $(y, y^{'})$ 并查询记录来获得 $I (y, y^{'})$ 。下面的命题将证明公式(24)到公式(27)的变换是等价的。

命题3。公式(24)与公式(27)是等价的。

证明。这个等价并不是很显然的，因为通常情况下的条件期望为
$\mathbb{E}[h_{\pi}(Y,Y')-\tau^{-1}I(Y,Y')|Y=y,Y'=y'] \\$
并不等于公式(24)对应的值，即
$h_{\pi}(y,y')-\tau^{-1}(p^*(y\succ\mu)-p^*(y'\succ\mu)) \\$
相反，我们需要利用分布 $y$ 和 $y^{'}$ 的一些对称性，并使用 $h_{\pi}(y,y')$ 能够分解为 $y$ 和 $y^{'}$ 的加性函数的事实。为了说明损失值的相等性，仅关注公式(24)和(27)中交叉项就足够了，也就是满足
$\begin{align} \mathbb{E}_{y,y'\sim\mu}\Big[h_{\pi}(y,y')I(y,y')\Big] =\mathbb{E}_{y,y'\sim\mu}\Big[h_{\pi}(y,y')(p^*(y\succ\mu)-p^*(y'\succ\mu))\Big] \end{align} \\$
为了简洁使用 $\pi_y=\log(\pi(y)),\pi_y^R=\log(\pi_{\text{ref}}(y)),p_y=p^*(y\succ\mu)$ ，右侧有
$\begin{align} &\mathbb{E}_{y,y'\sim\mu}\Big[h_{\pi}(y,y')(p^*(y\succ\mu)-p^*(y'\succ\mu))\Big] \\ =&\mathbb{E}_{y,y'\sim\mu}\Big[(\pi_y-\pi_{y'}+\pi_{y'}^R-\pi_{y}^R)(p_y-p_{y'})\Big] \\ =&\mathbb{E}_{y,y'\sim\mu}\Big[\pi_y p_y-\pi_y p_{y'}-\pi_{y'} p_y+\pi_{y'}+p_{y'}+\pi_{y'}^R p_y-\pi_{y'}^R p_{y'}-\pi_{y}^R p_y+\pi_{y}^R p_{y'}\Big] \\ =&\mathbb{E}_{y,y'\sim\mu}\Big[(2p_y-1)\pi_{y}-(2p_y-1)\pi_{y}^R\Big] \end{align} \\$
其中使用了 $y$ 和 $y^{'}$ 的独立同分布且 $E_{y\sim\mu}[p_y]=1/2$ 。左侧有
$\begin{align} &\mathbb{E}_{y,y'\sim\mu}\Big[h_{\pi}(y,y')I(y,y')\Big]\\ =&\mathbb{E}_{y,y'\sim\mu}\Big[(\pi_y-\pi_{y'}+\pi_{y'}^R-\pi_y^R)I(y,y')\Big] \\ =&\mathbb{E}_{y\sim\mu}\Big[(\pi_y-\pi_y^R)\mathbb{E}_{y'\sim\mu}[I(y,y')|y]\Big]+\mathbb{E}_{y'\sim\mu}\Big[(-\pi_{y'}+\pi_{y'}^R\mathbb{E}_{y\sim\mu}[I(y,y')|y'])\Big] \\ =&\mathbb{E}_{y,y'\sim\mu}\Big[\pi_y p_y-\pi_{y'}(1-p_{y'})+\pi_{y'}^R(1-p_{y'})-\pi_y^R p_y\Big] \\ =&\mathbb{E}_{y,y'\sim\mu}\Big[(2p_y-1)\pi_y-(2p_y-1)\pi_{y}^R\Big] \end{align} \\$
其中使用了 $\mathbb{E}_{y'\sim\mu}I(y,y')=p_y$ 和 $\mathbb{E}_{y\sim\mu}I(y,y')=1-p_{y'}$ 。这样就证明了两个损失值的相等性。

接下来讨论如何使用数据集来近似等式(27)的损失值。数据集 $\mathcal{D}$ 的形式为 $y_{w,i},y_{l,i})_{i=1}^N$ 。每个数据点 $y_{w,i},y_{l,i})$ 都能为等式(27)贡献两项经验近似，即 $y,y',I(y,y'))=(y_{w,i},y_{l,i},1)$ 和 $y,y',I(y,y'))=(y_{l,i},y_{w,i},0)$ 。利用这种对称性是很重要的，因为其可以降低损失值的方差。总体的经验损失为
$\begin{align} &\frac{1}{2}\mathbb{E}_{y_w,y_l\sim D}\Big[(h_{\pi}(y_w,y_l)-\tau^{-1})^2+h_{\pi}(y_l,y_w)^2\Big] \\ =&\frac{1}{2}\mathbb{E}_{y_w,y_l\sim D}\Big[(h_{\pi}(y_w,y_l)-\tau^{-1})^2+h_{\pi}(y_w,y_l)^2\Big] \end{align} \\$
其等于
$\mathbb{E}_{y_w,y_l\sim D}\Big[\Big(h_{\pi}(y_w,y_l)-\frac{\tau^{-1}}{2}\Big)^2\Big] \tag{28}\\$
这种损失函数的简化形式能够为IPO优化策略 $\pi$ 提供一些有价值的洞见：IPO通过回归对数似然 $\log(\pi(y_w)/\pi(y_l))$ 和 $\log(\pi_{\text{ref}}(y_w)/\pi_{\text{ref}}(y_l))$ 之间的差距至 $\frac{\tau^{-1}}{2}$ 来从偏好数据集中学习。所以当正则化越弱，则 $y_w$ 对 $y_l$ 的对数似然率也越高。不同于DPO，IPO通过控制 $\log(\pi(y_w)/\pi(y_l))$ 和 $\log(\pi_{\text{ref}}(y_w)/\pi_{\text{ref}}(y_l))$ 之间的差距来正则化，从而避免了偏好数据集的过拟合。

完整的IPO算法为

数据集 $\mathcal{D}=(y_{w,i},y_{l,i})_{i=1}^N$ ；reference策略 $\pi_{\text{ref}}$ ；

定义
$h_{\pi}(y,y',x)=\log\Big(\frac{\pi(y|x)\pi_{\text{ref}}(y'|x)}{\pi(y'|x)\pi_{\text{ref}}(y|x)}\Big) \\$

开始于 $\pi=\pi_{\text{ref}}$ ，最小化
$\mathbb{E}_{y_w,y_l,x\sim D}\Big(h_{\pi}(y_w,y_l,x)-\frac{\tau^{-1}}{2}\Big)^2 \\$

3. 样例分析

考虑最简单的情况，仅有两个动作 $y_1$ 和 $y_2$ ，且二者偏好明确 $p^*(y_1\succ y_2)=1$ 。假设 $\pi_{\text{ref}}$ 和 $\mu$ 是相同。对于DPO来说，无论 $\tau$ 取何值都有 $\pi^*(y_1)=1,\pi^*(y_2)=0$ 。即使正则化系数 $\tau$ 非常大，仍然会导致于 $\pi_{\text{ref}}$ 非常不同。

对于IPO来说，有 $p^*(y_1\succ\mu)=3/4$ 且 $p^*(y_2\succ\mu)=1/4$ 。将其插入至公式(17)且 $\Psi=I$ ，那么有 $\pi^*(y_1)=\sigma(0.5\tau^{-1})$ 且 $\pi^*(y_2)=\sigma(-0.5\tau^{-1})$ 。因此，正则化系数 $\tau\rightarrow+\infty$ ，则 $\pi^*$ 则收敛至 $\pi_{\text{ref}}$ 。当 $\tau\rightarrow+0$ ，那么有 $\pi^*(y_1)\rightarrow 1$ 且 $\pi^*(y_2)\rightarrow 0$ 。正则化系数 $\tau$ 可以用来控制与 $\pi_{\text{ref}}$ 的接近程度。