当前位置：首页 > article >正文

DPO、KTO、DiffusionDPO

article 2026/5/12 15:34:09

DPO（Direct Preference Optimization）

原文来自于 https://arxiv.org/pdf/2305.18290，

Bradley-Terry (BT)模型，假设人的喜欢遵循下面的公式，给定x，得到 $y_1$ 和 $y_2$ 分别遵循以下关系，其中 $r^*$ 是对奖励的估计：
$p^*(y_1 \succ y_2 \mid x) = \frac{\exp(r^*(x, y_1))}{\exp(r^*(x, y_1)) + \exp(r^*(x, y_2))}$
除一下得到下面的形式，刚好是可以sigmoid形式

$p^*(y_1 \succ y_2 \mid x) = \frac{1}{1 + \exp(r^*(x, y_2)-r^*(x, y_1))} = \sigma(r^*(x, y_2)-r^*(x, y_1))$
所以重点1来了：有了BT Model的假设，这个preference是一个sigmoid的形式，否则二分类应该是一个CE的形式，这种sigmoid的形式在后面推导最终表达式的时候有一些便利：
最终DPO的loss函数形式是
$\begin{equation} p^*(y_1 \succ y_2 \mid x) = \frac{1}{1 + \exp \left( \beta \log \frac{\pi^*(y_2 \mid x)}{\pi_{\text{ref}}(y_2 \mid x)} - \beta \log \frac{\pi^*(y_1 \mid x)}{\pi_{\text{ref}}(y_1 \mid x)} \right)} \end{equation}$
这里的 $r^*(x,y)$ 实际上是借鉴PPO里面的思路应该表示成以下形式（由于拉格朗日乘数法所以多了一个Z，细节参考原文推导），刚好这个Z(x)由于Bradley-Terry假设就被消掉了，这也是BT Model的重点2，所以得到了上面公式(1)作为DPO的loss函数
$r^*(x, y) = \beta \log \frac{\pi^*(y \mid x)}{\pi_{\text{ref}}(y \mid x)} + \beta \log Z(x)$

KTO(Kahneman-Tversky Optimization)

KTO简单来说就是average来做reference point，上面DPO每次都是win和loss这样一对pair来比，KTO改成了从average里面取。这样就不再需要pair wise数据了，只需要point wise数据。但上面那个Z(x)姑且假设还能消掉。

作者调研了RL几个loss function，符合KT理论特征，发现人就是收益边际效用递减+损失厌恶，几种RL的loss都是下面图里的趋势。下面图只是画出了log的大概形状，和x轴和y轴的交点并不完全准确
在这里插入图片描述

DiffusionDPO

来自于 https://arxiv.org/pdf/2311.12908，问题是DPO是怎么加的呢？有下面几个点比较关键

Expectation to remove redundant predictions

因为stable diffusion有很多中间状态，解决方案是求个均值，下面公式里c是用户输入的prompt
$x_0) = \mathbb{E}_{p_\theta(x_{1:T} \mid x_0, c)} \left[ R(c, x_{0:T}) \right]$

Jensen’s inequality

实际上就是通过Jensen不等式，把expectation取出来
在这里插入图片描述

Estimate p with q，加噪声时候是q，去噪声时候是p

最终得到的loss函数形式如下，含义也比较直观，尽可能接近winning cases，原理losing cases
在这里插入图片描述

DPO、KTO、DiffusionDPO

DPO（Direct Preference Optimization）

KTO(Kahneman-Tversky Optimization)

DiffusionDPO

Expectation to remove redundant predictions

Jensen’s inequality

Estimate p with q，加噪声时候是q，去噪声时候是p

相关文章：

DPO、KTO、DiffusionDPO

分享｜instructionfine-tuning 指令微调是提高LLM性能和泛化能力的通用方法

人工智能在教育中的创新应用：打造未来的智慧课堂

Go优雅实现redis分布式锁

过年之无用知识研究：std::pair源码：operator=被delete了，提供的是sfinae版本

Mac Electron 应用签名（signature）和公证（notarization）

C#@符号在string.Format方法中作用

C++学习——认识和与C的区别

简单的停车场管理系统的C语言实现示例

基于Django的豆瓣影视剧推荐系统的设计与实现

【elasticsearch】如何更新许可证（License）

Open FPV VTX开源之ardupilot双OSD配置摄像头

【岛屿个数——BFS / DFS，“外海”】

《STL基础之vector、list、deque》

航空客户价值的数据挖掘与分析（numpy+pandas+matplotlib+scikit-learn）

基于Flask的豆瓣电影可视化系统的设计与实现

系统设计的

C++中函数返回值当引用

LosslessScaling-学习版[steam价值30元的游戏无损放大/补帧工具]

【JS|第28期】new Event()：前端事件处理的利器

Blazor-Blazor Web App项目结构

头歌实训作业算法设计与分析-贪心算法(第5关：求解流水作业调度问题)

Sora学习

观察者模式和订阅发布模式

latex引用

【8】思科IOS AP升级操作

获取加工视图下所有元素

16【中文编程10年内或将占领国内应用市场】

Niagara学习笔记

Linux(NTP配置)