当前位置：首页 > news >正文

【LLM】一文学会SPPO

news 2026/3/31 19:16:51

博客昵称：沈小农学编程

作者简介：一名在读硕士，定期更新相关算法面试题，欢迎关注小弟！

PS：哈喽！各位CSDN的uu们，我是你的小弟沈小农，希望我的文章能帮助到你。欢迎大家在评论区唠嗑指正，觉得好的话别忘了一键三连哦！😘

SPPO是强化学习的一种，据猜测今年9月OpenAI最新的大模型O1使用该方法进行微调。SPPO，英文全称Self-Play Preference Optimization，中文为自博弈偏好优化。其受到了纳什均衡的冯·诺依曼两人常和博弈公式以及RLHF+PPO框架的启发，而设计出来。下面本文将讲解SPPO的损失函数、策略梯度更新以及算法框架。

1 策略梯度更新公式

2 损失函数

3 算法流程图

参考文献

1 策略梯度更新公式

常和博弈的纳什均衡公式如下所示：

$eq?%28%5Cpi%20%5E*%2C%5Cpi%20%5E*%29%3D%5Carg%5Cmax_%5Cpi%5Cmin_%7B%5Cpi%27%7D%5Cmathbb%20E_%7Bx%5Csim%20X%7D%5B%5Cmathbb%20E_%7By%5Csim%20%5Cpi%28%B7%7Cx%29%2Cy%27%5Csim%20%5Cpi%27%28%B7%7Cx%29%7D%5B%5Cmathbb%20P%28y%3Ey%27%7Cx%29%5D%5D.$

现在让我们一步步从常和博弈的纳什均衡公式的一般形式推导出 SPPO 算法的策略梯度更新公式。

使用Freund和Schapire(1999)建立一个迭代框架，该框架可以平均渐进收敛到最优策略。

$eq?%5Cpi_%7Bt+1%7D%28y%7Cx%29%5Cpropto%5Cpi_t%28y%7Cx%29%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29%29%2C%5C%20for%5C%20t%3D1%2C2%2C%5Ccdots$

上面的框架具体后，写为

$eq?%5Cpi_%7Bt+1%7D%28y%7Cx%29%3D%5Cfrac%7B%5Cpi_t%28y%7Cx%29%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29%29%7D%7BZ_%7B%5Cpi_t%7D%28x%29%7D$

归一化因子为

$eq?Z_%7B%5Cpi_t%7D%28x%29%3D%5Csum_y%5Cpi_t%28y%7Cx%29%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29%29$

对上式两边取对数，左右平移变化得

$eq?%5Clog%28%5Cfrac%7B%5Cpi_%7Bt+1%7D%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29%3D%5Ceta%B7%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29-%5Clog%20Z_%7B%5Cpi_t%7D%28x%29.$

为了简化计算，使用L2距离公式来近似上面的公式计算，得到下面的公式

$eq?%5Cpi_%7Bt+1%7D%3D%5Carg%5Cmin_%5Cpi%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%5Cpi_t%28%B7%7Cx%29%7D%28%5Clog%28%5Cfrac%7B%5Cpi%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29-%28%5Ceta%5Cmathbb%20P%28y%3E%5Cpi_t%7Cx%29-%5Clog%20Z_%7B%5Cpi_%7B%5Ctheta_t%7D%7D%28x%29%29%29%5E2.$

到这里，策略更新公式就推导出来了。不过这是针对连续数据的。下面我们来推导该公式以应用到离散数据上，同时进一步简化计算。

可能性估计：可以用有限的样本来近似策略更新公式。对于每个提示 $eq?x$ ，我们选取 $eq?K$ 个回答 $eq?y_1%2Cy_2%2C%5Ccdots%2Cy_k%5Csim%20%5Cpi_t%28%B7%7Cx%29$ 作为样本，用 $eq?%5Chat%20%5Cpi_t%5EK$ 表示经验分布。有限样本优化问题可以近似为：

$eq?%5Cpi_%7Bt+1%7D%3D%5Carg%5Cmin_%5Cpi%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_t%28%B7%7Cx%29%7D%28%5Clog%20%28%5Cfrac%7B%5Cpi%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29-%28%5Ceta%5Cmathbb%20P%28y%3E%5Chat%20%5Cpi_t%5EK%7CX%29-%5Clog%20Z_%7B%5Chat%20%5Cpi_t%5EK%28x%29%7D%29%29%5E2.$

具体来说， $K$ 和 $eq?Z_%7B%5Chat%20%5Cpi_t%5EK%28x%29%7D%3D%5Cmathbb%20E_%7By%5Csim%20%5Cpi_t%28%B7%7Cx%29%7D%5B%5Cexp%28%5Ceta%5Cmathbb%20P%28y%3E%5Chat%20%5Cpi_t%5EK%7Cx%29%29%5D$ 。 $eq?Z_%7B%5Chat%20%5Cpi_t%5EK%7D%28x%29$ 被视作一种期望，可以通过在偏好项 $eq?%5Cmathbb%20P$ 的总共 $eq?O%28KB%29$ 个序列中的 $eq?B$ 个新样本来估计。

我们可以用基于人类偏好模型的常数替换 $eq?%5Clog%20Z_%7B%5Chat%20%5Cpi_t%5EK%7D%28x%29$ 来进一步简化计算。具体来说，用 $2$ 替换 $eq?%5Clog%20Z_%7B%5Chat%20%5Cpi_t%5EK%7D%28x%29$ 。假设在任意给定的对中赢的概率是同等机会的，1或者0，当 $eq?K%5Cto%20%5Cinfty$ ，我们能得到 $2%7D$ 。

$eq?%5Cpi_%7Bt+1%7D%3D%5Carg%5Cmin_%5Cpi%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_t%28%B7%7Cx%29%7D%28%5Clog%28%5Cfrac%7B%5Cpi%28y%7Cx%29%7D%7B%5Cpi_t%28y%7Cx%29%7D%29-%5Ceta%28%5Cmathbb%20P%28y%3E%5Chat%20%5Cpi_t%5EK%7Cx%29-%5Cfrac%7B1%7D%7B2%7D%29%29%5E2.$

至此，SPPO的策略更新公式推导完成。

下面让我们来得到策略梯度更新公式。

改写上面的公式为：

$eq?%5Ctheta_%7Bt+1%7D%20%3D%20%5Carg%5Cmin_%5Ctheta%5Cmathbb%20E_%7Bx%20%5Csim%20X%2Cy%20%5Csim%20%5Cpi_%7B%5Ctheta_t%7D%28%B7%7Cx%29%7D%5B%28P%28y%3E%5Cpi_%7B%5Ctheta_t%7D%7Cx%29-%5Ceta%5E%7B-1%7D%5Clog%20%28%5Cfrac%7B%5Cpi_%5Ctheta%28y%7Cx%29%7D%7B%5Cpi_%7B%5Ctheta_t%7D%28y%7Cx%29%7D%29-%5Ceta%5E%7B-1%7D%5Clog%20Z_%7B%5Cpi_%7B%5Ctheta_t%7D%28x%29%7D%29%5E2%5D.$

RLHF的策略梯度更新公式为：

$eq?%5Cnabla%20J%28%5Ctheta%29%3D%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_%5Ctheta%28%B7%7Cx%29%7D%5B%28r%28y%3Bx%29-%5Ceta%5E%7B-1%7D%5Clog%5Cfrac%7B%5Cpi_%5Ctheta%28y%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y%7Cx%29%7D-b%28x%29%29%5Cnabla%5Clog%5Cpi_%5Ctheta%28y%7Cx%29%5D%20%5C%5C%20%3D%5Ceta%5Cmathbb%20E_%7Bx%5Csim%20X%2Cy%5Csim%20%5Cpi_%5Ctheta%28%B7%7Cx%29%7D%5B-%5Cnabla%28r%28y%3Bx%29-%5Ceta%5E%7B-1%7D%5Clog%5Cfrac%7B%5Cpi_%5Ctheta%28y%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y%7Cx%29%7D-b%28x%29%29%5E2%5D$

对比发现上面的公式本质上是策略梯度更新公式，至此推导完成。

2 损失函数

SPPO的损失函数如下：

$eq?%5Cmathcal%20L_%7BSPPO%7D%28x%2Cy_w%2Cy_l%3B%5Ctheta%3B%5Cpi_%7Bref%7D%29%3A%3D%28%5Clog%28%5Clog%20%5Cfrac%7B%5Cpi_%5Ctheta%28y_w%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y_w%7Cx%29%7D%29-%5Ceta%5E%7B-1%7D%28P%28y_w%3Ey_l%7Cx%29-%5Cfrac%7B1%7D%7B2%7D%29%29%5E2$

公式通过胜者策略得分与输者策略得分的平方和，能更全面地评价模型。我们可以进一步简化公式，我们令胜者对输者的胜率为1，输者对胜者的胜率为0，则损失函数可以简化为：

$eq?%5Cmathcal%20L_%7BSPPO%7D%28x%2Cy_w%2Cy_l%3B%5Ctheta%3B%5Cpi_%7Bref%7D%29%3A%3D%28%5Clog%28%5Clog%20%5Cfrac%7B%5Cpi_%5Ctheta%28y_w%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y_w%7Cx%29%7D%29-%5Cfrac%7B1%7D%7B2%5Ceta%7D%29%5E2%20%5C%5C%20+%28%5Clog%28%5Clog%20%5Cfrac%7B%5Cpi_%5Ctheta%28y_l%7Cx%29%7D%7B%5Cpi_%7Bref%7D%28y_l%7Cx%29%7D%29+%5Cfrac%7B1%7D%7B2%5Ceta%7D%29%5E2$

3 算法流程图

参考文献

《Self-Play Preference Optimization for Language Model Alignment》

【LLM】一文学会SPPO

1 策略梯度更新公式

2 损失函数

3 算法流程图

参考文献

相关文章：

【LLM】一文学会SPPO

如何通过ChatGPT提高自己的编程水平

NVR管理平台EasyNVR多品牌NVR管理工具的流媒体视频融合与汇聚管理方案

python之使用django框架开发web项目

ChatGPT 桌面版发布了，如何安装？

ubuntu 配置多个 git 客户端账户

React Native的界面与交互

autogen+ollama+litellm实现本地部署多代理智能体

InstantStyle容器构建指南

百度主动推送可以提升抓取，它能提升索引量吗？

A045-基于spring boot的个人博客系统的设计与实现

JavaEE 【知识改变命运】02 多线程（1）

Pytorch使用手册-Transforms（专题四）

【Android】ARouter的使用及源码解析

ValueError: bbox_params must be specified for bbox transformations

挂壁式空气净化器哪个品牌的质量好？排名top3优秀产品测评分析

钉钉数据如何高效集成到金蝶云星空系统

躺平成长-腾讯云数据库（又消失了一次）

初学 flutter 问题记录

Hadoop的MapReduce详解

终极指南：Google Maps Python客户端错误处理与异常类型完全解析

新手福音：用快马AI理解ER图，从零开始设计图书馆数据模型

bilibili-api完全指南：评论数据爬取的4个突破式解决方案

阿里开源Z-Image镜像体验：ComfyUI可视化生成汉服美女实战

Electron + Vue 3 + Vite 桌面应用开发：从零到打包的实战指南

告别编码等待：LosslessCut的无损视频处理革命

3天掌握MediaPipe：从零开始构建实时AI应用的终极指南

强化学习实战：Sarsa vs Q-learning，on-policy和off-policy到底怎么选？

解决Android 12 NFC功能失效：PendingIntent.FLAG_MUTABLE的正确用法

从LED灯变化理解计算机移位运算：手把手教你用实验箱验证带进位左移