当前位置：首页 > article >正文

OpenAI RLHF的理解

article 2026/5/25 4:40:25

OpenAI RLHF的理解1. RLHF 的优化目标objectiveE(x,y)∼DπθRL[rθ(x,y)−βlog⁡πθ(y∣x)πref(y∣x)]γ Ex∼Dpretrain[log⁡πθRL(x)] \text{objective} \mathbb{E}_{(x,y) \sim D_{\pi_\theta^{RL}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\text{ref}}(y \mid x)} \right] \gamma \, \mathbb{E}_{x \sim D_{\text{pretrain}}} \left[ \log \pi_\theta^{RL}(x) \right]objectiveE(x,y)∼DπθRL[rθ(x,y)−βlogπref(y∣x)πθ(y∣x)]γEx∼Dpretrain[logπθRL(x)]2. 用 PPO-clip 来优化上述目标arg⁡max⁡θ E(x,y)∼Dπold[min⁡(πnew(y∣x)πold(y∣x)A, clip ⁣(πnew(y∣x)πold(y∣x), 1−ε, 1ε)A)] \arg\max_{\theta} \, \mathbb{E}_{(x,y) \sim D_{\pi_{old}}} \left[ \min \left( \frac{\pi_{\text{new}}(y \mid x)}{\pi_{\text{old}}(y \mid x)} A,\; \text{clip}\!\left( \frac{\pi_{\text{new}}(y \mid x)}{\pi_{\text{old}}(y \mid x)},\, 1-\varepsilon,\, 1\varepsilon \right) A \right) \right]argθmaxE(x,y)∼Dπold[min(πold(y∣x)πnew(y∣x)A,clip(πold(y∣x)πnew(y∣x),1−ε,1ε)A)]3. 为此需要计算如下变量需要估计以下三个量πnew(y∣x)\pi_{\text{new}}(y \mid x)πnew(y∣x)当前策略在给定xxx下生成yyy的概率πold(y∣x)\pi_{\text{old}}(y \mid x)πold(y∣x)旧策略在给定xxx下生成yyy的概率AAA优势函数Advantage变量说明在上述表达式中xxx是用户 promptyyy是生成的 tokenπ(y∣x)\pi(y \mid x)π(y∣x)是在策略π\piπ下promptxxx生成yyy的概率。优势函数定义AR−Value(x) A R - \text{Value}(x)AR−Value(x)其中Value\text{Value}Value是一个神经网络结构价值网络。4. 完整 RLHF 流程示例用一个具体例子描述完整的 RLHF 流程变量值xxx用户问“如何减肥”yyy回答“每天控制饮食并运动”πθ(y∣x)\pi_\theta(y \mid x)πθ(y∣x)当前策略下已知xxx生成yyy的概率0.4πSFT(y∣x)\pi_{SFT}(y \mid x)πSFT(y∣x)当SFT模型下已知xxx生成yyy的概率0.3Reward Model 打分rθ(x,y)0.8r_\theta(x, y) 0.8rθ(x,y)0.8价值网络打分Value(x)0.2\text{Value}(x) 0.2Value(x)0.2计算 AdvantageKLlog⁡πθ(y∣x)πSFT(y∣x) KL \log \frac{\pi_{\theta}(y \mid x)}{\pi_{SFT}(y \mid x)}KLlogπSFT(y∣x)πθ(y∣x)Arθ(x,y)−β∗KL−Value(x) A r_\theta(x, y) - \beta* KL -\text{Value}(x)Arθ(x,y)−β∗KL−Value(x)至此πθ(y∣x)\pi_{\theta}(y \mid x)πθ(y∣x)、πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT(y∣x)以及AAA全部就绪结合 Advantage 引入到 PPO-clip 中的所有变量均已确定。其中初始时令πnewπ训练时候(y∣x) \pi_{\text{new}} \pi_{\text{训练时候}}(y \mid x)πnewπ训练时候(y∣x)πoldπrollout时模型(y∣x) \pi_{\text{old}} \pi_{\text{rollout时模型}}(y \mid x)πoldπrollout时模型(y∣x)5. 用工程语言描述 RLHF 的完整流程涉及的模型模型作用输入输出Actor Model训练目标模型生成回复x→Actoryx \xrightarrow{\text{Actor}} yxActory输出P(y)P(y)P(y)的概率分布Reward Model打分模型(x,y)→Rewardr∼(0,1)(x, y) \xrightarrow{\text{Reward}} r \sim (0, 1)(x,y)Rewardr∼(0,1)Reference ModelSFT 基准模型用于计算 KL 散度x→Refyx \xrightarrow{\text{Ref}} yxRefy输出P(y)P(y)P(y)概率Critic ModelValue 价值网络估计状态价值x→CriticV∼(0,1)x \xrightarrow{\text{Critic}} V \sim (0, 1)xCriticV∼(0,1)Pretrain ModelOpenAI 的底层语言模型—步骤输入 prompt: “如何减肥”通过 Actor Model 生成 response“每天控制饮食并运动”得到πθ(y∣x)\pi_{\theta}(y \mid x)πθ(y∣x)用 Reward Model 打分(x,y)→Reward Modelr(x, y) \xrightarrow{\text{Reward Model}} r(x,y)Reward Modelr计算 KL 散度用 Reference Model 算出rθ(x,y)r_\theta(x,y)rθ(x,y),用sft模型得到πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT(y∣x)按 OpenAI 方式计算FinalRewardrθ(x,y)−β⋅KL ⁣(πθ∥πSFT)LLM \text{FinalReward} r_\theta(x,y) - \beta \cdot \text{KL}\!\left(\pi_\theta \| \pi_{\text{SFT}}\right) \mathcal{L}_{\text{LM}}FinalRewardrθ(x,y)−β⋅KL(πθ∥πSFT)LLM用 Critic Model 估算 Value 值VCritic(x)V \text{Critic}(x)VCritic(x)计算优势函数AAAAFinalReward−Critic Model 的值 A \text{FinalReward} - \text{Critic Model 的值}AFinalReward−Critic Model的值用 PPO-clip 更新策略loopπnew\pi_{\text{new}}πnew训练时候一个epoch的更新后的模型用这个模型得到的这个 token 的输出概率πold\pi_{\text{old}}πoldRollout时候的token输出概率参考[1] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelley, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., Lowe, R. (2022). Training language models to follow instructions with human feedback.Advances in Neural Information Processing Systems, 35, 27730–27744. https://arxiv.org/abs/2203.02155

OpenAI RLHF的理解

相关文章：

OpenAI RLHF的理解

告别SSH连接玄学！用Finalshell管理多台Linux服务器时，如何一劳永逸搞定IP变动？

VMware17装CentOS踩过的那些坑：从镜像选择、密码设置到登录失败的完整避雷指南

卷积神经网络在天文图像中自动搜寻双活动星系核的工程实践

从原理到调参：手把手教你用OpenCV玩转Canny边缘检测（Python代码详解）

LLM应用开发之向量数据库详解

Ventoy安装后U盘识别不了？手把手教你从下载（附国内镜像站）到成功引导Win10的完整避坑指南

未来趋势洞察：后端开发技术的前沿动态与发展方向

CentOS 7无线网络配置避坑指南：wpa_supplicant vs NetworkManager，我该选哪个？

C++中的bind实践代码

WABT实战指南：用wasm-decompile精准逆向WebAssembly

AI驱动的红队渗透工具包：Nmap语义解析与Metasploit动态编排

Unity根运动偏移问题：原理、诊断与五种生产级解决方案

C++ 智能指针简介

机器学习原子势能建模：深度集成与贝叶斯神经网络的不确定性估计对比

Kali NetHunter移动渗透实战：Magisk模块化部署与外设适配

多极球谐函数：统一机器学习势函数描述符的数学基石

JMeter临界部分控制器：业务节奏建模与资源争用压测核心

混沌系统预测：输入长度如何影响模型误差与稳定性

r0capture安卓抓包原理：绕过证书固定提取SSL密钥

UABEA：Unity跨平台资源编辑与二进制解析工具深度指南

深入Linux内核链表：从of_property_read_bool看设备树属性的组织与查找

手把手教你用CentOS 7搭建Fog Project网络克隆服务器（含DHCP/TFTP配置避坑指南）

基于图神经网络的机器学习有限区域模型：边界处理与图结构设计实战

告别高分屏适配烦恼：从开发者视角详解Win10/Win11程序属性中的DPI设置原理

Unity序列化三要素：Serializable、SerializeField与SerializeReference详解

卡梅德生物技术快报｜蛋白的过表达质粒构建与生信分析实验全流程复盘

卡梅德生物技术快报｜真核蛋白表达信号肽筛选实验全流程复盘

影刀RPA跨境店群自动化：从Chromium调度到分布式容器化运营的架构演进

基于动态生物标志物变化率的生物年龄预测：LightGBM模型与纵向数据分析实践