当前位置: 首页 > article >正文

OpenAI RLHF的理解

OpenAI RLHF的理解1. RLHF 的优化目标objectiveE(x,y)∼DπθRL[rθ(x,y)−βlog⁡πθ(y∣x)πref(y∣x)]γ Ex∼Dpretrain[log⁡πθRL(x)] \text{objective} \mathbb{E}_{(x,y) \sim D_{\pi_\theta^{RL}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_\theta(y \mid x)}{\pi_{\text{ref}}(y \mid x)} \right] \gamma \, \mathbb{E}_{x \sim D_{\text{pretrain}}} \left[ \log \pi_\theta^{RL}(x) \right]objectiveE(x,y)∼DπθRL​​​[rθ​(x,y)−βlogπref​(y∣x)πθ​(y∣x)​]γEx∼Dpretrain​​[logπθRL​(x)]2. 用 PPO-clip 来优化上述目标arg⁡max⁡θ E(x,y)∼Dπold[min⁡(πnew(y∣x)πold(y∣x)A, clip ⁣(πnew(y∣x)πold(y∣x), 1−ε, 1ε)A)] \arg\max_{\theta} \, \mathbb{E}_{(x,y) \sim D_{\pi_{old}}} \left[ \min \left( \frac{\pi_{\text{new}}(y \mid x)}{\pi_{\text{old}}(y \mid x)} A,\; \text{clip}\!\left( \frac{\pi_{\text{new}}(y \mid x)}{\pi_{\text{old}}(y \mid x)},\, 1-\varepsilon,\, 1\varepsilon \right) A \right) \right]argθmax​E(x,y)∼Dπold​​​[min(πold​(y∣x)πnew​(y∣x)​A,clip(πold​(y∣x)πnew​(y∣x)​,1−ε,1ε)A)]3. 为此需要计算如下变量需要估计以下三个量πnew(y∣x)\pi_{\text{new}}(y \mid x)πnew​(y∣x)当前策略在给定xxx下生成yyy的概率πold(y∣x)\pi_{\text{old}}(y \mid x)πold​(y∣x)旧策略在给定xxx下生成yyy的概率AAA优势函数Advantage变量说明在上述表达式中xxx是用户 promptyyy是生成的 tokenπ(y∣x)\pi(y \mid x)π(y∣x)是在策略π\piπ下promptxxx生成yyy的概率。优势函数定义AR−Value(x) A R - \text{Value}(x)AR−Value(x)其中Value\text{Value}Value是一个神经网络结构价值网络。4. 完整 RLHF 流程示例用一个具体例子描述完整的 RLHF 流程变量值xxx用户问“如何减肥”yyy回答“每天控制饮食并运动”πθ(y∣x)\pi_\theta(y \mid x)πθ​(y∣x)当前策略下已知xxx生成yyy的概率0.4πSFT(y∣x)\pi_{SFT}(y \mid x)πSFT​(y∣x)当SFT模型下已知xxx生成yyy的概率0.3Reward Model 打分rθ(x,y)0.8r_\theta(x, y) 0.8rθ​(x,y)0.8价值网络打分Value(x)0.2\text{Value}(x) 0.2Value(x)0.2计算 AdvantageKLlog⁡πθ(y∣x)πSFT(y∣x) KL \log \frac{\pi_{\theta}(y \mid x)}{\pi_{SFT}(y \mid x)}KLlogπSFT​(y∣x)πθ​(y∣x)​Arθ(x,y)−β∗KL−Value(x) A r_\theta(x, y) - \beta* KL -\text{Value}(x)Arθ​(x,y)−β∗KL−Value(x)至此πθ(y∣x)\pi_{\theta}(y \mid x)πθ​(y∣x)、πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT​(y∣x)以及AAA全部就绪结合 Advantage 引入到 PPO-clip 中的所有变量均已确定。其中初始时令πnewπ训练时候(y∣x) \pi_{\text{new}} \pi_{\text{训练时候}}(y \mid x)πnew​π训练时候​(y∣x)πoldπrollout时模型(y∣x) \pi_{\text{old}} \pi_{\text{rollout时模型}}(y \mid x)πold​πrollout时模型​(y∣x)5. 用工程语言描述 RLHF 的完整流程涉及的模型模型作用输入输出Actor Model训练目标模型生成回复x→Actoryx \xrightarrow{\text{Actor}} yxActor​y输出P(y)P(y)P(y)的概率分布Reward Model打分模型(x,y)→Rewardr∼(0,1)(x, y) \xrightarrow{\text{Reward}} r \sim (0, 1)(x,y)Reward​r∼(0,1)Reference ModelSFT 基准模型用于计算 KL 散度x→Refyx \xrightarrow{\text{Ref}} yxRef​y输出P(y)P(y)P(y)概率Critic ModelValue 价值网络估计状态价值x→CriticV∼(0,1)x \xrightarrow{\text{Critic}} V \sim (0, 1)xCritic​V∼(0,1)Pretrain ModelOpenAI 的底层语言模型—步骤输入 prompt: “如何减肥”通过 Actor Model 生成 response“每天控制饮食并运动”得到πθ(y∣x)\pi_{\theta}(y \mid x)πθ​(y∣x)用 Reward Model 打分(x,y)→Reward Modelr(x, y) \xrightarrow{\text{Reward Model}} r(x,y)Reward Model​r计算 KL 散度用 Reference Model 算出rθ(x,y)r_\theta(x,y)rθ​(x,y),用sft模型得到πSFT(y∣x)\pi_{\text{SFT}}(y \mid x)πSFT​(y∣x)按 OpenAI 方式计算FinalRewardrθ(x,y)−β⋅KL ⁣(πθ∥πSFT)LLM \text{FinalReward} r_\theta(x,y) - \beta \cdot \text{KL}\!\left(\pi_\theta \| \pi_{\text{SFT}}\right) \mathcal{L}_{\text{LM}}FinalRewardrθ​(x,y)−β⋅KL(πθ​∥πSFT​)LLM​用 Critic Model 估算 Value 值VCritic(x)V \text{Critic}(x)VCritic(x)计算优势函数AAAAFinalReward−Critic Model 的值 A \text{FinalReward} - \text{Critic Model 的值}AFinalReward−Critic Model的值用 PPO-clip 更新策略loopπnew\pi_{\text{new}}πnew​训练时候一个epoch的更新后的模型用这个模型得到的这个 token 的输出概率πold\pi_{\text{old}}πold​Rollout时候的token输出概率参考[1] Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin, P., Zhang, C., Agarwal, S., Slama, K., Ray, A., Schulman, J., Hilton, J., Kelley, F., Miller, L., Simens, M., Askell, A., Welinder, P., Christiano, P., Leike, J., Lowe, R. (2022). Training language models to follow instructions with human feedback.Advances in Neural Information Processing Systems, 35, 27730–27744. https://arxiv.org/abs/2203.02155

相关文章:

OpenAI RLHF的理解

OpenAI RLHF的理解 1. RLHF 的优化目标 objectiveE(x,y)∼DπθRL[rθ(x,y)−βlog⁡πθ(y∣x)πref(y∣x)]γ Ex∼Dpretrain[log⁡πθRL(x)] \text{objective} \mathbb{E}_{(x,y) \sim D_{\pi_\theta^{RL}}} \left[ r_\theta(x, y) - \beta \log \frac{\pi_\theta(y \mid …...

告别SSH连接玄学!用Finalshell管理多台Linux服务器时,如何一劳永逸搞定IP变动?

多服务器IP漂移难题的终极解决方案:Finalshell高效管理实践每次打开Finalshell准备工作时,发现熟悉的服务器连接突然变成一片红色"Connection timed out"——这种场景对于需要同时管理多台Linux服务器的运维人员和开发者来说,无异于…...

VMware17装CentOS踩过的那些坑:从镜像选择、密码设置到登录失败的完整避雷指南

VMware17安装CentOS实战避坑指南:从镜像选择到登录失败的深度解析第一次在VMware17上安装CentOS时,我像大多数新手一样,以为只要跟着教程一步步操作就能顺利完成。然而现实给了我一记响亮的耳光——从镜像下载到最终登录,几乎每个…...

卷积神经网络在天文图像中自动搜寻双活动星系核的工程实践

1. 项目概述:当AI遇见星空,寻找宇宙中的“双生子” 在浩瀚的宇宙中,超大质量黑洞的并合是星系演化剧本里的高潮章节。理论告诉我们,当两个星系在引力作用下最终合二为一时,它们中心的“巨兽”——超大质量黑洞——也会…...

从原理到调参:手把手教你用OpenCV玩转Canny边缘检测(Python代码详解)

从原理到调参:手把手教你用OpenCV玩转Canny边缘检测(Python代码详解)边缘检测是计算机视觉中最基础也最关键的预处理步骤之一。在众多边缘检测算法中,Canny算子以其优异的性能和稳定的表现,成为工业界和学术界公认的&q…...

LLM应用开发之向量数据库详解

摘要随着大语言模型(LLM)应用的快速发展,向量数据库作为AI时代的关键基础设施,正在成为RAG(检索增强生成)、语义搜索、智能推荐等场景的核心组件。本文将从向量嵌入的原理出发,深入讲解向量相似…...

Ventoy安装后U盘识别不了?手把手教你从下载(附国内镜像站)到成功引导Win10的完整避坑指南

Ventoy启动盘制作全攻略:从下载到成功引导Win10的避坑指南你是否曾经为了安装不同系统而反复格式化U盘?Ventoy这款国产开源工具彻底改变了传统启动盘制作方式,它允许你在同一个U盘上存放多个ISO镜像文件,无需反复格式化就能直接启…...

未来趋势洞察:后端开发技术的前沿动态与发展方向

在数字化浪潮席卷全球的今天,后端开发作为支撑各类应用的核心力量,正经历着前所未有的变革。随着云计算、人工智能、物联网等新兴技术的迅猛发展,后端开发技术也在不断演进,呈现出一系列新的趋势和方向。本文将深入探讨未来后端开…...

CentOS 7无线网络配置避坑指南:wpa_supplicant vs NetworkManager,我该选哪个?

CentOS 7无线网络配置终极方案:从命令行到GUI的完整决策树在Linux服务器管理领域,无线网络配置始终是个充满挑战的话题。当你在数据中心角落发现一台需要无线连接的CentOS 7服务器,或是需要在无网线接入的会议室临时部署服务时,选…...

C++中的bind实践代码

1.std::bind是什么?简单来说,std::bind 是一个函数适配器(Adapter)。核心作用是“预先固定”一个函数的某些参数,从而生成一个新的函数对象。你可以把它想象成一个模具:原来的函数需要 3 个原料&#xff0c…...

WABT实战指南:用wasm-decompile精准逆向WebAssembly

1. 为什么你打开一个.wasm文件看到的全是乱码,而别人却能读出函数名和逻辑? WABT(WebAssembly Binary Toolkit)不是个“点开即用”的图形化工具,它是一套命令行驱动的底层解析引擎——这恰恰是它在逆向分析场景中不可…...

AI驱动的红队渗透工具包:Nmap语义解析与Metasploit动态编排

1. 这不是“AI渗透”的营销噱头,而是一套能真正缩短红队作业链路的工程化工具包“基于AI的红队渗透测试工具包,集成Nmap与Metasploit等工具”——这个标题里藏着三个被行业长期忽视却极为关键的断层:信息过载与决策延迟的断层、工具孤岛与流程…...

Unity根运动偏移问题:原理、诊断与五种生产级解决方案

1. 这个问题不是Bug,是Mecanim对根运动(Root Motion)的“诚实执行”你有没有遇到过这样的情况:在Unity里给一个角色模型配好了一套行走、奔跑、跳跃动画,一切看起来都很正常——预览窗口里动画流畅,状态机切…...

C++ 智能指针简介

文章目录1.由来2.基本思想3.引用计数4.实现模板参考文献1.由来 C 动态内存管理是通过一对运算符来完成的,new 用于申请内存空间,调用对象构造函数初始化对象并返回指向该对象的指针。delete 接收一个动态对象的指针,调用对象的析构函数销毁对…...

机器学习原子势能建模:深度集成与贝叶斯神经网络的不确定性估计对比

1. 项目概述与核心问题在材料科学和计算化学领域,机器学习原子间势能模型已经从一个前沿概念,变成了加速新材料发现和深入理解物质行为的核心工具。简单来说,它就像一个“超级拟合器”,通过学习大量已知的原子构型及其对应的能量和…...

Kali NetHunter移动渗透实战:Magisk模块化部署与外设适配

1. 这不是“手机装Kali”,而是重构移动安全测试的工作流很多人第一次看到“手机跑Kali NetHunter”时,下意识反应是:这不就是把Linux桌面系统硬塞进安卓里?界面卡、命令少、工具打不开,最后变成一个炫技失败的摆设。我…...

多极球谐函数:统一机器学习势函数描述符的数学基石

1. 项目概述:从原子环境到机器学习势函数在材料科学和计算化学领域,我们这些做模拟的人,每天都在和原子打交道。一个核心的挑战是:如何让计算机“理解”一个由几十、几百甚至上万个原子构成的复杂体系,并准确预测它的能…...

JMeter临界部分控制器:业务节奏建模与资源争用压测核心

1. 为什么“临界部分控制器”是压测中真正卡住团队的隐形瓶颈?在JMeter压测项目里,我见过太多团队把90%精力花在“怎么造出1000并发”上——线程组配好、HTTP请求写完、监听器一开,看着Active Threads曲线冲上峰值就以为大功告成。结果一进生…...

混沌系统预测:输入长度如何影响模型误差与稳定性

1. 项目概述与核心问题在时间序列预测领域,尤其是在处理像气象、流体力学、金融这样高度复杂、内在混沌的系统时,我们常常面临一个核心的工程与科学问题:模型到底需要看多长的历史数据,才能做出足够好的下一时刻预测?这…...

r0capture安卓抓包原理:绕过证书固定提取SSL密钥

1. 为什么传统安卓抓包在2024年已经“失效”了? 你有没有试过:Fiddler、Charles、Wireshark全装上,证书也手动导入了,App一打开就报错“网络连接异常”,或者干脆直接闪退?我去年帮三个客户做移动安全测试时…...

UABEA:Unity跨平台资源编辑与二进制解析工具深度指南

1. 为什么Unity开发者在2024年仍要为资源编辑发愁——UABEA不是另一个UI工具,而是解耦工作流的手术刀“UABEA:终极跨平台Unity游戏资源编辑器完全指南”这个标题里,“终极”二字不是营销话术,而是对当前Unity资源编辑生态痛点的精…...

深入Linux内核链表:从of_property_read_bool看设备树属性的组织与查找

深入Linux内核链表:从of_property_read_bool看设备树属性的组织与查找 在Linux内核开发中,设备树(Device Tree)作为描述硬件配置的标准方式,其高效解析机制一直是内核开发者关注的焦点。当我们调用 of_property_read_…...

手把手教你用CentOS 7搭建Fog Project网络克隆服务器(含DHCP/TFTP配置避坑指南)

CentOS 7实战:企业级Fog Project网络克隆系统部署全攻略当企业IT部门需要同时为数十台甚至上百台计算机部署操作系统时,传统的光盘或U盘安装方式显然效率低下。这正是Fog Project大显身手的场景——一个开源的网络克隆与系统部署解决方案。本文将带您从零…...

基于图神经网络的机器学习有限区域模型:边界处理与图结构设计实战

1. 项目概述与核心挑战最近几年,机器学习天气预测(MLWP)的进展让人有点兴奋,又有点眼花缭乱。从全球尺度的大模型到区域性的精细化预报,数据驱动的方法正在重新定义我们对大气模拟的理解。作为一名长期混迹在气象和计算…...

告别高分屏适配烦恼:从开发者视角详解Win10/Win11程序属性中的DPI设置原理

告别高分屏适配烦恼:从开发者视角详解Win10/Win11程序属性中的DPI设置原理在4K/5K显示器逐渐成为主流的今天,Windows开发者面临着一个看似简单却暗藏玄机的问题:为什么同一个应用在不同分辨率的屏幕上显示效果天差地别?更令人困惑…...

Unity序列化三要素:Serializable、SerializeField与SerializeReference详解

1. 为什么Unity序列化总让人困惑——从一个真实报错说起 刚接手一个老项目时&#xff0c;我遇到个特别典型的场景&#xff1a;美术同事在Inspector里调好了角色的装备配置&#xff0c;保存后切到另一台机器打开&#xff0c;所有装备栏全空了。Debug发现&#xff0c; List<E…...

卡梅德生物技术快报|蛋白的过表达质粒构建与生信分析实验全流程复盘

从事分子生物学实验的科研从业者&#xff0c;在开展功能蛋白研究时&#xff0c;蛋白的过表达质粒构建与诱导表达是必备核心技能。实操过程中&#xff0c;很多人会忽略前期生信分析的重要性&#xff0c;盲目设计引物、构建载体&#xff0c;导致蛋白的过表达失败、蛋白无活性、纯…...

卡梅德生物技术快报|真核蛋白表达信号肽筛选实验全流程复盘

从事分子生物学实验的科研人员&#xff0c;在开展真核蛋白表达实验时&#xff0c;经常遇到目的蛋白分泌量低、胞内滞留、活性丧失等问题。信号肽作为调控蛋白分泌的核心元件&#xff0c;其选型直接决定真核蛋白表达的成败与效率。本文基于经典科研实验&#xff0c;完整复盘 8 种…...

影刀RPA跨境店群自动化:从Chromium调度到分布式容器化运营的架构演进

定了。在这场旷日持久的跨境电商反爬风控拉锯战中&#xff0c;我们终于用一套基于 Python 深度协同的分布式微服务调度架构&#xff0c;重塑了跨境千店矩阵的自动化底座。 这几天&#xff0c;科技圈被“DeepSeek V4 首发华为昇腾芯片&#xff0c;国产 AI 开始打破英伟达 CUDA …...

基于动态生物标志物变化率的生物年龄预测:LightGBM模型与纵向数据分析实践

1. 项目概述与核心价值在预防医学和健康管理领域&#xff0c;我们常常面临一个根本性的难题&#xff1a;如何准确评估一个人的“真实”衰老程度&#xff1f;我们都知道&#xff0c;身份证上的“时序年龄”只是一个粗略的刻度&#xff0c;两个同龄人&#xff0c;一个可能精力充沛…...