当前位置：首页 > news >正文

14.基于人类反馈的强化学习（RLHF）技术详解

news 2026/5/16 4:16:53

基于人类反馈的强化学习（RLHF）技术详解

RLHF 技术拆解

RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，我们按三个步骤分解：

预训练一个语言模型 (LM) ；
训练一个奖励模型 (Reward Model，RM) ；
用强化学习 (RL) 方式微调 LM。

请添加图片描述

步骤一：使用SFT微调预训练语言模型

先收集⼀个提示词集合，并要求标注⼈员写出⾼质量的回复，然后使⽤该数据集以监督的⽅式微调预训练的基础模型。对这⼀步的模型，OpenAI 在其第⼀个流⾏的 RLHF 模型 InstructGPT 中使⽤了较⼩版本的 GPT-3; Anthropic 使⽤了 1000 万～ 520 亿参数的 Transformer 模型进⾏训练；DeepMind 使⽤了⾃家的 2800 亿参数模型 Gopher。

请添加图片描述

步骤二：训练奖励模型（Reward Model）

RM 的训练是 RLHF 区别于旧范式的开端。这⼀模型接收⼀系列⽂本并返回⼀个标量奖励，数值上对应⼈的偏好。我们可以⽤端到端的⽅式⽤ LM 建模，或者⽤模块化的系统建模 (⽐如对输出进⾏排名，再将排名转换为奖励) 。这⼀奖励数值将对后续⽆缝接⼊现有的 RL 算法⾄关重要。

请添加图片描述

步骤三：使用 PPO 优化微调语言模型

将微调任务表述为 RL 问题:

首先，该策略 (policy) 是一个接受提示并返回一系列文本 (或文本的概率分布) 的 LM。这个策略的行动空间 (action space) 是 LM 的词表对应的所有词元 (一般在 50k 数量级)

观察空间 (observation space) 是可能的输入词元序列，也比较大 (词汇量 ^ 输入标记的数量) 。

奖励函数是偏好模型和策略转变约束 (Policy shiftconstraint) 的结合。

PPO 算法确定的奖励函数具体计算如下：将提示 x 输入初始 LM 和当前微调的 LM，分别得

到了输出文本 y1, y2，将来自当前策略的文本传递给 RM 得到一个标量的奖励 rθ 。将两个模型的生成文本进行比较计算差异的惩罚项KL散度。

这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型，以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值

请添加图片描述

使用 Hugging Face TRL 实现 PPO 流程图解

请添加图片描述

14.基于人类反馈的强化学习（RLHF）技术详解

基于人类反馈的强化学习（RLHF）技术详解

RLHF 技术拆解

步骤一：使用SFT微调预训练语言模型

步骤二：训练奖励模型（Reward Model）

步骤三：使用 PPO 优化微调语言模型

相关文章：

14.基于人类反馈的强化学习（RLHF）技术详解

Linux Radix tree简介

maven 下载jar包加载顺序

新增多种图表类型，新增视频、流媒体、跑马灯组件，DataEase开源数据可视化分析工具v2.7.0发布

supOS工业操作系统的由来

6spark期末复习

C语言背景⾊、线条颜⾊和填充颜⾊有什么区别？何时使⽤？

Python 植物大战僵尸游戏【含Python源码 MX_012期】

搜索文档的好助手

如何计算 GPT 的 Tokens 数量？

在远程服务器上安装虚拟环境

《站在2024年的十字路口：计算机专业是否仍是高考生的明智之选？》

从零手写实现 nginx-23-nginx 对于 cookie 的操作

Python语言例题集（015）

Halcon C++ XLD 数据写入图片

一文入门vim

植物ATAC-seq文献集锦（三）——果实发育篇

在自己的电脑上搭建我的世界Java版服务器

1.PyQt6库和工具库QTDesigner安装

Hbase搭建教程

在职场上，别人对你的态度，都是你允许的：“他为什么敢这样对我？”“他为什么不怕得罪我？”“我有什么好怕的？”

零中频接收机技术演进与动态范围优化方案

RocketMQ Dashboard 部署实战：从源码到生产可用的控制台

Boss-Key终极指南：Windows窗口隐藏与隐私保护完整解决方案

OpenFold实战指南：在Linux系统部署蛋白质结构预测模型

Chrome for Testing 终极指南：5个实战技巧让自动化测试更稳定高效

从方程到应用：激光雷达核心参数与激光器选型指南

Simulink仿真PMSM时，那个神秘的‘4’和‘30/π’到底怎么来的？手把手带你算清楚

STM32F4用HAL库驱动MPU6050，从引脚重映射到数据读取的保姆级避坑指南

AI开发环境一键构建：模块化脚本实现基础设施即代码