当前位置：首页 > news >正文

LLMs 用强化学习进行微调 RLHF: Fine-tuning with reinforcement learning

news 2026/5/13 8:59:43

让我们把一切都整合在一起，看看您将如何在强化学习过程中使用奖励模型来更新LLM的权重，并生成与人对齐的模型。请记住，您希望从已经在您感兴趣的任务上表现良好的模型开始。您将努力使指导发现您的LLM对齐。首先，您将从提示数据集中传递一个提示。在这种情况下，“A dog is…”，传递给指导LLM，然后生成一个完成，这种情况下是"… a furry animal."一只毛茸茸的动物。接下来，您将将此完成和原始提示一起发送给奖励模型，作为提示完成对。奖励模型基于其训练的人类反馈评估对，然后返回一个奖励值。较高的值，如此处显示的0.24，表示更加对齐的响应。较不对齐的响应将获得较低的值，例如-0.53。然后，您将将这个提示完成对的奖励值传递给强化学习算法，以更新LLM的权重，并使其生成更加对齐、奖励更高的响应。
在这里插入图片描述

我们将称这个中间版本的模型为RL更新的LLM。这一系列步骤组成了RLHF过程的单次迭代。
在这里插入图片描述

这些迭代将继续进行一定数量的回合，类似于其他类型的微调。在这里，您可以看到RL更新的LLM生成的完成获得了更高的奖励分数，表明权重的更新导致了更加对齐的完成。
在这里插入图片描述

如果这个过程运行良好，您将看到在每次迭代后奖励得到改善，
在这里插入图片描述

因为模型生成的文本越来越符合人类的偏好。
在这里插入图片描述

您将继续进行这个迭代过程，直到您的模型根据某些评估标准对齐。例如，达到您定义的有用性的阈值。您还可以定义一个最大步数，例如20,000，作为停止标准。在这一点上，让我们将经过微调的模型称为与人对齐的LLM。
在这里插入图片描述

我们尚未讨论的一个细节是强化学习算法的确切性质。
在这里插入图片描述

这是一个算法，它接受奖励模型的输出，并使用它来随着时间的推移更新LLM模型的权重，以增加奖励分数。有几种不同的算法可以用于RLHF过程的这一部分。一个常见的选择是近端策略优化Proximal Policy Optimization，简称PPO。
在这里插入图片描述

PPO是一个相当复杂的算法，您不必熟悉所有细节就能使用它。然而，这可能是一个难以实现的算法，如果您在使其工作时遇到问题，更详细地了解其内部工作原理可能有助于您进行故障排除。为了更详细地解释PPO算法的工作原理，我邀请了我的AWS同事Ek为您提供有关技术细节的更深入了解。下一个视频是可选的，您可以随意跳过它，转到奖励作弊视频。您不需要这里的信息来完成测验或本周的实验。但是，我鼓励您查看这些详细信息，因为RLHF在确保LLM在部署中以安全和对齐的方式行为方面变得越来越重要。

参考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/sAKto/rlhf-fine-tuning-with-reinforcement-learning

LLMs 用强化学习进行微调 RLHF: Fine-tuning with reinforcement learning

参考

相关文章：

LLMs 用强化学习进行微调 RLHF: Fine-tuning with reinforcement learning

iMazing 2.17.10官方中文版含2023最新激活许可证码

如何在windows系统环境下使用tail命令查看日志

设计模式——访问者模式

一文读懂UTF-8的编码规则

二叉树题目：路径总和 II

Qt model/view 理解01

c与c++中的字符串

Android 获取IP地址的Ping值 NetworkPingUtils

数据集笔记：OpenCelliD（手机基站开放数据库）

Windows电脑多开器的使用心得分享

Android Studio实现简易计算器（带横竖屏，深色浅色模式，更该按钮颜色，selector，style的使用）

虚拟机通过nat模式端口映射实现内网穿透

计算机网络（六）：应用层

Sublime Text 4 for Mac激活下载

存在负权边的单源最短路径的原理和C++实现

15-自动化测试——理论知识

学信息系统项目管理师第4版系列17_干系人管理

专业PDF编辑阅读工具PDF Expert mac中文特点介绍

处理机调度的概念，层次联系以及七状态模型

AI智能体如何利用德国铁路实时数据与历史预测优化出行决策

如何实现Airbyte动态服务发现：从基础到实践的完整指南

从手动导入到自动溯源：Perplexity提问→Mendeley定位原文→高亮引用段落→一键生成BibTeX（全流程图解）

从文献检索到论文写作：Perplexity与Zotero构建AI-native科研流水线（实测单篇综述效率提升3.8倍）

数据库优化(八)MySQL 大小管理 ——东方仙盟金丹期

codebase-digest：自动化代码库分析工具的设计原理与工程实践

别再乱装驱动了！Ubuntu 20.04显卡驱动‘掉了’的终极排查与修复思路

从零到一：在STM32F103上构建FatFs文件系统并驱动W25Q64 Flash

从零到精通：AI大模型学习路线图，手把手带你入门！

多模态大模型在光谱分析中的应用：温度参数调优与性能评估