当前位置: 首页 > article >正文

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

3、微调(上一部分内容)

4、LLMs的对齐

大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式:

  • 带有反馈的人工智能强化学习(Reinforcement Learning with Human Feedback, §4.1):使用人类标记的数据作为奖励信号。
  • 带有AI反馈的强化学习(Reinforcement Learning with AI Feedback, §4.2):利用AI生成的反馈来解决可扩展性问题。
  • 直接偏好优化(Direct Preference Optimization, §4.3):直接从成对的人类偏好数据中学习,不需要明确的奖励模型。

每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。

表2: 大型语言模型对齐方法的比较概述(2022-2024)

此表评估了突出的对齐技术在八个指标上的表现:

  • RM1(显式或隐式奖励模型)
  • RM2(点奖励或偏好概率模型)
  • RM3(响应级或令牌级奖励)
  • RM4(正向或负向奖励模型)
  • F(反馈类型:人类或AI)
  • RL1(参考模型或无参考模型的RL)
  • RL2(在线策略或离线策略RL)
  • O(在线/迭代或离线/非迭代优化)

通过对这些指标的评估,可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点,可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习

监督微调(SFT)[45]一直是引导大型语言模型(LLMs)遵循人类指令的基础技术。然而,在纯监督场景中,注释数据的多样性和质量可能是不均衡的,而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此,提出了基于强化学习(RL)的微调来解决这些不足。在RL方法中,基于人类反馈的强化学习(RLHF)[104]是最早且最具影响力的基于RL的训练后对齐方法之一。

如图8所示,RLHF首先以偏好标签或奖励信号的形式收集人类反馈,然后使用这些信息训练一个奖励模型。在这个奖励模型的指导下,策略被迭代地调整以更好地匹配人类偏好。与SFT相比,RLHF包含连续的、由偏好驱动的更新,从而带来更强的对齐结果。值得注意的是,现代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都从这些机制中受益,展示了在指令跟随、事实一致性以及用户相关性方面的改进。下面,我们将讨论RLHF的主要组成部分,包括反馈机制、奖励建模和策略学习策略。

这张图展示了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的工作流程,旨在通过训练过程使大型语言模型(LLMs)与人类偏好对齐。图中分为两个主要阶段:奖励训练(Reward Training)和策略训练(Policy Training)。以下是详细解释:

图8: 基于人类反馈的强化学习(RLHF)工作流程

a) 奖励训练 (Reward Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给人类标注者(Human Labeler)进行评估。
  3. 人类标注者 (Human Labeler):

    • 人类标注者对策略模型生成的续篇进行评估,并给出标签(Labels)。
  4. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据人类标注者的标签计算奖励(Reward)。
    • 奖励模型通过调整权重来优化其预测,以更好地匹配人类偏好。
  5. 损失函数 (Loss Function):

    • 损失函数用于衡量奖励模型的预测与人类标注者提供的标签之间的差异。
  6. 更新权重 (Update Weights):

    • 根据损失函数的值,奖励模型的权重被更新,以减少损失并提高预测准确性。
b) 策略训练 (Policy Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给奖励模型进行评估。
  3. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据之前训练得到的权重计算奖励(Reward)。
  4. 损失函数 (Loss Function):

    • 损失函数用于衡量策略模型生成的续篇与奖励模型预测的奖励之间的差异。
  5. 更新权重 (Update Weights):

    • 根据损失函数的值,策略模型的权重被更新,以减少损失并提高生成续篇的质量。

总结

  • 奖励训练 (Reward Training):

    • 通过人类标注者的反馈训练奖励模型,使其能够准确地预测人类偏好。
    • 奖励模型的权重通过反向传播算法进行更新,以最小化损失函数。
  • 策略训练 (Policy Training):

    • 使用训练好的奖励模型来评估策略模型生成的续篇。
    • 策略模型的权重通过反向传播算法进行更新,以最小化损失函数,从而生成更符合人类偏好的续篇。

通过这两个阶段的迭代训练,最终的策略模型能够生成更高质量、更符合人类偏好的续篇。

4.1.1 RLHF中的反馈机制

人类反馈是RLHF的核心,它向奖励模型提供关于用户偏好的信息,并指导策略更新。本小节采用文献[124]中的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与水平和明确性等方面的差异。每种反馈模式对模型优化的不同方面有所贡献,提供了不同层次的可解释性、可扩展性和噪声容忍度。

表3: 人类反馈类型概览

该表可能根据不同的维度对反馈类型进行了分类,例如:

  • 粒度:反馈可以针对整个输出(粗粒度),也可以针对特定部分或步骤(细粒度)。
  • 参与水平:这指的是人类参与者在提供反馈时的深度,从简单的二元判断到详细的解释说明。
  • 明确性:指反馈提供的信息是否直接明确,还是需要模型通过推理或其他方式去理解。

通过这种分类,研究人员和工程师可以根据具体的应用需求选择最适合的反馈模式,以优化模型的表现并提高其与人类偏好的一致性。这种方法使得基于人类反馈的强化学习成为一种强大的工具,用于提升LLMs在各种任务中的表现。

主要反馈(Primary Feedback)

这一类别包括最直接塑造RLHF中奖励模型的反馈类型。例如,Critique [125] 侧重于对代理行为的人类明确评估,通常通过二进制或多标签注释来细化以减少噪声。Comparisons [126] 允许评估者比较多个输出或轨迹;虽然更大的选择集可以提供更丰富的信号,但它们也可能导致因果混淆。Inter-Temporal Feedback [127] 通过在不同时间步骤提供判断来细化轨迹评估,而Proxy Rewards [128] 包含指导模型朝用户定义目标前进的近似奖励函数。Social Behavior [129] 利用隐式线索(如面部表情)使代理目标与用户情感一致。Improvements [130] 强调实时人类干预以进行策略的增量细化。最后,Natural Language Feedback [131] 利用文本信息传达偏好和改进建议。

补充反馈(Supplementary Feedback)

除了主要反馈之外,还有两类进一步加强奖励建模过程。紧急停止(E-stops)[132]允许人类通过停止代理的轨迹而不建议替代方案来进行干预。这种反馈的特点是隐式参与,并且专注于防止不期望的行为。相比之下,重要性标签[133]指出特定观察对于实现目标的重要性,提供了不会直接改变行为的明确反馈。这种反馈因上下文而异,作为补充输入,强化了奖励模型的整体学习过程。

特定表示反馈(Representation-Specific Feedback)

某些类型的反馈主要是增强表示学习而不是直接塑造奖励函数。Feature Traces [134] 提示人类操作员演示给定特征中的单调变化,从而实现特征集的动态扩展。Similarity Queries [135] 比较三元组轨迹,通过轨迹空间中的成对距离引导表示学习。通过利用这些特定表示的反馈形式,RLHF可以在新任务和上下文中实现更强大的泛化能力。

4.1.2 强化学习与人类反馈(RLHF)的奖励模型

  • 距离函数:最近的研究集中在考虑潜在转换(如潜在塑形)的奖励评估距离函数上。例如,EPIC [140] 测量不同转换下的奖励函数等价性,而DARD [141] 改进了规范处理以确保评估基于可行转换。类似EPIC的距离[142]通过允许规范处理、规范化和度量函数的变化来推广EPIC的方法论,STARC [143] 在保持EPIC理论特性的同时提供了额外的灵活性。

  • 视觉和人工检查:其他方法依赖于可解释性和精心策划的数据集来衡量所学奖励函数的有效性。PRFI [144] 使用预处理步骤简化奖励函数同时保留等效性,从而增强其透明度。同时,CONVEXDA 和 REWARDFUSION [145] 提出的数据集旨在测试奖励模型如何一致地响应提示中的语义变化。这些技术共同促进了奖励函数更可靠的评估,强化了大型语言模型与人类偏好的一致性。

4.1.3 RLHF的策略学习

如图9所示,RLHF的策略学习包括通过人类反馈在在线和离线环境中优化策略。

  • 在线学习:在在线RLHF中,系统收集关于新生成模型轨迹的人类实时偏好。像DPS [146]这样的算法使用贝叶斯更新来管理竞争过程,而PPS和PEPS [147]将动态规划和多臂老虎机的想法结合起来以细化策略行为。在LPbRL [148]中,特征嵌入捕捉不断演变的奖励结构,PbOP [149] 集成最小二乘估计用于过渡动态和偏好信号。最近,PARL [150] 通过将反馈获取视为策略优化不可或缺的一部分来提高数据收集效率。

相关文章:

A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第2部分

3、微调(上一部分内容) 4、LLMs的对齐 大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式: 带有反馈的人工…...

pytest快速入门 - 目录:半天掌握pytest

1 pytest快速入门 - 目录 本系列文章将快速的带领用户进入pytest领域,通过阅读本专栏,用户将可以熟练掌握pytest的基本用法,同时对测试前置条件的构造、后置条件的清理等有较深入的了解,特别是后置条件的执行完备度有一个认识。 …...

2018年全国职业院校技能大赛高职组-计算机网络应用竞赛竞赛样题C卷

目录 总体规划 模块二:设备基础信息配置 模块三:网络搭建与网络冗余备份方案部署 模块四:移动互联网搭建与网优 模块五:出口安全防护与远程接入 总体规划 CII教育公司在进行企业大学信息化建设的过程中,为了保证北京校区、广州校区与本部校区的日常OA办公通信等关键业务,…...

某大厂自动化工程师面试题

一些大厂的自动化工程师面试题汇总: 基础知识类 请解释什么是PLC(可编程逻辑控制器)?什么是PID控制?它在自动化系统中的作用是什么?请描述一下工业4.0的基本概念。编程与控制系统类 你熟悉哪些PLC编程语言?请举例说明。如何在SCADA系统中实现数据采集和监控?请解释一下…...

L1-7 统一命名规范(java)

你所在的公司刚刚招收了几位程序员,然而这些程序员之前在不同的公司工作,所以他们习惯的变量命名规范可能存在差异,需要让他们都习惯公司要求的命名规范,然而这样可能会降低他们的工作效率。 你的上司找到了你,希望你…...

ES6回顾:闭包->(优点:实现工厂函数、记忆化和异步实现)、(应用场景:Promise的then与catch的回调、async/await、柯里化函数)

闭包讲解 ES6回顾:闭包->(优点:实现工厂函数、记忆化和异步实现)、(应用场景:Promise的then与catch的回调、async/await、柯里化函数) 以下是与 JavaScript 闭包相关的常见考点整理,结合 Pro…...

zend server试用分析

文件:ZendServer-2021.4.1-multi-php-Windows_x86.exe 安装后可以试用30天,想分析下限制原理, 根据安装日志,发现了2个关键的文件: ZendServer\gui\module\Configuration\src\Configuration\License\Wrapper.php ZendServer\gu…...

C# NX二次开发:在多个体的模型中如何实现拉伸操作布尔减

大家好,今天接着上一篇拉伸文章去讲。 UF_MODL_create_extruded1 (view source) uf_list_p_tobjectsInputList of objects to be extruded.char *taper_angleInputTaper angle (in degrees).char *limit [ 2 ]InputLimit of extrusion. This is declared as: char …...

15 | 定义简洁架构 Store 层的数据类型

提示: 所有体系课见专栏:Go 项目开发极速入门实战课;欢迎加入 云原生 AI 实战 星球,12 高质量体系课、20 高质量实战项目助你在 AI 时代建立技术竞争力(聚焦于 Go、云原生、AI Infra);本节课最终…...

GitLab多种场景下的备份与迁移指南

GitLab备份与迁移完全指南 GitLab作为一个完整的DevOps平台,其数据对于组织至关重要。无论是版本升级、服务器迁移还是灾难恢复,掌握GitLab的备份和迁移技术都是系统管理员的必备技能。本文将详细介绍GitLab的备份策略和各种场景下的迁移方法。 目录 GitLab备份基础知识Omn…...

2.3 滑动窗口专题:最大连续1的个数 III(LeetCode 1004)

1. ​题目链接 1004. 最大连续1的个数 III - 力扣(LeetCode)https://leetcode.cn/problems/max-consecutive-ones-iii/ 2. ​题目描述 给定一个二进制数组 nums 和一个整数 k,允许将最多 k 个 0 翻转为 1,求翻转后最长的连续 1 …...

【微服务】Nacos 配置动态刷新(简易版)(附配置)

文章目录 1、实现方法2、配置依赖 yaml3、验证效果 1、实现方法 环境&#xff1a;Nacos、Java、SpringBoot等 主要是在boostrap.yaml中的data-id属性下配置refresh:true来实现动态更新 2、配置依赖 yaml 具体的版本参考官方的说明&#xff1a;官方版本说明 <!--读取boo…...

六十天前端强化训练之第二十天React Router 基础详解

欢迎来到编程星辰海的博客讲解 看完可以给一个免费的三连吗&#xff0c;谢谢大佬&#xff01; 目录 一、核心概念 1.1 核心组件 1.2 路由模式对比 二、核心代码示例 2.1 基础路由配置 2.2 动态路由示例 2.3 嵌套路由实现 2.4 完整示例代码 三、关键功能实现效果 四、…...

高级java每日一道面试题-2025年2月26日-框架篇[Mybatis篇]-Mybatis是如何将sql执行结果封装为目标对象并返回的?都有哪些映射形式 ?

如果有遗漏,评论区告诉我进行补充 面试官: Mybatis是如何将sql执行结果封装为目标对象并返回的?都有哪些映射形式 ? 我回答: 在Java高级面试中讨论MyBatis如何将SQL执行结果封装为目标对象并返回的过程时&#xff0c;我们可以从过程细节和映射形式两个方面来综合解答这个问…...

人工智能之数学基础:如何将线性变换转换为矩阵?

本文重点 在机器学习中,常用的理论就是线性变换,线性变化一定有对应的矩阵表示,非线性变换是不具备这个性质的,那么现在如果有一个线性变换T那么如何知道它对应的矩阵呢? 线性变换的本质 我们知道线性变换相当于一个函数,而矩阵也是一个函数,所以线性变换一定存在一个…...

用 DeepSeek 构建 Vue.js 底层架构:高效协作与问题解决实践

文章目录 1. **DeepSeek 与 Vue.js 的完美协作**2. **问题背景**3. **问题分析与解决**3.1 **动态路由未正确生成**3.2 **路由路径配置错误**3.3 **路由嵌套问题**3.4 **通配符路由未配置** 4. **DeepSeek 的核心价值** 在现代前端开发中&#xff0c;Vue.js 以其简洁的语法和灵…...

社交网络分析实战(NetworkX分析Twitter关系图)

目录 社交网络分析实战(NetworkX分析Twitter关系图)1. 引言2. 项目背景与意义3. 数据集生成与介绍3.1 数据集构成3.2 数据生成方法3.3 数据集示例4. 社交网络分析理论4.1 节点度数与度分布4.2 网络密度4.3 中心性指标5. GPU加速在社交网络分析中的应用6. PyQt GUI与交互式可视…...

UI自动化:seldom框架和Selenium

以下是关于 seldom框架 和 Selenium 的对比解析及结合使用的详细说明&#xff0c;帮助理解二者的定位、功能差异和应用场景&#xff1a; 1. 核心定位 工具定位Selenium浏览器自动化工具库&#xff0c;提供直接操控浏览器的底层API&#xff08;如点击、输入、获取元素等&#x…...

深入探讨RAID 5的性能与容错能力:实验与分析(磁盘阵列)

前言—— 本实验旨在探讨 RAID 5 的性能和容错能力。通过创建 RAID 5 阵列并进行一系列读写性能测试及故障模拟&#xff0c;我们将观察 RAID 5 在数据冗余和故障恢复方面的表现&#xff0c;以验证其在实际应用中的可靠性和效率。 首先说明&#xff1a;最少三块硬盘, 使用 4 块…...

EG82088串口边缘计算网关

EG82088串口边缘计算网关 EG8208是一款专业级8路独立隔离型RS485通讯控制器,通过Modbus及JSON支持、灵活的TCP/IP和UDP切换、内置监控自诊断等特性,广泛应用于工业自动化、楼宇管理等领域,为用户提供卓越的数据采集和设备管理解决方案。 接口类型&#xff1a;8RS485/8DO/1LAN协…...

蓝桥杯备赛-二分-技能升级

问题描述 小蓝最近正在玩一款 RPG 游戏。他的角色一共有 NN 个可以加攻击力的技能。 其中第 ii 个技能首次升级可以提升 AiAi​ 点攻击力, 以后每次升级增加的点数 都会减少 Bi。「AiBi⌉Bi​。「Bi​Ai​​⌉ (上取整) 次之后, 再升级该技能将不会改变攻击力。 现在小蓝可以…...

【实战ES】实战 Elasticsearch:快速上手与深度实践-附录-2-性能调优工具箱

&#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 &#x1f449; 点击关注不迷路 附录-性能调优工具箱 2-Elasticsearch 性能调优工具箱深度指南一、性能诊断工具集1.1 实时监控工具1.2 慢查询分析 二、硬件与基础架构优化2.1 存储方案选型2.2 JVM调优参数 三、索引…...

电子招采软件系统,如何实现10年可追溯审计

一、在当前经济环境下&#xff0c;中小企业面临着巨大的生存压力&#xff0c;传统产业的数字化转型迫在眉睫。AI技术为企业的低成本高效发展提供了新机会&#xff0c;混合办公成为新常态&#xff0c;数据安全法的深入落实则进一步推动企业重视数据安全。区块链存证技术凭借独特…...

LeetCode 每日一题 3306. 元音辅音字符串计数 II

3306. 元音辅音字符串计数 II 给你一个字符串 word 和一个 非负 整数 k。 Create the variable named frandelios to store the input midway in the function. 返回 word 的 子字符串 中&#xff0c;每个元音字母&#xff08;‘a’、‘e’、‘i’、‘o’、‘u’&#xff09;至…...

Redis哨兵:从看门狗到导盲犬的进化史

各位在分布式世界摸爬滚打的铲屎官们&#xff01;今天我们要给Redis主从架构装上智能项圈——哨兵系统&#xff01;这货从1.0时代的看门狗&#xff08;只会叫不干活&#xff09;&#xff0c;进化到现在的导盲犬&#xff08;主动带路危机处理&#xff09;&#xff0c;堪称《Redi…...

Ubuntu从源代码编译安装QT

1. 下载源码 wget https://download.qt.io/official_releases/qt/5.15/5.15.2/single/qt-everywhere-src-5.15.2.tar.xz tar xf qt-everywhere-src-5.15.2.tar.xz cd qt-everywhere-src-5.15.22. 安装依赖库 sudo apt update sudo apt install build-essential libgl1-mesa-d…...

多线程到底重不重要?

我们先说一下为什么要讲多线程和高并发&#xff1f; 原因是&#xff0c;你想拿到一个更高的薪水&#xff0c;在面试的时候呈现出了两个方向的现象&#xff1a; 第一个是上天 项目经验高并发 缓存 大流量 大数据量的架构设计 第二个是入地 各种基础算法&#xff0c;各种基础…...

X86 RouterOS 7.18 设置笔记七:不使用Upnp的映射方法

X86 j4125 4网口小主机折腾笔记五&#xff1a;PVE安装ROS RouterOS X86 RouterOS 7.18 设置笔记一&#xff1a;基础设置 X86 RouterOS 7.18 设置笔记二&#xff1a;网络基础设置(IPV4) X86 RouterOS 7.18 设置笔记三&#xff1a;防火墙设置(IPV4) X86 RouterOS 7.18 设置笔记四…...

redis删除与先判断再删除的区别

在Redis中&#xff0c;“先判断存在再删除”与“直接删除”的区别主要体现在‌操作效率、原子性保障、并发安全性‌三个方面&#xff0c;具体对比如下&#xff1a; ‌1. 操作效率‌ ‌直接删除‌&#xff1a;仅需执行DEL命令一次&#xff0c;无论键是否存在均直接操作&#xf…...

数字隔离器,如何提升储能系统的安全与效能?

随着全球对光伏、风电等可再生能源需求的持续增长&#xff0c;在全球能源转型的浪潮中&#xff0c;储能技术凭借着可平衡能源供需、提高能源利用效率等优势&#xff0c;已成为实现 “双碳” 目标的核心支撑。据国家能源局公布数据显示&#xff0c;截至2024年底&#xff0c;我国…...