普林斯顿:LLM基于边际优化的梯度纠缠

📖标题:A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement
🌐来源:arXiv, 2410.13828
🌟摘要
🔸从人类反馈中强化学习(RLHF)已成为对齐语言模型(LM)的主要方法,使其更有帮助,危害更小。RLHF的核心是使用基于裕度的损失进行偏好优化,该损失仅根据首选和非首选响应之间的差异来指定理想的LM行为。
🔸在本文中,我们发现了基于裕度的方法的一个常见陷阱——理想LM行为在首选和非首选响应上的规范不足,随着裕度的增加,这会导致两个意想不到的后果:(1)非首选(例如,不安全)响应的概率可能会增加,从而导致潜在的安全对齐失败。(2) 即使这些响应是理想的,首选响应的概率也可能降低。我们揭开了这些有问题行为背后的原因:基于边际的损失将首选概率的变化与被取消的概率的梯度联系起来,反之亦然,这通常会阻止首选概率在被取消的情况下增加,从而导致两种概率同步增加或减少。我们将这种基于边缘的目标固有的效应称为梯度纠缠。从形式上讲,我们推导出了一般基于边缘的对齐目标的条件,在这些条件下,梯度纠缠变得令人担忧:优选对数概率的梯度与解卷积对数概率的斜率之间的内积相对于单个梯度范数较大。
🔸我们从理论上研究了为什么在对齐语言模型时,这些内积会很大,并实证验证了我们的发现。我们框架的实证意义进一步扩展到解释各种偏好优化算法训练动态的重要差异,并提出潜在的算法设计,以缓解基于边际的方法的规格不足问题,从而改善语言模型对齐。
🛎️文章简介
🔸研究问题:基于边际的语言模型在对齐中会面临常见的梯度纠缠陷阱。
🔸主要贡献:论文揭示了梯度纠缠是边际目标中固有的问题,导致了选择和拒绝概率同步增加或减少,并提出了两种潜在的算法设计来缓解梯度纠缠效应。
📝重点思路
🔺相关工作
🔸RLHF:LLM提高其有用性和减轻危害性的主要方法,包括教学数据的监督微调和偏好的强化对齐。
🔸奖励模型:近期研究通过边际的偏好优化损失来直接优化语言模型,但会出现所选响应和拒绝响应的对数概率同步增加或减少。
🔸原因分析:只指定了选择和拒绝的对数概率之间边际的理想行为,即让正例高于负例,而非降低负例概率和提高正例概率。
🔺论文方案
🔸理论分析:论文推导了梯度内积的条件,理论分析在基于边际的目标函数中,选择和拒绝的对数概率的梯度纠缠效应,解释了为什么在某些情况下选择和拒绝的对数概率会同步增加或减少。
🔸合成设置实验:在合成设置中,论文理论证明了当选择和拒绝的响应共享更多相似的token时,它们的梯度内积会增加。同时,尽管句子级别的梯度内积可能很大且为正,但单个token级别的内积可以很小且为负。
🔸实证验证:通过实证验证了这些理论见解,发现DPO和R-DPO中选择和拒绝的对数概率倾向于同时减少,证明了梯度纠缠的存在。
🔸算法设计:基于理论和实证分析,提出了两种潜在的算法设计来缓解梯度纠缠效应,即成对归一化梯度下降和稀疏正则化的token掩码。
🔎分析总结
🔸梯度纠缠的存在:实验发现,在DPO和R-DPO中,选择和拒绝的对数概率倾向于同时减少,这证明了梯度纠缠的存在。
🔸梯度内积的影响:实验揭示了梯度内积是驱动梯度纠缠效应的关键量,当梯度内积较大时,选择和拒绝的对数概率会同步增加或减少。
🔸token级别的梯度动态:实验发现,显著的token(如“positive”/“negative”)在选择和拒绝的响应中最具对比性,表现出负的梯度相关性,防止了梯度纠缠;而那些非对比性的不显著token(如相同的token)由于其梯度的高相似性,导致了梯度纠缠。
🔸算法设计的有效性:提出的两种算法设计(成对归一化梯度下降和稀疏正则化的token掩码)可能有效缓解梯度纠缠效应。
💡个人观点
论文的核心是理论和实验分析当前偏好对齐方案导致的正负样本概率同步变化,将其定义为token语义层面的梯度纠缠,算是一种“奖励黑客”导致没有真正学到奖励。
🧩附录


相关文章:
普林斯顿:LLM基于边际优化的梯度纠缠
📖标题:A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement 🌐来源:arXiv, 2410.13828 🌟摘要 🔸从人类反馈中强化学习(RLHF)已成为对齐语言模型…...
通俗易懂:什么是 Java 类加载?
文章目录 类加载过程的三个阶段一个简单的案例:类加载的工作原理使用这个类类加载的顺序类加载的特点类加载的好处总结推荐阅读文章 在 Java 中, 类加载是一种将我们写的 Java 类文件加载到内存中的过程,让 JVM(Java 虚拟机&…...
Dijkstra 算法的实现方案
下面是一个基于 Dijkstra 算法的实现方案,能够在 DEM(数字高程模型)数据上进行寻路,并满足以下需求: 使用 Qt C++ 编写; 规避 DEM 中的障碍物; 支持指定起点和终点; 使用 GDAL 库读取 DEM 文件; 输出路径到 TXT 文件; 输出的坐标为地理坐标(例如经纬度),而不是像…...
OpenGL 进阶系列07 - 阴影贴图(shadowmap )
一:概述: 在 OpenGL 中,Shadow Mapping(阴影贴图)是一种常用的实时阴影技术,用于渲染物体的阴影效果。这种方法通过生成光源视角下的深度贴图,再在场景渲染时使用它来判断物体是否被遮挡,从而实现阴影效果。下面是实现 Shadow Mapping 的基本步骤和相关知识。 二:绘制…...
【CAN介绍】【第一篇章】
1. CAN简介 • CAN 总线( Controller Area Network Bus )控制器局域网总线 • CAN 总线是由 BOSCH 公司开发的一种简洁易用、传输速度快、易扩展、可靠性高的串行通信总线,广泛应用于汽车、嵌入式、工业控制等领域 • CAN 总线特征࿱…...
【统计子矩阵——部分前缀和+双指针】
题目 代码 #include <bits/stdc.h> using namespace std; typedef long long ll; const int N 510; int s[N][N]; int main() {ios::sync_with_stdio(0);cin.tie(0);int n, m, k;cin >> n >> m >> k;for(int i 1; i < n; i)for(int j 1; j <…...
用正则表达式检查是IP否为内网地址
用正则表达式检查是ip否为内网地址 PHP function isIntranet($ip) {/* IPV4内网地址A 类10.0.0.0~10.255.255.255B 类172.16.0.0~172.31.255.255C 类192.168.0.0~192.168.255.255*/// 检查是否为 IPv4 内网地址if (preg_match(/^10\./, $ip…...
Leetcode刷题笔记14
136. 只出现一次的数字 136. 只出现一次的数字 - 力扣(LeetCode) 核心思想:按位异或运算 利用按位异或运算的性质来解决这个问题: 异或运算的性质: a ^ a 0:相同的数异或结果为0。 a ^ 0 a:…...
PHP图书绘本借阅管理系统小程序源码
📚 图书绘本借阅管理系统:打造孩子的阅读乐园 📚 🏷️ 引言:为什么我们需要图书绘本借阅管理系统? 在孩子的成长旅程中,阅读是不可或缺的一部分。然而,面对琳琅满目的图书和绘本&a…...
【JavaWeb】JavaWeb入门之XML详解
目录 1.XML介绍 1.1.XML概述 1.1.1.什么是XML 1.1.2.XML的作用 1.1.3.XML与HTML的比较 1.1.4.XML和properties(属性文件)比较 1.1.5.W3C组织 1.2.XML语法概述 1.2.1.XML文档展示 1.2.2.XML文档的组成部分 1.3.XML文档声明 1.3.1.什么是XML文…...
JS手写-this绑定实现
在 JavaScript 中,bind、call 和 apply 方法都可以用来改变函数的 this 指向。下面我们将分别实现这些方法的简单版本。 1. 实现 bind bind 方法创建一个新的函数,在调用时设置 this 值,并返回这个新的函数。 Function.prototype.myBind …...
【时间之外】IT人求职和创业应知【31】
目录 新闻一:2024年“秦创原沣东杯”陕西省科技工作者创新创业大赛颁奖仪式暨沣东新城机器人产业发展大会盛大启幕 新闻二:声网CEO赵斌:RTE将成为生成式AI时代AI Infra的关键部分 新闻三:“5G工业互联网”融合应用试点城市名单…...
如何使用ffmpeg命令行进行录屏
录屏软件,我们去网上下载,发现有很多软件都是要收费的!但是录屏功能很难做吗?为啥都需要收费呢? 于是我整了个小demo,用于实现基础的屏幕录制功能。 思路很简单,考虑到 FFMpeg.exe是一个非常成…...
ODOO学习笔记(8):模块化架构的优势
灵活性与可定制性 业务流程适配:企业的业务流程往往因行业、规模和管理方式等因素而各不相同。Odoo的模块化架构允许企业根据自身的具体业务流程,选择和组合不同的模块。例如,一家制造企业可以启用采购、库存、生产和销售模块,并通…...
数字IC后端实现之Innovus specifyCellEdgeSpacing和ICC2 set_placement_spacing_rule的应用
昨天帮助社区IC训练营学员远程协助解决一个Calibre DRC案例。通过这个DRC Violation向大家分享下Innovus和ICC2中如何批量约束cell的spacing rule。 数字IC后端手把手实战教程 | Innovus verify_drc VIA1 DRC Violation解析及脚本自动化修复方案 下图所示为T12nm A55项目的Ca…...
每日小练:Day2
1.乒乓球筐 题目链接:乒乓球筐__牛客网 题目描述: 这道题主要考察B盒是不是A盒的子集,我们可以通过哈希表来做 单哈希表 import java.util.Scanner;// 注意类名必须为 Main, 不要有任何 package xxx 信息 public class Main {public stat…...
ubuntu 安装kafka-eagle
上传压缩包 kafka-eagle-bin-2.0.8.tar.gz 到集群 /root/efak 目录 cd /root/efak tar -zxvf kafka-eagle-bin-2.0.8.tar.gz cd /root/efak/kafka-eagle-bin-2.0.8 mkdir /root/efakmodule tar -zxvf efak-web-2.0.8-bin.tar.gz -C /root/efakmodule/ mv /root/efakmodule/efak…...
深入理解指针
在初步了解了指针的用法之后,我们可以想一想,既然一个变量有地址,而且在上一篇文章中我们知道了一个数组也有地址,那么函数、字符串这些东西有没有地址呢?如果有,那这些地址有什么用?我们又要怎…...
自动驾驶合集(更新中)
文章目录 车辆模型控制路径规划 车辆模型 车辆模型基础合集 控制 控制合集 路径规划 规划合集...
Chapter 14 scoped样式以及data函数
欢迎大家订阅【Vue2Vue3】入门到实践 专栏,开启你的 Vue 学习之旅! 文章目录 1 scoped样式1.1 全局样式1.2 局部样式1.3 工作原理2 data函数 1 scoped样式 1.1 全局样式 全局样式是指作用于整个应用程序的样式,不论在哪个组件中定义&#x…...
Obsidian表格处理革新:Excel插件的无缝集成方案
Obsidian表格处理革新:Excel插件的无缝集成方案 【免费下载链接】obsidian-excel 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-excel 在知识管理的日常工作中,你是否经常遇到这样的困境:在Obsidian中记录项目数据时&#…...
告别996!我用Qoder AI编程平台,一天搞定全栈电商项目(附保姆级实战流程)
从零到上线:Qoder AI全栈电商项目实战手记 凌晨三点的显示器蓝光里,我第17次调试购物车接口时,咖啡杯底黏着的便签写着"再熬三天就能交付"。这个典型的程序员996场景,在上个月使用Qoder开发新电商平台时被彻底颠覆——从…...
NaViL-9B图文理解教程:从上传图片到获取结构化描述的完整步骤
NaViL-9B图文理解教程:从上传图片到获取结构化描述的完整步骤 1. 认识NaViL-9B多模态模型 NaViL-9B是一款原生支持多模态交互的大语言模型,能够同时处理文本和图像信息。与传统的纯文本模型不同,它可以直接"看懂"图片内容&#x…...
告别旋转锚点!用Oriented R-CNN在DOTA数据集上轻松实现高精度遥感目标检测(附开源代码)
突破传统限制:Oriented R-CNN在遥感目标检测中的实战指南 遥感图像中的目标检测一直是计算机视觉领域的难点之一。不同于常规图像中的物体,遥感目标往往以任意角度出现,传统水平边界框检测方法难以准确捕捉其空间位置。想象一下,…...
Python实战:利用SymPy与SciPy高效破解复杂非线性方程组
1. 为什么需要SymPy和SciPy解非线性方程组? 遇到工程计算或科研问题时,我们常需要解像这样的方程组:xy10且yz34。这种包含平方项、三角函数或指数函数的方程,传统手工计算不仅耗时还容易出错。我去年做机器人运动学分析时…...
不止是缓存:深入Quartus FIFO IP核,玩转Show-ahead与Normal模式下的数据吞吐率优化
深入解析Quartus FIFO IP核:Show-ahead与Normal模式下的性能优化实战 在FPGA开发中,数据流处理系统的性能瓶颈往往出现在数据缓冲环节。作为Intel Quartus Prime工具链中的关键IP核,FIFO(First In First Out)缓冲器的…...
AO3镜像站使用指南:5分钟轻松访问全球同人创作宝库
AO3镜像站使用指南:5分钟轻松访问全球同人创作宝库 【免费下载链接】AO3-Mirror-Site 项目地址: https://gitcode.com/gh_mirrors/ao/AO3-Mirror-Site 还在为无法访问Archive of Our Own(AO3)而烦恼吗?AO3镜像站项目为你提…...
华为交换机MAC地址漂移检测与风暴抑制联动配置指南
1. 华为交换机MAC地址漂移检测原理与实战 刚接触网络运维时,第一次遇到MAC地址漂移报警简直一头雾水。后来才发现,这其实是交换机在提醒我们:"兄弟,你的网络里可能有环路!" MAC地址漂移的本质是同一个MAC地址…...
TensorFlow实战:用CIFAR-10数据集训练你的第一个图像分类模型(附完整代码)
TensorFlow图像分类实战:从零构建CIFAR-10卷积神经网络的完整指南 当第一次接触图像分类任务时,许多开发者会被复杂的网络结构和数据处理流程所困扰。本文将带你用TensorFlow构建一个能识别10类常见物体的卷积神经网络,从数据加载到模型评估&…...
静息态fMRI分析避坑指南:DPARSFA预处理中那些容易踩的‘雷’(附解决方案)
静息态fMRI分析实战避坑手册:DPARSFA预处理中的7个致命陷阱与修复方案 当你熬夜跑完DPARSFA预处理流程,满心期待地点开结果图时——突然发现ReHo图像像被泼了墨水,fALFF数值全部溢出,或是软件弹出一串看不懂的报错代码。这种崩溃…...
