当前位置: 首页 > article >正文

DPO vs PPO:两种AI对齐技术到底选哪个?我全试了一遍

整整一个月的实验四块4090烧了不知道多少电费。这不算什么真正让我崩溃的是——跑了三天的PPO训练在最后一刻因为reward model打分偏差炸了。那一刻我真的很想摔键盘。但后来换上DPO重新跑12小时搞定效果还更好。所以今天这篇我得好好聊聊这两个对齐技术。先说人话解释它俩是干嘛的你知道大模型训练分三步预训练、SFT微调、对齐Alignment。前面两步让模型会说话最后一步让模型说人话——就是让模型输出的东西符合人类的偏好不说假话、不跑偏、不被越狱。PPOProximal Policy Optimization和DPODirect Preference Optimization都是做对齐的。但路子完全不同PPO的路子训练一个裁判Reward Model让模型输出给裁判打分模型根据分数调整自己。DPO的路子把裁判和选手合二为一直接用偏好数据训练模型省掉Reward Model这个中间环节。听起来DPO好像更简单事实也确实如此。PPO效果好但真的难搞PPO的完整流程是这样的大量人工标注A回答 vs B回答哪个更好用这些偏好数据训练一个Reward Model打分器模型自己生成回答Reward Model打分PPO算法根据分数调整模型的参数还要加一个KL散度惩罚防止模型跑太偏听起来就复杂对不对实操起来更崩溃。我踩过的PPO坑首先是Reward Model本身的偏差。这玩意儿是另一个模型它也有自己的偏好。我遇到过RM对长回答天然高分结果模型学会了字数灌水。训练出来的模型回答越来越长但质量反而下降了。这个问题困扰了我一个多星期。后来查论文才发现这是PPO领域的已知问题——Reward Hacking。解决方法是在RM训练时做更精细的数据清洗但这是个脏活累活。第二个坑四个模型同时跑。PPO训练需要同时维护策略模型、参考模型、Reward Model、Value Model。四块4090刚好卡在显存边缘动不动就OOM。我那次三天炸掉就是因为显存泄漏。第三个坑超参数极其敏感。PPO对KL系数、学习率、clip范围都非常敏感。换一组数据同样的参数可能就不行了。调参的时间比训练本身还长。PPO的优点是什么说这么多缺点但为什么大厂还在用PPO因为上限高。在数据质量足够好、调参经验足够丰富的前提下PPO训练的模型往往比DPO更稳定。尤其是在需要细粒度控制的场景——比如医疗问答模型错误答案可能导致严重后果——PPO的稳定性优势就体现出来了。而且PPO有丰富的理论和工程积累。OpenAI的InstructGPT/ChatGPT系列都是用PPO技术成熟度最高。DPO真的能做到更简单、效果更好吗DPO是2023年斯坦福提出的技术上算是PPO的孙子辈。但它的思路太漂亮了——直接绕过Reward Model用偏好数据的数学关系指导模型更新。写代码就简单多了没有RM没有Value Model就两个模型策略模型和参考模型。DPO让我真香的地方我第一次跑DPO的情景同一批偏好数据之前PPO需要三个步骤训练RM PPO训练 调参搞了四天。换成DPO一个脚本跑完12小时出结果。而且效果呢人工评估了一下相差不大甚至在某几个维度上DPO更好。具体说几个让我惊喜的点对齐更直接。没有Reward Model这个中间环节模型直接学习了什么回答更好这个偏好训练目标更纯粹。更稳定。少了RM这个变量训练曲线平滑很多。不会再出现前一天跑的好好的今天换个随机种子就炸了的情况。显存占用小。少了两个模型同样的4090能训练更大的模型或者更大的batch size。DPO的坑也不少但我不能说DPO就是万能的。它也有自己的问题。最大的问题对数据质量要求更高。PPO的Reward Model可以平滑掉部分数据噪声——毕竟RM也是从大量数据学出来的。但DPO没有这层缓冲每条偏好数据直接作用于模型更新。一条标注错误的数据可能导致模型在某个维度上明显变差。我遇到过标注员把更好的回答标反了结果模型在这个主题上学会了输出更差的回答。排查了一个上午才发现是数据问题。第二个问题生成多样性下降。因为有参考模型的KL散度约束DPO有时候会让模型输出偏向保守多样性不如PPO。这对需要创造性的任务如文案生成不太友好。我的实操建议经过一个月的折腾我的结论是新手上路选DPO追求极致选PPO。具体来说选DPO的场景你刚开始做对齐团队没有RL经验算力有限只有几块消费级显卡偏好数据质量可靠已经经过多轮审核项目时间紧需要快速出效果任务偏生成创意类文案、对话选PPO的场景你是大厂团队有专门的RL工程团队偏好数据量大但质量参差不齐需要非常精细的控制医疗、金融、法律业务对输出稳定性要求极高不差钱有专门的算力集群我的个人做法我现在的工作流是先跑DPO快速出基线再用DPO产出的模型作为PPO的起点。这比随机初始化跑PPO更稳定而且能感受两种方法的差异。如果你有条件强烈建议试试这个组合。写在最后这段时间的折腾让我有一点很深的感触AI对齐这件事远没有论文里写的那么光鲜。论文里一个公式讲清楚的东西实操时要面对数据标注偏差、内存泄漏、训练不稳定、Reward Hacking…这些才是真正的工程现实。但话说回来当你自己训练出来的模型确实变得更懂事了那种成就感也是真的。我让模型回答我该怎么炒股它不再给出具体的投资建议而是说投资有风险建议咨询专业理财顾问——这就是对齐的价值。贴个简单的对比表维度PPODPO工程复杂度高4个模型 RM低2个模型训练稳定性中Reward Hacking风险高训练时间长多阶段短单阶段显存占用高低对数据质量要求中RM可缓冲噪声高每条数据直接作用输出多样性好略保守上线效果上限高有经验的团队中高这张表是我实操后的真实感受。别看PPO那么复杂在高手手里上限确实更高。但如果你是第一回做对齐DPO给你的惊喜会大得多。下次打算聊聊数据构建——如何从零开始搞一套高质量的偏好数据这才是对齐工作的地基。有兴趣的可以关注一下。参考资料Direct Preference Optimization: Your Language Model is Secretly a Reward ModelPPO原始论文RLHF的经典教程

相关文章:

DPO vs PPO:两种AI对齐技术到底选哪个?我全试了一遍

整整一个月的实验,四块4090烧了不知道多少电费。这不算什么,真正让我崩溃的是——跑了三天的PPO训练,在最后一刻因为reward model打分偏差炸了。 那一刻我真的很想摔键盘。 但后来换上DPO重新跑,12小时搞定,效果还更…...

2026年南京Geo公司将有何新动态?一起探寻其发展新方向!

在数字化浪潮汹涌澎湃的当下,AI智能营销领域正经历着前所未有的变革。顺炫科技作为该领域的深耕者,一直致力于为全球客户提供高效、智能的数字化推广解决方案。随着2026年的到来,顺炫科技又将有哪些新动态,其发展新方向又将指向何…...

微信小程序 消防知识学习平台系统

目录同行可拿货,招校园代理 ,本人源头供货商项目概述核心功能技术实现特色亮点适用场景项目技术支持源码获取详细视频演示 :同行可合作点击我获取源码->获取博主联系方式->进我个人主页-->同行可拿货,招校园代理 ,本人源头供货商 项目概述 微信小程序“消…...

【awinic inside】音质续航,听声辨位 | 艾为芯助力小天才AI手表Z12

...

【MySQL 三大日志深度解析】:redo log、undo log、binlog 作用与两阶段提交原理

🔥你好我是fengxin_rou这是我的个人主页fengxin_rou的主页 ❄️欢迎查看我的专栏我的专栏 《Java后端学习》、《JAVASE基础》、《JUC并发》、《redis》、《JVM虚拟机》、《MYSQL》、《黑马点评》、《rabbitmq》、《JavaWebAI的talis学习系统》、《苍穹外卖》 前言…...

用wireshark抓取分析EtherCAT报文

📜 第1章:EtherCAT报文结构 EtherCAT报文结构及Wireshark对应显示: 以太网帧头:14字节,包含目标/源MAC地址,帧类型 (EtherType) 固定为 0x88A4。EtherCAT帧头:2字节,包含一个11位的“…...

AI技术的未来发展方向

AI技术的未来发展方向AI技术的未来发展将围绕以下几个关键领域展开,这些方向不仅推动技术进步,也深刻影响社会和经济结构。通用人工智能(AGI)的探索AGI旨在实现与人类智能相当的通用性,能够跨领域学习和推理。当前研究…...

Python运算符:逻辑运算符(and/or/not)的短路特性

Python运算符:逻辑运算符(and/or/not)的短路特性📚 本章学习目标:深入理解逻辑运算符(and/or/not)的短路特性的核心概念与实践方法,掌握关键技术要点,了解实际应用场景与…...

通用人工智能(AGI)完整技术方案:以字序生命模型(WOLM)为认知内核的双脑协同架构

一、AGI的终极定义在讨论技术方案之前,先定义什么是AGI。当前主流的AGI定义,强调一个系统能在绝大多数人类能做的智力任务上达到或超越人类水平。这个定义隐含了一个假设:AGI的核心是“智力”——逻辑推理、知识储备、创造力。我们的定义不同…...

python文化旅游服务系统 小程序系统

目录同行可拿货,招校园代理 ,本人源头供货商项目概述核心功能技术栈项目亮点应用场景项目技术支持源码获取详细视频演示 :同行可合作点击我获取源码->->进我个人主页-->获取博主联系方式同行可拿货,招校园代理 ,本人源头供货商 项目概述 Python文化旅游服…...

Logback 日志框架使用与配置指南

1. Logback 核心概念与架构 Logback 是 Java 生态中最主流的日志框架之一,其配置体系主要围绕以下三个核心概念展开: Logger(日志记录器):负责捕获日志事件。它通过 name 属性(通常是包名或类名&#xff09…...

论软件系统建模方法及其应用——以飞秒激光加工控制系统为例

摘要 2024年1月,我参与了某精密制造企业“高精度飞秒激光加工控制系统”项目的研发,担任系统架构设计师,主要负责系统建模、核心模块设计与集成测试。该项目旨在开发一套用于航空叶片微孔加工的数控系统,要求实现1μm的定位精度、实时补偿与工艺自适应调整。系统具有强实时…...

视频拖动进度条时如果落在GOP内,是怎么定位的?

视频拖动进度条时的 GOP 定位行为说明 0. 名词解释:Seek 是什么? Seek(寻址/定位)来自英文 “seek”(寻找、定位),在视频/音频领域特指将播放位置跳转到指定时间点的操作。 用户拖动进度条、点击…...

DataStore vs SharedPreferences 迁移指南:告别 ANR,拥抱类型安全

DataStore vs SharedPreferences 迁移指南:告别 ANR,拥抱类型安全 一句话收益:掌握从 SharedPreferences 迁移到 Jetpack DataStore 的完整路径,彻底消除主线程 I/O 阻塞与类型安全隐患。 适用版本:Android API 21&…...

深入理解 MCP 协议:原理、架构与实战开发指南

前言 2024年底 Anthropic 发布了 MCP(Model Context Protocol),短短几个月内 GitHub 星标突破 8 万。这个协议解决了一个核心问题:如何让大模型标准化地连接外部工具和数据源。 本文将从协议设计原理出发,手把手带你实…...

【RT-DETR实战】064、NMS后处理优化与替代方案:我在RT-DETR里踩过的那些坑

今天调一个RT-DETR的部署问题,模型推理速度明明达标了,但在实际视频流里跟踪目标时总出现“闪跳”——同一个目标在相邻帧里忽左忽右。 盯着输出看了半天,发现是相邻帧的检测框置信度相差0.01,NMS直接就把低分框干掉了,导致目标位置在帧间不连续。这个经典问题让我决定好…...

从0到就业,学习网络安全的正确顺序

从0到就业,学习网络安全的正确顺序 想入行网络安全,别怕,这条路虽然看起来复杂,但只要找对方法,就能少走很多弯路。核心原则就是:先学基础,再学安全,动手永远比光看重要 一、入门基…...

汽车零部件品牌升级方法拆解:复杂B2B能力如何被客户看懂

从B2B表达方法看,汽车零部件品牌升级可以理解为一个“客户判断结构化”的问题。企业不是简单输出自我介绍,而是要把技术能力、项目经验、质量体系、协同机制与证据材料,转化为客户不同角色都能使用的判断信息。很多汽车零部件企业已经完成了实…...

河北邯郸职称评审的方式有哪几种?

1、以考代评以考代评就是指有些专业技术岗位可以通过参加考试而不是递交繁琐的材料来获得专业技术职务资格。只要顺利通过国家指定的科目考试,你就可以获得专业技术资格,省去了各种审核流程的烦恼。2、只评不考只评不考是目前zui常见、适用范围zui广的一…...

实时反欺诈Agent部署失败率高达68%?金融IT总监亲述4类典型故障链及容灾切换黄金12分钟法则

更多请点击: https://codechina.net 第一章:实时反欺诈Agent部署失败率高达68%?金融IT总监亲述4类典型故障链及容灾切换黄金12分钟法则 某头部城商行在2023年Q3上线新一代实时反欺诈Agent集群后,监控平台显示首次部署成功率仅32…...

四川资产盘活实战教培|从业者真实学习感悟

深耕资管行业多年,我发现四川不少企业长期受不良债权积压、存量资产沉淀困扰。自主催收效率低、回款周期长,再加上缺乏专业尽调、估值及司法处置能力,极易造成资产贬值、合规风险增加。在此背景下,本土实战型资产盘活教培&#xf…...

基于GIS三维地球的全球指挥官推演沙盘软件军迷免费版 谷歌地球 数字孪生 自媒体创作 战术想定编辑

一套完全自主的、基于真实地理坐标系的沉浸式战术推演引擎,其技术栈的构建是对传统可视化与交互范式的系统性革新。 全球指挥官沙盘软件军迷免费版下载 一、 项目概述:一个核心命题与两项技术挑战 本项目源于一个明确的工程命题:构建一个允…...

私有化 IM vs 公有云 IM:3 个维度告诉你该怎么选

企业在选择即时通讯工具时,常常陷入 “功能越多越好” 的误区。实际上,IM 选型的本质是一次数据治理策略的决策。私有化 IM 和公有云 IM 没有绝对的好坏,只有适合不适合。今天我们从三个核心维度,帮你做出正确的选择。第一个维度&…...

三亚高端小区实景落地选哪家

在三亚,高端小区对居住品质的要求近乎苛刻——不仅要有气派的视觉呈现,更要经得起台风、高湿、海风盐雾的考验。如果您正在寻找一家能真正实现“所见即所得”的实景落地服务商,三亚秦鼎科技有限公司就是您不容错过的选择。为什么是秦鼎科技&a…...

巨噬细胞M1型与M2型的差异

巨噬细胞具有高度的功能可塑性,依据微环境信号的不同,可极化为功能迥异的M1型(经典活化)与M2型(替代活化)两大表型。两者在活化机制、代谢特征及生物学功能上呈现出显著的“阴阳”对立与平衡。1. 活化诱导与…...

GitHub Copilot X:AI编程助手如何重塑开发工作流与效率

1. 项目概述:当代码编辑器遇见“副驾驶”如果你和我一样,每天有超过一半的时间是在代码编辑器里度过的,那你一定对“效率”这个词有着近乎偏执的追求。从语法高亮、代码补全,到后来的LSP(Language Server Protocol&…...

GitHub Copilot X:从代码补全到全流程AI协作者的实战指南

1. 项目概述:当代码编辑器遇见“副驾驶”如果你和我一样,每天有超过一半的时间是在代码编辑器里度过的,那你一定对“效率”这个词有着近乎偏执的追求。从语法高亮、代码补全,到后来的LSP(Language Server Protocol&…...

CPU核心存储架构:寄存器文件与SRAM的设计原理与应用对比

1. 项目概述:从“存储”到“访问”的核心差异在处理器设计的核心地带,有两个名字听起来很像、功能也似乎都是“存东西”的组件,却常常让刚入行的朋友感到困惑:Register File(寄存器文件)和 SRAM&#xff08…...

寄存器文件与SRAM:芯片设计中存储层次的核心差异与选型指南

1. 项目概述:从“存储”到“访问”的鸿沟在数字电路和处理器设计的核心地带,有两个名字经常被提及,却又常常让初学者甚至一些从业者感到混淆:Register File(寄存器文件)和SRAM(静态随机存取存储…...

基于RL78/G13的电位器ADC采集与串口通信上位机显示系统设计

1. 项目概述与核心思路最近在整理工作室的旧零件,翻出来一块瑞萨电子的RL78/G13开发板,还有几个吃灰的电位器。想着不能浪费,就琢磨着做个简单但能体现MCU基本功的小项目:用这块开发板实时采集电位器的电压,并把数据上…...