当前位置：首页 > news >正文

NLP论文速读（CVPR 2024）|使用DPO进行diffusion模型对齐

news 2026/2/9 0:08:30

论文速读|Diffusion Model Alignment Using Direct Preference Optimization

论文信息：

简介：

本文探讨的背景是大型语言模型（LLMs）通过人类比较数据和从人类反馈中学习（RLHF）的方法进行微调，以更好地符合用户的偏好。然而，对于文本到图像的扩散模型，人类偏好学习并没有得到广泛探索。现有的方法主要是通过精心策划的高质量图像和标题来微调预训练模型，以提高视觉吸引力和文本对齐。本文提出了一种新的方法，即直接优化人类比较数据来对齐扩散模型和人类偏好。本文动机在于提高文本到图像扩散模型的性能，使其更符合人类的偏好。LLMs的成功表明，通过人类反馈进行微调可以显著提升模型的表现。本文旨在将这一概念扩展到扩散模型中，通过直接优化人类比较数据来实现更好的模型对齐。

论文方法：

本文提出了一种名为DiffusionDPO的方法，它是基于最近开发出的直接偏好优化（DPO）的变体。

DPO是一种相对于RLHF的简化方法，它直接优化一个策略来最好地满足人类偏好，而不是通过训练一个奖励函数来表示人类偏好。DiffusionDPO通过以下几个步骤实现：

重新制定DPO：作者将DPO重新制定为考虑扩散模型似然性的形式，使用证据下界（ELBO）来推导出一个可微分的目标函数。

利用人群源数据集：使用Picka-Pic数据集中的851K个人群源成对偏好，对最先进的Stable Diffusion XL（SDXL）-1.0模型的基础模型进行微调。

直接优化：通过直接在人类比较数据上优化，而不是通过传统的监督微调或强化学习方法。

变分和AI反馈：开发了一个使用AI反馈的变体，其性能与基于人类偏好的训练相当，为扩散模型对齐方法的扩展打开了大门。

DiffusionDPO通过这些方法，显著提高了视觉吸引力和提示对齐，超越了基础SDXL-1.0模型和包含额外细化模型的更大SDXL-1.0模型。此外，该方法还展示了从AI反馈中学习的有效性，这是以前工作未能成功的领域。总的来说，本文引入了一种从人类偏好中学习的新范式，并展示了由此产生的最新模型。

论文实验：

根据Figure 3的内容，本文的实验部分主要关注了Diffusion-DPO（DPO-SDXL）模型与基线模型（SDXL）在人类评估中的性能比较。在PartiPrompts评估中，DPO-SDXL在General Preference（Q1）、Visual Appeal（Q2）和Prompt Alignment（Q3）中被偏好的比例分别为70.0%、相似比例和相似比例。在HPSv2基准测试中，DPO-SDXL在General Preference（Q1）中的获胜率为64.7%。

论文链接：

https://arxiv.org/abs/2311.12908

NLP论文速读（CVPR 2024）|使用DPO进行diffusion模型对齐

论文速读|Diffusion Model Alignment Using Direct Preference Optimization

简介：

论文方法：

论文实验：

论文链接：

相关文章：

NLP论文速读（CVPR 2024）|使用DPO进行diffusion模型对齐

操作系统——揭开盖子

如何在 React 项目中应用 TypeScript？应该注意那些点？结合实际项目示例及代码进行讲解！

C++学习第四天

【从零开始的LeetCode-算法】3232. 判断是否可以赢得数字游戏

一种简单高效的RTSP流在线检测方法，不需要再过渡拉流就可以获取设备状态以及对应音视频通道与编码格式

24/11/22 项目拆解艺术风格转移

数字赋能，气象引领 | 气象景观数字化服务平台重塑京城旅游生态

关于Redux的学习（包括Redux-toolkit中间件）

【无人机】

Zabbix7.0.6的容器镜像准备

利用 GitHub 和 Hexo 搭建个人博客【保姆教程】

React第四节组件的三大属性之state

MongoDB进阶篇-索引（索引概述、索引的类型、索引相关操作、索引的使用）

使用FFmpeg实现视频与GIF的画中画效果

车载信息安全框架 --- 车载信息安全相关事宜

Unreal5从入门到精通之EnhancedInput增强输入系统详解

泛微E9与金蝶云星空的集成方案：实现审批流程与财务管理的无缝对接

理解设计模式与 UML 类图：构建稳健软件架构的基石

FastAPI重载不生效？解决PyCharm中Uvicorn无法重载/重载缓慢的终极方法！

Redis相关知识总结（缓存雪崩，缓存穿透，缓存击穿，Redis实现分布式锁，如何保持数据库和缓存一致）

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

图表类系列各种样式PPT模版分享

Vue3中的computer和watch

安全领域新突破：可视化让隐患无处遁形

第6章：Neo4j数据导入与导出

TI德州仪器TPS3103K33DBVR低功耗电压监控器IC电源管理芯片详细解析

Android Settings 数据库生成、监听与默认值配置

GitHub 趋势日报 (2025年06月07日)

Oracle 19c RAC集群ADG搭建