当前位置: 首页 > news >正文

【可控图像生成系列论文(四)】IP-Adapter 具体是如何训练的?1公式篇

系列文章目录

  • 【可控图像生成系列论文(一)】 简要介绍了 MimicBrush 的整体流程和方法;
  • 【可控图像生成系列论文(二)】 就MimicBrush 的具体模型结构训练数据纹理迁移进行了更详细的介绍。
  • 【可控图像生成系列论文(三)】介绍了一篇相对早期(2018年)的可控字体艺术化工作。

文章目录

  • 系列文章目录
  • 前言
  • 〇、文生图模型预备知识
    • 1. 训练目标
    • 2. 无分类器指导(classifier-free guidance)
  • 一、训练与推理
  • 二、训练数据
  • 三、实施细节
  • 总结


前言

IP-Adapter 的结构和 SD 的差别不是特别大,可以参考 【扩散模型(二)】 中的结构图进行快速理解,本文则将详细介绍其 IP-Adapter 的训练过程。

〇、文生图模型预备知识

扩散模型是一类生成模型,主要包含两个过程:

  • 扩散过程(前向过程),通过一个固定的 T 步长的马尔可夫链逐渐向数据添加高斯噪声;
  • 以及一个去噪过程,使用一个可学习的模型从高斯噪声生成样本。

1. 训练目标

扩散模型还可以基于其他输入进行条件生成,例如在文本到图像扩散模型中使用文本作为条件。通常,扩散模型的训练目标记为 ε θ εθ εθ,即预测噪声的模型,定义为变分界限的简化形式:

L simple = E x 0 , ε ∼ N ( 0 , I ) , c , t [ ∥ ε − ε θ ( x t , c , t ) ∥ 2 ] L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon \sim \mathcal{N}(0, I), c, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c, t)\|^2 \right] Lsimple=Ex0,εN(0,I),c,t[εεθ(xt,c,t)2]

其中, x 0 x_0 x0 表示带有附加条件 c c c 的真实数据, t ∈ [ 0 , T ] t ∈ [0, T] t[0,T] 表示扩散过程的时间步长, x t = α t x 0 + σ t ε x_t = α_tx_0 + σ_tε xt=αtx0+σtε 是第 t t t 步的噪声数据,而 α t α_t αt σ t σ_t σt 是决定扩散过程的预定义函数。

一旦模型 ε θ ε_θ εθ 训练完成,图像可以通过迭代方式从随机噪声生成。通常,在推理阶段采用快速采样器如 DDIM1、PNDM2 和 DPM-Solver34 来加速生成过程。

对于条件扩散模型,分类器指导5是一种直接利用独立训练的分类器的梯度来平衡图像保真度和样本多样性的技术。为了避免额外去独立训练一个分类器,常采用无分类器指导(classifier-free guidance)6作为替代方法。

2. 无分类器指导(classifier-free guidance)

在无分类器指导方法中,通过随机丢弃条件 c c c 来联合训练条件和无条件扩散模型。在采样阶段,预测的噪声基于条件模型 ε θ ( x t , c , t ) ε_θ(x_t, c, t) εθ(xt,c,t) 和无条件模型 ε θ ( x t , t ) ε_θ(x_t, t) εθ(xt,t) 的预测进行计算:

ε ^ θ ( x t , c , t ) = w ε θ ( x t , c , t ) + ( 1 − w ) ε θ ( x t , t ) \hat{\varepsilon}_{\theta}(x_t, c, t) = w\varepsilon_{\theta}(x_t, c, t) + (1 - w)\varepsilon_{\theta}(x_t, t) ε^θ(xt,c,t)=wεθ(xt,c,t)+(1w)εθ(xt,t)

这里, w w w(通常称为指导尺度或指导权重)是一个标量值,用于调整与条件 c c c 的对齐程度。对于文生图的扩散模型,无分类器指导在增强生成样本的图像与文本对齐方面起着至关重要的作用。

在 IP-Adapter 中,作者利用开源的 SD 模型。SD 是一个基于冻结(不参与训练)的 CLIP 文本编码器提取的文本特征进行条件生成的潜在扩散模型。该扩散模型的架构基于具有注意力层的 UNet 7。与 Imagen 这样的基于像素的扩散模型相比,SD 更高效,因为 SD 是在一个预训练的自动编码器模型的潜在空间上构建的。

一、训练与推理

在训练期间,作者仅优化 IP-Adapter,而保持预训练的扩散模型的参数不变。IP-Adapter 同样在包含图像-文本对的数据集8上进行训练,使用与原始稳定扩散(Stable Diffusion)相同的训练目标:

L simple = E x 0 , ε , c t , c i , t [ ∥ ε − ε θ ( x t , c t , c i , t ) ∥ 2 ] L_{\text{simple}} = \mathbb{E}_{x_0, \varepsilon, c_t, c_i, t} \left[ \|\varepsilon - \varepsilon_{\theta}(x_t, c_t, c_i, t)\|^2 \right] Lsimple=Ex0,ε,ct,ci,t[εεθ(xt,ct,ci,t)2]

并且在训练阶段随机丢弃图像条件,以便在推理阶段启用无分类器指导(classifier-free guidance):

ε ^ θ ( x t , c t , c i , t ) = w ε θ ( x t , c t , c i , t ) + ( 1 − w ) ε θ ( x t , t ) \hat{\varepsilon}_{\theta}(x_t, c_t, c_i, t) = w\varepsilon_{\theta}(x_t, c_t, c_i, t) + (1 - w)\varepsilon_{\theta}(x_t, t) ε^θ(xt,ct,ci,t)=wεθ(xt,ct,ci,t)+(1w)εθ(xt,t)

在这里,如果图像条件被丢弃,就简单地将 CLIP 图像嵌入置为零。由于文本交叉注意力和图像交叉注意力是分离的,还可以在推理阶段调整图像条件的权重:

Z new = Attention ( Q , K , V ) + λ ⋅ Attention ( Q , K ′ , V ′ ) Z_{\text{new}} = \text{Attention}(Q, K, V) + \lambda \cdot \text{Attention}(Q, K', V') Znew=Attention(Q,K,V)+λAttention(Q,K,V)

其中, λ \lambda λ 是权重因子,如果 λ = 0 \lambda = 0 λ=0 ,模型就变成原始的文本到图像扩散模型。

二、训练数据

为了训练 IP-Adapter,作者构建了一个多模态数据集,包括从两个开源数据集 LAION-2B 9和 COYO-700M 10 获取的大约 1000 万个图像-文本对。

三、实施细节

  • IP-Adapter 的实验基于 SD v1.5 11,并使用 OpenCLIP ViT-H/14 12 作为图像编码器。
  • SD 模型中有 16 个交叉注意力层,作者为每一层添加了一个新的图像交叉注意力层。这样的 IP-Adapter 总共包含约 22M (2200 万)个可训练参数,包括投影网络和适配模块,使 IP-Adapter 相当轻量化。
  • 使用 HuggingFace 的 diffusers 库 13 实现 IP-Adapter,并采用 DeepSpeed ZeRO-2 14 进行快速训练。
  • IP-Adapter 在一台配备 8 块 V100 GPU 的机器上训练 100 万步,每个 GPU 的批次大小为 8。作者使用 AdamW 15优化器,固定学习率为 0.0001,权重衰减为 0.01。
  • 训练期间,图像的最短边调整为 512,然后将图像中心裁剪为 512 × 512 的分辨率。为了启用无分类器指导,分别以 0.05 的概率丢弃文本和图像,以 0.05 的概率同时丢弃文本和图像。
  • 在推理阶段,采用 50 步的 DDIM 采样器,设置指导比例为 7.5。当只使用图像提示时,则将文本提示设为空,λ 设置为 1.0。

总结

IP-Adapter 的训练目标和 SD 的原始训练目标一致,但由于仅仅训练投影网络和适配模块(Image prompt 输入的 cross attention),可训练参数量非常轻量化(仅 22M)。


  1. Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502, 2020. ↩︎

  2. Luping Liu, Yi Ren, Zhijie Lin, and Zhou Zhao. Pseudo numerical methods for diffusion models on manifolds. arXiv preprint arXiv:2202.09778, 2022. ↩︎

  3. Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver: A fast ode solver for diffusion probabilistic model sampling in around 10 steps. Advances in Neural Information Processing Systems, 35:5775–5787, 2022. ↩︎

  4. Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. Dpm-solver++: Fast solver for guided sampling of diffusion probabilistic models. arXiv preprint arXiv:2211.01095, 2022. ↩︎

  5. Prafulla Dhariwal and Alexander Nichol. Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34:8780–8794, 2021. ↩︎

  6. Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598, 2022. ↩︎

  7. Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In Medical Image Computing and Computer-Assisted Intervention–MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, pages 234–241. Springer, 2015. ↩︎

  8. 需要注意的是,仅使用图像提示也能很好地指导最终生成,因此也可以在没有文本提示的情况下训练模型。 ↩︎

  9. Christoph Schuhmann, Romain Beaumont, Richard Vencu, Cade Gordon, Ross Wightman, Mehdi Cherti, Theo Coombes, Aarush Katta, Clayton Mullis, Mitchell Wortsman, et al. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems, 35:25278–25294, 2022. ↩︎

  10. Minwoo Byeon, Beomhee Park, Haecheon Kim, Sungjun Lee, Woonhyuk Baek, and Saehoon Kim. Coyo-700m: Image-text pair dataset. https://github.com/kakaobrain/coyo-dataset, 2022. ↩︎

  11. https://huggingface.co/runwayml/stable-diffusion-v1-5 ↩︎

  12. Gabriel Ilharco, Mitchell Wortsman, Ross Wightman, Cade Gordon, Nicholas Carlini, Rohan Taori, Achal Dave, Vaishaal Shankar, Hongseok Namkoong, John Miller, Hannaneh Hajishirzi, Ali Farhadi, and Ludwig Schmidt. Openclip. https://github.com/mlfoundations/open_clip, 2021. ↩︎

  13. Patrick von Platen, Suraj Patil, Anton Lozhkov, Pedro Cuenca, Nathan Lambert, Kashif Rasul, Mishig Davaadorj, and Thomas Wolf. Diffusers: State-of-the-art diffusion models. https://github.com/huggingface/ diffusers, 2022 ↩︎

  14. Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, Scott Gray, Chelsea Voss, Alec Radford, Mark Chen, and Ilya Sutskever. Zero-shot text-to-image generation. In International Conference on Machine Learning, pages 88218831. PMLR, 2021. ↩︎

  15. Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101, 2017. ↩︎

相关文章:

【可控图像生成系列论文(四)】IP-Adapter 具体是如何训练的?1公式篇

系列文章目录 【可控图像生成系列论文(一)】 简要介绍了 MimicBrush 的整体流程和方法;【可控图像生成系列论文(二)】 就MimicBrush 的具体模型结构、训练数据和纹理迁移进行了更详细的介绍。【可控图像生成系列论文&…...

堆的实现详解

目录 1. 堆的概念和特点2. 堆的实现2.1 堆向下调整算法2.2堆的创建2.3 建堆时间复杂度2.4 堆的插入2.5 堆的删除2.6 堆的代码实现2.6.1 结构体2.6.2 初始化2.6.3 销毁2.6.4 插入2.6.5 删除2.6.6 获取堆顶2.6.7 判空2.6.8 个数2.6.9 向上调整2.6.10 向下调整3. 堆的实现测试测试…...

iptables配置NAT实现端口转发

加载防火墙的内核模块 modprobe ip_tables modprobe ip_nat_ftp modprobe ip_conntrack 1.开启路由转发功能 echo net.ipv4.ip_forward 1 >> /etc/sysctl.conf sysctl -p2、将本地的端口转发到本机端口 将本机的 7777 端口转发到 6666 端口。 iptables -t nat -A PR…...

【启明智显产品介绍】Model3C工业级HMI芯片详解专题(一)芯片性能

【启明智显产品介绍】工业级HMI芯片Model3C详解(一)芯片性能 Model3C 是一款基于 RISC-V 的高性能、国产自主、工业级高清显示与智能控制 MCU,配置平头哥E907,主频400MHz,强大的 2D 图形加速处理器、PNG/JPEG 解码引擎…...

Socket编程【个人简单】

介绍 Socket是计算机网络中的一种通信端点,通过它应用程序可以在网络上发送和接收数据。它可以是基于TCP(传输控制协议)的流套接字,也可以是基于UDP(用户数据报协议)的数据报套接字。 TCP、UDP、HTTP和We…...

java入门 grpc测试案例

一、 参考资料 参考孙帅suns教程 https://www.bilibili.com/video/BV13M41157gU/?p3&spm_id_from333.880.my_history.page.click&vd_source4cd1b6f268e2a29a11bea5d2568836ee 二、 服务端 项目目录 maven构建项目 pom.xml <project xmlns"http://maven.a…...

【操作系统】信号处理与阻塞函数|时序竞态问题

&#x1f525;博客主页&#xff1a; 我要成为C领域大神&#x1f3a5;系列专栏&#xff1a;【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 ​ 关于阻塞函数和…...

go语言day4 引入第三方依赖 整型和字符串转换 进制间转换 指针类型 浮点数类型 字符串类型

Golang依赖下载安装失败解决方法_安装go依赖超时怎么解决-CSDN博客 go安装依赖包&#xff08;go get, go module&#xff09;_go 安装依赖-CSDN博客 目录 go语言项目中如何使用第三方依赖&#xff1a;&#xff08;前两步可以忽略&#xff09; 一、安装git&#xff0c;安装程序…...

IOS Swift 从入门到精通:闭包第二部分,高级闭包

文章目录 当闭包接受参数时使用闭包作为参数当闭包返回值时使用闭包作为参数简写参数名称高级闭包: 具有多个参数的闭包高级闭包:从函数返回闭包高级闭包:捕获值总结当闭包接受参数时使用闭包作为参数 这是闭包开始变得有点像线路噪声的地方:传递给函数的闭包也可以接受它…...

爬虫超详细介绍

爬虫&#xff08;Spider&#xff09;是一种自动化程序&#xff0c;用于在互联网上获取信息。 其工作原理主要可以分为以下几个步骤&#xff1a; 发起请求&#xff1a; 爬虫首先需要向目标网站发起HTTP请求&#xff0c;以获取网页的内容。这个请求可以包含一些额外的信息&…...

双向长短期记忆神经网络BiLSTM

先说一下LSTM LSTM 是一种特殊的 RNN&#xff0c;它通过引入门控机制来解决传统 RNN 的长期依赖问题。 LSTM 的结构包含以下几个关键组件&#xff1a; 输入门&#xff08;input gate&#xff09;&#xff1a;决定当前时间步的输入信息对细胞状态的影响程度。遗忘门&#xff…...

python基础篇(4):range语句

1 功能介绍 range语句的功能是获得一个数字序列&#xff08;可迭代类型的一种&#xff09; 2 语法 语法1&#xff1a; range(num) 获取一个从0开始&#xff0c;到num结束的数字序列&#xff08;不含num本身&#xff09; 如range(5)取得的数据是&#xff1a;[0, 1, 2, 3, 4…...

基于STM32的简易计算器proteus仿真设计(仿真+程序+设计报告+讲解视频)

基于STM32的简易计算器proteus仿真设计 讲解视频1.主要功能2. 仿真3. 程序4. 设计报告5. 资料清单&下载链接 基于STM32的简易计算器proteus仿真设计(仿真程序设计报告讲解视频&#xff09; 仿真图proteus 8.9 程序编译器&#xff1a;keil 5 编程语言&#xff1a;C语言 …...

小程序onLoad 和 onShow

onLoad 和 onShow 是小程序页面的生命周期函数&#xff0c;它们在不同的时机触发&#xff0c;具有不同的用途和执行顺序 1.onLoad: &#xff08;1&#xff09;onLoad 在页面加载时触发&#xff0c;仅执行一次。 &#xff08;2&#xff09;用于页面的初始化操作&#xff0c;例如…...

抖音直播违规规定有哪些?(直播违禁词汇总表)

全民直播的同时也有不少新手直播玩家处处碰壁,直播间没人气,直播不知道说什么甚至直播间被封。 收到直播封禁通知的朋友,轻者封禁直播账号两三天,严重着可能永久封禁直播间! 今天我们重点来说说直播间被封是怎么回事?如何避免抖音直播间被封?抖音直播间违规规定有哪些?抖音…...

安卓 jetpack compose

以下是 Jetpack Compose 中常用的一些组件的列表&#xff1a; 组件名称描述Text用于显示文本内容。Button可点击的按钮组件&#xff0c;常用于触发事件。TextField用于输入文本的文本框组件。Image用于展示图片。Column垂直布局容器&#xff0c;可以在其中垂直排列子组件。Row…...

JavaWeb系列十九: jQuery的DOM操作 上

查找节点, 修改属性 查找属性节点: 查找到所需要的元素之后, 可以调用jQuery对象的attr()方法用来 设置/返回 它的各种属性值 设置属性值 $(“img”).attr(“width”, “300”);返回属性值 $(“img”).attr(“width”); 创建节点 创建节点: 使用jQuery的工厂函数$(): $(html标…...

JavaWeb系列十一: Web 开发会话技术(Cookie, Session)

韩sir Cookie技术Cookie简单示意图Cookie常用方法Cookie创建Cookie读取JSESSIONID读取指定Cookie Cookie修改Cookie生命周期Cookie的有效路径Cookie作业布置Cookie注意事项Cookie中文乱码问题 Session技术Session原理示意图Session常用方法Session底层机制Session生命周期Sessi…...

【激光雷达使用记录】—— 如何在ubuntu中利用ros自带的rviz工具实时可视化雷达点云的数据

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、查看雷达数据的 frame_id1. 查看雷达数据的话题2. 查看数据的frame_id 二、可视化雷达数据总结 前言 RViz&#xff08;ROS Visualization&#xff09;是机…...

运行项目报错(java: 无效的目标发行版: 17)项目jdk版本不兼容,修改Java编译器配置

...

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…...

Ubuntu系统下交叉编译openssl

一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机&#xff1a;Ubuntu 20.04.6 LTSHost&#xff1a;ARM32位交叉编译器&#xff1a;arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

【kafka】Golang实现分布式Masscan任务调度系统

要求&#xff1a; 输出两个程序&#xff0c;一个命令行程序&#xff08;命令行参数用flag&#xff09;和一个服务端程序。 命令行程序支持通过命令行参数配置下发IP或IP段、端口、扫描带宽&#xff0c;然后将消息推送到kafka里面。 服务端程序&#xff1a; 从kafka消费者接收…...

CTF show Web 红包题第六弹

提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框&#xff0c;很难让人不联想到SQL注入&#xff0c;但提示都说了不是SQL注入&#xff0c;所以就不往这方面想了 ​ 先查看一下网页源码&#xff0c;发现一段JavaScript代码&#xff0c;有一个关键类ctfs…...

Spark 之 入门讲解详细版(1)

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室&#xff08;Algorithms, Machines, and People Lab&#xff09;开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目&#xff0c;8个月后成为Apache顶级项目&#xff0c;速度之快足见过人之处&…...

突破不可导策略的训练难题:零阶优化与强化学习的深度嵌合

强化学习&#xff08;Reinforcement Learning, RL&#xff09;是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程&#xff0c;然后使用强化学习的Actor-Critic机制&#xff08;中文译作“知行互动”机制&#xff09;&#xff0c;逐步迭代求解…...

【Linux】C语言执行shell指令

在C语言中执行Shell指令 在C语言中&#xff0c;有几种方法可以执行Shell指令&#xff1a; 1. 使用system()函数 这是最简单的方法&#xff0c;包含在stdlib.h头文件中&#xff1a; #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时&#xff0c;需结合业务场景设计数据流转链路&#xff0c;重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点&#xff1a; 一、核心对接场景与目标 商品数据同步 场景&#xff1a;将1688商品信息…...

从零实现STL哈希容器:unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享 希望也能为你带来些帮助~ 那咱们废话不多说&#xff0c;直接开始吧&#xff01; 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

(转)什么是DockerCompose?它有什么作用?

一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用&#xff0c;而无需手动一个个创建和运行容器。 Compose文件是一个文本文件&#xff0c;通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...