Adding Conditional Control to Text-to-Image Diffusion Models
安全验证 - 知乎知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台,建立起了以社区驱动的内容变现商业模式。
https://zhuanlan.zhihu.com/p/605761756
ModelScope 魔搭社区https://modelscope.cn/models/dienstag/cv_controlnet_controllable-image-generation_nine-annotators/summarycontrolnet的核心在于给stable diffusion施加了精准控图,stable diffusion生成的图本质上是通过prompt进行引导从噪声中生成的,text是唯一的输入,controlnet输入了text之外额外的一个维度,目前论文支持canny边缘图,hough线条,hed边缘图,简笔图,pose人体姿态,分割图,深度图等。在流程上,依然是输入图片和prompt,controlnet会先从图片中提取线框图,再输入prompt和线框图即可生成新图。从技术上,controlnet对stable diffusion进行微调,核心通过两个零卷积对权重部分进行映射调整,具体来说,对于预训练好的模型(比如作者使用sd1.5-unet里encoder和middlelayer的resenet和transformer层)里的一层结构,作者固定其参数,并将该层的输入额外添加一个全连接映射后的条件c,输入到一个和该层结构一致的复制网络里,再映射一次后重新添加回原结构里的输出。在训练上,需要成对的text-线框和原图这种数据对。此外作者也提出了小规模训练和大规模训练,力争将stable diffusion的微调平民化。
1.introduction
基于提示的大模型是否满足我们特定的要求?在图像领域已经有明确范式的任务,大模型是否可以应用促进这些特定任务?我们应该构建什么样的框架来处理大范围的条件问题和用户的控制需求?在具体任务中,大模型能否保留从数十亿张图像中获得的优势和能力?
为了回答这些问题,我们的调查有三个发现。1.特定任务领域中的可用数据并不总是像一般图像-文本领域中那么大。许多特定问题(目标形状/normal,姿态理解等)的最大数据往往在100k以下,laion-B有5b的数据对。2.大型计算集群并不是谁都有的,预训练权重的迁移微调是可利用的。3.各种图像处理问题具有不同形式的定义,用户控制或者图像注释。尽管扩散算法可以以程序性方式来调节,这些问题本质上需要将原始输入解释为对象级别或者场景级别的理解,人工规则往往行不通,并且很多任务都是希望端到端进行的。

上图输入是canny边缘图,输出是符合控制条件的图。
本文介绍controlnet,这是一种端到端的神经网络结构,它控制大型图像扩散模型来学习特定任务的输入条件。controlnet将大型扩散模型权重克隆为trainable copy(可训练副本)和locked copy(锁定副本),锁定副本保留从数十亿图像中学习的能力,而可训练副本在特定任务的数据集上训练,以学习条件控制。可训练和锁定的模块与zero convolution连接,其中卷积权重以学习的方式从零逐渐增长到优化的参数。由于保留了production-ready weights,因此训练在不同规模的数据集上是稳健的。由于零卷积不会向深层特征添加新的噪声,因此与从头开始训练新图层相比,训练和微调扩散模型一样快。我们用不同条件的各种数据集训练控制王,小数据集(50k,甚至1k)效果也不错,在rtx3090ti上也可以训练。
2.related work
2.1 hypernetwork and neural network structure
hypernetwork用于训练一个小的递归网络来影响一个较大的神经网络的权重。controlnet使用一个特殊的卷积,zero convolution,在扩散模型中缩放几个卷积层的初始权重以改善训练的方法。
2.2 diffusion probabilistic model
扩散模型对训练和采样方法进行优化,采样方式包括DDPM/DDIM/score-based diffusion。本质上使用u-net作为架构,为了降低训练扩散模型所需的计算能力,提出LDM(潜在扩散模型)。
2.3 text-to-image diffusion
扩散模型可以用于文本到图像生成,通过使用clip将文本输入编码成潜在向量实现。
2.4 personalization,customization,and control of pretrained diffusion model
因为图像扩散模型是文本到图像的方法主导的,所以增强对扩散的控制最直接的方式是文本引导,这种类型的控制也可以通过操作剪辑特征实现。
2.5 image-to-image translation
尽管controlnet和图像到图像的翻译可能有一些重叠的应用,但是他们的动机本质是不同的,图像到图像的翻译旨在学习不同领域中的图像之间的映射,而控制网络旨在控制具有特定任务条件的扩散模型。
3.method
3.1 controlnet

如上图所示,我们锁定中的所有参数将其克隆到可训练副本中,复制的副本用外部条件c训练,在本文中,我们将原始参数和新参数成为锁定副本和可训练副本,制作这种副本而不是直接训练原始权重的动机是为了避免数据集较小时的过拟合,并保持从数十亿张图像中学习的大型模型的production-ready quality。神经网络块通过zero convolution的卷积层来连接,其权重和偏差都用零初始化。在一开始训练时,神经网络块中可训练和锁定副本中所有输入和输出都与不存在控制网络时情况一致。换句话说,当控制网络被应用在一些神经网络块时,在任何优化之前,它不会对深层神经网络的特征造成任何影响,任何神经网络块的能力、功能和结果质量都被保留,且任何进一步的优化将变得与微调一样快。


上述公式是零卷积的梯度计算,虽然对输入I的梯度初始为0,但是权重和偏差都不受影响,只要输入I不为0,权重将在第一次梯度下降中被优化为非0矩阵。


w※是一次梯度下降之后的,对输入I求导,获得非0梯度。以这种方式,零卷积成为一种独特类型的连接层,从零逐渐增长到优化的参数。
3.2 controlnet in image diffusion model

stable diffusion是在数十亿张图像上训练的大型文本到图像扩散模型。如上所示,本质上是一个u-net,有编码器、中间模块和解码器,中间进行跳跃连接,编码器和解码器都有12个,包括中间模块一共有25个模块,这些模块中,8个是上下采样的卷积层,17个主要的模块,每个包括4个resnet层和2个vision transformer,每个vit包括几个cross-attention或者self-attention。文本采用openai clip编码,扩散时间步长采用位置编码。
stable diffusion使用和vq-gan相似的预处理方法,将512x512图像转成64x64的潜在图像,controlnet将image-based condition(就是从图像中获取线框图)转成64x64,我们使用4个4x4核和2x2strides的卷积层(后接relu,通常数分别是16,32,64,128,Guassian weights)将image-space condition转成特征图。该网络将512x512转成64x64。
如上图所示,使用controlnet来控制u-net的每一层,锁定权重是不计算梯度的,使用controlnet训练大概只增加23%的内存和34%的一次迭代时间。具体来说,使用controlnet来创建stable diffusion的12个编码块和1个中间层的可训练副本,4个快采用4中分辨率,每个块有三个。
作者的安排十分有意思。笔者在做相关实验时会联想到学术界已经形成的一些共识来设计实验:比如由去年八月份论文prompt to prompt提出后,文生图里图片布局几何关系很大程度上由cross-attn时文本对不同位置的像素点的激活程度所决定。所以笔者初始时会思考是否可以直接将text embedding添加融合模块与sketch info(或其余模态的信息)交互,微调整个模型使其学会兼顾新的模态信息。笔者也会思考是否直接像GLIGEN的方式直接在attn层附近添加融合模块会取得好的效果。但论文作者没有如此安排。论文作者的思路更加类似于《Plug-and-Play Diffusion Features for Text-Driven Image-to-Image Translation》这篇论文的思路。即对于一张模型生成的图片,其UNet的decoder一定已经包含了其生成的一些空间信息,语义信息等。直接抽取decoder相关的特征,添加到当前的生成能够影响当前生成的布局语义等。这是笔者觉得非常有意思的一点。
3.3 training
在训练过程中,我们随机将50%文本提示词替换为空字符串,这有助于controlnet从输入条件图中识别语义内容的能力,如涂鸦和边缘图,这主要是因为当提示对stable diffusion不可见时,编码器倾向于从输入控制映射中学习更多的语义作为提示词的替代。
3.4 implement
文本-条件图-图像对。
相关文章:
Adding Conditional Control to Text-to-Image Diffusion Models
安全验证 - 知乎知乎,中文互联网高质量的问答社区和创作者聚集的原创内容平台,于 2011 年 1 月正式上线,以「让人们更好的分享知识、经验和见解,找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制…...
C++从头再来:知识点速通
1. 关于scanf 1.1 读入数字 scanf 的返回值表示成功输入的变量个数,当输入结束时,scanf将无法再次读取数据,返回0 # include <stdio.h> # include <math.h> # include <time.h># define M 1000000; // compute the max,…...
LearnDash Groups学习群组:您需要了解的一切
大约131k 网站使用 LearnDash。因此,毫无疑问,LearnDash是 WordPress 领域中最受欢迎的 LMS。而且,这是因为它具有强大的功能。但让它更受欢迎的是它与大多数第 3 方扩展很好地集成,并且比现有的任何其他 LMS 都更灵活。群组和群组…...
软件开发过程中遇到一个傻嘚业主能让你抓狂
背景 之前的一个网站交付了之后,业主一直未验收,今天忽然间开始了他的扯淡需求调整。 问题1 有一个问题是pdf文件上传显示问题,目前是pdf有一个封面要上传,排序字段可自动调整控制。但是就这么好用的功能,被他给pas…...
信创系统借力小程序应用生态的可能性
随着国内市场需求的不断增长,国产操作系统的应用也开始逐步发展壮大。国产操作系统在与其他操作系统的竞争中,越来越受到用户的青睐。国产操作系统作为一个全新的市场,给应用开发带来了新的机遇和挑战。本文将从国产操作系统应用的现状分析、…...
ISFP型人格的优势和劣势分析(mbti性格测试)
isfp型人格的优势分析ISFP在艺术上具有令人惊叹的天分,他们充沛且敏锐的情感能够轻易捕捉到那些细腻的情感变化。他们具有强大的表现力和感染力,能够通过自己的作品,将情感描绘出来并令观众感同身受,这使得他们在艺术和人文领域能…...
电影《断网》观后感
上周看了电影《断网》这部电影,题材是网络攻击与防范的故事,这样的题材距离我们很远,又离我们很近,我们每天都在用网络,生活中也离不开网络,所以它离我们很近,但是真正涉及到网络攻击时…...
查看python第三方库的依赖pkgs
课题组的服务器不给连外网,安装python第三方库就只能手动离线安装。但是python第三方库可能会迭代依赖,单纯的pip show [pkg]是看不出来的…… 参考链接:查看python第三方库的依赖 https://blog.csdn.net/qq_38316655/article/details/127943…...
CF756div3 vp
又被薄纱了,rk就不放了,好丢人QwQDashboard - Codeforces Round 756 (Div. 3) - CodeforcesA. Make Even小分类讨论题意:给定一个数,每次操作可以选取其前缀然后翻转其前缀,问你最少操作几次可以把该数变为偶数思路&am…...
Linux命令·less
less 工具也是对文件或其它输出进行分页显示的工具,应该说是linux正统查看文件内容的工具,功能极其强大。less 的用法比起 more 更加的有弹性。在 more 的时候,我们并没有办法向前面翻, 只能往后面看,但若使用了 less …...
修改redis改key值不改过期时间
今天在做图片验证码的时候遇到一个问题。用redis的生命周期来存放,用户输入错误次数。 三十秒内输错三次就,等待三十分钟。 那么问题来了,如果说第一次输入错误,应该是 key为用户用,value 为 次数2 ex就为30秒 &…...
Spark的DataFrame使用
内容目录创建SparkSession对象从CSV文件中读取从JSON文件中读取从Parquet文件中读取从数据列表中创建DataFrame从字典列表中创建DataFrame选择一列选择多列过滤年龄大于30的数据过滤名字为Alice的数据可以使用and、or、not等操作符进行组合查询按照年龄分组并计算平均年龄和最大…...
【Flutter】入门Dart语言:操作符的基本用法
文章目录 一、前言二、常用的操作符1.算术操作符2.关系操作符3.逻辑操作符4.赋值操作符5.三元运算符三、总结一、前言 当我们在编写Flutter应用程序时,操作符是我们不可或缺的工具。它们是用于执行各种操作的关键字和符号,可以帮助我们简化代码并提高效率。熟练掌握各种类型…...
Linux线程概念
重新认识一下进程 在之前写过的与进程相关的博文中,都把进程看作是只有一个PCB的进程。如图: 而实际上,在Linux中,进程不止一个执行流,而是可能会有几个或很多个。同一个进程中,每一个执行流都指向同一个虚…...
C#基础教程10 方法
C#方法 方法的语法访问修饰符:返回类型:方法名称:参数列表:方法体:返回值:方法的调用参数传递按值传递按引用传递输出参数方法的重载总结方法是C#中最基本的代码结构之一。方法是一组可重复使用的代码,它接受输入,执行一些操作并返回结果。在本教程中,我们将深入了解C…...
java高性能并发计数器之巅峰对决
并发计数器各个方案介绍方案概述1. jdk5提供的原子更新长整型类 AtomicLong2. synchronized3. jdk8提供的 LongAdder 【单机推荐】4. Redisson分布式累加器【分布式推荐】方案介绍jdk5提供的原子更新长整型类 AtomicLong在JDK1.5开始就新增了并发的Integer/Long的操作工具类Ato…...
HTTPS简介
HTTPS是HTTP开启TLS传输协议,客户端要拿到服务端的公钥,用公钥加密数据后再进行传输,防止数据泄露后背篡改。它要解决两个问题:怎么保证公钥可信怎么加密数据公钥可信问题客户端从服务端获取公钥的时候,存在请求被拦截…...
K-means聚类
原理说明 Kmeans是一种常见的聚类算法,用于将相似的数据点归类到不同的群组中。Kmeans的原理如下: 初始化:Kmeans算法首先需要初始化一个用户指定数量的聚类中心点,通常是随机选取K个数据点作为聚类中心点。 分配:对…...
04-SQL基础(表管理,约束,多表连接,子查询)
本文章主要内容 1、表的管理:创建表,修改表结构,删除字段,修改字段,添加字段,删除表,添加表约束; 2、数据管理:新增记录,修改记录,删除记录&…...
统计学 一元线性回归
统计学 一元线性回归 回归(Regression):假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,利用该模型根据给定的自变量来预测因变量 线性回归:因变量和自变量之间是线性关系 非线…...
【杂谈】-递归进化:人工智能的自我改进与监管挑战
递归进化:人工智能的自我改进与监管挑战 文章目录 递归进化:人工智能的自我改进与监管挑战1、自我改进型人工智能的崛起2、人工智能如何挑战人类监管?3、确保人工智能受控的策略4、人类在人工智能发展中的角色5、平衡自主性与控制力6、总结与…...
IGP(Interior Gateway Protocol,内部网关协议)
IGP(Interior Gateway Protocol,内部网关协议) 是一种用于在一个自治系统(AS)内部传递路由信息的路由协议,主要用于在一个组织或机构的内部网络中决定数据包的最佳路径。与用于自治系统之间通信的 EGP&…...
关于nvm与node.js
1 安装nvm 安装过程中手动修改 nvm的安装路径, 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解,但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后,通常在该文件中会出现以下配置&…...
深入理解JavaScript设计模式之单例模式
目录 什么是单例模式为什么需要单例模式常见应用场景包括 单例模式实现透明单例模式实现不透明单例模式用代理实现单例模式javaScript中的单例模式使用命名空间使用闭包封装私有变量 惰性单例通用的惰性单例 结语 什么是单例模式 单例模式(Singleton Pattern&#…...
MVC 数据库
MVC 数据库 引言 在软件开发领域,Model-View-Controller(MVC)是一种流行的软件架构模式,它将应用程序分为三个核心组件:模型(Model)、视图(View)和控制器(Controller)。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系,以…...
oracle与MySQL数据库之间数据同步的技术要点
Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异,它们的数据同步要求既要保持数据的准确性和一致性,又要处理好性能问题。以下是一些主要的技术要点: 数据结构差异 数据类型差异ÿ…...
生成 Git SSH 证书
🔑 1. 生成 SSH 密钥对 在终端(Windows 使用 Git Bash,Mac/Linux 使用 Terminal)执行命令: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明: -t rsa&#x…...
算法岗面试经验分享-大模型篇
文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer (1)资源 论文&a…...
SQL进阶之旅 Day 22:批处理与游标优化
【SQL进阶之旅 Day 22】批处理与游标优化 文章简述(300字左右) 在数据库开发中,面对大量数据的处理任务时,单条SQL语句往往无法满足性能需求。本篇文章聚焦“批处理与游标优化”,深入探讨如何通过批量操作和游标技术提…...
ABAP设计模式之---“Tell, Don’t Ask原则”
“Tell, Don’t Ask”是一种重要的面向对象编程设计原则,它强调的是对象之间如何有效地交流和协作。 1. 什么是 Tell, Don’t Ask 原则? 这个原则的核心思想是: “告诉一个对象该做什么,而不是询问一个对象的状态再对它作出决策。…...
