当前位置：首页 > news >正文

音视频开发之旅（69）-SD图生图

news 2026/2/9 15:04:30

一、效果展示

图生图的应用场景非常多，比较典型的应用场景有风格转化（真人与二次元）、线稿上色、换装和对图片进行扩图等，下面我们看下几个场景的效果

原图是用上一篇文生图文章中生成的图片

1.1 应用场景1：修改背景

highres,beach seaside,

Controlnet canny +depth

1.2 应用场景2：风格变化 -- 写实转卡通

highres,toon (style),

Anything模型

Controlnet canny +depth

1.3 应用场景3：线稿上色

1oldman,highres,Dark eyes,yellow skin,Chinese,

controlnet canny

需要注意重回尺寸以及Controlnet的Preprocess Reslution要和原图一致

1.4 应用场景4：人物姿态一致

A astronaut wearing a spacesuit in space,

Controlnet openpose

除此之外，还有很多其他的应用场景可以值得我们探索尝试，比如艺术二维码、创意字等

二、ControlNet介绍

2.1 工作原理

图片来自：StableDiffusion-ControlNet工作原理[译]

SD UNet 中的所有参数被冻结，并克隆一份(trainable copy)到 ControlNet. 这些 trainable copy 通过一个外部条件向量(external condition vector)进行训练.

下图从整体上说明了 ControlNet 和 Stable Diffusion 如何在推理过程（采样）中协同工作

2.2 控制类型

为了保证生成图片和原图的画面相关性、一致性，ControlNet是很有必要的，它可以精细的控制图片的主体、背景和风格等，ContNet有多达十几种控制类型

每种控制类型，有个不同的预处理器和模型，另外ControlNet还可以多个叠加组合使用，组合方式可以达到上百种

图片来自：从零开始学AI绘画，万字Stable Diffusion终极教程

下面介绍下最常用的几种控制方式： Canny（硬边缘）、Depth（深度图）、OpenPose（人体姿势）

2.2.1 Canny（硬边缘）

输入的原图

canny边缘图

生成的图

通过Canny提取出图片的边缘，然后使用canny对应的模型，结合prompt控制出图

使用场景：保持人物的风格轮廓不变，通过prompt修改背景的情况

2.2.2 Depth（深度图）

输入的原图

深度图

生成的图片

使用 Depth 原图被灰阶色值区分，程序自动的区分图像中元素区域的远近关系，使用该控制模式生成的图片，保持了同样的深度信息。

2.2.3 OpenPose（人体姿势）

原图

人体姿态图

生成的图片

OpenPose 可生成图像中人物的骨架图，这个骨架图可用于控制生成角色的姿态动作以及手部，OpenPos一定程度上解决了SD饱受诟病的残肢手部问题

三、图生图流程浅析

通过X/Y/Z脚本，来查看下不同生成图生图在不同采样方法的生成过程

可以看到，和文生图的不同是，输入不再以Gaussian noise作为初始化，而是以加噪后的图像特征为初始化。

图生图流程如下：

图片来自：AIGC专栏3——Stable Diffusion结构解析-以图像生成图像

第一步：对输入的图像进行VAE编码，获得图像的Latent space特征，然后使用该Latent特征基于DDIM Sampler进行加噪，获得输入图片加噪后的特征；

第二步：对输入的文本进行编码，获得Text Embding；

第三步：对前两步获得的图片加噪后的特征以及Text Embding 进行若干次采样和去噪；

第四步：使用VAE解码

四、SDWebui图生图代码流程

和文生图的流程类似

4.1 入口方法：modules.api.api.Api.img2imgapi

#输入的图片init_images = img2imgreq.init_images#初始化插件 eg：Contronetscript_args = self.init_script_args(img2imgreq, self.default_script_arg_img2img, selectable_scripts, selectable_script_idx, script_runner)
p.init_images = [decode_base64_to_image(x) for x in init_images]p.is_api = Truep.scripts = script_runnerp.outpath_grids = opts.outdir_img2img_gridsp.outpath_samples = opts.outdir_img2img_samples
#如果插件不为空，走插件处理流程，否则直接processif selectable_scripts is not None:    p.script_args = script_args    processed = scripts.scripts_img2img.run(p, *p.script_args) # Need to pass args as list hereelse:    p.script_args = tuple(script_args) # Need to pass args as tuple here    processed = process_images(p)

4.2 process_images 加载sd基础模型和vae模型

for k, v in p.override_settings.items():    opts.set(k, v, is_api=True, run_callbacks=False)
    #加载sd大模型    if k == 'sd_model_checkpoint':        sd_models.reload_model_weights()    #加载vae模型    if k == 'sd_vae':        sd_vae.reload_vae_weights()
#继续调用process生成图片res = process_images_inner(p)

4.3 process_images_inner

#获得编码后的promptp.prompts = p.all_prompts[n * p.batch_size:(n + 1) * p.batch_size]p.negative_prompts = p.all_negative_prompts[n * p.batch_size:(n + 1) * p.batch_size]p.seeds = p.all_seeds[n * p.batch_size:(n + 1) * p.batch_size]p.subseeds = p.all_subseeds[n * p.batch_size:(n + 1) * p.batch_size]
#采样samples_ddim = p.sample(conditioning=p.c, unconditional_conditioning=p.uc, seeds=p.seeds, subseeds=p.subseeds, subseed_strength=p.subseed_strength, prompts=p.prompts)
#解码x_samples_ddim = decode_latent_batch(p.sd_model, samples_ddim, target_device=devices.cpu, check_for_nans=True)
#保存生成的图片images.save_image(image, p.outpath_samples, "", p.seeds[i], p.prompts[i], opts.samples_format, info=infotext(i), p=p)

五、参考资料

1. High-Resolution Image Synthesis with Latent Diffusion Models https://arxiv.org/abs/2112.10752

2. Denoising Diffusion Probabilistic Models https://arxiv.org/pdf/2006.11239.pdf

3. AIGC专栏3——Stable Diffusion结构解析-以图像生成图像（图生图，img2img）为例 https://blog.csdn.net/weixin_44791964/article/details/131992399

4. 从零开始学AI绘画，万字Stable Diffusion终极教程！https://zhuanlan.zhihu.com/p/659211251

5. 精讲stable diffusion的controlNet插件 https://caovan.com/jingjiangstable-diffusiondecontrolnetchajian/.html/3

6. StableDiffusion-ControlNet工作原理[译] https://www.aiuai.cn/aifarm2097.html

7.Stable Diffusion 超详细讲解 https://jarod.blog.csdn.net/article/details/131018599

感谢你的阅读

接下来我们继续学习输出AIGC相关内容，欢迎关注公众号“音视频开发之旅”，一起学习成长。

欢迎交流

音视频开发之旅（69）-SD图生图

目录 1. 效果展示 2. ControlNet介绍 3. 图生图流程浅析 4. SDWebui图生图代码流程 5. 参考资料一、效果展示图生图的应用场景非常多，比较典型的应用场景有风格转化（真人与二次元）、线稿上色、换装和对图片进行扩图等，下面…...

编程日记 2024/2/26 3:24:58

數據集成平台：datax將hive數據步到mysql（全部列和指定列）

數據集成平台：datax將hive數據步到mysql（全部列和指定列） 1.py腳本傳入參數： target_database：數據庫 target_table：表 target_columns：列 target_positions：hive列的下標&#x…...

编程日记 2024/2/26 3:20:54

pikachu靶场-File Inclusion

介绍： File Inclusion(文件包含漏洞)概述文件包含，是一个功能。在各种开发语言中都提供了内置的文件包含函数，其可以使开发人员在一个代码文件中直接包含（引入）另外一个代码文件。比如在PHP中，提供了&…...

编程日记 2024/2/26 3:19:52

[今天跟AI聊聊职场] ～你能接受你的直接领导能力不如你，年纪还比你小很多吗？

知乎问题： 弟弟今年35岁，刚换了一份工作，直接领导小A比他小5岁，各方面经验没有他成熟。难的工作都是弟弟在做，功劳都被直接领导小A抢走了，有时候还要被直接领导小A打压。弟弟感觉升职加薪无望。现在找工作不…...

编程日记 2024/2/26 3:18:52

网络原理TCP之“三次握手“

TCP内核中的建立连接众所周知,TCP是有连接的. 当我们在客户端敲出socket new Socket(serverIp,severPort)时,就在系统内核就在建立连接真正建立连接是在系统内核中建立的,我们程序员只是调用相关的api. 在此处,我们把TCP的建立连接称为三次握手. 系统在内核建立连接时如上…...

编程日记 2024/2/26 3:17:51

990-03产品经理与程序员:什么是 IT 与业务协调以及为什么它很重要？

What is IT-business alignment and why is it important? 什么是IT-业务一致性？为什么它很重要？ It’s more important than ever that IT and the business operate from the same playbook(剧本). So why do so many organizations struggle to ach…...

编程日记 2024/2/26 3:10:44

Java Web(七）__Tomcat(二）

Tomcat工作模式 Tomcat作为Servlet容器，有以下三种工作模式。 1）独立的Servlet容器，由Java虚拟机进程来运行 Tomcat作为独立的Web服务器来单独运行，Servlet容器组件作为Web服务器中的一部分而存在。这是Tomcat的默认工作模式。…...

编程日记 2024/2/26 3:05:40

【项目实战】帮美女老师做一个点名小程序（Python tkinter）

前言博主有一个非常漂亮的老师朋友😍。最近，她急需一个能够实现随机点名的小程序，而博主正好擅长这方面的技术🤏。所以，今天博主决定为她制作一个专门用于点名的小程序💪。博主在美女老师面前吹完牛皮之…...

编程日记 2024/2/26 3:04:39

Elasticsearch 去重后求和

标题的要求可以用如下 SQL 表示 select sum(column2) from (select distinct(column1),column2 from table)t 要如何用 DSL 实现呢，先准备下索引和数据 PUT test_index {"mappings": {"properties": {"column1": {"type"…...

编程日记 2024/2/26 2:58:34

考研数学——高数：函数与极限（3）

函数的连续性与间断点函数的连续性左连续右连续区间上的连续性在xo处连续函数的间断点第一类间断点（左右极限都存在）可去间断点： f(xo-0)= f(xo+0) 跳跃间断点： f(xo-0)≠ f(xo+0) 第二类间断点（震荡间断点、无穷间断点）...

编程日记 2024/2/26 2:54:30

LeetCode49 字母异位词分组

LeetCode49 字母异位词分组在这篇博客中，我们将探讨 LeetCode 上的一道经典算法问题：字母异位词分组。这个问题要求将给定的字符串数组中的字母异位词组合在一起，并以任意顺序返回结果列表。问题描述给定一个字符串数组 strs&#xff0…...

编程日记 2024/2/26 2:53:30

【Python】Windows本地映射远程Linux服务器上的端口（解决jupyter notebook无法启动问题）

创作日志： 学习深度学习不想在本地破电脑上再安装各种软件，我就用实验室的服务器配置环境，启动jupyter notebook时脑子又瓦特了，在自己Windows电脑上打开服务器提供的网址，那肯定打不开啊，以前在其它电脑上…...

编程日记 2024/2/26 2:51:27

C++面试：用户态和内核态的基本概念、区别

目录一、基本概念概念： 区别： 二、Windows示例基础介绍用户态到内核态的切换过程： 程序实例三、Linux示例特权级别： 用户态到内核态的切换过程： 调度和中断处理： 程序实例总结在操作系…...

编程日记 2024/2/26 2:49:25

Vue计算属性computed()

1. 计算属性定义获取计算属性值 <div>{{ 计算属性名称}}</div>创建计算属性 let 定义的属性ref/reactive....let 计算属性名称 computed(() > {//这里写函数式,函数式里面包含定义属性//只有这个包含的定义属性被修改时才出发此函数式//通过计算属性名称co…...

编程日记 2024/2/26 2:40:17

JWT学习笔记

了解 JWT Token 释义及使用 | Authing 文档 JSON Web Token Introduction - jwt.io JSON Web Token (JWT，RFC 7519 (opens new window))，是为了在网络应用环境间传递声明而执行的一种基于 JSON 的开放标准（(RFC 7519)。该 token 被设计为紧凑…...

编程日记 2024/2/26 2:37:15

WSL里的Ubuntu 登录密码忘了怎么更改

环境： Win10 专业版 WSL2 如何 Ubuntu22.04 问题描述： WSL里的Ubuntu 登录密码忘了怎么更改解决方案： 在WSL中的Ubuntu系统中，忘记了密码，可以通过以下步骤重置密码： 1.打开命令提示符或PowerShel…...

编程日记 2024/2/26 2:35:13

【软件测试面试】要你介绍项目-如何说？完美面试攻略...

目录：导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结（尾部小惊喜） 前言 1、测试面试时&am…...

编程日记 2024/2/26 2:33:11

【Crypto | CTF】RSA打法集合

天命：我发现题题不一样，已知跟求知的需求都不一样题目一：已知 p q E ，计算T，最后求D 已知两个质数p q 和公钥E ，通过p和q计算出欧拉函数T，最后求私钥D 【密码学 | CTF】BUUCTF RSA-CSDN…...

编程日记 2024/2/26 2:29:07

在springboot中调用openai Api并实现流式响应

之前在《在springboot项目中调用openai API及我遇到的问题》这篇博客中，我实现了在springboot中调用openai接口，但是在这里的返回的信息是一次性全部返回的，如果返回的文字比较多，我们可能需要等很久。所以需要考虑将请求接口响应…...

编程日记 2024/2/26 2:25:03

C++构造函数重难点解析

一、C构造函数是什么 C的构造函数是一种特殊的成员函数，用于初始化类的对象。它具有与类相同的名称，并且没有返回类型。构造函数在创建对象时自动调用，并且可以执行必要的初始化操作。二、C构造函数特点类的构造函数不能被继承&#xff0c…...

编程日记 2024/2/26 2:24:02

内存分配函数malloc kmalloc vmalloc

内存分配函数malloc kmalloc vmalloc malloc实现步骤： 1）请求大小调整：首先，malloc 需要调整用户请求的大小，以适应内部数据结构（例如，可能需要存储额外的元数据）。通常，这包括对齐调整，确保分配的内存地址满足特定硬件要求（如对齐到8字节或16字节边界）。 2）空闲…...

编程新知 2025/11/1 5:21:39

C++：std::is_convertible

C++标志库中提供is_convertible，可以测试一种类型是否可以转换为另一只类型： template <class From, class To> struct is_convertible; 使用举例： #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...

编程新知 2025/6/11 15:23:57

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2026/1/9 12:53:59

蓝桥杯 2024 15届国赛 A组儿童节快乐

P10576 [蓝桥杯 2024 国 A] 儿童节快乐题目描述五彩斑斓的气球在蓝天下悠然飘荡，轻快的音乐在耳边持续回荡，小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下，六一来了。今天是六一儿童节，小蓝老师为了让大家在节…...

编程新知 2025/12/5 2:40:04

【决胜公务员考试】求职OMG——见面课测验1

2025最新版！！！6.8截至答题，大家注意呀！ 博主码字不易点个关注吧,祝期末顺利~~ 1.单选题(2分) 下列说法错误的是:（ B ） A.选调生属于公务员系统 B.公务员属于事业编 C.选调生有基层锻炼的要求 D…...

编程新知 2025/11/8 16:25:01

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术，可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势，还能有效评价重大生态工程…...

编程新知 2025/9/12 15:10:44

OPENCV形态学基础之二腐蚀

一.腐蚀的原理 (图1) 数学表达式：dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一，腐蚀跟膨胀属于反向操作，膨胀是把图像图像变大，而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。腐蚀…...

编程新知 2026/2/8 22:00:17

服务器--宝塔命令

一、宝塔面板安装命令 ⚠️ 必须使用 root 用户或 sudo 权限执行！ sudo su - 1. CentOS 系统： yum install -y wget && wget -O install.sh http://download.bt.cn/install/install_6.0.sh && sh install.sh2. Ubuntu / Debian 系统…...

编程新知 2025/10/3 10:56:48

接口自动化测试：HttpRunner基础

相关文档 HttpRunner V3.x中文文档 HttpRunner 用户指南使用HttpRunner 3.x实现接口自动化测试 HttpRunner介绍 HttpRunner 是一个开源的 API 测试工具，支持 HTTP(S)/HTTP2/WebSocket/RPC 等网络协议，涵盖接口测试、性能测试、数字体验监测等测试类型…...

编程新知 2026/1/29 7:31:17

适应性Java用于现代 API：REST、GraphQL 和事件驱动

在快速发展的软件开发领域，REST、GraphQL 和事件驱动架构等新的 API 标准对于构建可扩展、高效的系统至关重要。Java 在现代 API 方面以其在企业应用中的稳定性而闻名，不断适应这些现代范式的需求。随着不断发展的生态系统，Java 在现代 API 方…...

编程新知 2025/11/10 19:07:59

目录