当前位置: 首页 > news >正文

稳定扩散的高分辨率图像合成

推荐稳定扩散AI自动纹理工具:DreamTexture.js自动纹理化开发包

1、稳定扩散介绍

通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型 (DM) 在图像数据及其他数据上实现了最先进的合成结果。此外,它们的配方允许将它们应用于图像修改任务,例如直接修复,而无需重新训练。然而,由于这些模型通常直接在像素空间中运行,因此优化强大的 DM 通常需要花费数百个 GPU 天,并且由于顺序评估,推理成本很高。为了在有限的计算资源上实现 DM 训练,同时保持其质量和灵活性,我们将它们应用于强大的预训练自动编码器的潜在空间。与以前的工作相比,在这种表示上训练扩散模型首次允许在复杂性降低和空间下采样之间达到接近最佳点,从而大大提高了视觉保真度。通过在模型架构中引入交叉注意力层,我们将扩散模型转化为强大而灵活的生成器,用于一般条件输入,如文本或边界框,并以卷积方式实现高分辨率合成。与基于像素的 DM 相比,我们的潜在扩散模型 (LDM) 在各种任务上都实现了极具竞争力的性能,包括无条件图像生成、修复和超分辨率,同时显注降低了计算要求。

2、基于稳定扩散的进一步研究


图1.通过减少激进的下采样,提高可实现的质量上限。由于扩散模型为空间数据提供了出色的归纳偏差,因此我们不需要在潜在空间中对相关生成模型进行大量空间下采样,但仍然可以通过合适的自编码模型大大降低数据的维数,参见第 3 节。图像来自 DIV2K [1] 验证集,评估值为 5122 像素。我们用 f 表示空间下采样因子。重建FIDs[26]和PSNR在ImageNet-val上计算。[11]

图2.说明感知和语义压缩:数字图像的大多数位对应于难以察觉的细节。虽然 DM 允许通过最小化负责任的损失项来抑制这种语义上无意义的信息,但梯度(在训练期间)和神经网络主干(训练和推理)仍然需要在所有像素上进行评估,从而导致多余的计算和不必要的昂贵优化和推理。我们提出了潜在扩散模型(LDM)作为有效的生成模型和一个单独的轻度压缩阶段,仅消除难以察觉的细节。

图3.我们通过串联或更通用的交叉注意力机制来调节 LDM。

图4.在CelebAHQ [35]、FFHQ [37]、LSUN-Churches [95]、LSUN-Bedrooms [95]和类条件ImageNet [11]上训练的LDM样本,每个样本的分辨率为256×256。

图5.在ImageNet数据集上分析具有不同下采样因子的类条件LDM的训练,超过2M个训练步。与具有较大下采样因子 (LDM–1) 的模型相比,基于像素的 LDM-12 需要更长的训练时间。LDM-32 中过多的感知压缩会限制整体样品质量。所有模型均在具有相同计算预算的单个 NVIDIA A100 上进行训练。使用100个DDIM步骤[79]和κ = 0获得的结果。

图6.推理速度与样本质量:在 CelebA-HQ(左)和 ImageNet(右)数据集上比较具有不同压缩量的 LDM。不同的标记表示 DDIM 采样器的 200 个采样步骤,沿每条线从右到左计数。虚线显示了 200 步的 FID 分数,表示与具有不同压缩比的模型相比,LDM-4 具有更强的性能。对 5000 个样本评估的 FID 分数。所有模型均在 A500 上进行了 2k (CelebA) / 100M (ImageNet) 步长的训练。

图7.上图:我们的LDM样本,用于在COCO上进行布局到图像合成[4]。补充中的定量评估。底部:来自文本到图像 LDM 的示例,用于用户定义的文本提示。我们的模型在LAION [73]数据库上进行了预训练,并在Conceptual Captions [74]数据集上进行了微调。

图8.在 2562 分辨率上训练的 LDM 可以泛化为更大的分辨率(此处:512×1024),用于空间条件任务,例如景观图像的语义合成。参见第 4.3.2 节。

图 9.LDM-BSR 泛化为任意输入,可用作通用上采样器,从类条件 LDM 中放大样本(图 cf .图4)至10242分辨率。相反,使用固定的降解过程(见第 4.4 节)会阻碍泛化。

图 10.ImageNet-Val 上的 ImageNet 64→256 超分辨率。LDM-SR 在渲染逼真的纹理方面具有优势,但 SR3 可以合成更连贯的精细结构。有关其他样本和裁剪,请参阅附录。SR3 的结果来自 [67]。

图 11.图像修复的定性结果如表6所示。

Figure 12. Qualitative results on object removal with our big, w/ ft inpainting model. For more results, see Fig. 22.

图 13.来自语义景观模型的卷积样本,如第 4.3.2 节,对 5122 张图像进行了微调。

图 14.在景观上,使用无条件模型的卷积采样会导致均匀和不连贯的全局结构(见第 2 列)。使用低分辨率图像的 L2 引导有助于重建连贯的全局结构。

图 15.这里说明了潜在空间重新缩放对卷积采样的影响,这里用于景观的语义图像合成。参见第 4.3.2 节和第 C.1 节。

图 16.来自我们用于布局到图像合成的最佳模型 LDM-4 的更多样本,该模型在 OpenImages 数据集上进行了训练,并在 COCO 数据集上进行了微调。使用 100 个 DDIM 步骤生成的样本,η = 0。布局来自 COCO 验证集。

图 17.来自我们最好的文本到图像合成模型 LDM-4 的用户定义文本提示的更多示例,该模型在 LAION 数据库上进行了训练,并在 Conceptual Captions 数据集上进行了微调。使用 100 个 DDIM 步骤生成的样本,η = 0。

图 18.为了完整起见,我们还报告了 ImageNet 数据集上类条件 LDM 的训练进度,固定数量为 35 V100 天。使用100个DDIM步骤[79]和κ = 0获得的结果。出于效率原因,在 5000 个样本上计算了 FID。

图 19.LDM-BSR 泛化为任意输入,可用作通用上采样器,将 LSUNCows 数据集中的样本放大到 10242 分辨率。

图 20.Pixelspace 中 LDM-SR 和基线扩散模型之间两个随机样本的定性超分辨率比较。在相同数量的训练步骤后在 imagenet validation-set 上进行评估。

图 21.图像修复的更多定性结果如图 11 所示。

Figure 22. More qualitative results on object removal as in Fig. 12.

Figure 23. Convolutional samples from the semantic landscapes model as in Sec. 4.3.2, finetuned on 5122 images.

Figure 24. A LDM trained on 2562 resolution can generalize to larger resolution for spatially conditioned tasks such as semantic synthesis of landscape images. See Sec. 4.3.2.

图 25.当提供语义图作为条件反射时,我们的 LDM 泛化到比训练期间看到的分辨率大得多的分辨率。尽管此模型是在大小为 256² 的输入上训练的,但它可用于创建高分辨率样本,如下所示,分辨率为 1024×384。

图 26.来自 ImageNet 数据集上 LDM-8-G 的随机样本。使用分类器尺度 [14] 50 和 100 DDIM 步长进行采样,η = 1。(FID 8.5)。

图 27.来自 ImageNet 数据集上 LDM-8-G 的随机样本。使用分类器尺度 [14] 50 和 100 DDIM 步长进行采样,η = 1。(FID 8.5)。

图 28.来自 ImageNet 数据集上 LDM-8-G 的随机样本。使用分类器尺度 [14] 50 和 100 DDIM 步长进行采样,η = 1。(FID 8.5)。

图 29.我们在 CelebA-HQ 数据集上表现最佳的模型 LDM-4 的随机样本。使用 500 个 DDIM 步长采样,η = 0 (FID = 5.15)。

图 30.我们在 FFHQ 数据集上表现最佳的模型 LDM-4 的随机样本。使用 200 个 DDIM 步长进行采样,η = 1 (FID = 4.98)。

图31。LSUN Churches数据集上我们性能最好的LDM-8模型的随机样本。用200个DDIM步骤取样,η=0(FID=4.48)。

图32。LSUN Bedrooms数据集上性能最好的LDM-4模型的随机样本。用200个DDIM步骤取样,η=1(FID=2.95)。

图 33.我们最好的CelebA-HQ模型的最近邻,在VGG-16的特征空间中计算[75]。最左边的样本来自我们的模型。每行中的剩余样本是其 10 个最近邻。

图 34.我们最好的FFHQ模型的最近邻,在VGG-16的特征空间中计算[75]。最左边的样本来自我们的模型。每行中的剩余样本是其 10 个最近邻。

图 35.我们最好的LSUN-Churches模型的最近邻,在VGG-16的特征空间中计算[75]。最左边的样本来自我们的模型。每行中的剩余样本是其 10 个最近邻。

转载:稳定扩散的高分辨率图像合成 (mvrlink.com)

相关文章:

稳定扩散的高分辨率图像合成

推荐稳定扩散AI自动纹理工具:DreamTexture.js自动纹理化开发包 1、稳定扩散介绍 通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型 (DM) 在图像数据及其他数据上实现了最先进的合成结果。此外,它们的配方…...

3 Tensorflow构建模型详解

上一篇:2 用TensorFlow构建一个简单的神经网络-CSDN博客 本篇目标是介绍如何构建一个简单的线性回归模型,要点如下: 了解神经网络原理构建模型的一般步骤模型重要参数介绍 1、神经网络概念 接上一篇,用tensorflow写了一个猜测西…...

智慧农场牧场小程序源码 智慧农业认养系统源码

智慧农场牧场小程序源码 智慧农业认养系统源码 要了解源码的,看文末。 随着科技的进步和人们对绿色食品的需求增加,智慧农场正成为未来农业发展的方向。智慧农场是指运用先进的技术手段,如物联网、云计算、智能控制技术、大数据分析等&…...

3D数据过滤为2D数据集并渲染

开发环境: Windows 11 家庭中文版Microsoft Visual Studio Community 2019VTK-9.3.0.rc0vtk-example参考代码 代码逻辑:初始化数据集points -> 添加数据集到polydata -> 通过vtkVertexGlyphFilter过滤(带顶点、单元数据)po…...

第十一章 ObjectScript 系统宏(二)

文章目录 第十一章 ObjectScript 系统宏(二) 宏引用FormatText(text, arg1, arg2, ...)FormatTextHTML(text, arg1, arg2, ...)FormatTextJS(text, arg1, arg2, ...)GETERRORCODE(sc)GETERRORMESSAGE(sc,num)ISERR(sc)ISOK(sc)Text(text, domain, langua…...

跨境电商大作战:2023黑色星期五准备指南

黑色星期五,作为全球购物狂欢的象征,已经成为了电商业务的一年一度的重要节点。尤其对于跨境电商来说,这一天意味着巨大的商机和挑战。为了在这个竞争激烈的时刻脱颖而出,跨境电商必须做好充分的准备。Nox聚星在这里给大家分享几个…...

我的天!阿里云服务器居然比腾讯云优惠1元!

2023阿里云服务器优惠活动来了,以前一直是腾讯云比阿里云优惠,阿里云绝地反击,放开老用户购买资格,99元服务器老用户可以买,并且享受99元续费,阿腾云亲测可行,大家抓紧吧,数量不多&a…...

鸡尾酒学习——未命名(芒果口味)

1、材料:冰块、伏特加、芒果汁、元气森林卡曼橘味; 2、口感:芒果味道,酸甜为主,苦为辅。 3、视觉效果:黄色液体; 4、步骤: (1)向杯子中加入适量冰块&#xff…...

modbusTCP【C#】

为了编写一个完整的Modbus TCP库,您需要遵循以下步骤: 1. 安装NModbus4库:NModbus4是一个用于C#的Modbus库,它支持串口和TCP通信。您可以通过NuGet包管理器安装它。 2. 创建Modbus主机:使用ModbusIpMaster.CreateIp方…...

解决Linux Debian12系统中安装VirtualBox虚拟机无法使用USB设备的问题

Debian12系统中安装VirtualBox,再VirtualBox虚拟机中无法使用 USB设备。如下图所示: 解决方法如下: 1.安装 Virtualbox增强功能。如下图所示: 2.添加相关用户、用户组( Virtualbox 装完成后会有 vboxusers 和 vboxs…...

Spring事务失效的几种情况及其解决方案

Spring事务失效的几种情况及其解决方案 方法权限修饰符不是public Transactional 使用的是 Spring AOP 实现的,而 Spring AOP 是通过动态代理实现的,而 Transactional 在生成代理时会判断,如果方法为非 public 修饰的方法,则不生…...

libgdx实现淡入淡出过渡

libgdx实现淡入淡出过渡 libgdx实现淡入淡出过渡&#xff0c;环境jdk17、libgdx 1.12.02023年11月1日11:02:50最新 依赖 <properties><maven.compiler.source>17</maven.compiler.source><maven.compiler.target>17</maven.compiler.target>&…...

linux 出现Access-Your-Private-Data.desktop README.txt

参考:https://blog.csdn.net/h66295112/article/details/81085643 参考:https://askubuntu.com/questions/71708/how-do-i-open-access-your-private-data-desktop 原因应该是通过terminal修改了ubuntu密码&#xff0c;然后重启 THIS DIRECTORY HAS BEEN UNMOUNTED TO PROTECT…...

新生儿积食:原因、科普和注意事项

引言&#xff1a; 新生儿积食&#xff0c;也被称为新生儿喂养问题&#xff0c;是新父母常常面临的挑战之一。尽管它通常是一种暂时的问题&#xff0c;但它可能会引起婴儿的不适&#xff0c;导致家长感到担忧。本文将科普新生儿积食的原因&#xff0c;提供相关信息&#xff0c;…...

看完这个,别说你还找不到免费好用的配音软件

有很多小伙伴还在找配音工具&#xff0c;今天就给大家一次性分享四款免费好用的配音工具&#xff0c;每一个都经过测试&#xff0c;并且是我们自己也在用的免费配音工具 第一款&#xff0c;悦音配音工具 拥有强悍的AI智能配音技术&#xff0c;更专业&#xff0c;完美贴近真人配…...

多种方法解决leetcode经典题目-LCR 155. 将二叉搜索树转化为排序的双向链表, 同时弄透引用变更带来的bug

1 描述 2 解法一: 使用list列表粗出中序遍历的结果&#xff0c;然后再依次处理list中的元素并且双向链接 public Node treeToDoublyList2(Node root) {if(rootnull)return root;Node dummynew Node(-10000);List<Node>ansnew ArrayList<>();dfs2(root,ans);Node p…...

C/C++ 实现UDP发送或接收组播消息,并可指定接收发送网卡

一、发送端代码 #include <iostream> #include <unistd.h> #include <stdio.h> #include <string.h> #include <net/if.h> #include <netinet/in.h> #include <netdb.h> #include <sys/ioctl.h> #include "UDPOperation…...

纬创出售印度子公司给塔塔集团,结束iPhone代工业务 | 百能云芯

纬创&#xff08;Wistron&#xff09;董事会于10月27日通过决议&#xff0c;同意以1.25亿美元的价格出售其印度子公司Wistron InfoComm Manufacturing (India) Private Limited&#xff08;WMMI&#xff09;的100%股权给塔塔集团&#xff0c;交割将尽快完成。此举将意味着纬创退…...

vue手机项目如何控制手电筒打开与关闭

要控制手电筒&#xff0c;您可以使用Vue的Device API&#xff0c;例如cordova-plugin-flashlight或vue-native-flashlight插件。以下是一些基本步骤&#xff1a; 导入手电筒插件或库。在Vue组件中创建一个手电筒对象并初始化它。使用turnOn()和turnOff()方法控制手电筒。 以下…...

电商课堂|5分钟了解电商数据分析完整流程,建议收藏!

账户效果下降&#xff0c;如何能够快速找到问题并优化调整&#xff1f; 相信百分之90%的竞价员都会说&#xff1a;“做数据分析。” 没错&#xff0c;数据分析能够帮助我们快速锁定问题所在&#xff0c;确定优化方向&#xff0c;还可以帮助我们找到流量控制的方向。那么做电商&…...

DeepSeek 赋能智慧能源:微电网优化调度的智能革新路径

目录 一、智慧能源微电网优化调度概述1.1 智慧能源微电网概念1.2 优化调度的重要性1.3 目前面临的挑战 二、DeepSeek 技术探秘2.1 DeepSeek 技术原理2.2 DeepSeek 独特优势2.3 DeepSeek 在 AI 领域地位 三、DeepSeek 在微电网优化调度中的应用剖析3.1 数据处理与分析3.2 预测与…...

全球首个30米分辨率湿地数据集(2000—2022)

数据简介 今天我们分享的数据是全球30米分辨率湿地数据集&#xff0c;包含8种湿地亚类&#xff0c;该数据以0.5X0.5的瓦片存储&#xff0c;我们整理了所有属于中国的瓦片名称与其对应省份&#xff0c;方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...

页面渲染流程与性能优化

页面渲染流程与性能优化详解&#xff08;完整版&#xff09; 一、现代浏览器渲染流程&#xff08;详细说明&#xff09; 1. 构建DOM树 浏览器接收到HTML文档后&#xff0c;会逐步解析并构建DOM&#xff08;Document Object Model&#xff09;树。具体过程如下&#xff1a; (…...

【AI学习】三、AI算法中的向量

在人工智能&#xff08;AI&#xff09;算法中&#xff0c;向量&#xff08;Vector&#xff09;是一种将现实世界中的数据&#xff08;如图像、文本、音频等&#xff09;转化为计算机可处理的数值型特征表示的工具。它是连接人类认知&#xff08;如语义、视觉特征&#xff09;与…...

分布式增量爬虫实现方案

之前我们在讨论的是分布式爬虫如何实现增量爬取。增量爬虫的目标是只爬取新产生或发生变化的页面&#xff0c;避免重复抓取&#xff0c;以节省资源和时间。 在分布式环境下&#xff0c;增量爬虫的实现需要考虑多个爬虫节点之间的协调和去重。 另一种思路&#xff1a;将增量判…...

Java + Spring Boot + Mybatis 实现批量插入

在 Java 中使用 Spring Boot 和 MyBatis 实现批量插入可以通过以下步骤完成。这里提供两种常用方法&#xff1a;使用 MyBatis 的 <foreach> 标签和批处理模式&#xff08;ExecutorType.BATCH&#xff09;。 方法一&#xff1a;使用 XML 的 <foreach> 标签&#xff…...

作为测试我们应该关注redis哪些方面

1、功能测试 数据结构操作&#xff1a;验证字符串、列表、哈希、集合和有序的基本操作是否正确 持久化&#xff1a;测试aof和aof持久化机制&#xff0c;确保数据在开启后正确恢复。 事务&#xff1a;检查事务的原子性和回滚机制。 发布订阅&#xff1a;确保消息正确传递。 2、性…...

【学习笔记】erase 删除顺序迭代器后迭代器失效的解决方案

目录 使用 erase 返回值继续迭代使用索引进行遍历 我们知道类似 vector 的顺序迭代器被删除后&#xff0c;迭代器会失效&#xff0c;因为顺序迭代器在内存中是连续存储的&#xff0c;元素删除后&#xff0c;后续元素会前移。 但一些场景中&#xff0c;我们又需要在执行删除操作…...

QT开发技术【ffmpeg + QAudioOutput】音乐播放器

一、 介绍 使用ffmpeg 4.2.2 在数字化浪潮席卷全球的当下&#xff0c;音视频内容犹如璀璨繁星&#xff0c;点亮了人们的生活与工作。从短视频平台上令人捧腹的搞笑视频&#xff0c;到在线课堂中知识渊博的专家授课&#xff0c;再到影视平台上扣人心弦的高清大片&#xff0c;音…...

用 Rust 重写 Linux 内核模块实战:迈向安全内核的新篇章

用 Rust 重写 Linux 内核模块实战&#xff1a;迈向安全内核的新篇章 ​​摘要&#xff1a;​​ 操作系统内核的安全性、稳定性至关重要。传统 Linux 内核模块开发长期依赖于 C 语言&#xff0c;受限于 C 语言本身的内存安全和并发安全问题&#xff0c;开发复杂模块极易引入难以…...