当前位置：首页 > news >正文

AI绘画中UNet用于预测噪声

news 2026/5/18 19:53:58

在这里插入图片描述

介绍

在AI绘画领域中，UNet是一种常见的神经网络架构，广泛用于图像相关的任务，尤其是在图像分割领域中表现突出。UNet最初是为了解决医学图像分割问题而设计的，但其应用已经扩展到了多种图像处理任务。

特点

对称结构：UNet的结构呈现为“U”形，分为收缩路径（下采样）和扩展路径（上采样）两部分，因此得名UNet。这种结构有助于网络在保持上下文信息的同时捕获精细的细节。
跳跃连接（Skip Connections）：UNet通过在下采样和上采样路径之间建立跳跃连接，能够在网络的深层保留高分辨率特征。这对于精确地定位和分割图像中的对象至关重要。
灵活性：尽管最初是为医学图像设计的，UNet的结构被证明对于各种图像分割任务都非常有效，包括但不限于卫星图像分析、地理信息系统（GIS）应用等。

架构

在这里插入图片描述

这张图片展示了UNet架构的典型布局。UNet由两部分组成：收缩路径（下采样）和扩展路径（上采样），中间通过跳跃连接相连。

收缩路径：由蓝色箭头表示，它通过连续的卷积层（conv 3x3）和ReLU激活函数处理输入图像，然后应用最大池化（max pool 2x2，红色箭头向下）来降低分辨率并增加特征图的深度。
扩展路径：由绿色箭头表示，它通过上采样卷积（up-conv 2x2）将特征图分辨率增加，并通过跳跃连接（灰色箭头），将收缩路径中相应尺寸的特征图与上采样后的特征图合并。合并后，再次应用卷积层（conv 3x3）和ReLU激活函数。
跳跃连接：它们是图中的灰色箭头，将收缩路径的特征图直接传输到扩展路径的相应层，这有助于在上采样时恢复图像的细节。
输出：最后，一个1x1的卷积层（conv 1x1，蓝色箭头指向输出）将深层特征图转换为所需的输出分割图（在这里是输出分割地图）。

整个UNet架构是一个对称结构，它允许网络在分割任务中同时学习图像的局部特征（通过下采样）和全局上下文（通过上采样和跳跃连接）。这种结构使得UNet在医学图像分割和其他需要精确定位的图像处理任务中非常有效。

在这里插入图片描述

数学公式

在数学层面上，UNet的操作可以通过卷积（Conv）和池化（Pool）运算来表达，但详细的数学表达会涉及到卷积运算的具体公式，激活函数的选择等，这些通常在具体的研究论文或技术文档中详细描述。

为了简化，可以认为每一步的操作是一个函数 ( f )，它接受一个输入 ( x ) 并产生一个输出 ( y )，如 ( y = f(x) )。在UNet中，这些函数会是卷积、激活、池化或上采样操作。

代码实现

import torch
import torch.nn as nn
import torch.nn.functional as Fclass DoubleConv(nn.Module):"""(卷积 => [BN] => ReLU) * 2"""def __init__(self, in_channels, out_channels, mid_channels=None):super().__init__()if not mid_channels:mid_channels = out_channelsself.double_conv = nn.Sequential(nn.Conv2d(in_channels, mid_channels, kernel_size=3, padding=1),nn.BatchNorm2d(mid_channels),nn.ReLU(inplace=True),nn.Conv2d(mid_channels, out_channels, kernel_size=3, padding=1),nn.BatchNorm2d(out_channels),nn.ReLU(inplace=True))def forward(self, x):return self.double_conv(x)class UNet(nn.Module):def __init__(self, n_channels, n_classes):super(UNet, self).__init__()self.n_channels = n_channelsself.n_classes = n_classes# UNet的下采样部分self.inc = DoubleConv(n_channels, 64)self.down1 = DoubleConv(64, 128)self.down2 = DoubleConv(128, 256)self.down3 = DoubleConv(256, 512)self.down4 = DoubleConv(512, 1024)# UNet的上采样部分self.up1 = nn.ConvTranspose2d(1024, 512, kernel_size=2, stride=2)self.conv1 = DoubleConv(1024, 512)self.up2 = nn.ConvTranspose2d(512, 256, kernel_size=2, stride=2)self.conv2 = DoubleConv(512, 256)self.up3 = nn.ConvTranspose2d(256, 128, kernel_size=2, stride=2)self.conv3 = DoubleConv(256, 128)self.up4 = nn.ConvTranspose2d(128, 64, kernel_size=2, stride=2)self.conv4 = DoubleConv(128, 64)# 最后一层卷积，将特征图转换为输出类别self.outc = nn.Conv2d(64, n_classes, kernel_size=1)def forward(self, x):# 向前传播，按顺序应用下采样和上采样x1 = self.inc(x)x2 = self.down1(x1)x3 = self.down2(x2)x4 = self.down3(x3)x5 = self.down4(x4)x = self.up1(x5)x = torch.cat([x, x4], dim=1)x = self.conv1(x)x = self.up2(x)x = torch.cat([x, x3], dim=1)x = self.conv2(x)x = self.up3(x)x = torch.cat([x, x2], dim=1)x = self.conv3(x)x = self.up4(x)x = torch.cat([x, x1], dim=1)x = self.conv4(x)logits = self.outc(x)return logits# 实例化模型，输入通道数为1，输出类别数为2
model = UNet(n_channels=1, n_classes=2)# 创建一个假的输入数据，其形状为(batch_size, channels, height, width)
input = torch.randn(1, 1, 572, 572)# 得到模型输出
output = model(input)
print(output.shape)  # 打印输出张量的形状

在这个实现中，我们定义了一个DoubleConv模块来执行两次卷积操作，每次卷积后都会执行批量归一化（BatchNorm）和ReLU激活函数。在UNet模型中，我们首先定义了下采样（编码器）和上采样（解码器）的步骤。在上采样步骤中，我们使用转置卷积进行特征图的扩大，并使用torch.cat函数来实现跳跃连接，将编码器的特征与解码器的特征结合起。

AI绘画中UNet 与扩散模型结合

UNet架构与扩散模型的结合是在人工智能绘画和图像生成领域的一个相对较新的研究方向。扩散模型，特别是深度学习中的生成扩散模型，已经被证明在生成高质量的图像方面表现出色。它们通过逐步添加噪声到数据中，然后学习如何逆转这个过程来生成数据。

结合UNet与扩散模型通常涉及以下步骤：

特征提取：使用UNet的下采样路径来提取输入图像的特征。这些特征捕获了图像的重要信息和上下文。
特征扩散：将这些特征传递给扩散模型，扩散模型将通过添加和学习逆转噪声的过程来扩散特征。
特征重建：使用UNet的上采样路径和跳跃连接来重建和细化特征，这一步骤通常会生成更加精细和清晰的图像。
图像生成：最后，使用1x1卷积或其他类型的映射来将重建的特征转换为最终的图像输出。

在这种结合中，UNet通常用于其强大的特征提取和重建能力，而扩散模型用于生成过程中的细节增强和变化模拟。这种结合可以用于创造性绘画、图像修复、风格迁移等任务，其中不仅需要精确的图像内容，还需要高质量的图像纹理和细节。这种方法的一个例子是将扩散模型用于生成纹理，然后通过UNet进行细化，以实现更高质量的图像输出。

UNet 应用

UNet架构最初是为医学图像分割而设计的，但由于其高效的特征学习和上下文整合能力，它已经被广泛应用于多种不同的图像处理任务。下面列出了一些UNet的主要应用领域：

医学图像分割：
- 细胞计数。
- 器官定位。
- 肿瘤检测。
- 病变分割。
卫星图像处理：
- 地物分类。
- 道路提取。
- 土地覆盖变化检测。
- 建筑物检测。
自然图像分割：
- 物体轮廓提取。
- 图像背景去除。
- 交互式图像编辑。
农业：
- 植物病害检测。
- 作物分析。
- 农田监测。
自动驾驶汽车：
- 道路和行人检测。
- 车辆周边环境的理解。
- 交通标志识别。
工业应用：
- 缺陷检测。
- 产品质量评估。
- 自动化检视系统。
视频处理：
- 运动分析。
- 物体追踪。
- 视频分割。
艺术创作：
- 风格迁移。
- 图像合成。
- 动漫角色生成。

UNet的这些应用通常依赖于其能力来理解图像中的复杂结构，并且能够在分割任务中保留重要的细节信息。它的成功部分归因于其独特的架构，该架构通过跳跃连接将低级别的细节特征与高级别的上下文特征相结合，从而在图像的不同分辨率级别上实现了准确的分割。

AI绘画中UNet用于预测噪声

介绍在AI绘画领域中，UNet是一种常见的神经网络架构，广泛用于图像相关的任务，尤其是在图像分割领域中表现突出。UNet最初是为了解决医学图像分割问题而设计的，但其应用已经扩展到了多种图像处理任务。特点对称结构&#xff1a…...

编程日记 2023/12/19 6:38:27

解决 Hbuilder打包 Apk pad 无法横屏以及 H5 直接打包成Apk

解决 Hbuilder打包 Apk pad 无法横屏前言云打包配置前言利用VUE 写了一套H5 想着做一个APP壳然后把 H5 直接嵌进去客户要求在pad 端能够操作然后页面风格也需要pad 横屏展示云打包配置下面是manifest.json 配置文件 {"platforms": ["iPad"…...

编程日记 2023/12/19 6:31:20

云原生之深入解析如何在K8S环境中使用Prometheus来监控CoreDNS指标

一、什么是 Kubernetes CoreDNS？ CoreDNS 是 Kubernetes 环境的DNS add-on 组件，它是在控制平面节点中运行的组件之一，使其正常运行和响应是 Kubernetes 集群正常运行的关键。DNS 是每个体系结构中最敏感和最重要的服务之一。应用程序、微服…...

编程日记 2023/12/19 6:29:17

Unity3D UDP传输大文件怎么提高速度详解

前言 Unity3D是一款强大的游戏开发引擎，但是在处理大文件传输时，往往会遇到速度较慢的问题。本文将详细介绍如何通过使用UDP协议来提高大文件传输的速度，并给出相应的技术详解和代码实现。对惹，这里有一个游戏开发交流小组&…...

编程日记 2023/12/19 6:28:17

数据结构——栈和队列的应用

1.栈在括号匹配中的应用算法的思想如下; 1)初始设置一个空栈，顺序读入括号。 2)若是右括号，则或使置于栈顶的最急迫期待得以消解，或是不合法的情况(括号序列不匹配，退出程序)。 3)若是左括号，则作为一个新的更急迫…...

编程日记 2023/12/19 6:27:15

第7章排序

前言在这一章，我们讨论数组元素的排序问题。为简单起见，假设在我们的例子中数组只包含整数，虽然更复杂的结构显然也是可能的。对于本章的大部分内容，我们还假设整个排序工作能够在主存中完成，因此，元素的个…...

编程日记 2023/12/19 6:26:14

AR眼镜光学方案_AR眼镜整机硬件定制

增强现实(Augmented Reality，AR)技术通过将计算机生成的虚拟物体或其他信息叠加到真实世界中，实现对现实的增强。AR眼镜作为实现AR技术的重要设备，具备虚实结合、实时交互的特点。为了实现透视效果，AR眼镜需要同时显示真实的外部世…...

编程日记 2023/12/19 6:24:13

Linux shell编程学习笔记36：read命令

*更新日志 *2023-12-18 1.根据[美] 威廉肖特斯 （Willian shotts）所著《Linux命令行大全（第2版）》更新了-e、-i、-r选项的说明 2.更新了 2.8 的实例，增加了gif动图 3.补充了-i的应用实例 2.1…...

编程日记 2023/12/19 6:22:11

Python表达式

表达式本章将解释 Python 中组成表达式的各种元素的的含义。语法注释: 在本章和后续章节中，会使用扩展 BNF 标注来描述语法而不是词法分析。当（某种替代的）语法规则具有如下形式 name :: othername并且没有给出语义，则这种…...

编程日记 2023/12/19 6:21:10

风速预测（六）基于Pytorch的EMD-CNN-GRU并行模型

目录前言 1 风速数据EMD分解与可视化 1.1 导入数据 1.2 EMD分解 2 数据集制作与预处理 2.1 先划分数据集，按照8：2划分训练集和测试集 2.2 设置滑动窗口大小为96，制作数据集 3 基于Pytorch的EMD-CNN-GRU并行模型预测 3.1 数据加载&a…...

编程日记 2023/12/19 6:20:09

【Stm32-F407】全速DAP仿真器下载程序

文章内容如下: 1) 全速DAP仿真器简介2) 全速DAP仿真器下载程序流程 1) 全速DAP仿真器简介 1）全速DAP仿真器简介 DAP全称 Data Acquisition Processor，是一种用于数据采集和实时控制的设备。本文使用的全速DAP仿真器遵循ARM公司的CMSIS-DAP标准&#xff…...

编程日记 2023/12/19 6:19:08

ArcGIS Pro SDK导出的几何XML和Json

本博主会持续更新关于ArcGIS Pro SDK的相关内容，请读者关注一下圆 XML <PolygonN xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance" xmlns:xs"http://www.w3.org/2001/XMLSchema" xmlns:typens"http://www.esri.com/schemas/…...

编程日记 2023/12/19 6:18:07

随笔记录-springboot_LoggingApplicationListener+LogbackLoggingSystem

环境：springboot-2.3.1 加载日志监听器初始化日志框架 SpringApplication#prepareEnvironment SpringApplicationRunListeners#environmentPrepared EventPublishingRunListener#environmentPrepared SimpleApplicationEventMulticaster#multicastEvent(Applicati…...

编程日记 2023/12/19 6:17:06

超级计算机与天气预报：精准预测的科技革命

超级计算机与天气预报：精准预测的科技革命一、引言随着科技的飞速发展，超级计算机已经成为现代社会不可或缺的一部分。它们在科研、工业、军事等领域发挥着重要作用，其中天气预报是一个颇具代表性的应用领域。本文将探讨超级计算机在天气…...

编程日记 2023/12/19 6:16:04

【uniapp小程序-分享】

//分享到聊天onShareAppMessage() {let shareMessage {title: this.liveInfo.wx_title,path: /subPages/livePages/liveCourse/live_course_info?courseid this.courseid,imageUrl: this.liveInfo.wx_thumb};let shearMsg uni.getStorageSync(shearImg this.courseid);if (…...

编程日记 2023/12/19 6:15:03

AI绘画中UNet用于预测噪声

介绍

特点

架构

数学公式

代码实现

AI绘画中UNet 与扩散模型结合

UNet 应用

相关文章：

AI绘画中UNet用于预测噪声

解决 Hbuilder打包 Apk pad 无法横屏以及 H5 直接打包成Apk

云原生之深入解析如何在K8S环境中使用Prometheus来监控CoreDNS指标

Unity3D UDP传输大文件怎么提高速度详解

数据结构——栈和队列的应用

第7章排序

AR眼镜光学方案_AR眼镜整机硬件定制

Linux shell编程学习笔记36：read命令

Python表达式

风速预测（六）基于Pytorch的EMD-CNN-GRU并行模型

【Stm32-F407】全速DAP仿真器下载程序

ArcGIS Pro SDK导出的几何XML和Json

随笔记录-springboot_LoggingApplicationListener+LogbackLoggingSystem

超级计算机与天气预报：精准预测的科技革命

【uniapp小程序-分享】

思幻二次元风格的工作室个人引导页源码

Rsync+notify文件实时同步工具

小信砍柴的题解

华为OD机试 - 跳格子3（Java JS Python C）

每天五分钟计算机视觉：谷歌的Inception模块的计算成本的问题

紧急通告：OpenAI已于2024年6月1日灰度上线ChatGPT Pay API V2.1，当前仅向Stripe白名单商户开放（附申请通道+审核时效倒计时）

窗口尺寸自由掌控：SRWE如何让任意程序窗口随心所欲

代码语义可视化架构的突破性实现：MultiHighlight如何将代码理解效率提升300%

金融技能学习路径：从财务基础到Python建模的实战指南

初创公司如何利用Taotoken以可控成本试用多模型

轻量级推荐系统MiniOneRec：从协同过滤到服务部署的实践指南

3分钟掌握APK Installer：在Windows电脑上轻松安装安卓应用的终极方案

别死记硬背！用‘小明小红在操场’的JavaScript题，彻底搞懂this、call和箭头函数

3个高级功能解锁NIPAP企业级IP地址管理潜力

[2026实战] 工程图纸气泡图 (balloon drawing) 标注规范与数字化检验计划生成…