当前位置：首页 > news >正文

昇思MindSpore进阶教程--Diffusion扩散模型(上)

news 2025/7/7 19:08:21

大家好，我是刘明，明志科技创始人，华为昇思MindSpore布道师。
技术上主攻前端开发、鸿蒙开发和AI算法研究。
努力为大家带来持续的技术分享，如果你也喜欢我的文章，就点个关注吧

正文

关于扩散模型（Diffusion Models）有很多种理解，本文的介绍是基于denoising diffusion probabilistic model （DDPM），DDPM已经在（无）条件图像/音频/视频生成领域取得了较多显著的成果，现有的比较受欢迎的的例子包括由OpenAI主导的GLIDE和DALL-E 2、由海德堡大学主导的潜在扩散和由Google Brain主导的图像生成。

实际上生成模型的扩散概念已经在（Sohl-Dickstein et al., 2015）中介绍过。然而，直到（Song et al., 2019）（斯坦福大学）和（Ho et al., 2020）（在Google Brain）才各自独立地改进了这种方法。

本文是在Phil Wang基于PyTorch框架的复现的基础上（而它本身又是基于TensorFlow实现），迁移到MindSpore AI框架上实现的。在这里插入图片描述
实验中我们采用离散时间（潜在变量模型）的观点，另外，读者也可以查看有关于扩散模型的其他几个观点！

实验开始之前请确保安装并导入所需的库（假设您已经安装了MindSpore、download、dataset、matplotlib以及tqdm）。

import math
from functools import partial
%matplotlib inline
import matplotlib.pyplot as plt
from tqdm.auto import tqdm
import numpy as np
from multiprocessing import cpu_count
from download import downloadimport mindspore as ms
import mindspore.nn as nn
import mindspore.ops as ops
from mindspore import Tensor, Parameter
from mindspore import dtype as mstype
from mindspore.dataset.vision import Resize, Inter, CenterCrop, ToTensor, RandomHorizontalFlip, ToPIL
from mindspore.common.initializer import initializer
from mindspore.amp import DynamicLossScalerms.set_seed(0)

模型简介

什么是Diffusion Model？

在这里插入图片描述
由
索引的正向和反向过程都发生在某些有限时间步长
（DDPM作者使用
）内。从
开始，在数据分布中采样真实图像
（本文使用一张来自ImageNet的猫图像形象的展示了diffusion正向添加噪声的过程），正向过程在每个时间步长
都从高斯分布中采样一些噪声，再添加到上一个时刻的图像中。假定给定一个足够大的
和一个在每个时间步长添加噪声的良好时间表，您最终会在
通过渐进的过程得到所谓的各向同性的高斯分布。

扩散模型实现原理

Diffusion 前向过程

所谓前向过程，即向图片上加噪声的过程。虽然这个步骤无法做到图片生成，但这是理解diffusion model以及构建训练样本至关重要的一步。首先我们需要一个可控的损失函数，并运用神经网络对其进行优化。

Diffusion 逆向过程

为了解决上述问题，我们将利用神经网络来近似（学习）这个条件概率分布
, 其中
是神经网络的参数。如果说前向过程(forward)是加噪的过程，那么逆向过程(reverse)就是diffusion的去噪推断过程，而通过神经网络学习并表示
的过程就是Diffusion 逆向去噪的核心。

U-Net神经网络预测噪声

神经网络需要在特定时间步长接收带噪声的图像，并返回预测的噪声。请注意，预测噪声是与输入图像具有相同大小/分辨率的张量。因此，从技术上讲，网络接受并输出相同形状的张量。那么我们可以用什么类型的神经网络来实现呢？

这里通常使用的是非常相似的自动编码器，您可能还记得典型的“深度学习入门”教程。自动编码器在编码器和解码器之间有一个所谓的“bottleneck”层。编码器首先将图像编码为一个称为“bottleneck”的较小的隐藏表示，然后解码器将该隐藏表示解码回实际图像。这迫使网络只保留bottleneck层中最重要的信息。

在模型结构方面，DDPM的作者选择了U-Net，出自（Ronneberger et al.，2015）（当时，它在医学图像分割方面取得了最先进的结果）。这个网络就像任何自动编码器一样，在中间由一个bottleneck组成，确保网络只学习最重要的信息。重要的是，它在编码器和解码器之间引入了残差连接，极大地改善了梯度流（灵感来自于（He et al., 2015））。
在这里插入图片描述
可以看出，U-Net模型首先对输入进行下采样（即，在空间分辨率方面使输入更小），之后执行上采样。

昇思MindSpore进阶教程--Diffusion扩散模型(上)

正文

模型简介

什么是Diffusion Model？

扩散模型实现原理

Diffusion 前向过程

Diffusion 逆向过程

U-Net神经网络预测噪声

相关文章：

昇思MindSpore进阶教程--Diffusion扩散模型(上)

Nginx：proxy_pass指令

【AI学习】Mamba学习（十）：HiPPO总结

AI编程新纪元：Cursor与V0引领的技术变革

python——类

走廊泼水节——求维持最小生成树的完全图的最小边权和

LC：动态规划-买卖股票

FLINK SQL 任务参数

HCIP——以太网交换安全（四）DHCP Snooping

k8s worker 节点关机 sts 管理的 pod 无法迁移

排序04 视频播放建模

【常见大模型API调用】第三篇：清华智谱--智谱AI

LayerSkip – Meta推出加速大型语言模型推理过程的技术

环境变量与本地变量（Linux）

【完-网络安全】Windows防火墙及出入站规则

Vue学习记录之十七 css中样式穿透及新特征介绍

Nature 正刊丨海洋涡旋中常见的地下热浪和寒潮

代码随想录算法训练营第六十二天| prim算法，kruskal算法

Newstar_week1_week2_wp

今天我们研究一段代码(异或位运算)

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

Nginx server_name 配置说明

scikit-learn机器学习

永磁同步电机无速度算法--基于卡尔曼滤波器的滑模观测器

9-Oracle 23 ai Vector Search 特性知识准备

如何通过git命令查看项目连接的仓库地址？

LUA+Reids实现库存秒杀预扣减记录流水以及自己的思考

GeoServer发布PostgreSQL图层后WFS查询无主键字段

零基础在实践中学习网络安全-皮卡丘靶场（第十一期-目录遍历模块）

设计模式-3 行为型模式