AI 绘画爆火背后:扩散模型原理及实现
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。
针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。
合集:
持续火爆!!!《AIGC 面试宝典》已圈粉无数!
最近爆火的AI绘图,相信大家并不陌生了。
从AI绘图软件生成的作品打败一众人类艺术家,到如今文生图代表:Midjourney、Stable Diffusion、 DALL-E 到处攻城略地。
那么,在你感受AI绘图魅力的同时, 有没有想过,它背后的奥妙究竟是什么?
一切,都要从一个名为DDPM的模型说起…
话说DDPM
DDPM模型,全称Denoising Diffusion Probabilistic Model,可以说是现阶段diffusion模型的开山鼻祖。不同于前辈GAN、VAE和flow等模型,diffusion模型的整体思路是通过一种偏向于优化的方式, 逐步从一个纯噪音的图片中生成图像。
现在已有生成图像模型的对比
没有相关机器学习背景的小伙伴可能会问了,什么是纯噪音图片?
很简单,老式电视机没信号时,伴随着"刺啦刺啦"噪音出现的雪花图片,就属于纯噪音图片。而DDPM在生成阶段所做的事情,就是把这些个"雪花"一点点移除,直到清晰的图像露出它的庐山真面目,我们把这个阶段称之为"去噪"。
纯噪音图片:老电视的雪花屏
通过描述,大家可以感受到,去噪其实是个相当复杂的过程。没有一定的去噪规律,可能你忙活了好半天,到最后还是对着奇形怪状的图片欲哭无泪。当然,不同类型的图片也会有不同的去噪规律,至于怎么让机器学会这种规律,有人灵机一动,想到了一种绝妙的方法。
“既然去噪规律不好学,那我为什么不先通过加噪的方式,先把一张图片变成纯噪音图像,再把整个过程反着来一遍呢?”
这便奠定了diffusion模型整个训练-推理的流程, 先在前向过程( forward process )通过逐步加噪,将图片转换为一个近似可用高斯分布的纯噪音图像,紧接着在反向过程( reverse process )中逐步去噪,生成图像,最后以增大原始图像和生成图像的相似度作为目标,优化模型,直至达到理想效果 。
DDPM的训练-推理流程
到这里,不知道大家的接受度怎样?如果感觉没问题,轻轻松的话。准备好,我要开始上大招(深入理论)啦。
1.前向过程(forward process)
又称为扩散过程(diffusion process),整体是一个参数化的 马尔可夫链(Markov chain) 。从初始数据分布 出发,每步在数据分布中添加高斯噪音,持续T次。其中从第t-1步到第t步的过程可以用高斯分布表示为:
通过合适的设置,随着t不断增大,原始数据会逐渐失去他的特征。我们可以理解为,在进行了无限次的加噪步骤后,最终的数据会变成没有任何特征,完全是随机噪音的图片,也就是我们最开始说的"雪花屏"。
在这个过程中,每一步的变化是可以通过设置 超参 来控制,在我们知晓最开始的图片是什么的前提下,前向加噪的整个过程可以说是 已知且可控的 ,我们完全能知道每一步的生成数据是什么样子。
但问题在于,每次的计算都需要从起始点出发,结合每一步的过程,慢慢推导至你想要的某步数据,过于麻烦。好在因为高斯分布的一些特性,我们可以一步到位,直接从得到。
(这里的 和 为组合系数 ,本质上是超参的表达式)
2.反向过程(reverse process)
和前向过程同理,反向过程也是一个 马尔可夫链(Markov chain)****, 只不过这里用到的参数不同,至于具体参数是什么,这个就是我们需要机器来学习的部分啦。
在了解机器如何学习前,我们首先思考,基于某一个原始数据,从第t步,精准反推回第t-1步的过程应该是怎样的?
答案是,这个仍可以用高斯分布表示:
注意这里必须要考虑,意思是反向过程最后生成图像还是要与原始数据有关。输入猫的图片,模型生成的图像应该是猫,输入狗的图片,生成的图像也应该和狗相关。若是去除掉,则会导致无论输入哪种类型的图片训练,最后diffusion生成的图像都一样,“猫狗不分”。
经过一系列的推导,我们发现,反向过程中的参数和,竟然还是可以用,,以及参数 , 表示出来的,是不是很神奇~
当然,机器事先并不知道这个真实的反推过程,它能做到的,只是用一个大概近似的估计分布去模拟,表示为 θ 。
3.优化目标
在最开始我们提到,需要通过 增大原始数据和反向过程最终生成数据的相似度 来优化模型。在机器学习中,我们计算该相似度参考的是 交叉熵( cross entropy ) 。
关于交叉熵,学术上给出的定义是"用于度量两个概率分布间的差异性信息"。换句话讲,交叉熵越小,模型生成的图片就越和原始图片接近。但是,在大多数情况下,交叉熵是 很难或者无法通过计算得出 的,所以我们一般会通过优化一个更简单的表达式,达到同样的效果。
Diffusion模型借鉴了VAE模型的优化思路,将 variational lower bound ( VLB ,又称 ELBO )替代cross entropy来作为最大优化目标。通过无数步的分解,我们最终得到:
看到这么复杂的公式,好多小伙伴肯定头都大了。但不慌,这里需要关注的,只是中间的 罢了,它表示的是 和之间估计分布和真实分布的差距 。差距越小,模型最后生成图片的效果就越好。
4.上代码
在了解完DDPM背后的原理,接下来就让我们看看DDPM模型究竟是如何实现…
才怪啦。相信看到这里的你,肯定也不想遭受成百上千行代码的洗礼。好在MindSpore已经为大家提供了开发完备的DDPM模型, 训练推理两手抓,操作简单,单卡即可运行 ,想要体验效果的小伙伴,可以先pip install denoising-diffusion-mindspore后,参考如下代码配置参数:
对重要的参数进行一些解析:
-
GaussianDiffusion
-
image_size: 图片大小
-
timesteps: 加噪步数
-
sampling_timesteps: 采样步数,为提升推理性能,需小于加噪步数
-
Trainer
-
folder_or_dataset: 对应图片中的path, 可以是已下载数据集的路径(str),也可以是已做好数据处理的VisionBaseDataset, GeneratorDataset 或 MindDataset
-
train_batch_size:batch大小
-
train_lr: 学习率
-
train_num_steps: 训练步数
Reference
-
https://medium.com/mlearning-ai/ai-art-wins-fine-arts-competition-and-sparks-controversy-882f9b4df98c
-
Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising Diffusion Probabilistic Models. arXiv:2006.11239, 2020.
-
Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang, and Bin Cui. Diffusion models: A comprehensive survey of methods and applications. arXiv preprint arXiv:2209.00796, 2022.
-
https://lilianweng.github.io/posts/2021-07-11-diffusion-models
-
https://github.com/lvyufeng/denoising-diffusion-mindspore
-
https://zhuanlan.zhihu.com/p/525106459
-
https://zhuanlan.zhihu.com/p/500532271
-
https://www.zhihu.com/question/536012286
-
https://mp.weixin.qq.com/s/XTNk1saGcgPO-PxzkrBnIg
-
https://m.weibo.cn/3235040884/4804448864177745
相关文章:

AI 绘画爆火背后:扩散模型原理及实现
节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…...

详解智慧互联网医院系统源码:开发医院小程序教学
本篇文章,笔者将详细介绍智慧互联网医院系统的源码结构,并提供开发医院小程序的详细教学。 一、智慧互联网医院系统概述 智慧互联网医院系统涵盖了预约挂号、在线咨询、电子病历、药品管理等多个模块。 二、系统源码结构解析 智慧互联网医院系统的源码…...

【技术实操】银河高级服务器操作系统实例分享,数据库日志文件属主不对问题分析
1. 问题现象描述 2023 年 06 月 30 日在迁移数据库过程中,遇到数据库 crash 的缺陷,原因如下:在数据库启动时候生成的一组临时文件中,有 owner 为 root 的文件, 文件权限默认为 640, 当数据库需要使用的时…...

函数的创建和调用
自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 提到函数,大家会想到数学函数吧,函数是数学最重要的一个模块,贯穿整个数学学习过程。在Python中,函数…...

数模混合芯片设计中的修调技术是什么?
一、修调目的 数模混合芯片需要修调技术主要是因为以下几个原因: 工艺偏差(Process Variations): 半导体制造过程中存在不可避免的工艺偏差,如晶体管尺寸、阈值电压、电阻和电容值等,这些参数的实际值与…...

MySQL 自定义函数(实验报告)
一、实验名称: 自定义函数 二、实验日期: 2024年 6 月 1 日 三、实验目的: 掌握MySQL自定义函数的创建及调用; 四、实验用的仪器和材料: 硬件:PC电脑一台; 配置:内存&#…...

一次职业院校漏洞挖掘
这个是之前挖掘到的漏洞,目前网站进行重构做了全新的改版,但是这个漏洞特别经典,拿出来进行分享。看到src上面的很多敏感信息泄露,所以自己也想找一个敏感信息泄露,官网如图: 发现在下面有一个数字校园入口…...

洪师傅代驾系统开发 支持公众号H5小程序APP 后端Java源码
代驾流程图 业务流程图 管理端设置 1、首页装修 2、师傅奖励配置 师傅注册后,可享受后台设置的新师傅可得的额外奖励; 例:A注册了师傅,新人奖励可享受3天,第一天的第一笔订单完成后可得正常佣金佣金*奖励比例 完成第二笔/第三笔后依次可得正常佣金佣金*奖励比例 完成的第四…...

View->Bitmap缩放到自定义ViewGroup的任意区域(Matrix方式绘制Bitmap)
Bitmap缩放和平移 加载一张Bitmap可能为宽高相同的正方形,也可能为宽高不同的矩形缩放方向可以为中心缩放,左上角缩放,右上角缩放,左下角缩放,右下角缩放Bitmap中心缩放,包含了缩放和平移两个操作…...

Centos 7部署NTP
介绍 NTP是Network Time Protocol(网络时间协议)的简称,它是用来通过互联网或局域网将计算机时钟同步到世界协调时间(UTC)的协议。 安装 # yum安装 yum install -y ntp# 离线安装 #下载地址:https://mir…...

【前缀和】42. 接雨水
本文涉及知识点 C算法:前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode42. 接雨水 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入&am…...
我的名字叫大数据
第1章 大家好,我叫大数据 1.1 我的家族传统:从我小小的祖先到壮大的我 1.1.1 最初的我:原始部落里的计数石头 大家好,我是你们人类文明的“老朋友”——大数据。你们知道吗?在我还没有变成你们手机、电脑里飞速跑动的那些数字前,我最初的模样可是一块块“计数石头”。…...
数据库漫谈-infomix
infomix数据库知名度不高,主要跟它的定位有关,它主要用于unix操作系统:Informix便是取自Information和Unix的结合,它也是第一个支持linux系统的数据库。它其实在金融、电信行业使用率非常高。98年,当时我在做银行领域的…...

【Qt】Qt界面美化指南:深入理解QSS样式表的应用与实践
文章目录 前言:1. 背景介绍2. 基本语法3. QSS 设置方式3.1. 设置全局样式3.2. 从文件加载样式表3.3. 使用 Qt Designer 编辑样式 总结: 前言: 在当今这个视觉至上的时代,用户界面(UI)的设计对于任何软件产…...

七彩云南文化旅游网站的设计
管理员账户功能包括:系统首页,个人中心,管理员管理,游客管理,导游管理,旅游景点管理,酒店信息管理 前台账户功能包括:系统首页,个人中心,论坛,旅…...

7-zip安装教程
一、简介 7-Zip 是一款开源的文件压缩软件,由 Igor Pavlov 开发。它具有高压缩比、支持多种格式、跨平台等特点。使用 C语言编写,其代码在 Github 上开源。 7-Zip的官网: 7-Zip 7-zip官方中文网站: 7-Zip 官方中文网站 7-Zip 的 G…...

oracle 12c DB卸载流程
1.运行卸载程序 [rootprimary1 ~]# su - oracle [oracleprimary1 ~]$ cd $ORACLE_HOME/deinstall [oracleprimary1 deinstall]$ ./deinstall Checking for required files and bootstrapping ... Please wait ... 这里选择3 、回车、y、y、回车、ASM 这里输入y 2.删除相关目录…...

Docker学习笔记 - 创建自己的image
目录 基本概念常用命令使用docker compose启动脚本创建自己的image 使用Docker是现在最为流行的软件发布方式, 本系列将阐述Docker的基本概念,常用命令,启动脚本和如何生产自己的docker image。 在我们发布软件时,往往需要把我…...

java web爬虫
目录 读取本地文件 从网站读取文件 java爬虫 总结 读取本地文件 import java.io.File; import java.io.PrintWriter; import java.util.Scanner;public class ReplaceText {public static void main() throws Exception{File file new File("basic\\test.txt"…...
MySQL开发教程和具体应用案例
一、MySQL开发教程 初识数据库 定义:数据仓库,安装在操作系统之上,用于存储和管理数据。 分类:关系型数据库(如MySQL、Oracle、SQL Server)和非关系型数据库(如Redis、MongoDB)。 SQL:结构化查询语言,用于管理和操作关系型数据库。 操作数据库 创建、修改、删除…...
web vue 项目 Docker化部署
Web 项目 Docker 化部署详细教程 目录 Web 项目 Docker 化部署概述Dockerfile 详解 构建阶段生产阶段 构建和运行 Docker 镜像 1. Web 项目 Docker 化部署概述 Docker 化部署的主要步骤分为以下几个阶段: 构建阶段(Build Stage):…...

Opencv中的addweighted函数
一.addweighted函数作用 addweighted()是OpenCV库中用于图像处理的函数,主要功能是将两个输入图像(尺寸和类型相同)按照指定的权重进行加权叠加(图像融合),并添加一个标量值&#x…...
JVM垃圾回收机制全解析
Java虚拟机(JVM)中的垃圾收集器(Garbage Collector,简称GC)是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象,从而释放内存空间,避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

Mac下Android Studio扫描根目录卡死问题记录
环境信息 操作系统: macOS 15.5 (Apple M2芯片)Android Studio版本: Meerkat Feature Drop | 2024.3.2 Patch 1 (Build #AI-243.26053.27.2432.13536105, 2025年5月22日构建) 问题现象 在项目开发过程中,提示一个依赖外部头文件的cpp源文件需要同步,点…...
iOS性能调优实战:借助克魔(KeyMob)与常用工具深度洞察App瓶颈
在日常iOS开发过程中,性能问题往往是最令人头疼的一类Bug。尤其是在App上线前的压测阶段或是处理用户反馈的高发期,开发者往往需要面对卡顿、崩溃、能耗异常、日志混乱等一系列问题。这些问题表面上看似偶发,但背后往往隐藏着系统资源调度不当…...
如何配置一个sql server使得其它用户可以通过excel odbc获取数据
要让其他用户通过 Excel 使用 ODBC 连接到 SQL Server 获取数据,你需要完成以下配置步骤: ✅ 一、在 SQL Server 端配置(服务器设置) 1. 启用 TCP/IP 协议 打开 “SQL Server 配置管理器”。导航到:SQL Server 网络配…...

如何在Windows本机安装Python并确保与Python.NET兼容
✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…...

海云安高敏捷信创白盒SCAP入选《中国网络安全细分领域产品名录》
近日,嘶吼安全产业研究院发布《中国网络安全细分领域产品名录》,海云安高敏捷信创白盒(SCAP)成功入选软件供应链安全领域产品名录。 在数字化转型加速的今天,网络安全已成为企业生存与发展的核心基石,为了解…...

【记录坑点问题】IDEA运行:maven-resources-production:XX: OOM: Java heap space
问题:IDEA出现maven-resources-production:operation-service: java.lang.OutOfMemoryError: Java heap space 解决方案:将编译的堆内存增加一点 位置:设置setting-》构建菜单build-》编译器Complier...