当前位置: 首页 > news >正文

AI 绘画爆火背后:扩散模型原理及实现

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。

针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。

合集:

持续火爆!!!《AIGC 面试宝典》已圈粉无数!


最近爆火的AI绘图,相信大家并不陌生了。

从AI绘图软件生成的作品打败一众人类艺术家,到如今文生图代表:Midjourney、Stable Diffusion、 DALL-E 到处攻城略地。

那么,在你感受AI绘图魅力的同时, 有没有想过,它背后的奥妙究竟是什么?

一切,都要从一个名为DDPM的模型说起…

话说DDPM

DDPM模型,全称Denoising Diffusion Probabilistic Model,可以说是现阶段diffusion模型的开山鼻祖。不同于前辈GAN、VAE和flow等模型,diffusion模型的整体思路是通过一种偏向于优化的方式, 逐步从一个纯噪音的图片中生成图像。

图片

现在已有生成图像模型的对比

没有相关机器学习背景的小伙伴可能会问了,什么是纯噪音图片?

很简单,老式电视机没信号时,伴随着"刺啦刺啦"噪音出现的雪花图片,就属于纯噪音图片。而DDPM在生成阶段所做的事情,就是把这些个"雪花"一点点移除,直到清晰的图像露出它的庐山真面目,我们把这个阶段称之为"去噪"。

图片

纯噪音图片:老电视的雪花屏

通过描述,大家可以感受到,去噪其实是个相当复杂的过程。没有一定的去噪规律,可能你忙活了好半天,到最后还是对着奇形怪状的图片欲哭无泪。当然,不同类型的图片也会有不同的去噪规律,至于怎么让机器学会这种规律,有人灵机一动,想到了一种绝妙的方法。

“既然去噪规律不好学,那我为什么不先通过加噪的方式,先把一张图片变成纯噪音图像,再把整个过程反着来一遍呢?”

这便奠定了diffusion模型整个训练-推理的流程, 先在前向过程( forward process )通过逐步加噪,将图片转换为一个近似可用高斯分布的纯噪音图像,紧接着在反向过程( reverse process )中逐步去噪,生成图像,最后以增大原始图像和生成图像的相似度作为目标,优化模型,直至达到理想效果

图片

DDPM的训练-推理流程

到这里,不知道大家的接受度怎样?如果感觉没问题,轻轻松的话。准备好,我要开始上大招(深入理论)啦。

1.前向过程(forward process)

又称为扩散过程(diffusion process),整体是一个参数化的 马尔可夫链(Markov chain 。从初始数据分布 出发,每步在数据分布中添加高斯噪音,持续T次。其中从第t-1步到第t步的过程可以用高斯分布表示为:

图片

通过合适的设置,随着t不断增大,原始数据会逐渐失去他的特征。我们可以理解为,在进行了无限次的加噪步骤后,最终的数据会变成没有任何特征,完全是随机噪音的图片,也就是我们最开始说的"雪花屏"。

在这个过程中,每一步的变化是可以通过设置 超参 来控制,在我们知晓最开始的图片是什么的前提下,前向加噪的整个过程可以说是 已知且可控的 ,我们完全能知道每一步的生成数据是什么样子。

但问题在于,每次的计算都需要从起始点出发,结合每一步的过程,慢慢推导至你想要的某步数据,过于麻烦。好在因为高斯分布的一些特性,我们可以一步到位,直接从得到。

图片

(这里的 和 为组合系数 ,本质上是超参的表达式)

2.反向过程(reverse process)

和前向过程同理,反向过程也是一个 马尔可夫链(Markov chain)****, 只不过这里用到的参数不同,至于具体参数是什么,这个就是我们需要机器来学习的部分啦。

在了解机器如何学习前,我们首先思考,基于某一个原始数据,从第t步,精准反推回第t-1步的过程应该是怎样的?

答案是,这个仍可以用高斯分布表示:

图片

注意这里必须要考虑,意思是反向过程最后生成图像还是要与原始数据有关。输入猫的图片,模型生成的图像应该是猫,输入狗的图片,生成的图像也应该和狗相关。若是去除掉,则会导致无论输入哪种类型的图片训练,最后diffusion生成的图像都一样,“猫狗不分”。

经过一系列的推导,我们发现,反向过程中的参数和,竟然还是可以用,,以及参数 表示出来的,是不是很神奇~

图片

当然,机器事先并不知道这个真实的反推过程,它能做到的,只是用一个大概近似的估计分布去模拟,表示为 θ 。

3.优化目标

在最开始我们提到,需要通过 增大原始数据和反向过程最终生成数据的相似度 来优化模型。在机器学习中,我们计算该相似度参考的是 交叉熵( cross entropy )

关于交叉熵,学术上给出的定义是"用于度量两个概率分布间的差异性信息"。换句话讲,交叉熵越小,模型生成的图片就越和原始图片接近。但是,在大多数情况下,交叉熵是 很难或者无法通过计算得出 的,所以我们一般会通过优化一个更简单的表达式,达到同样的效果。

Diffusion模型借鉴了VAE模型的优化思路,将 variational lower boundVLB ,又称 ELBO )替代cross entropy来作为最大优化目标。通过无数步的分解,我们最终得到:

图片

看到这么复杂的公式,好多小伙伴肯定头都大了。但不慌,这里需要关注的,只是中间的 罢了,它表示的是 和之间估计分布和真实分布的差距 。差距越小,模型最后生成图片的效果就越好。

4.上代码

在了解完DDPM背后的原理,接下来就让我们看看DDPM模型究竟是如何实现…

才怪啦。相信看到这里的你,肯定也不想遭受成百上千行代码的洗礼。好在MindSpore已经为大家提供了开发完备的DDPM模型, 训练推理两手抓,操作简单,单卡即可运行 ,想要体验效果的小伙伴,可以先pip install denoising-diffusion-mindspore后,参考如下代码配置参数:

图片

对重要的参数进行一些解析:

  • GaussianDiffusion

  • image_size: 图片大小

  • timesteps: 加噪步数

  • sampling_timesteps: 采样步数,为提升推理性能,需小于加噪步数

  • Trainer

  • folder_or_dataset: 对应图片中的path, 可以是已下载数据集的路径(str),也可以是已做好数据处理的VisionBaseDataset, GeneratorDataset 或 MindDataset

  • train_batch_size:batch大小

  • train_lr: 学习率

  • train_num_steps: 训练步数

Reference

  • https://medium.com/mlearning-ai/ai-art-wins-fine-arts-competition-and-sparks-controversy-882f9b4df98c

  • Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising Diffusion Probabilistic Models. arXiv:2006.11239, 2020.

  • Ling Yang, Zhilong Zhang, Shenda Hong, Runsheng Xu, Yue Zhao, Yingxia Shao, Wentao Zhang, Ming-Hsuan Yang, and Bin Cui. Diffusion models: A comprehensive survey of methods and applications. arXiv preprint arXiv:2209.00796, 2022.

  • https://lilianweng.github.io/posts/2021-07-11-diffusion-models

  • https://github.com/lvyufeng/denoising-diffusion-mindspore

  • https://zhuanlan.zhihu.com/p/525106459

  • https://zhuanlan.zhihu.com/p/500532271

  • https://www.zhihu.com/question/536012286

  • https://mp.weixin.qq.com/s/XTNk1saGcgPO-PxzkrBnIg

  • https://m.weibo.cn/3235040884/4804448864177745

相关文章:

AI 绘画爆火背后:扩散模型原理及实现

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学。 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 合集&#x…...

详解智慧互联网医院系统源码:开发医院小程序教学

本篇文章,笔者将详细介绍智慧互联网医院系统的源码结构,并提供开发医院小程序的详细教学。 一、智慧互联网医院系统概述 智慧互联网医院系统涵盖了预约挂号、在线咨询、电子病历、药品管理等多个模块。 二、系统源码结构解析 智慧互联网医院系统的源码…...

【技术实操】银河高级服务器操作系统实例分享,数据库日志文件属主不对问题分析

1. 问题现象描述 2023 年 06 月 30 日在迁移数据库过程中,遇到数据库 crash 的缺陷,原因如下:在数据库启动时候生成的一组临时文件中,有 owner 为 root 的文件, 文件权限默认为 640, 当数据库需要使用的时…...

函数的创建和调用

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 提到函数,大家会想到数学函数吧,函数是数学最重要的一个模块,贯穿整个数学学习过程。在Python中,函数…...

数模混合芯片设计中的修调技术是什么?

一、修调目的 数模混合芯片需要修调技术主要是因为以下几个原因: 工艺偏差(Process Variations): 半导体制造过程中存在不可避免的工艺偏差,如晶体管尺寸、阈值电压、电阻和电容值等,这些参数的实际值与…...

MySQL 自定义函数(实验报告)

一、实验名称: 自定义函数 二、实验日期: 2024年 6 月 1 日 三、实验目的: 掌握MySQL自定义函数的创建及调用; 四、实验用的仪器和材料: 硬件:PC电脑一台; 配置:内存&#…...

一次职业院校漏洞挖掘

这个是之前挖掘到的漏洞,目前网站进行重构做了全新的改版,但是这个漏洞特别经典,拿出来进行分享。看到src上面的很多敏感信息泄露,所以自己也想找一个敏感信息泄露,官网如图: 发现在下面有一个数字校园入口…...

洪师傅代驾系统开发 支持公众号H5小程序APP 后端Java源码

代驾流程图 业务流程图 管理端设置 1、首页装修 2、师傅奖励配置 师傅注册后,可享受后台设置的新师傅可得的额外奖励; 例:A注册了师傅,新人奖励可享受3天,第一天的第一笔订单完成后可得正常佣金佣金*奖励比例 完成第二笔/第三笔后依次可得正常佣金佣金*奖励比例 完成的第四…...

View->Bitmap缩放到自定义ViewGroup的任意区域(Matrix方式绘制Bitmap)

Bitmap缩放和平移 加载一张Bitmap可能为宽高相同的正方形,也可能为宽高不同的矩形缩放方向可以为中心缩放,左上角缩放,右上角缩放,左下角缩放,右下角缩放Bitmap中心缩放,包含了缩放和平移两个操作&#xf…...

Centos 7部署NTP

介绍 NTP是Network Time Protocol(网络时间协议)的简称,它是用来通过互联网或局域网将计算机时钟同步到世界协调时间(UTC)的协议。 安装 # yum安装 yum install -y ntp# 离线安装 #下载地址:https://mir…...

【前缀和】42. 接雨水

本文涉及知识点 C算法:前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 LeetCode42. 接雨水 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入&am…...

我的名字叫大数据

第1章 大家好,我叫大数据 1.1 我的家族传统:从我小小的祖先到壮大的我 1.1.1 最初的我:原始部落里的计数石头 大家好,我是你们人类文明的“老朋友”——大数据。你们知道吗?在我还没有变成你们手机、电脑里飞速跑动的那些数字前,我最初的模样可是一块块“计数石头”。…...

数据库漫谈-infomix

infomix数据库知名度不高,主要跟它的定位有关,它主要用于unix操作系统:Informix便是取自Information和Unix的结合,它也是第一个支持linux系统的数据库。它其实在金融、电信行业使用率非常高。98年,当时我在做银行领域的…...

【Qt】Qt界面美化指南:深入理解QSS样式表的应用与实践

文章目录 前言:1. 背景介绍2. 基本语法3. QSS 设置方式3.1. 设置全局样式3.2. 从文件加载样式表3.3. 使用 Qt Designer 编辑样式 总结: 前言: 在当今这个视觉至上的时代,用户界面(UI)的设计对于任何软件产…...

七彩云南文化旅游网站的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,游客管理,导游管理,旅游景点管理,酒店信息管理 前台账户功能包括:系统首页,个人中心,论坛,旅…...

7-zip安装教程

一、简介 7-Zip 是一款开源的文件压缩软件,由 Igor Pavlov 开发。它具有高压缩比、支持多种格式、跨平台等特点。使用 C语言编写,其代码在 Github 上开源。 7-Zip的官网: 7-Zip 7-zip官方中文网站: 7-Zip 官方中文网站 7-Zip 的 G…...

oracle 12c DB卸载流程

1.运行卸载程序 [rootprimary1 ~]# su - oracle [oracleprimary1 ~]$ cd $ORACLE_HOME/deinstall [oracleprimary1 deinstall]$ ./deinstall Checking for required files and bootstrapping ... Please wait ... 这里选择3 、回车、y、y、回车、ASM 这里输入y 2.删除相关目录…...

Docker学习笔记 - 创建自己的image

目录 基本概念常用命令使用docker compose启动脚本创建自己的image 使用Docker是现在最为流行的软件发布方式, 本系列将阐述Docker的基本概念,常用命令,启动脚本和如何生产自己的docker image。 在我们发布软件时,往往需要把我…...

java web爬虫

目录 读取本地文件 从网站读取文件 java爬虫 总结 读取本地文件 import java.io.File; import java.io.PrintWriter; import java.util.Scanner;public class ReplaceText {public static void main() throws Exception{File file new File("basic\\test.txt"…...

MySQL开发教程和具体应用案例

一、MySQL开发教程 初识数据库 定义:数据仓库,安装在操作系统之上,用于存储和管理数据。 分类:关系型数据库(如MySQL、Oracle、SQL Server)和非关系型数据库(如Redis、MongoDB)。 SQL:结构化查询语言,用于管理和操作关系型数据库。 操作数据库 创建、修改、删除…...

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...

日语AI面试高效通关秘籍:专业解读与青柚面试智能助攻

在如今就业市场竞争日益激烈的背景下,越来越多的求职者将目光投向了日本及中日双语岗位。但是,一场日语面试往往让许多人感到步履维艰。你是否也曾因为面试官抛出的“刁钻问题”而心生畏惧?面对生疏的日语交流环境,即便提前恶补了…...

Caliper 配置文件解析:config.yaml

Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...

音视频——I2S 协议详解

I2S 协议详解 I2S (Inter-IC Sound) 协议是一种串行总线协议,专门用于在数字音频设备之间传输数字音频数据。它由飞利浦(Philips)公司开发,以其简单、高效和广泛的兼容性而闻名。 1. 信号线 I2S 协议通常使用三根或四根信号线&a…...

使用LangGraph和LangSmith构建多智能体人工智能系统

现在,通过组合几个较小的子智能体来创建一个强大的人工智能智能体正成为一种趋势。但这也带来了一些挑战,比如减少幻觉、管理对话流程、在测试期间留意智能体的工作方式、允许人工介入以及评估其性能。你需要进行大量的反复试验。 在这篇博客〔原作者&a…...

掌握 HTTP 请求:理解 cURL GET 语法

cURL 是一个强大的命令行工具,用于发送 HTTP 请求和与 Web 服务器交互。在 Web 开发和测试中,cURL 经常用于发送 GET 请求来获取服务器资源。本文将详细介绍 cURL GET 请求的语法和使用方法。 一、cURL 基本概念 cURL 是 "Client URL" 的缩写…...

flow_controllers

关键点: 流控制器类型: 同步(Sync):发布操作会阻塞,直到数据被确认发送。异步(Async):发布操作非阻塞,数据发送由后台线程处理。纯同步(PureSync…...

Appium下载安装配置保姆教程(图文详解)

目录 一、Appium软件介绍 1.特点 2.工作原理 3.应用场景 二、环境准备 安装 Node.js 安装 Appium 安装 JDK 安装 Android SDK 安装Python及依赖包 三、安装教程 1.Node.js安装 1.1.下载Node 1.2.安装程序 1.3.配置npm仓储和缓存 1.4. 配置环境 1.5.测试Node.j…...

NineData数据库DevOps功能全面支持百度智能云向量数据库 VectorDB,助力企业 AI 应用高效落地

NineData 的数据库 DevOps 解决方案已完成对百度智能云向量数据库 VectorDB 的全链路适配,成为国内首批提供 VectorDB 原生操作能力的服务商。此次合作聚焦 AI 开发核心场景,通过标准化 SQL 工作台与细粒度权限管控两大能力,助力企业安全高效…...