当前位置：首页 > news >正文

My Note of Diffusion Models

news 2025/7/13 3:36:47

Diffusion Models

Links: https://theaisummer.com/diffusion-models/

Markovian Hierachical VAE

rvs:

data: $x_{0}$ ,
representation: $x_{T}$

$(p(x_0,x_1,\cdots,x_T),q(x_1,\cdots,x_{T}|x_0))$
where $x_1,\cdots,x_T$ is unobservable, and

generative model/backward trajectory:
$p(x_0,x_1,\cdots,x_T)=p(x_T)\prod_tp(x_{t-1}|x_{t})$
forward trajectory(Markov process):
$q(x_1,\cdots,x_{T}|x_0))=\prod_tq(x_{t}|x_{t-1})$

$ELBO:=\int q(x_{T}|x_{0}) \log \frac{p(x_{T})}{q(x_{T}|x_{0})}\mathrm{d}x_{T}\\ +\sum_{t=2}^T \int q(x_{t-1},x_{t}|x_{0})\log \frac{p(x_{t-1}|x_{t})}{q(x_{t-1}|x_{t}, x_{0})}\mathrm{d}x_{t-1}x_{t}\\+\int q(x_{1}|x_{0})\log p(x_{1}|x_{0})\mathrm{d}x_{1}$

Loss

$D_{KL} (q(x_{T}|x_{0})\| p(x_{T}))\\ +\sum_{t=2}^T \int q(x_{t}|x_{0})\mathrm{d}x_{t}D_{KL}(q(x_{t-1}|x_{t}, x_{0})\|p(x_{t-1}|x_{t}))\\-\int q(x_{1}|x_{0})\log p(x_{1}|x_{0})\mathrm{d}x_{1}$

prior matching term
denoising matching term
reconstruction term

Diffusion Models

basic assumption

tractable distr: $p(x_{T})$
forward trajectory(Markov process): $q(x_{t}|x_{t-1})$ is fixed (has no unlearned parameter)

Definition(Diffusion Model)

tractable distr: $p(x_{T})\sim N(0,1)$
generative model/backward trajectory: $p(x_{t-1}|x_{t})\sim N(\mu(t),\Sigma(t))$
forward trajectory(Gaussian diffusion): $q(x_{t}|x_{t-1})\sim N(x_{t-1}\sqrt{1-\beta_t},\beta_t)$ ,

Parameters:

$\beta_t=1-\alpha_t$ or $\bar{\alpha}_t:=\prod_t\alpha_t$ : noise schedule, where $\alpha_t$ is small
$\sqrt{\bar{\alpha}_t}$ : signal rate

Fact.

$q(x_{t}|x_{0})\sim N(x_{0}\sqrt{\bar{\alpha}_t},1-\bar{\alpha}_t)$
$q(x_{t-1}|x_{t},x_{0})\sim N(\mu_q(x_t ,x_0),\sigma^2(t))$ where
$\mu_q(x_t,x_0):=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})x_t-\sqrt{\bar\alpha_{t-1}}(1-\alpha_{t})x_0}{1-\bar\alpha_t}\\ =\frac{1}{\sqrt{\alpha_t}}x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}\sqrt{\alpha_t}}\epsilon_0$
and $\sigma^2(t):=\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t}\beta_{t}$ .

Design I: $p(x_{t-1}|x_{t})\sim N(\mu(t),\Sigma(t))$ :
$\mu(t)=\frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})x_t-\beta_{t}\sqrt{\bar\alpha_{t-1}}\hat{x}(x_t,t)}{1-\bar\alpha_t}\\ \Sigma(t)=\sigma^2(t)$

Design II: $p(x_{t-1}|x_{t})\sim N(\mu(t),\Sigma(t))$ :
$\mu(t)=\frac{1}{\sqrt{\alpha_t}}x_t-\frac{\beta_t}{\sqrt{1-\bar\alpha_t}\sqrt{\alpha_t}}\hat{\epsilon}(x_t,t)\\ \Sigma(t)=\sigma^2(t)$

Fact.
Under the design I:
$D_{KL} (q(x_{t−1}|x_t , x_0) \| p_θ (x_{t−1} |x_t))=\frac{1}{2\sigma_t^2}\frac{(1-\bar{\alpha}_{t-1})\beta_t^2}{(1-\bar{\alpha}_{t})^2}\|\hat{x}(x_t,t)-x_0\|^2\\ =\frac{1}{2}(\frac{1}{1-\bar{\alpha}_{t-1}}-\frac{1}{1-\bar{\alpha}_{t}})\|\hat{x}(x_t,t)-x_0\|^2$

Under the design II:
$D_{KL} (q(x_{t−1}|x_t , x_0) \| p_θ (x_{t−1} |x_t))=\frac{1}{2\sigma_t^2}\frac{\beta_t^2}{(1-\bar{\alpha}_{t})\alpha_t^2}\|\hat{\epsilon}(x_t,t)-\epsilon_0\|^2$

Algorithm

Loss:
$L=\sum_t L_t\\ L_t\approx \sum_{\epsilon\sim N(0,1)}\|\epsilon-\hat{\epsilon}(x_{t},t)\|^2,(0\leq t<T)$
where $x_{t}:=\sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon$ .

train NN $\hat\epsilon$ by data $\{(\hat{\epsilon}(x_{t}(x_{0,i},\epsilon_{il}),t),\epsilon_{il}),\epsilon_{il}\sim N(0,1),l=1,\cdots, L\}$ with size of $N L$ for each $t$ 。

Exercise

Given a latent variable model $p (x, z)$ with variational distr. $q (z ∣ x)$ . $q (x)$ represents data distr. and let $q (x, z) = q (z ∣ x) q (x)$ .
$\int q(x)L_x=\int q(x,z)\log\frac{p(x,z)}{q(z|x)}\sim D_{KL}(q(x,z)\|p(x,z))$
where $L_x$ is LEBO.

References

Jonathan Ho, Ajay Jain, Pieter Abbeel. Denoising Diffusion Probabilistic Models, 2020.
Calvin Luo, Understanding Diﬀusion Models: A Uniﬁed Perspective, 2022

My Note of Diffusion Models

Diffusion Models

Markovian Hierachical VAE

Loss

Diffusion Models

Algorithm

相关文章：

My Note of Diffusion Models

【P37】JMeter 仅一次控制器（Once Only Controller）

cleanmymac要不要下载装机?好不好用

DNS风险分析及防护研究（五）：常见的DNS威胁与防御（中科三方）

使用geoserver发布shp和tiff数据

谷歌周彦祺：LLM浪潮中的女性科学家多面手丨智源大会嘉宾风采

Burp模块

sql笔记：SQL SERVER字符串填充(标量值函数创建、标量值函数调用)

python使用hTTP方法

JavaSE常用API

华为OD机试之模拟商场优惠打折（Java源码）

5月VR大数据：Quest 2下跌超1%，其它变化不大

CW32系列模数转换器（ADC）

电动力学专题：电磁场规范不变性与规范自由度

max delay的应用场景与常见问题

非阻塞队列

动力电池管理系统（BMS）

ChatGPT桌面客户端支持gpt4模型，附使用说明

Vivado下时序逻辑模块的仿真

ThreadLocal的使用方式

visual studio 2022更改主题为深色

高防服务器能够抵御哪些网络攻击呢？

tree 树组件大数据卡顿问题优化

Yolov8 目标检测蒸馏学习记录

JVM虚拟机：内存结构、垃圾回收、性能优化

Linux nano命令的基本使用

uniapp 字符包含的相关方法

提升移动端网页调试效率：WebDebugX 与常见工具组合实践

离线语音识别方案分析

Python实现简单音频数据压缩与解压算法