当前位置：首页 > news >正文

Diffusion 公式推导

news 2026/4/6 17:24:47

Diffusion：通过扩散和逆扩散过程生成图像的生成式模型中已经对 diffusion 的原理进行了直观地梳理，本文对其中的数学推导进行讲解，还是基于 DDPM。

一. 预备知识

1. 重参数技巧

重参数技巧 (Reparametrization Trick) 是一种在深度学习中用于训练概率模型的技术，通常用于变分推断和概率生成模型，如变分自动编码器 (Variational Autoencoders, VAE)。这些模型的部分参数是使用特定概率分布随机采样得到的而不是确定性的值，在梯度下降反向优化时难以计算。

因此引入了重参数技巧，通过重新引入可微变换来参数化随机变量，将采样操作转换为模型参数和一个固定的噪声项的函数，使得梯度计算变得可行。举个例子 ¹，如果要从高斯分布 $\sim \mathcal{N}\left(z ; \mu_\theta, \sigma_\theta^2 \mathbf{I}\right)$ 中采样一个 $z$ ，可以写成：
$z=\mu_\theta+\sigma_\theta \odot \epsilon, \epsilon \sim \mathcal{N}(0, \mathbf{I})$

其中， $\mu_\theta$ 表示分布的均值， $\sigma_\theta$ 表示分布的标准差， $\odot$ 表示对矩阵的逐元素相乘， $\epsilon$ 是从标准高斯分布中采样的噪声项。这样，我们可以对 $\mu_\theta$ 和 $\sigma_\theta$ 进行梯度计算，而不需要对采样操作进行梯度计算。

重参数技巧的使用可以使得概率模型的训练更加高效和稳定。

2. 高斯分布的可加性

两个互相独立的高斯分布之和仍为高斯分布，即：
$X_1 \sim N(\mu_1, \sigma_1^2)\\X_2 \sim N(\mu_2, \sigma_2^2)$

则：
$X_1+X_2 \sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)\\X_1-X_2 \sim N(\mu_1-\mu_2, \sigma_1^2+\sigma_2^2)$

两个高斯分布的和本质上就是二维连续型随机变量函数的分布，可以通过计算其概率密度函数证明，见证明两个互相独立的高斯分布之和仍为高斯分布。

3. 扩散递推式的由来

不知道有多少读者和我一样，阅读 DDPM 时对扩散的递推式 $q(x_t \mid x_{t-1})=\mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \bold I)$ 感到疑惑，文中也没有解释这是怎么来的，网上的很多公式讲解也都是直接引用了该式进行推导。本节参考一文解释 Diffusion Model (一) DDPM 理论推导，对扩散过程的递推式的由来进行梳理。²

基于 diffusion 的原理，扩散过程是一个不断加噪的过程，因此相邻图像应该满足线性关系，且图像信息应当被不断减弱，形如：
$\boldsymbol{x}_t=a_t \boldsymbol{x}_{t-1}+b_t \boldsymbol{\varepsilon}_t, \quad \boldsymbol{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I}) \\$

因为 $\boldsymbol{x}_t$ 中包含的图像信息相较 $\boldsymbol{x}_{t-1}$ 更少，因此衰减系数 $0<a_t<1$ 。同样，噪声系数 $0<b_t<1$ 。

将 $\boldsymbol{x}_{t-1}$ 代入 $\boldsymbol{x}_t$ 可以得到：
$\begin{aligned} \boldsymbol{x}_t & =a_t \boldsymbol{x}_{t-1}+b_t \boldsymbol{\varepsilon}_t \\ & =a_t\left(a_{t-1} \boldsymbol{x}_{t-2}+b_{t-1} \varepsilon_{t-1}\right)+b_t \varepsilon_t \\ & =a_t a_{t-1} \boldsymbol{x}_{t-2}+a_t b_{t-1} \boldsymbol{\varepsilon}_{t-1}+b_t \boldsymbol{\varepsilon}_t \\ & =\ldots \\ & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\left(a_t \ldots a_2\right) b_1 \varepsilon_1+\left(a_t \ldots a_3\right) b_2 \varepsilon_2+\cdots+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t \\ \end{aligned}$

$\boldsymbol{x}_t$ 的第一项关于原始图像 $\boldsymbol{x}_0$ ，其余余项可以利用高斯分布的可加性进行整合，满足高斯分布 $\mathcal{N}(\mathbf{0}, (\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2)\mathbf{I})$ 。于是可以将 $\boldsymbol{x}_t$ 写成：
$\begin{aligned} \boldsymbol{x}_t & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\left(a_t \ldots a_2\right) b_1 \varepsilon_1+\left(a_t \ldots a_3\right) b_2 \varepsilon_2+\cdots+a_t b_{t-1} \varepsilon_{t-1}+b_t \varepsilon_t \\ & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\sqrt{\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2} \overline{\boldsymbol{\varepsilon}}_t, \\ \end{aligned}$

其中 $\overline{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$ ，服从标准高斯分布。

接下来再看 $\overline{\varepsilon}_t$ 前面的系数，为了一般性表示，在前面添加 $\left(a_t \ldots a_1\right)^2$ 项，最后再减去即可：
$\begin{aligned} & \left(a_t \ldots a_1\right)^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_2\right)^2 a_1^2+\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_2\right)^2\left(a_1^2+b_1^2\right)+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& \left(a_t \ldots a_3\right)^2\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\cdots+a_t^2 b_{t-1}^2+b_t^2 - \left(a_t \ldots a_1\right)^2\\ =& a_t^2\left(a_{t-1}^2\left(\ldots\left(a_2^2\left(a_1^2+b_1^2\right)+b_2^2\right)+\ldots\right)+b_{t-1}^2\right)+b_t^2 - \left(a_t \ldots a_1\right)^2\\ \end{aligned}$

为了表示的简洁以及便于书写，加一个限制条件： $a_i^2+b_i^2=1$ ，就可以将 $\boldsymbol{x}_t$ 大大简化：
$\begin{aligned} \boldsymbol{x}_t & =\left(a_t \ldots a_1\right) \boldsymbol{x}_0+\sqrt{\left(a_t \ldots a_2\right)^2 b_1^2+\left(a_t \ldots a_3\right)^2 b_2^2+\cdots+a_t^2 b_{t-1}^2+b_t^2} \overline{\boldsymbol{\varepsilon}}_t, \\ & = \left(a_t \ldots a_1\right) \boldsymbol{x}_0 + \sqrt{1-\left(a_t \ldots a_1\right)^2} \overline{\boldsymbol{\varepsilon}}_t \end{aligned}$

记 $\overline{\alpha}_t = \left(a_t \ldots a_1\right)^2$ ，则有：
$\boldsymbol{x}_t=\sqrt{\overline{\alpha}_t} \boldsymbol{x}_0+\sqrt{1-\overline{\alpha}_t} \overline{\varepsilon}_t, \quad \overline{\varepsilon}_t \sim \mathcal{N}(\mathbf{0}, \mathbf{I})$

上式和（7）式相同。

二. 扩散过程

1. 背景声明

记原始图像为 $x_0$ ，扩散过程累计 $T$ 次对其添加高斯噪声，得到 $x_1, x_2, \dots, x_T$ ；
记 $x_t \sim q(x_t)$ ，表示其服从的概率分布而不是一个具体的特定值；
根据 diffusion 模型的原理， $x_T \sim \mathcal{N}(0, \bold I)$ ，其中 $\bold I$ 为单位矩阵；
扩散过程添加的噪声都满足均值为 0 的高斯分布，方差是超参数，用来调整扩散效果。引入方差系数为 $\beta_1, \beta_2, \dots, \beta_T, \beta_t \in (0,1)$ ，具体实现是从 0.0001 到 0.02 线性插值。文中定义扩散过程如下：
$q(x_t \mid x_{t-1})=\mathcal{N}(x_t; \sqrt{1-\beta_t}x_{t-1}, \beta_t \bold I) \tag{1}$
因为扩散过程是马尔科夫过程，因此有：
$q(x_{1:T} \mid x_{0})=\prod_{t=1}^T q(x_t \mid x_{t-1}) \tag{2}$

直观来讲， $x_t$ 在 $x_{t-1}$ 的基础上乘上系数 $\sqrt{1-\beta_t}$ ，相当于一个变淡的过程；再加上扰动 $\beta_t \epsilon_{t-1}$ ，就能够让图像向标准高斯分布靠近。
为了表示方便，记 $\alpha_t = 1- \beta_t$ ， $\overline{\alpha}_t = \prod_{i=1}^t \alpha_i$ ；

2. 公式推导

将（1）式使用重参化技巧表示：
$x_t = \sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1} \quad \text{ 其中 }\epsilon_{t-1} \sim \mathcal{N}(0, \bold I) \tag{3}$

将 $x_{t-1}$ 代入 $x_{t}$ 得到：
$\because \quad x_t = \sqrt{1-\beta_t}x_{t-1} + \sqrt{\beta_t} \epsilon_{t-1}\\ \quad\quad x_{t-1} = \sqrt{1-\beta_{t-1}}x_{t-2} + \sqrt{\beta_{t-1}} \epsilon_{t-2}\\ \begin{aligned} \therefore \quad x_t & = \sqrt{1-\beta_t}(\sqrt{1-\beta_{t-1}}x_{t-2} + \sqrt{\beta_{t-1}} \epsilon_{t-2}) + \sqrt{\beta_t} \epsilon_{t-1}\\ & = \sqrt{(1-\beta_t)(1-\beta_{t-1})} x_{t-2} + \sqrt{(1-\beta_t)\beta_{t-1}} \epsilon_{t-2} + \sqrt{\beta_t} \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} \tag{4} \end{aligned}$

如果 $\epsilon_{t}$ 是特定值，后面的余项就不能继续处理。但 $\epsilon_{t}$ 是重参化过程中引入的标准高斯分布中采样，结合高斯分布的可加性，有：
$\because \quad \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} \sim \mathcal{N}(0, \alpha_t(1-\alpha_{t-1})\bold I)\\ \sqrt{1-\alpha_{t}} \epsilon_{t-1} \sim \mathcal{N}(0, (1-\alpha_{t}) \bold I)\\ \therefore \quad \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} \sim \mathcal{N}(0, (1-\alpha_t\alpha_{t-1})\bold I)$

因此可以将余项合并，改写成：
$\sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1} = \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2} \tag{5}$

其中 $\overline \epsilon_{t-2} \sim \mathcal{N}(0, \bold I)$ ，作为余项的统一表示。代入（4）式，得到：
$\begin{aligned} x_t & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{\alpha_t(1-\alpha_{t-1})} \epsilon_{t-2} + \sqrt{1-\alpha_{t}} \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2} \end{aligned} \tag{6}$

同理继续向下推导，可以得到 $x_t$ 的通项：
$\begin{aligned} x_t & = \sqrt{\alpha_t} x_{t-1} + \sqrt{1-\alpha_t} \overline \epsilon_{t-1}\\ & = \sqrt{\alpha_t\alpha_{t-1}} x_{t-2} + \sqrt{1-\alpha_t\alpha_{t-1}} \overline \epsilon_{t-2}\\ & = \cdots \\ & = \sqrt{\alpha_t\alpha_{t-1}\cdots\alpha_1} x_{0} + \sqrt{1-\alpha_t\alpha_{t-1}\cdots\alpha_1} \overline \epsilon_{0}\\ & = \sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}\\ \end{aligned} \tag{7}$

由此可以看出，扩散过程通过马尔科夫性质可以一步到位，这也是 diffusion 正向扩散的核心。

三. 逆扩散过程

Diffusion：通过扩散和逆扩散过程生成图像的生成式模型中已经说了：逆扩散 $(x_{t-1} \mid x_t)$ 是未知的，需要用 U-Net 学习 $p_\theta (x_{t-1} \mid x_t)$ 来近似；学习过程中使用 $(x_{t-1} \mid x_0x_t)$ 来指导 $p_\theta (x_{t-1} \mid x_t)$ 进行训练。

1. 背景声明

$(x_{t-1} \mid x_t)$ 是不可知的，但 $(x_{t-1} \mid x_0, x_t)$ 是可知的，记：
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} ; \tilde{\mu}\left(x_t, x_0\right), \tilde{\beta}_t \mathbf{I}\right) \tag{8}$
使用 $(x_{t-1} \mid x_0x_t)$ 来指导 $p_\theta (x_{t-1} \mid x_t)$ 进行训练；
根据马尔科夫性质，有：
$p_\theta\left(x_{0: T}\right)=p\left(x_T\right) \prod_{t=1}^T p_\theta\left(x_{t-1} \mid x_t\right) \tag{9}$
使用 U-Net 表示 $p_\theta (x_{t-1} \mid x_t)$ ：
$p_\theta\left(x_{t-1} \mid x_t\right)=\mathcal{N}\left(x_{t-1} ; \mu_\theta\left(x_t, t\right), \Sigma_\theta\left(x_t, t\right)\right) \tag{10}$

2. 公式推导

都说 $(x_{t-1} \mid x_0, x_t)$ 是可知的，下面推导其表达式。根据贝叶斯公式，有：
$q\left(x_{t-1} \mid x_t, x_0\right)=q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} \tag{11}$

其中 $q\left(x_{t-1} \mid x_t, x_0\right)$ 为后验概率， $q\left(x_t \mid x_{t-1}, x_0\right)$ 为似然估计， $q\left(x_{t-1} \mid x_0\right)$ 为先验概率， $q\left(x_t \mid x_0\right)$ 为证据（evidence）。这一步贝叶斯公式巧妙地将逆向过程全部变回了前向。 注意，这里的表示和普通的贝叶斯公式有所不同（多了 $x_0$ 项）是因为先验概率和证据无法直接求解，需要结合 $x_0$ 求解得到。

根据扩散过程推出的 $x_t$ 的通项，即（7）式，有：
$\begin{aligned} q\left(x_{t-1} \mid x_0\right)&=\sqrt{\overline{\alpha}_{t-1}} x_0+\sqrt{1-\overline{\alpha}_{t-1}} \epsilon \sim \mathcal{N}\left(\sqrt{\overline{\alpha}_{t-1}} x_0, 1-\overline{\alpha}_{t-1}\right) \\ q\left(x_t \mid x_0\right)&=\sqrt{\overline{\alpha}_t} x_0+\sqrt{1-\overline{\alpha}_t} \epsilon \sim \mathcal{N}\left(\sqrt{\overline{\alpha}_t} x_0, 1-\overline{\alpha}_t\right) \\ \end{aligned} \tag{12}$

根据（3）式，有：
$q\left(x_t \mid x_{t-1}, x_0\right)=q\left(x_t \mid x_{t-1}\right)=\sqrt{\alpha_t} x_{t-1}+\sqrt{1-\alpha_t} \epsilon \sim \mathcal{N}\left(\sqrt{\alpha_t} x_{t-1}, 1-\alpha_t\right) \tag{13}$

根据高斯分布定义式，有：
$\mathcal{N}\left(\mu, \sigma^2\right) \propto \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right) \tag{14}$

将（12）~（14）式代入（11），有：
$\begin{aligned} q\left(x_{t-1} \mid x_t, x_0\right)& =q\left(x_t \mid x_{t-1}, x_0\right) \frac{q\left(x_{t-1} \mid x_0\right)}{q\left(x_t \mid x_0\right)} \\ & \propto \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}} x_0\right)^2}{1-\overline{a}_{t-1}}-\frac{\left(x_t-\sqrt{\overline{\alpha}_t} x_0\right)^2}{1-\overline{a}_t}\right)\right) \\ \end{aligned} \tag{15}$

因为 $q\left(x_{t-1} \mid x_t, x_0\right)$ 是关于 $x_{t-1}$ 的表达式，因此将（15）式中平方项展开，再按 $x_{t-1}$ 合并同类项，可得：
$\begin{aligned} & \exp \left(-\frac{1}{2}\left(\frac{\left(x_t-\sqrt{\alpha_t} x_{t-1}\right)^2}{\beta_t}+\frac{\left(x_{t-1}-\sqrt{\overline{\alpha}_{t-1}} x_0\right)^2}{1-\overline{a}_{t-1}}-\frac{\left(x_t-\sqrt{\overline{\alpha}_t} x_0\right)^2}{1-\overline{a}_t}\right)\right) \\ = & \exp \left(-\frac{1}{2}\left(\underbrace{\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}\right) x_{t-1}^2}_{x_{t-1} \text { 方差 }} - \underbrace{\left(\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\overline{a}_{t-1}}}{1-\overline{\alpha}_{t-1}} x_0 \right) x_{t-1}}_{x_{t-1} \text { 均值 }}+\underbrace{C\left(x_t, x_0\right)}_{\text {与 } x_{t-1} \text { 无关 }}\right)\right) \\ \end{aligned} \tag{16}$

其中 $C\left(x_t, x_0\right)$ 是与 $x_{t-1}$ 无关的表达式，可以提到 $\exp$ 外作为常数项，因此没有展开。

将（16）式与高斯分布定义式指数展开做对比：
$\exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)=\exp \left(-\frac{1}{2}\left(\frac{1}{\sigma^2} x^2-\frac{2 \mu}{\sigma^2} x+\frac{\mu^2}{\sigma^2}\right)\right)$

提取 $x_{t-1}$ 的平方项和一次项可得（8）式中方差 $\tilde{\beta}_t$ ：
$\because \frac{1}{\tilde{\beta}_t}=\frac{1}{\sigma^2}=\left(\frac{\alpha_t}{\beta_t}+\frac{1}{1-\overline{\alpha}_{t-1}}\right)\\ \therefore \tilde{\beta}_t=\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t \tag{17}$

同理可得均值 $\tilde{\mu}_t\left(x_t, x_0\right)$ ：
$\because \frac{2 \tilde{\mu}_t\left(x_t, x_0\right)}{\tilde{\beta}_t}=\frac{2 \mu}{\sigma^2}=\frac{2 \sqrt{\alpha_t}}{\beta_t} x_t+\frac{2 \sqrt{\overline{a}_{t-1}}}{1-\overline{\alpha}_{t-1}} x_0 \\ \therefore \tilde{\mu}_t\left(x_t, x_0\right)=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} x_0 \tag{18}$

经过上面的分析， $x_{t-1}$ 可以通过 $x_0$ 和 $x_t$ 得到。然而，diffusion 逆向传播时并不知道 $x_0$ 的情况，因此需要对其进行替换。将（7）式代入，将 $x_0$ 替换成 $x_t$ 表示，于是有：
$\begin{aligned} \tilde{\mu}_t\left(x_t, x_0\right)&=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} x_0\\ &=\frac{\sqrt{\alpha}_t\left(1-\overline{\alpha}_{t-1}\right)}{1-\overline{\alpha}_t} x_t+\frac{\sqrt{\overline{\alpha}_{t-1}} \beta_t}{1-\overline{\alpha}_t} \frac{x_t-\sqrt{1-\overline{\alpha}_t} \overline \epsilon_{0}}{\sqrt{\overline{\alpha}_t}}\\ &=\frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right)\\ \end{aligned}$

上式中已经消去了 $x_0$ ，只和 $t$ 有关，记为 $\tilde{\mu}_t$ ，即：
$\tilde{\mu}_t=\frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right) \tag{19}$

综上， $(x_{t-1} \mid x_0, x_t)$ 可以表示为高斯分布采样：
$q\left(x_{t-1} \mid x_t, x_0\right)=\mathcal{N}\left(x_{t-1} ; \frac{1}{\sqrt{a_t}}\left(x_t-\frac{\beta_t}{\sqrt{1-\overline{a}_t}} \overline \epsilon_{0}\right), \left(\frac{1-\overline{\alpha}_{t-1}}{1-\overline{\alpha}_t} \cdot \beta_t\right) \mathbf{I}\right) \tag{20}$

至此， $(x_{t-1} \mid x_0, x_t)$ 的高斯分布的均值和方差就都有了，只剩下（19）式中的 $\overline \epsilon_{0}$ ，交给 U-Net 使用深度学习方法进行预测。³

需要注意的是，逆扩散过程和扩散过程不同，扩散过程只需要代入（7）式就可以从 $x_0$ 直接到 $x_T$ ，但逆扩散需要使用（20）式逐步向前递推，从 $x_T$ 到 $x_{T-1}$ 一直到 $x_0$ 。
在这里插入图片描述

四. 训练过程

前两节分别介绍了 diffusion 正向和逆向扩散过程中的数学公式推导，留下了 $\overline \epsilon_{0}$ 需要 U-Net 进行预测。因为训练时正向扩散过程中添加的噪声在采样后是已知的，因此只需要训练 U-Net 的预测结果向所添加的噪声靠近即可。记训练过程中的噪声采样为 $\epsilon$ ，U-Net 的预测噪声为 $\epsilon_{\theta}(\sqrt{\overline{\alpha}_t} x_{0} + \sqrt{1-\overline{\alpha}_t} \epsilon, t)$ ，于是有训练过程：
在这里插入图片描述

由浅入深了解Diffusion Model ↩︎
一文解释 Diffusion Model (一) DDPM 理论推导 ↩︎
Diffusion扩散模型大白话讲解，看完还不懂？不可能！ ↩︎

Diffusion 公式推导

Diffusion：通过扩散和逆扩散过程生成图像的生成式模型中已经对 diffusion 的原理进行了直观地梳理，本文对其中的数学推导进行讲解，还是基于 DDPM。目录一. 预备知识1. 重参数技巧2. 高斯分布的可加性3. 扩散递推式的由来二. 扩散过程1. 背…...

编程日记 2023/12/8 5:21:26

【C语言快速学习基础篇】之一基础类型、进制转换、数据位宽

文章目录一、基础类型(根据系统不同占用字节数会有变化)1.1、有符号整形1.2、无符号整形1.3、字符型1.4、浮点型1.5、布尔型二、进制转换2.1、二进制2.2、八进制2.3、十进制2.4、十六进制2.5、N进制2.6、进制转换关系对应表三、数据位宽3.1、位3.2、字节3.3、字3.4、双字3.5…...

编程日记 2023/12/8 5:19:24

使用GPT-4V解决Pycharm设置问题

pycharm如何实现关联，用中文回答在PyCharm中关联PDF文件类型，您可以按照以下步骤操作： 1. 打开PyCharm设置：点击菜单栏中的“File”（文件），然后选择“Settings”（设置）。…...

编程日记 2023/12/8 5:18:23

qt 安装

目录前言一、QT在线安装包下载 1.官方网站： 2.镜像（清华大学） 二、QT安装 1.更换安装源 2.安装界面 3.组件选择（重点） 参考 Qt2023新版保姆级安装教程前言本文主要介绍2023新版QT安装过程，…...

编程日记 2023/12/8 5:16:21

【论文合集】在非欧空间中的图嵌入方法（Graph Embedding in Non-Euclidean Space）

文章目录 1. Hyperbolic Models1.1 Hyperbolic Graph Attention Network1.2 Poincar Embeddings for Learning Hierarchical Representations.1.3 Learning Continuous Hierarchies in the Lorentz Model of Hyperbolic Geometry1.4 Hyperbolic Graph Convolutional Neural Net…...

编程日记 2023/12/8 5:15:20

锐捷EWEB网管系统 RCE漏洞复现

0x01 产品简介锐捷网管系统是由北京锐捷数据时代科技有限公司开发的新一代基于云的网络管理软件，以“数据时代创新网管与信息安全”为口号，定位于终端安全、IT运营及企业服务化管理统一解决方案。 0x02 漏洞概述 Ruijie-EWEB 网管系统 flwo.control.php 中的 type 参数存在…...

编程日记 2023/12/8 5:14:19

Clickhouse在货品标签场景的应用

背景在电商场景中，我们经常需要对货品进行打标签的操作，简单来说就是对货品进行各种分类，按照价格段进行分组，此时运营人员就可以通过价格段捞取到满足条件的商品了，本文就来简单看下这个场景如何在clickhouse中实现…...

编程日记 2023/12/8 5:13:18

CentOS 7 lvm 更换坏盘操作步骤小记 —— 筑梦之路

背景介绍硬盘容量不足、硬盘坏道太多等不可控的原因需要更换，要求不能丢失数据进行无损替换硬盘。操作步骤 1. 将硬盘插入机器，上电连接到服务器 2. 在centos 7 系统中检测是否识别出来硬盘 lsblk 3. 给新插入的硬盘分区 parted /dev/sdc mklabel g…...

编程日记 2023/12/8 5:11:15

zabbix的自动发现和注册、proxy代理和SNMP监控

目录一、zabbix自动发现与自动注册机制： 1、概念 2、zabbix 自动发现与自动注册的部署二、zabbix的proxy代理功能： 1、工作流程 2、安装部署三、zabbix-snmp 监控 1、概念 2、安装部署四、总结： 一、zabbix自动发现与自动注册…...

编程日记 2023/12/8 5:10:14

以Hub为中心节点的网络技术探析

在计算机网络中，Hub是一个重要的组成部分，它作为中心节点，连接着各个站点，实现数据的传输和通信。本文将对以Hub为中心节点的网络进行深入的技术探析。首先，我们需要了解什么是Hub。在网络术语中，Hub通常…...

编程日记 2023/12/8 5:09:13

百度推送收录工具-免费的各大搜索引擎推送工具

在互联网时代，网站收录是网站建设的重要一环。百度推送工具作为一种提高网站收录速度的方式备受关注。在这个信息爆炸的时代，对于网站管理员和站长们来说，了解并使用一些百度推送工具是非常重要的。本文将重点分享百度批量域名推送工具和百度…...

编程日记 2023/12/8 5:07:12

物流实时数仓ODS层——Mysql到Kafka

目录 1.采集流程 2.项目架构 3.resources目录下的log4j.properties文件 4.依赖 5.ODS层——OdsApp 6.环境入口类——CreateEnvUtil 7.kafka工具类——KafkaUtil 8.启动集群项目这一层要从Mysql读取数据，分为事实数据和维度数据，将不同类型的数据…...

编程日记 2023/12/8 5:06:11

奇迹mu 架设过程中可能会出现的问题及解决办法

通常我们在架设奇迹的时候，可能会遇见这种问题那种问题，很多用户都不知道该如何解决，今天我们就来系统的说明一下一些常见的问题，帮助遇见这些问题的用户理清一个架设的思路，更清楚的判断问题出在哪里，该如…...

编程日记 2023/12/8 5:04:09

IDC MarketScape2023年分布式数据库报告：OceanBase位列“领导者”类别，产品能力突出

12 月 1 日，全球领先的IT市场研究和咨询公司 IDC 发布《IDC MarketScape:中国分布式关系型数据库2023年厂商评估》（Document number:# CHC50734323）。报告认为，头部厂商的优势正在扩大，OceanBase 位列“领导者”类别。…...

编程日记 2023/12/8 5:03:08

Docker创建mqtt容器mosquitto

#1.创建映射到主机的配置文件/bwss/agent/docker/mosquitto_public/config/mosquitto.conf 内容为： listener 51883 0.0.0.0 # 0.0.0.0 allow_anonymous false persistence false persistence_location /mosquitto/data password_file /mosquitto/config/passwd …...

编程日记 2023/12/8 5:01:06

运维知识点-SQLServer/mssql

SQLServer/mssql Microsoft structed query language常见注入提权技术点：0x00 打点前提 0x01 上线CS0x02 提权0x03 转场msf0x04 抓取Hash0x05 清理痕迹 Microsoft structed query language 常见注入基于联合查询注入 order by 判断列数（对应数据类型…...

编程日记 2023/12/8 4:58:03

Reactor实战，创建一个简单的单线程Reactor（理解了就相当于理解了多线程的Reactor）

单线程Reactor package org.example.utils.echo.single;import java.io.IOException; import java.net.InetSocketAddress; import java.nio.channels.*; import java.util.Iterator; import java.util.Set;public class EchoServerReactor implements Runnable{Selector sele…...

编程日记 2023/12/8 4:57:02

目录

一. 预备知识

1. 重参数技巧

2. 高斯分布的可加性

3. 扩散递推式的由来

二. 扩散过程

1. 背景声明

2. 公式推导

三. 逆扩散过程

1. 背景声明

2. 公式推导

四. 训练过程

相关文章：