当前位置：首页 > news >正文

扩散模型原理记录

news 2026/2/7 11:53:45

1 扩散模型原理记录

参考资料：

[1]【54、Probabilistic Diffusion Model概率扩散模型理论与完整PyTorch代码详细解读】 https://www.bilibili.com/video/BV1b541197HX/?share_source=copy_web&vd_source=7771b17ae75bc5131361e81a50a0c871

[2] https://t.bilibili.com/700526762586538024?spm_id_from=333.999.0.0

以下内容为对上述资料的补充理解，理解不对的地方，请多指教。

以下序号与资料中的章节序号一致。

七、目标数据分布的似然函数

扩散模型本质为生成模型，所以最本质的目标是最大化对数据分布真值的预测概率。

这里可以假设成一个分类问题，不同的类别表示不同的数据分布，其中包括与数据分布真值相近的和不相近的。模型会预测不同数据分布的概率。我们的目标是，使网络对数据分布真值对应的类别的预测概率最高。

用公式表示： $max~p_{\theta}(x_0)$ ，其中， $p_{\theta}(x_0)$ 为模型对数据分布真值预测的概率分布（注意模型不只是网络，在扩散模型里，网络是模型的一部分，模型还包括对网络输出结果的后处理，因此网络输出值可能多种多样）。

但是 $p_{\theta}(x_0)$ 范围是 $0 - 1$ ，直接最大化不好计算，因此一般转化为最小化对数似然函数： $-log~p_{\theta}(x_0)$ 。直接最小化 $-log~p_{\theta}(x_0)$ 也不好求，所以扩散模型转而最小化 $-log~p_{\theta}(x_0)$ 的上界，这个上界就是 $L_{VLB}$ （需要乘 $q(x_0)$ ）。

下面的目标就是最小化 $L_{VLB}$ 。

$L_{VLB}$ 最终转化为 $L_{VLB}=E_q[L_T+L_{t-1}]$ （ $L_0$ 与 $L_{t-1}$ 合并到一起了），其中， $L_T$ 和 $L_{t-1}$ 都是两个高斯分布的KL散度，结果只与两个高斯分布的均值和方差有关。 $L_T$ 中两个分布的均值和方差都是已知(在 $x_0$ 分布已知的情况下已知)且不可优化的，因此直接去除。下面计算 $L_{t-1}$ ，如下式（方差是设定的固定值，所以省略了）：

其中， $\tilde\mu(x_t, x_0)$ 是 $q(x_{t-1}|x_t, x_0)$ 高斯分布的均值， $\mu_{\theta}(x_t,t)$ 是 $p_{\theta}(x_{t-1}|x_t)$ 高斯分布的均值。

$p_{\theta}(x_{t-1}|x_t)$ 是模型的预测分布，也可以写成 $p_{\theta}(x_{t-1}|x_t, t)$ 。

对上式展开，其中 $q(x_{t-1}|x_t, x_0)$ 的均值 $\tilde\mu(x_t, x_0)$ 已经在前面计算出来了，直接代入：

上式中 $\epsilon$ 与上文的 $z$ 一样，都是加的噪声。下面的问题是，我们要最小化 $L_{t-1}-C$ ，网络在模型中扮演什么角色？可选择的是：

预测 $\mu_{\theta}(x_t,t)$ ，使其逼近 $\tilde\mu(x_t, x_0)$ ，即损失是他俩的差；
预测 $x_0'$ ，使其直接逼近 $x_0$ ，损失是他俩的差；
预测 $\epsilon$ ，这样对应的 $x_0'$ 就可以一步步地推出来（只是可以这么干，但是这样的话就与上个选择一样了，直接一步到位其实效果不好），这样 $p_{\theta}(x_{t-1}|x_t,t)$ 分布的均值 $\mu_{\theta}(x_t,t)$ 就与 $q(x_{t-1}|x_t,x_0')$ 的均值公式一样，即下式。这样就可以逼近 $\tilde\mu(x_t, x_0)$ ，即损失是他俩的差（可以简化计算）；

扩散模型的作者选择用网络来预测 $\epsilon$ ，这样， $\mu_{\theta}(x_t,t)$ 的计算公式如下：

再简化 $L_{t-1}-C$ ，如下：

到这里，网络的损失就确定了，即最小化预测的噪声与实际添加的噪声的差，网络输入是时刻t和时刻t对应的xt。

有了网络输出的噪声后，就可以通过 $p_{\theta}(x_{t-1}|x_t,t)$ 分布的均值 $\mu_{\theta}(x_t,t)$ 和方差（方差是预定义的 $\beta$ ）来采样出 $x_{t-1}$ ，训练过程和反扩散过程的伪代码如下：

反扩散过程用到了重参数化采样，上图中的 $\sigma_t$ 就是标准差 $\sqrt{\beta_t}$ 。

扩散模型原理记录

1 扩散模型原理记录

七、目标数据分布的似然函数

相关文章：

扩散模型原理记录

Metasploit高级技术【第九章】

RK3568平台开发系列讲解（调试篇）IS_ERR函数的使用

TouchGFX界面开发 | TouchGFX软件安装

使用 IDEA 远程 Debug 调试

红黑树和平衡二叉树的优缺点及应用场景

软文推广：真实有效提升软文排名与收录的三大方法！

SElinux的介绍及配置

vscode-python环境配置

问卷调查样本量的确定方法

ios客户端学习笔记（三）：学习Swift的设计模式

406. 根据身高重建队列

ESP32使用ESP-NOW协议实现一对多通信和MAC地址存储

Qt 学生信息数据库管理

相量的加减乘除计算

JavaScript 代码整洁之道

socket 及字节序转换（嵌入式学习）

Java之~ Aop自定义注解日志

编译原理个人作业--第四章

学习笔记：数据库简介

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

idea大量爆红问题解决

OkHttp 中实现断点续传 demo

【Zephyr 系列 10】实战项目：打造一个蓝牙传感器终端 + 网关系统（完整架构与全栈实现）

《基于Apache Flink的流处理》笔记

AI编程--插件对比分析：CodeRider、GitHub Copilot及其他

重启Eureka集群中的节点，对已经注册的服务有什么影响

安全突围：重塑内生安全体系：齐向东在2025年BCS大会的演讲

【把数组变成一棵树】有序数组秒变平衡BST，原来可以这么优雅！

pgsql：还原数据库后出现重复序列导致“more than one owned sequence found“报错问题的解决