当前位置：首页 > news >正文

深度学习（生成式模型）——Classifier Free Guidance Diffusion

news 2026/4/25 8:03:41

文章目录

前言
推导流程
训练流程
测试流程

前言

在上一节中，我们总结了Classifier Guidance Diffusion，其有两个弊端，一是需要额外训练一个分类头，引入了额外的训练开销。二是要噪声图像通常难以分类，分类头通常难以学习，影响生成图像的质量。

Classifier Free Guidance Diffusion解决了上述两个弊端，不需要引入额外的分类头即可控制图像的生成。

本节所有符号含义与前文一致，请读者阅读完前三篇博文后在查阅此文。

本文仅总结backbone为DDIM情况下的Classifier Free Guidance Diffusion

推导流程

依据前文可知Classifier Guidance Diffusion的前向过程与反向过程与DDPM一致，且有
$q(x_t|x_{t-1},y)=q(x_t|x_{t-1})$

则有 $q(x_t|x_{0},y)=q(x_t|x_0)=\mathcal N(x_t;\sqrt{\bar \alpha_t}x_0,(1-\bar\alpha_t)\mathcal I)$

假设目前有一批基于条件 $y$ 的样本 $x_t$ ， $\epsilon(x_t,t,y)$ 服从标准正态分布，则样本 $x_t$ 将满足
$x_t=\sqrt{\bar \alpha_t}x_0+\sqrt{1-\bar\alpha_t}\epsilon(x_t,t,y)\tag{1.0}$

依据Tweedie方法，我们有

$\begin{aligned} \sqrt{\bar \alpha_t}x_0=x_t+(1-\bar\alpha_t)\nabla_{x_t}\log p(x_t|y) \end{aligned}$
进而有
$x_t=\sqrt{\bar \alpha_t}x_0-(1-\bar\alpha_t)\nabla_{x_t}\log p(x_t|y)\tag{1.1}$

结合式1.0与1.1，则有

$\nabla_{x_t}\log p(x_t|y)=-\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon(x_t,t,y)\tag{1.2}$

依据贝叶斯公式，我们有
$\begin{aligned} \log p(x_t|y)&=\log p(y|x_t)+\log p(x_t)-\log p(y)\\ \nabla_{x_t}\log p(y|x_t)&=\nabla_{x_t}\log p(x_t|y)-\nabla_{x_t}\log p(x_t)+\nabla_{x_t}\log p(y)\\ &=\nabla_{x_t}\log p(x_t|y)-\nabla_{x_t}\log p(x_t)\\ &=-\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon(x_t,t,y)+\frac{1}{\sqrt{1-\bar\alpha_t}}\epsilon(x_t,t) \end{aligned}\tag{1.3}$

回顾一下backbone为DDIM的Classifier Guidance Diffusion的采样流程
在这里插入图片描述

将式1.3代入，且引入一个超参数 $w$ ，可得
$\begin{aligned} \hat \epsilon &= \epsilon_\theta(x_t)-w\sqrt{1-\bar\alpha_t}\nabla_{x_t}\log p(y|x_t)\\ &=\epsilon_\theta(x_t)-w(\epsilon_\theta(x_t,t)-\epsilon_\theta(x_t,t,y))\\ &=(1-w)\epsilon_\theta(x_t,t)+w\epsilon_\theta(x_t,t,y) \end{aligned}\tag{1.4}$

注意到原论文的推导结果为（为了区分，超参数设为 $\hat w$ ）

$\hat \epsilon = (1+\hat w)\epsilon_\theta(x_t,t,y)-\hat w\epsilon_\theta(x_t,t)\tag{1.5}$

式1.5和1.4是一致的，均为 $\epsilon_\theta(x_t,t,y)$ 与 $\epsilon_\theta(x_t,t)$ 的加权和，且权重和为1。

训练流程

依据式1.5，我们需要训练两个神经网络 $\epsilon_\theta(x_t,t,y)$ 与 $\epsilon_\theta(x_t,t)$ ，前者为的输入包含加噪图片 $x_t$ 以及条件 $y$ （图像or文字），后者的输入仅包含加噪图像 $x_t$ 。但其实两个神经网络可以共用一个backbone，在训练时，只需要用一定的概率将条件 $y$ 设置为空即可。

测试流程

Classifier Free Guidance Diffusion的测试流程有两次推断

将条件 $y$ 空置，得到 $\epsilon_\theta(x_t,t)$
输入条件 $y$ ，得到 $\epsilon_\theta(x_t,t,y)$
利用公式1.5，生成基于条件 $y$ 的图像

可以看到推断成本多了一倍。

深度学习（生成式模型）——Classifier Free Guidance Diffusion

文章目录

前言

推导流程

训练流程

测试流程

相关文章：

深度学习（生成式模型）——Classifier Free Guidance Diffusion

C语言每日一题 11.9 day15

STM32F103C8T6第三天：pwm、sg90、超声波、距离感应按键开盖震动开盖蜂鸣器

栈的顺序存储实现（C语言）(数据结构与算法）

设计模式 -- 观察者模式

Go RabbitMQ简介使用

【面经】Spring框架中用了哪些设计模式

SpringBoot自动配置的原理篇，剖析自动配置原理；实现自定义启动类！附有代码及截图详细讲解

苹果Ios系统app应用程序开发者如何获取IPA文件签名证书时需要注意什么？

算法通关村第七关-黄金挑战二叉树迭代遍历

2023-11-Rust

iOS代码混淆----自动

对Mysql和应用微服务做TPS压力测试

将程序添加至右键菜单

三板斧的使用、全局配置文件、静态文件的配置、orm介绍

【编程实践】黑框框里的打字小游戏，但是汇编语言

ElasticSearch的集群、节点、索引、分片和副本

std::cout无法打印uint8_t类型的数据

浅谈泛在电力物联网在智能配电系统应用

已解决：云原生领域的超时挂载Bug — Kubernetes深度剖析

Excel打开密码怎么取消？两种方法教你快速移除工作簿密码

终极macOS窗口置顶工具：Topit完整指南，让你的多任务效率提升300%

3分钟搞定ESP8266固件烧录：NodeMCU PyFlasher终极指南

AI短剧制作工具源码部署教程，从环境搭建到SAAS多开

Python常用函数及常用库整理笔记

别再傻傻分不清了！Python数据生成三剑客：linspace、arange、range到底怎么选？

终极指南：掌握pyenv-virtualenv与Pyenv无缝集成的10个技巧

如何禁用 WordPress 区块主题默认的跳转链接（skip-link）输出

2.6万亿天量成交却跌破4100点！A股这波“性能调优”，咱们程序员该怎么看懂？

Halcon 3D视觉标定避坑指南：从点云模型创建到`calibrate_hand_eye`，我踩过的雷你别再踩