当前位置：首页 > article >正文

【词汇专栏】扩散模型（Diffusion Model）：AI 是怎么“画“出一张图的？

article 2026/4/14 0:34:07

扩散模型Diffusion ModelAI 是怎么画出一张图的你输入一句话AI 生成了一张精美的图片。这背后不是什么神奇魔法而是一个极其优雅的数学过程——先把图片毁掉再学会修复它。这就是扩散模型。一句话定义扩散模型Diffusion Model是一种通过逐步加噪再逐步去噪的过程来学习生成高质量图像的深度学习模型是 Stable Diffusion、Midjourney 等 AI 绘图工具的底层技术。为什么叫扩散扩散这个名字来自物理学中的布朗运动在一杯清水中滴入一滴墨水墨水分子不断扩散最终均匀分布于整杯水中清晰的墨迹 → 随机的噪声分布扩散模型的核心思路正是这个过程的逆转清晰图像 → 逐步加噪 → 纯噪声正向扩散Forward Process纯噪声 → 逐步去噪 → 清晰图像逆向扩散Reverse Process通俗类比雕塑家的工作方式传统生成模型GAN的思路画家从空白画布开始一笔笔直接画出作品。扩散模型的思路雕塑家不是从零开始雕而是先拿到一块已经完成的雕像训练图片用砂纸不断打磨直到雕像变成一堆沙子加噪学习如何从沙子恢复成雕像学习去噪遇到新的一堆沙子随机噪声就用学到的技能一步步雕刻出新作品技术层面扩散模型的工作原理第一阶段正向扩散训练前准备对训练图像逐步添加高斯噪声原始图像清晰 ↓ 加一点噪声略微模糊的图像t1 ↓ 再加噪声更模糊的图像t100 ↓ 继续加 ... 纯随机噪声t1000这个过程有严格的数学公式控制每一步的噪声量都是可以精确计算的。第二阶段训练去噪网络训练一个神经网络通常是 U-Net 架构让它学会给定一张加了 t 步噪声的图像预测应该去掉多少噪声输入[噪声图像] [时间步 t] [文字描述可选] ↓ U-Net 神经网络 ↓ 输出这一步应该去掉的噪声训练完成后模型掌握了在任意噪声程度下如何让图像更清晰一点的能力。第三阶段推理生成你实际使用的过程从纯随机噪声开始如果有文字提示则把文字编码输入 ↓ 去噪 1 步t1000→999 ↓ 去噪 1 步t999→998 ... ↓ 去噪 1 步t1→0 生成与文字描述匹配的清晰图像每步去噪图像都朝着符合描述的真实图像方向进化。文字如何控制图像——CLIP 的作用单纯的扩散模型只能生成随机图像怎么让它按照文字生成答案是CLIPContrastive Language-Image Pre-trainingCLIP 由 OpenAI 在 2021 年发布它学习了文字描述和图像内容之间的对应关系把文字提示词编码成向量作为扩散模型的引导信号一只橙色的猫坐在月亮上 ↓ CLIP 文字编码器向量 [0.23, -0.41, 0.87, ...] ↓ 作为条件信号扩散模型的每步去噪都向这个方向靠近 ↓ 最终生成符合描述的图像扩散模型 vs GAN为什么扩散模型赢了在扩散模型出现之前GAN生成对抗网络是图像生成的主流GAN 造假者 vs 鉴别者的博弈2014 年由 Ian Goodfellow 提出对比GAN扩散模型图像质量高但不稳定非常高稳定训练难度困难模式崩溃问题相对稳定多样性有限容易重复相似图高可控性较弱强CLIP引导速度快慢需要多步去噪代表产品早期 GAN 艺术Stable Diffusion、Midjourney、DALL·E 3扩散模型的最大缺点是慢需要几十步到几百步去噪但研究者通过DDIM、LCM 等加速方法已经把步数从 1000 步压缩到 4-8 步大大提高了速度。潜空间扩散LDMStable Diffusion 的秘密普通扩散模型在原始像素空间工作一张 512×512 的图有 786,432 个像素计算量巨大。Stable Diffusion 的创新Latent Diffusion ModelLDM潜空间扩散模型原始图像512×512像素 ↓ VAE 编码器压缩 8 倍潜空间表示64×64更紧凑 ↓ 在潜空间里做扩散加噪/去噪潜空间表示64×64 ↓ VAE 解码器还原生成图像512×512像素效果在潜空间做扩散计算量减少 64 倍8×8同等算力下能生成更多、更快。这就是 Stable Diffusion 能在消费级显卡上运行的关键原因。知名产品使用了哪些扩散模型技术产品底层技术Stable DiffusionLDM开源可本地运行Midjourney自研扩散模型高度优化DALL·E 3扩散模型 ChatGPT 提示词优化Adobe Firefly基于 SD 架构训练数据版权友好Sora视频生成基于扩散 Transformer 的 DiT 架构可灵 AI扩散模型的视频扩展常见误区误区真相“AI 绘画是从无到有凭空创造”⚠️ 起点是随机噪声但每步都被训练数据中的规律所引导“扩散模型能记住训练图片”⚠️ 有时会复现训练数据但主要是学习统计规律“Midjourney 和 Stable Diffusion 原理一样”⚠️ 都基于扩散但架构和训练策略有很大差异“图像质量越高步骤越多越好”❌ 超过一定步数后质量提升边际递减过多反而浪费计算易混淆词辨析扩散模型 vs GAN两种不同的生成图像方式扩散更稳定更主流扩散模型 vs VAEVAE 是压缩/重建工具扩散模型是生成工具两者在 LDM 中合作Stable Diffusion vs ControlNetSD 是生成底层ControlNet 是给 SD 加上精准控制的附加模块如骨骼控制、边缘控制一句话总结扩散模型是先毁掉再修复——通过学习如何从噪声中还原清晰图像它掌握了从零生成任何图像的能力。这个优雅的逆向思维让 AI 绘画从实验室走进了每个人的手机。标签#AI术语#扩散模型#DiffusionModel#StableDiffusion#AI绘画#DALL·E#Midjourney

【词汇专栏】扩散模型（Diffusion Model）：AI 是怎么“画“出一张图的？

相关文章：

【词汇专栏】扩散模型（Diffusion Model）：AI 是怎么“画“出一张图的？

【词汇专栏】AGI vs ANI vs ASI：人工智能的三种“等级“，我们现在在哪里？

【词汇专栏】MoE（混合专家）：为什么 DeepSeek 又快又省钱？

Z-Image-Turbo-rinaiqiao-huiyewunv多场景落地：AI绘画教育课程实验平台搭建实践

初学者必看！如何解决Java线程不安全问题

Wan2.2-I2V-A14B文生视频实战：教育课件动态演示视频批量生成案例

别再死磕Ubuntu16.04了！Zephyr RTOS环境搭建保姆级避坑指南（附nRF52840DK实战）

Qwen3-4B镜像快速入门：免Python免CUDA，浏览器打开就能聊

薪酬系统上线踩坑实录：从Excel算薪到自动化发薪，我们走了多少弯路

LM2904运算放大器的实战应用：精准监测电池电压的电路设计

2026年企业薪酬管理的数字化底座：eHR工资系统

Linux环境下Nacos 2.4.0安全部署与密码重置实战指南

智能考勤管理系统推荐：2026年主流产品深度对比与选型建议

Windows远程连接Ubuntu 22.04桌面终极指南：解决xrdp卡顿、分辨率异常和QtGUI问题

监管倒计时60天：AIAgent可解释性设计必须满足的5项ISO/IEC 23894-2023强制条款

XHS-Downloader：3种高效方法帮你轻松下载小红书无水印内容

WPF 多屏显示实战：从零构建跨屏窗口管理器，避坑指南与性能优化

py每日spider案例之下载gou 之视频解析接口(难度一般)

从零搭建到安全加固：CMAK for Apache Kafka 生产环境部署全记录（含LDAP配置避坑）

如何5分钟内释放20GB空间：Windows Cleaner完整磁盘清理指南

YOLOv8实战避坑：从官网文档到代码实现，手把手教你提取目标中心点坐标（附完整代码）

HexView 刷写脚本进阶：/FP与/FR参数在固件数据填充中的实战应用

别再乱调管子尺寸了！手把手教你用CMOS反相器链优化延时（附Python脚本）

K230开发板避坑指南：RGB灯珠共阳/共阴判断方法与GPIO驱动配置详解

FPGA时序约束进阶：Set_Bus_Skew在跨时钟域设计中的实战解析

从防跌倒产品设计到康复训练：ADAMS人体动力学仿真在3个工业场景中的实战应用

【Python 数字孪生】之PyVista有限元后处理与可视化实战

火山图实战指南：从数据准备到差异基因标记

零碳入门：碳核算的三大范围

无功功率通俗科普——别说你还不理解无功功率