当前位置：首页 > news >正文

Stable Diffusion VAE：改善图像质量的原理、选型与使用指南

news 2026/5/22 1:37:43

VAE Stable Diffusion（稳定扩散）是一种用于生成模型的算法，结合了变分自编码器（Variational Autoencoder，VAE）和扩散生成网络（Diffusion Generative Network）的思想。它通过对变分自编码器进行改进，提高了生成样本的质量和多样性。

VAE Stable Diffusion的核心思想是使用扩散生成网络来替代传统的解码器。扩散生成网络是一个逐步生成样本的过程，每一步都通过对噪声进行扩散来生成样本。这种逐步生成的过程可以提高生成样本的质量，并且可以控制生成样本的多样性。

这话太学术性了。说人话就是在Stable Diffusion中使用VAE能够得到颜色更鲜艳、细节更锋利的图像，同时也有助于改善脸和手等部位的图像质量。

VAE在生成图像过程中的作用可以通过下面的图简单了解下：

原始图像，比如高维度 512*512的，会经过encoder编码生成低维度的大小比如 64*64，编码后的图像跟原始图像位于不同的空间中，前者在一个叫latent 空间中，后者是像素 pixel空间。在latent空间中生成后的图像再经解码还原到像素空间，即人类看见的图像，这个过程中，图像会有信息损失，而VAE就充当了上述编解码器的角色，好的VAE模型能够较好的保证图像质量。

PastelMix model:

Deliberate model

常见 VAE 模型类型

一般情况下，我们只需要重点关注 Stability AI 推出的 EMA （Exponential Moving Average）和 MSE （Mean Square Error ）两个类型的 VAE 模型即可。

•stabilityai/sd-vae-ft-ema[1]

•stabilityai/sd-vae-ft-mse[2]

就使用经验而言，EMA 会更锐利、MSE 会更平滑。

除此之外，还有两个比较知名的 VAE 模型，主要用在动漫风格的图片生成中：

•WarriorMama777/OrangeMixs[3]

•hakurei/waifu-diffusion-v1-4[4]

除了上面的几种 VAE 模型之外，有一些模型会自带自己的 VAE 模型，比如最近发布的 SDXL 模型，在项目中，我们能够看到模型自己的 VAE 模型。

•stabilityai/stable-diffusion-xl-refiner-1.0/vae[5]

•stabilityai/stable-diffusion-xl-base-1.0/vae[6]

在 Stable Diffusion 的世界，修复人脸主要依赖的是下面两个项目的能力：

•TencentARC/GFPGAN[7]

•sczhou/CodeFormer[8]

前文提到的 Stability AI 推出的常用的 VAE 模型，是基于 LAION-Aesthetics[9]和 LAION-Humans，对 CompVis/latent-diffusion[10] 项目进行了模型微调而来的模型。而这两个数据集特别针对人对于图片的喜爱程度进行了整理，其中后者包含大量的人脸。

所以，在经过高质量的图片、大量人脸数据的训练后，VAE 模型对于改善图片色调，以及轻微修正图片中的人脸，也具备了一些能力。

Stable Diffusion 最好的VAE

kl-f8-anime (Anything V3) – for anime art (created by Hakurei by finetuning the SD 1.4 VAE on several anime-styled images).【11】
kl-f8-anime2 – for anime art, improved colors (use of red hue is dimmed down).【12】
vae-ft-mse-840000-ema-pruned – for realistic models or styles (created by StabilityAI).【13】
OrangeMixs – for anime art.【14】
Color101 – for improving colors and color depth.【15】

在Stable Diffusion中，不管是V1，V2，还是其他基础模型，如果本身对图像质量没有苛刻要求，其实是不需要额外部署VAE模型的，因为现在很多模型中都已经集成了VAE，比如 Anything VAE 已经集成到 Anything 模型了，再额外增加模型也没有效果。但是通过使用额外的VAE能够胜过默认提供的内置模型。当确实需要下载部署额外VAE时候，将下载的模型放置在目录（以AUTOMATIC1111’s WebUI为例）：

*\stable-diffusion-webui\models\VAE

如果有多个VAE，你可以在UI Settings中选择你更喜欢的VAE：

Selecting VAE manually from AUTOMATIC1111 WebUI’s Settings. Settings -> Stable Diffusion -> SD VAE -> Choose your preferred VAE

资源链接：

[1] stabilityai/sd-vae-ft-ema: stabilityai/sd-vae-ft-ema · Hugging Face

[2] stabilityai/sd-vae-ft-mse: stabilityai/sd-vae-ft-mse · Hugging Face

[3] hakurei/waifu-diffusion-v1-4: hakurei/waifu-diffusion-v1-4 · Hugging Face

[4] stabilityai/stable-diffusion-xl-refiner-1.0/vae: stabilityai/stable-diffusion-xl-refiner-1.0 at main

[5] stabilityai/stable-diffusion-xl-base-1.0/vae: stabilityai/stable-diffusion-xl-base-1.0 at main

[6] stabilityai/sdxl-vae: stabilityai/sdxl-vae · Hugging Face

[7] TencentARC/GFPGAN: GitHub - TencentARC/GFPGAN: GFPGAN aims at developing Practical Algorithms for Real-world Face Restoration.

[8] sczhou/CodeFormer: GitHub - sczhou/CodeFormer: [NeurIPS 2022] Towards Robust Blind Face Restoration with Codebook Lookup Transformer

[9] LAION-Aesthetics: LAION-Aesthetics | LAION

[10] CompVis/latent-diffusion: GitHub - CompVis/latent-diffusion: High-Resolution Image Synthesis with Latent Diffusion Models

[11] vae/kl-f8-anime2.ckpt · hakurei/waifu-diffusion-v1-4 at main

[12] vae/kl-f8-anime2.ckpt · hakurei/waifu-diffusion-v1-4 at main

[13] vae-ft-mse-840000-ema-pruned.safetensors · stabilityai/sd-vae-ft-mse-original at main

[14] VAEs/orangemix.vae.pt · WarriorMama777/OrangeMixs at main

[15] https://civitai.com/models/70248/color101-vae

Stable Diffusion VAE：改善图像质量的原理、选型与使用指南

相关文章：

Stable Diffusion VAE：改善图像质量的原理、选型与使用指南

maven里面没有plugins dependence问题解决

Wi-Fi 6技术详解

【LeetCode】446. 等差数列划分II -- 子序列

几个似非而是的注释问题

【设计模式|上】创建型模式

【JS】类 class

Ubuntu安装harbor（http模式）并随便上传一个

《向量数据库指南》——腾讯云向量数据库Tencent Cloud Vector DB正式上线公测！提供10亿级向量检索能力

1分钟解决github push/pull报错443

vue3学习-ref引用

Docker 容器转为镜像

阿里云服务器免费试用及搭建WordPress网站

整流二极管型号汇总，超齐全

MongoDB 操作命令

markdown高级写作技巧汇总

SpringBoot自动配置原理入门级理解

2023 08.02 小记与展望

MaxPatrol SIEM 增加了一套检测供应链攻击的专业技术

蓝桥杯上岸每日N题第六期(求阶乘)！！！

软考中级《嵌入式系统设计师》全套备考资料（真题 + 教材 + 笔记）

【软考高级架构】论文预测——论基于ATAM的架构评估方法

使用Taotoken后Keil5项目代码审查效率的直观提升

Agent 一接文件树就开始改错目录：从 Working Directory Claim 到 Path Scope Fence 的工程实战

LicenseFinder高级配置指南：自定义许可证规则与决策继承

终极歌词神器：5分钟学会用LDDC为你的音乐库添加完美歌词

Emacs-which-key排序与分页功能详解：高效管理大量快捷键的完整指南

文档分析准确率从61%跃升至98.7%的关键转折点（附2024Q2最新Claude-3.5 Sonnet文档理解基准测试对比表）

《CVPR2025-DEIM创新改进项目实战：从原理到部署的深度学习优化全攻略》019、TimeSformer-DEIM与SlowFast-DEIM

如何快速掌握TegraRcmGUI：Windows上最简单的Switch注入工具终极指南