当前位置：首页 > news >正文

在 CelebA 数据集上训练的 PyTorch 中的基本变分自动编码器

news 文章来源：https://blog.csdn.net/gongdiwudu/article/details/134225233 2025/5/24 12:29:30

一、说明

我最近发现自己需要一种方法将图像编码到潜在嵌入中，调整嵌入，然后生成新图像。有一些强大的方法可以创建嵌入或从嵌入生成。如果你想同时做到这两点，一种自然且相当简单的方法是使用变分自动编码器。

这样的深度网络不仅可以进行编码和解码，而且相当简单，我可以在以后的研究中使用它，而不必过多担心编码解码阶段的各种隐藏复杂性。我也更喜欢对软件内部有尽可能多的控制。

因此，考虑到所有这些规范，我从 GitHub 收集了一些零碎的东西，施展了一些我自己的魔法，最终得到了一个漂亮、简单的变分自动编码器。我将在下面描述主要部分，完整的包可在以下位置找到：

vae-torch-celeba,PyTorch 中 CelebA 数据集的变分自动编码器,下载vae-torch-celeba的源码_GitHub_帮酷

PyTorch 中用于 CelebA 数据集的变分自动编码器 - GitHub - moshesipper/vae-torch-celeba：变分...

它相当小并且完全独立——这就是我的意图！

二、自动编码器

为了使本文简短易懂，我将避免提供变分自动编码器的冗长概述。此外，您还可以在 Medium 上找到有关基础知识的优秀文章。我只提供三张快速图片。

这是基本自动编码器的样子：

来源： https: //commons.wikimedia.org/wiki/File :Autoencoder_schema.png

简而言之，网络将输入数据压缩为潜在向量（也称为嵌入），然后将其解压缩回来。这两个阶段称为编码和解码。

变分自动编码器（VAE）看起来非常相似，除了中间的嵌入部分。对于每个输入，VAE 的编码器输出潜在空间中预定义分布的参数，而不是潜在空间中的向量：

来源：https ://commons.wikimedia.org/wiki/File:Reparameterized_Variational_Autoencoder.png

最后一张图片：如果我们处理的是图像输入，我们需要一个卷积VAE，如下所示：

来源：https://github.com/arthurmeyer/Saliency_Detection_Convolutional_Autoencoder

注意#1：观察编码器部分如何在每一层中添加越来越多的滤波器，图像变得越来越小；解码器则相反。

注意#2：注意符号。如果只有一个通道，则术语“过滤器”和“内核”基本相同。对于多个通道，每个过滤器都是一组内核。查看这篇很棒的 Medium 文章：“直观地理解深度学习的卷积”。

三、CelebA数据集

我将使用的数据集是 CelebA，其中包含 202,599 张名人面孔图像。

CelebA 数据集

CelebFaces Attributes Dataset (CelebA) 是一个大规模人脸属性数据集，包含超过 20 万张名人图像……

可以通过以下方式访问它torchvision:

from torchvision.datasets import CelebAtrain_dataset = CelebA(path, split='train')
test_dataset = CelebA(path, split='valid') # or 'test'

四、VAE类

我的 VAE 基于此PyTorch 示例和存储库的普通 VAE模型（将我使用的普通 VAE 替换为中的任何其他模型PyTorch-VAE应该不会太难）。PyTorch-VAE

该文件vae.py包含VAE类以及图像大小的定义、两个潜在向量的维度（均值和方差）以及数据集的路径：

CELEB_PATH = './data/'
IMAGE_SIZE = 150
LATENT_DIM = 128
image_dim = 3 * IMAGE_SIZE * IMAGE_SIZE

在课堂上VAE，我使用了以下隐藏过滤器维度：

hidden_dims = [32, 64, 128, 256, 512]

编码器看起来像这样：

in_channels = 3
modules = []
for h_dim in hidden_dims:modules.append(nn.Sequential(nn.Conv2d(in_channels, out_channels=h_dim,kernel_size=3, stride=2, padding=1),nn.BatchNorm2d(h_dim),nn.LeakyReLU()))in_channels = h_dim
self.encoder = nn.Sequential(*modules)

然后是潜在向量：

self.fc_mu = nn.Linear(hidden_dims[-1] * self.size * self.size, LATENT_DIM)
self.fc_var = nn.Linear(hidden_dims[-1] * self.size * self.size, LATENT_DIM)

最后我们用解码器“倒退”：

hidden_dims.reverse()for i in range(len(hidden_dims) - 1):modules.append(nn.Sequential(nn.ConvTranspose2d(hidden_dims[i],hidden_dims[i + 1],kernel_size=3,stride=2,padding=1,output_padding=1),nn.BatchNorm2d(hidden_dims[i + 1]),nn.LeakyReLU()))self.decoder = nn.Sequential(*modules)

这就是它的要点——还有一些零碎的内容vae.py可以完成这VAE门课。

五、训练

该文件trainvae.py包含训练我们刚刚编码的 VAE 的代码。老实说，没什么花哨的......有 3 个主要函数：（train随着训练的进行，它也输出损失值），test（它还构建一个重建图像的小样本）和loss_function。训练和测试相当普通，损失函数是标准 VAE，带有重建组件 (MSE) 和 KL 散度组件。

epoch 上的主循环执行 4 个操作：1) train、2) test、3) 生成随机潜在向量并调用decode以输出相应的输出图像，以及 4) 将 epoch 的模型保存到文件中pth。

以下是示例运行的输出。通过 20 个训练周期，您最终会得到 20 个重建图像文件、20 个潜在采样文件和 20 个 python 模型文件：

这里reconstruction_20.png，顶行显示 8 张原始图片，底行显示经过训练的 VAE 的相应重建。

在 epoch 20 时从模型重建（输出）图像。

这里的sample_20.png，显示了从随机潜在向量生成的 64 张图像：

只是为了好玩，我添加了一小段代码 — genpics.py— 从数据集中挑选一个随机图像并生成 7 个重建。以下是一些示例（最左边的图像是原始图像）：

最后，我再次放置 GitHub 链接。享受！

在 CelebA 数据集上训练的 PyTorch 中的基本变分自动编码器

一、说明

二、自动编码器

三、CelebA数据集

四、VAE类

五、训练

相关文章：

在 CelebA 数据集上训练的 PyTorch 中的基本变分自动编码器

利用Ansible实现批量Linux服务器安全配置

读书笔记：彼得·德鲁克《认识管理》第8章战略规划：企业家技能

HarmonyOS应用开发-视频播放器与弹窗

java中对象的引用是什么？

jenkins插件迁移

RK356X Android13.0 HDMI和喇叭同时出声音

vue sass-loader,webpack安装卸载操作命令

nacos应用——占用内存过多问题解决（JVM调优初步）

大漠插件（二、Qt使用插件时注意事项）

CSS 浮动

基于STM32+华为云IOT设计的火灾感知系统

算法通关村第八关|白银|二叉树的深度和高度问题【持续更新】

cmake 之add_definitions使用误区

Leetcode—515.在每个树行中找最大值【中等】

安防监控系统EasyCVR平台设备通道绑定AI算法的功能设计与开发实现

element 弹窗浏览器后退-遮照层还存在问题以及跟vue keep-alive冲突

C++(Qt)软件调试---自动注册AeDebug（17）

云原生周刊：Gateway API 1.0.0 发布 | 2023.11.6

Java2 - 数据结构

精解括号匹配问题与极致栈设计：揭开最大栈和最小栈的奥秘

云存储/视频监控管理平台EasyCVR，使用sqlite数据库出现卡顿该如何优化？

实战！工作中常用的设计模式

MySQL进阶_1.逻辑架构和SQL执行流程

基于GCC的工具objdump实现反汇编

排序算法的空间复杂度和时间复杂度

【电路笔记】-基尔霍夫电路定律

从零开始搭建React+TypeScript+webpack开发环境-基于axios的Ajax请求工具

【uniapp小程序下载】调用uni.uploadfile方法在调试工具里是没有问题的，但是线上版本和体验版就调用不成功，真机调试也没问题

chatGLM中GLM设计思路