当前位置: 首页 > article >正文

【VAE 论文阅读| ICLR 2014】:变分自编码器——深度生成模型的理论基石

论文信息标题Auto-Encoding Variational Bayes会议ICLR 2014单位阿姆斯特丹大学代码https://github.com/dpkingma/vae论文https://arxiv.org/pdf/1312.6114.pdf一、前言生成模型的“不可能三角”在VAE出现之前深度生成模型一直被三个难题卡住后验概率不可算p ( z ∣ x ) p(z|x)p(z∣x)无法直接求解大规模数据训不动传统变分推断不支持小批量SGD采样与推断割裂生成和编码不能一套模型搞定这篇论文直接用变分推断重参数化一把梭哈从此VAE成为生成模型三大支柱之一。二、核心思想一句话讲透编码器Encoder输入图片x xx输出隐变量z zz的分布q ϕ ( z ∣ x ) q_\phi(z|x)qϕ​(z∣x)解码器Decoder输入隐变量z zz输出重建图片p θ ( x ∣ z ) p_\theta(x|z)pθ​(x∣z)训练目标让边缘似然下界最大既保证重建准又保证生成真实通俗解释不是普通自编码器只学“编码→解码”而是学概率分布能从噪声随机采样生成全新图片。三、整体架构图1 VAE概率图模型实线生成模型p θ ( z ) p θ ( x ∣ z ) p_\theta(z)p_\theta(x|z)pθ​(z)pθ​(x∣z)虚线近似后验q ϕ ( z ∣ x ) q_\phi(z|x)qϕ​(z∣x)θ \thetaθ解码器参数ϕ \phiϕ编码器参数四、核心公式全解析4.1 对数似然下界ELBOlog ⁡ p θ ( x ( i ) ) ≥ L ( θ , ϕ ; x ( i ) ) \log p_\theta(x^{(i)}) \ge \mathcal{L}(\theta,\phi;x^{(i)})logpθ​(x(i))≥L(θ,ϕ;x(i))L − D K L ( q ϕ ( z ∣ x ) ∥ p θ ( z ) ) E q ϕ ( z ∣ x ) [ log ⁡ p θ ( x ∣ z ) ] \mathcal{L} -D_{KL}(q_\phi(z|x) \parallel p_\theta(z)) \mathbb{E}_{q_\phi(z|x)}[\log p_\theta(x|z)]L−DKL​(qϕ​(z∣x)∥pθ​(z))Eqϕ​(z∣x)​[logpθ​(x∣z)]L \mathcal{L}L证据下界越大越好D K L D_{KL}DKL​KL散度衡量分布差异q ϕ ( z ∣ x ) q_\phi(z|x)qϕ​(z∣x)编码分布近似后验p θ ( z ) p_\theta(z)pθ​(z)先验分布标准高斯p θ ( x ∣ z ) p_\theta(x|z)pθ​(x∣z)解码分布生成图像E \mathbb{E}E期望通俗解释左边让编码靠近先验规范分布右边让重建尽可能准。4.2 重参数化技巧VAE能训的关键z μ σ ⊙ ϵ , ϵ ∼ N ( 0 , I ) z \mu \sigma \odot \epsilon,\quad \epsilon \sim \mathcal{N}(0,I)zμσ⊙ϵ,ϵ∼N(0,I)z zz隐变量采样μ \muμ编码器输出均值σ \sigmaσ编码器输出标准差ϵ \epsilonϵ标准高斯噪声⊙ \odot⊙按元素相乘通俗解释把随机性甩给固定噪声ϵ \epsilonϵ让z zz可导才能用反向传播训练。4.3 高斯先验下的KL闭式解− D K L 1 2 ∑ j 1 J ( 1 log ⁡ σ j 2 − μ j 2 − σ j 2 ) -D_{KL} \frac{1}{2}\sum_{j1}^J \left(1\log\sigma_j^2 - \mu_j^2 - \sigma_j^2\right)−DKL​21​j1∑J​(1logσj2​−μj2​−σj2​)J JJ隐变量维度μ j , σ j \mu_j,\sigma_jμj​,σj​第j jj维的均值、方差五、核心PyTorch代码5.1 VAE Encoder输出μ, logvarimporttorchimporttorch.nnasnnimporttorch.nn.functionalasFclassEncoder(nn.Module):def__init__(self,in_dim784,hidden_dim400,latent_dim20):super().__init__()self.fc1nn.Linear(in_dim,hidden_dim)self.fc_munn.Linear(hidden_dim,latent_dim)self.fc_logvarnn.Linear(hidden_dim,latent_dim)defforward(self,x):hF.relu(self.fc1(x))muself.fc_mu(h)logvarself.fc_logvar(h)returnmu,logvar5.2 VAE DecoderclassDecoder(nn.Module):def__init__(self,latent_dim20,hidden_dim400,out_dim784):super().__init__()self.fc2nn.Linear(latent_dim,hidden_dim)self.fc3nn.Linear(hidden_dim,out_dim)defforward(self,z):hF.relu(self.fc2(z))x_recontorch.sigmoid(self.fc3(h))returnx_recon5.3 重参数化 损失函数classVAE(nn.Module):def__init__(self):super().__init__()self.encoderEncoder()self.decoderDecoder()defreparameterize(self,mu,logvar):stdtorch.exp(0.5*logvar)epstorch.randn_like(std)returnmueps*stddefforward(self,x):mu,logvarself.encoder(x)zself.reparameterize(mu,logvar)x_reconself.decoder(z)# 损失重构损失 KL散度recon_lossF.binary_cross_entropy(x_recon,x,reductionsum)kl_loss-0.5*torch.sum(1logvar-mu.pow(2)-logvar.exp())returnrecon_losskl_loss六、实验结果与对比6.1 对数似然下界对比表格1 出处原论文Figure 2模型MNIST测试集下界Wake-Sleep约105VAE(AEVB)约140表格1 训练收敛速度对比分析VAE收敛更快、更高、更稳完爆传统Wake-Sleep。6.2 隐空间可视化图2 2维隐空间分布分析VAE学到光滑连续的流形数字之间平滑过渡可插值生成。6.3 不同隐维度采样效果图3 不同维度隐变量生成的MNIST分析隐维度≥10即可生成清晰数字维度越高细节越丰富。七、关键创新点SGVB估计器变分下界可微、可小批量训练重参数化技巧解决采样不可导问题AEVB算法编码解码联合训练一套框架搞定生成与推断理论优美为后续CV、NLP生成模型奠定基础八、总结VAE是深度生成模型的里程碑第一次把变分推断和深度网络完美结合用重参数化解决采样不可导的世纪难题支持大规模数据、端到端训练、随机采样生成今天几乎所有可控生成、隐空间分析、概率建模都能看到VAE的影子。

相关文章:

【VAE 论文阅读| ICLR 2014】:变分自编码器——深度生成模型的理论基石

论文信息 标题:Auto-Encoding Variational Bayes会议:ICLR 2014单位:阿姆斯特丹大学代码:https://github.com/dpkingma/vae论文:https://arxiv.org/pdf/1312.6114.pdf 一、前言:生成模型的“不可能三角” …...

Nacos 2.3.0版本升级注意:连接达梦DM数据库的Docker配置变了,你的驱动包挂载路径对了吗?

Nacos 2.3.0版本升级实战:达梦DM数据库驱动挂载路径变更详解 最近在帮客户部署基于国产化数据库的微服务架构时,遇到了一个典型问题:Nacos 2.3.0版本对驱动加载机制做了调整,导致按照旧版本教程配置的达梦DM数据库连接无法正常工作…...

为什么选择node-feedparser?深度解析其核心优势与独特功能

为什么选择node-feedparser?深度解析其核心优势与独特功能 【免费下载链接】node-feedparser Robust RSS, Atom, and RDF feed parsing in Node.js 项目地址: https://gitcode.com/gh_mirrors/no/node-feedparser 在Node.js开发中,处理RSS、Atom和…...

【RED-Net | NIPS 2016论文阅读】:对称跳跃连接的深度编解码图像复原网络

论文信息 标题:Image Restoration Using Very Deep Convolutional Encoder-Decoder Networks with Symmetric Skip Connections会议:NIPS 2016单位:南京大学、阿德莱德大学代码:https://github.com/helloxiaojiao/RED-Net论文&…...

手把手调试MIPI DBI显示:用逻辑分析仪抓取Type A/B时序波形,快速定位花屏、闪屏问题

手把手调试MIPI DBI显示:用逻辑分析仪抓取Type A/B时序波形,快速定位花屏、闪屏问题 调试MIPI DBI接口的显示问题时,硬件时序分析往往是最后一道防线。当软件配置检查无误后,花屏、闪屏或无法点亮的故障通常源于信号完整性或时序偏…...

安卓demo-壁纸预览、分屏小窗与U盘播放时长记忆功能

壁纸预览 1.背景 有的项目需要做壁纸功能,就会用到壁纸预览功能。类似于手机上的壁纸预览功能: 选择图片->点击预览->桌面上的组件、应用图片名称等会出现在壁纸上。 图1.实际桌面与壁纸预览界面 2.现状分析 现在桌面已经做成一个应用了&…...

TensorFlow Recommenders多任务学习指南:同时优化多个推荐目标

TensorFlow Recommenders多任务学习指南:同时优化多个推荐目标 【免费下载链接】recommenders TensorFlow Recommenders is a library for building recommender system models using TensorFlow. 项目地址: https://gitcode.com/gh_mirrors/rec/recommenders …...

5个步骤扩展Cookiecutter项目模板功能:打造专属插件系统

5个步骤扩展Cookiecutter项目模板功能:打造专属插件系统 【免费下载链接】cookiecutter A cross-platform command-line utility that creates projects from cookiecutters (project templates), e.g. Python package projects, C projects. 项目地址: https://g…...

中兴光猫终极管理指南:zteOnu一键开启工厂模式与永久Telnet的完整教程

中兴光猫终极管理指南:zteOnu一键开启工厂模式与永久Telnet的完整教程 【免费下载链接】zteOnu A tool that can open ZTE onu device factory mode 项目地址: https://gitcode.com/gh_mirrors/zt/zteOnu 中兴光猫是许多家庭和企业网络的核心设备&#xff0c…...

Awesome Diffusion Models in Medical Imaging:医学影像扩散模型完全入门指南

Awesome Diffusion Models in Medical Imaging:医学影像扩散模型完全入门指南 【免费下载链接】Awesome-Diffusion-Models-in-Medical-Imaging Diffusion Models in Medical Imaging (Published in Medical Image Analysis Journal) 项目地址: https://gitcode.co…...

利川乡村民宿:口碑驱动的选品与运营策略解析

利川乡村民宿:口碑驱动的选品与运营策略解析“‘利川乡村民宿的核心竞争力,从来不是装修多豪华,而是能否让游客真正享受清凉与安心’——这是利川乡村民宿行业的共识,但如何选到靠谱的民宿、理解其运营逻辑,却困扰着不…...

数据智能代理DATAMIND架构与实战解析

1. 项目概述DATAMIND这个项目名称本身就透露着浓厚的"数据智能"气息。作为一个长期混迹数据科学圈的老兵,我第一眼看到这个标题就意识到,这绝不是一个简单的数据分析工具,而是一个具备自主学习和决策能力的智能代理系统。这类系统正…...

以水胜刚,SAP HANA 开发里的柔弱之道

老子说「天下莫柔弱於水。而攻坚强者,莫之能胜。」这一句放到 SAP HANA 开发里,我会把它理解成一种很朴素的工程直觉,系统里真正强大的东西,往往不是堆得最厚的过程代码,不是最长的 SQLScript,不是最复杂的 Calculation View,也不是到处加索引、到处建中间表、到处写强制…...

抖音下载器完整指南:5分钟学会批量下载无水印抖音视频

抖音下载器完整指南:5分钟学会批量下载无水印抖音视频 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback suppo…...

LLM上下文工程化实践:从向量检索到智能问答的完整解决方案

1. 项目概述:从“上下文”到“工程化”的桥梁 如果你是一名AI应用开发者,或者正在尝试将大语言模型(LLM)集成到你的产品中,那么“上下文管理”这个词对你来说一定不陌生,甚至可能是一个痛点。我们常常会遇到…...

算法题(173):枚举排列

审题: 本题需要我们找出所有排列方式并按照字典序排序输出 思路: 方法一:dfs深度优先搜索 由于最后还需要我们按照字典序输出,且无法事先确定需要的for循环层数,所以我们这里不能采用简单的for循环解决 决策树&#xf…...

浏览器沙箱环境构建:安全执行与结构化回显的实现原理

1. 项目概述:一个浏览器内的指令回显工具最近在折腾一些前端自动化测试和交互原型开发时,我常常遇到一个需求:需要快速验证浏览器环境下的指令执行结果,或者想直观地看到某个JavaScript API在特定上下文中的行为。手动打开控制台敲…...

算法题(172):组合型枚举

审题: 本题需要我们对1到n的数进行n中取m的组合枚举,找到所有不同的组合并按照字典序输出,要求行内和行间都满足字典序 思路: 本题我们采用枚举的方法,但是用for循环暴力枚举会有两个大问题 其一是无法确定for循环个数…...

从零到千档:AXOrderBook如何重塑A股市场深度洞察

从零到千档:AXOrderBook如何重塑A股市场深度洞察 【免费下载链接】AXOrderBook A股订单簿工具,使用逐笔行情进行订单簿重建、千档快照发布、各档委托队列展示等,包括python模型和FPGA HLS实现。 项目地址: https://gitcode.com/gh_mirrors/…...

树莓派4B与STM32串口通信保姆级教程:从GPIO引脚连接到minicom调试全流程

树莓派4B与STM32串口通信全流程实战指南 引言 嵌入式开发中,串口通信是最基础也最关键的技能之一。作为初学者,你可能已经听说过树莓派和STM32这两个名字——前者是当下最受欢迎的单板计算机,后者则是嵌入式领域广泛使用的微控制器。将它们通…...

AISMM白皮书深度拆解:5大核心模块、87个评估维度、23个典型误用陷阱——一线架构师手把手带你避坑

更多请点击: https://intelliparadigm.com 第一章:2026奇点智能技术大会:AISMM白皮书下载 2026奇点智能技术大会(Singularity Intelligence Summit 2026)正式发布《AI System Maturity Model(AISMM&#…...

暗黑破坏神2重制版自动化刷宝终极指南:Botty像素级智能助手全解析

暗黑破坏神2重制版自动化刷宝终极指南:Botty像素级智能助手全解析 【免费下载链接】botty D2R Pixel Bot 项目地址: https://gitcode.com/gh_mirrors/bo/botty 想要在《暗黑破坏神2重制版》中解放双手,实现高效自动刷宝吗?Botty作为一…...

Vue3+TypeScript在线演示文稿编辑器的技术实现深度解析

Vue3TypeScript在线演示文稿编辑器的技术实现深度解析 【免费下载链接】PPTist PowerPoint-ist(/pauəpɔintist/), An online presentation application that replicates most of the commonly used features of MS PowerPoint, allowing for the editi…...

艾体宝洞察|面向 Agentic AI 场景:基于原生多模型架构构建“统一上下文层”

随着大语言模型(LLM)能力的演进,AI 应用的开发正在从单轮问答式的 RAG(检索增强生成),向具备长程规划与工具调用能力的智能体(AI Agent)架构迁移。 然而,从工程实践的角度…...

Docker网络延迟高达400ms?用eBPF+量子调度模型实时诊断,3分钟定位瓶颈

更多请点击: https://intelliparadigm.com 第一章:Docker网络延迟的量子化认知革命 传统网络性能分析常将延迟视为连续可微的宏观量,而 Docker 容器间通信却在内核网络栈、cgroup 限流、iptables 规则与 veth pair 驱动层叠作用下&#xff0…...

如何快速安装和配置QLMarkdown:新手入门教程

如何快速安装和配置QLMarkdown:新手入门教程 【免费下载链接】QLMarkdown macOS Quick Look extension for Markdown files. 项目地址: https://gitcode.com/gh_mirrors/qlm/QLMarkdown QLMarkdown是一款专为macOS设计的Quick Look扩展工具,能帮助…...

终极Photoshop纹理压缩指南:Intel Texture Works插件完整使用教程

终极Photoshop纹理压缩指南:Intel Texture Works插件完整使用教程 【免费下载链接】Intel-Texture-Works-Plugin Intel has extended Photoshop* to take advantage of the latest image compression methods (BCn/DXT) via plugin. The purpose of this plugin is …...

Miku-LuaProfiler安全性与稳定性:如何避免Hook导致的崩溃问题

Miku-LuaProfiler安全性与稳定性:如何避免Hook导致的崩溃问题 【免费下载链接】Miku-LuaProfiler 项目地址: https://gitcode.com/gh_mirrors/mi/Miku-LuaProfiler Miku-LuaProfiler是一款功能强大的Lua性能分析工具,通过Hook技术实现对Lua代码执…...

ied生命周期脚本执行机制:从安装到构建的完整流程

ied生命周期脚本执行机制:从安装到构建的完整流程 【免费下载链接】ied :package: Like npm, but faster - an alternative package manager for Node 项目地址: https://gitcode.com/gh_mirrors/ie/ied ied作为一款快速的Node.js替代包管理器,其…...

三步搞定B站4K视频下载:开源工具让大会员内容永久保存

三步搞定B站4K视频下载:开源工具让大会员内容永久保存 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 在数字内容消费日益…...