当前位置：首页 > news >正文

AI论文精读笔记-Generative Adversarial Nets(GAN)

news 2026/2/9 11:22:33

1. 论文基本信息

论文标题：Generative Adversarial Nets
作者：Ian J. Goodfellow,∗ Jean Pouget-Abadie,† Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair,‡ Aaron Courville, Yoshua Bengio§
发表时间和期刊：2014.06；NeurIPS
论文链接：Generative Adversarial Nets

2. 研究背景和动机

到目前为止，深度学习中最引人注目的成功来自于判别模型，通常是那些将高维度、丰富的输入映射到类别标签的模型。相比之下，生成模型的影响力较小，原因在于近似许多难以处理的概率计算（这些计算在最大似然估计和相关策略中出现）非常困难，此外在生成背景中难以利用分段线性单元的优势。

3. 主要贡献

(1) 我们通过“对抗”的方式提出了一种新的framework用于估算生成模型，绕过了这些难题。在所提出的对抗网络框架中，生成模型与一个对手判别模型进行对抗：一个判别模型学习如何判断样本是来自伪造的分布还是数据分布。生成模型可以类比为一组伪造者，试图制造假币并使用而不被发现，而判别模型则类似于警察，试图识别假币。这场竞争驱使双方不断改进方法，直到假币与真币无法区分。

(2) 用一个有监督学习的损失函数来做无监督学习。标号来自于是采样的还是生成的。（可以说是自监督学习的灵感来源之一）

4. 方法和模型

下图是GAN的生成器与判别器的优化过程。其中蓝色虚线代表判别结果的分布情况（注意，当判别结果为 $\frac{1}{2}$ 时，代表生成器伪造的数据达到最优结果，此时相当于随机猜测）；黑色虚线代表真实的数据分布情况；绿色实线代表生成器生成的结果分布。

生成器的目标就是通过MLP将z(代表噪声分布)映射到x(真实数据分布)，可以看到，随着不断优化z，噪声分布逐渐向真实的数据分布靠拢，到最后判别结果的分布趋向于 $\frac{1}{2}$

下图是GAN的核心算法。其中第一个等式用于优化判别器，第二个等式用于优化生成器

5. 实验和结果

略~

6. 讨论和未来工作

GAN的优点总结如下：

无需马尔可夫链：训练过程中不需要依赖马尔可夫链，仅需反向传播来获取梯度。
无推断步骤：学习过程中无需进行推断操作，简化了模型训练。
模型灵活性：模型可以集成多种不同的函数，具有较强的灵活性。
梯度传递优势：生成器网络通过鉴别器的梯度进行更新，而非直接从数据样本中更新参数，这可能带来一定的统计优势，避免输入信息直接复制到生成器的参数中。
高质量分布表示：相较于基于马尔可夫链的方法，GAN能够表示非常清晰甚至退化的分布，而马尔可夫链方法则需要分布较模糊以便模式之间的混合。

GAN的缺点总结如下：

无显式概率分布表示：GAN模型中没有显式地表示目标概率分布。
训练不稳定性：生成器和判别器的训练需要很好地同步。

7. 个人理解和反思

GAN的出现已经过了10年之久，现在也涌现出很多基于GAN的优化工作，比如StyleGAN3等等。而GAN的主要思想也不是前人未曾想到的，不过，GAN将其发扬光大，讲解清楚，成为生成领域的经典之作。

AI论文精读笔记-Generative Adversarial Nets(GAN)

1. 论文基本信息

2. 研究背景和动机

3. 主要贡献

4. 方法和模型

5. 实验和结果

6. 讨论和未来工作

7. 个人理解和反思

相关文章：

AI论文精读笔记-Generative Adversarial Nets(GAN)

Redis（主从复制、哨兵模式、集群）概述及部署测试

jmeter吞吐量控制器

【GBase 8c V5_3.0.0 分布式数据库常用几个SQL】

grep，wc命令

NLP-文本分类文献阅读-前置基础-词汇解释-通俗易懂-9月份-学习总结

Conda安装和使用(ubuntu)

JavaEE:文件操作

Python | 练习作业 2

C语言-整数和浮点数在内存中的存储-详解-上

图论篇--代码随想录算法训练营第六十一天打卡| Floyd 算法，A*算法

CMake构建学习笔记16-使用VS进行CMake项目的开发

数据结构中线性表的定义和特点

【PyTorch单点知识】PyTorch中的自动混合精度（AMP）模块详解

数据结构 --- 哈希表

Linux相关：在阿里云下载centos系统镜像

24. 线模型对象

EasyExcel 快速入门

Sparse4D v1

速盾：你知道高防 IP 和高防 CDN 的区别吗？

【大模型RAG】拍照搜题技术架构速览：三层管道、两级检索、兜底大模型

XCTF-web-easyupload

调用支付宝接口响应40004 SYSTEM_ERROR问题排查

Unity3D中Gfx.WaitForPresent优化方案

抖音增长新引擎：品融电商，一站式全案代运营领跑者

【决胜公务员考试】求职OMG——见面课测验1

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张（Windows/Linux）

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台