当前位置：首页 > news >正文

生成对抗网络Generative Adversarial Network，GAN

news 2025/7/12 22:05:44

Basic Idea of GAN

Generation（生成器）

 Generation是一个neural network，它的输入是一个vector，它的输出是一个更高维的vector，以图片生成为例，输出就是一张图片，其中每个维度的值代表生成图片的某种特征。

Discriminator（判别器）

 Discriminator也是一个neural network，它的输入是一张图片，输出是一个scalar，scalar的数值越大说明这张图片越像真实的图片。

Generation和Discriminator两者的关系

举了鸟和蝴蝶例子说明Generation和Discriminator之间的关系是相互对抗，相互提高。然后提出两个问题：

Generator为什么不自己学，还需要Discriminator来指导。
Discriminator为什么不自己直接做。

Algorithm(算法说明)

首先要随机初始化generator 、discriminator的参数；

然后在每一个training iteration要做两件事：

（1）固定generator的参数，然后只训练discriminator。

将generator生成的图片与从database sample出来的图片放入discriminator中训练，如果是generator生成的图片就给低分，从database sample出来的图片就给高分。

（2）固定discriminator的参数，然后只训练generator。

把generator生成的图片当做discriminator的输入，训练目标是让输出越大越好。

具体算法如下：

训练D（固定G）:

首先从database中抽取m个样本。
从一个分布中抽取m个vector z。
将z输入generator，生成m张图片x 。
计算损失，最大化损失。

训练G（固定D）:

随机产生m个噪声，通过generator得到图片G(z)；
然后经过discriminator得到D(G(z))，更改G中的参数，使得它的得分越高越好。

GAN as structured learning

结构化学习的输入和输出多种多样，可以是序列（sequence）到序列，序列到矩阵（matrix），矩阵到图（graph），图到树（tree）等。例如，机器翻译、语音识别、聊天机器人、文本转图像等。GAN也是结构化学习的一种。

Structured Learning面临的挑战

One-shot/Zero-shot Learning：比如在分类任务中，有些类别没有数据或者有很少的数据。
机器需要创造新的东西。如果把每个可能的输出都视为一个“class”，由于输出空间很大，大多数“class”都没有训练数据，也，这就导致了机器必须在testing时创造新的东西。
机器需要有规划的概念，要有大局观。因为输出组件具有依赖性，所以应全局考虑它们。

Structured Learning Approach

传统的structured learning主要有两种做法：Bottom up 和 Top down。

Bottom up：机器逐个产生object的component。

Top down：从整体来评价产生的component的好坏。

Generator可以视为是一个Bottom Up的方法，discriminator可以视为是一个Top Down的方法，把这两个方法结合起来就是GAN。

Can Generator learn by itself

可以用监督学习的方法来对generator进行训练，但是还会存在一个问题：表示图片的code从哪里来。如果随机产生，训练起来可能非常困难。因为如果两种图片很像，它们输入vector差异很大的话，就很难去训练。

可以通过训练一个encoder，得到相应的code。但是存在的问题就是：Vector a 输出结果是向左的1，vector b 输出结果是向右的1。若把a、b平均作为输入，则输出不一定是数字，可以使用VAE来解决这个问题。

VAE (Variational Auto-Encoder，变分编码器)

VAE不仅产生一个code还会产生每一个维度的方差；然后将方差和正态分布中抽取的噪声进行相乘，之后加上code上去，就相当于加上noise的code。

VAE的缺陷

在生成图片时，不是单纯的让生成结果与真实结果越接近越好，还要保证整幅图片符合现实规律。

假设Layer L-1的值是给定的，则Layer L每一个dimension的输出都是独立的，无法相互影响。因此只有在L后面在加几个隐藏层，才可以调整第L层的神经元输出。也就是说，VAE要想获得GAN的效果，它的网络要比GAN要深才行。

下图中绿色是目标，蓝色是VAE学习的结果。VAE在做一些离散的目标效果不好。

Can Discriminator generate

Discriminator就是给定一个输入，输出一个分数。对discriminator来说，要考虑component和component之间的联系就比较容易。比如有一个滤波器，它会去检索有没有独立的像素点，有的话就是低分。

假如有一个discriminator，它能够鉴别图片的好坏，就可以用这个discriminator去生成图片。穷举所有的输入x，比较discriminator给出的分数，找到分数最高的就是discriminator的生成结果。

训练discriminator

首先给定一些正样本，随机产生一些负样本。
在每一个iteration里面，训练出discriminator能够鉴别正负样本。
然后用训练出来的discriminator生成图片当做负样本。
开始迭代。

从可视化和概率的角度来看一下整个过程。蓝色的是discriminator生成图片的分布，绿色的是真实图片分布。训练discriminator给绿色的高分，蓝色的低分。然后寻找discriminator除了真实图片之外，得分最大高的地方把它变成负样反复迭代，最终正样本和负样本就会重合在一起。

Generator v.s. Discriminator

generator：很容易生成图片，但是它不考虑component之间的联系。只学到了目标的表象，没有学到精神。

Discriminator：能够考虑大局，但是很难生成图片。

Generator + Discriminator

Generator就是取代了这个argmax的过程。GAN的优点如下：

从discriminator来看，利用generator去生成样本，去求解argmax问题，更加有效。

从generator来看，虽然在生成图片过程中的像素之间依然没有联系，但是它的图片好坏是由有大局观的discriminator来判断的。从而能够学到有大局观的generator。

生成对抗网络Generative Adversarial Network，GAN

Basic Idea of GAN Generation（生成器）  Generation是一个neural network，它的输入是一个vector，它的输出是一个更高维的vector，以图片生成为例，输出就是一张图片，其中每个维度的值代表生…...

编程日记 2023/11/21 14:20:35

C++入门第八篇---STL模板---list的模拟实现

前言： 有了前面的string和vector两个模板的基础，我们接下来就来模拟实现一下list链表模板，我还是要强调的一点是，我们模拟实现模板的目的是熟练的去使用以及去学习一些对于我们本身学习C有用的知识和用法，而不是单纯的…...

编程日记 2023/11/21 14:19:33

论文导读 | 大语言模型与知识图谱复杂逻辑推理

前言大语言模型，尤其是基于思维链提示词（Chain-of Thought Prompting）[1]的方法，在多种自然语言推理任务上取得了出色的表现，但不擅长解决比示例问题更难的推理问题上。本文首先介绍复杂推理的两个分解提示词方法&a…...

编程日记 2023/11/21 14:17:32

数智竞技何以成为“科技+体育”新样本？

文 | 智能相对论作者 | 青月 “欢迎来到，钢铁突袭。” 三人一组，头戴VR设备，中国香港队和泰国队在数实融合的空间里捉对厮杀，通过互相射击对方能量铠甲获取积分。虽然双方都展现出了极强的机动性，但显然中国香港队…...

编程日记 2023/11/21 14:15:29

Vue项目Jenkins自动化部署

1. 需求描述我们希望提交uat分支时，UAT项目能够自动发布，提交master分支时，无需自动发布，管理员手工发布 2. 效果展示 3. 采用技术 Jenkins + K8S + Docker + Nginx 4. 具体实现 4.1 编写default.conf 在Vue项目根目录新建default.conf文件，主要进行代理配置、首页…...

编程日记 2023/11/21 14:14:26

特效！视频里的特效在哪制作——Adobe After Effects

今天，我们来谈谈一款在Adobe系列中推出的一款图形视频处理软件，适用于从事设计和视频特技的机构，包括电视台、动画制作公司、个人后期制作工作室以及多媒体工作室的属于层类型后期软件——Adobe After Effects。 Adobe After Effects&#xf…...

编程日记 2023/11/21 14:13:26

2023年中国醇酸树脂涂料需求量、应用领域及市场规模前景分析[图]

醇酸树脂指多元醇和多元酸与脂肪酸经过酯化缩聚生成的高聚物，其由邻苯二甲酸酐、多元醇和脂肪酸或甘油三脂肪酸酯缩合聚合而成。醇酸树脂固化成膜后，具有耐磨性好、绝缘性佳等优势，在涂料领域应用广泛。2022年醇酸树脂产量约336.3万吨&#x…...

编程日记 2023/11/21 14:12:25

【Linux进阶之路】动静态库

文章目录回顾一. 静态库1.代码传递的方式2.简易制作3.原理二. 动态库1.简易制作2.基本原理尾序回顾前面在gcc与g的使用中，我们简单的介绍了动态库与静态库的各自的优点与区别： 动态链接库，也就是所有的程序公用一份代码,虽然方便省空间&…...

编程日记 2023/11/21 14:11:24

2023年中国羽绒制品需求现状、市场规模及细分产品规模分析[图]

羽绒羽毛指生长在水禽类动物（鹅、鸭）腋下、腹部羽绒和羽毛的统称，属于上游鹅鸭肉食品工业副产品的综合利用，是下游羽绒制品的填充料。根据国家标准，绒子含量≥50%的称为羽绒，绒子含量＜50%的称为…...

编程日记 2023/11/21 14:09:21

动手学深度学习——循环神经网络的从零开始实现（原理解释+代码详解）

文章目录循环神经网络的从零开始实现1. 独热编码2. 初始化模型参数3. 循环神经网络模型4. 预测5. 梯度裁剪6. 训练循环神经网络的从零开始实现从头开始基于循环神经网络实现字符级语言模型。 # 读取数据集 %matplotlib inline import math import torchfrom torch import …...

编程日记 2023/11/21 14:08:19

【操作系统】文件系统的逻辑结构与目录结构

文章目录文件的概念定义属性基本操作文件的结构文件的逻辑结构文件的目录结构文件控制块（FCB）索引节点目录结构文件的概念定义在操作系统中，文件被定义为：以计算机硬盘为载体的存储在计算机上的信息集合。属性描述文件…...

编程日记 2023/11/21 14:06:17

局域网内Ubuntu上搭建Git服务器

1.在局域网内选定一台Ubuntu电脑作为Git服务端： (1).新建用户如为fbc，执行如下命令：需设置密码，此为fbc sudo adduser fbc (2).切换到fbc用户：需密码，此前设置为fbc su fbc (3).建一个空目录作为仓…...

编程日记 2023/11/21 14:05:16

基础课10——自然语言生成

自然语言生成是让计算机自动或半自动地生成自然语言的文本。这个领域涉及到自然语言处理、语言学、计算机科学等多个领域的知识。 1.简介自然语言生成系统可以分为基于规则的方法和基于统计的方法两大类。基于规则的方法主要依靠专家知识库和语言学规则来生成文本&#xff0…...

编程日记 2023/11/21 14:04:16

xpath 使用使用 from lxml import etree或者 from lxml import htmlet etree.XML(xml) et etree.HTML(html) res et.xpath("/book") # 返回列表项目Valueet.xpath(“/book”)/表示根节点/div/a子节点用/依次表示/name/text()text()取文本/book//nick//表示标签…...

编程日记 2023/11/21 14:02:13

Java拼图小游戏

Java拼图小游戏 import javax.swing.*; import java.awt.*; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; import java.awt.image.BufferedImage; import java.util.ArrayList; import java.util.Collections; import java.util.List;public cla…...

编程日记 2023/11/21 14:01:12

生成对抗网络Generative Adversarial Network，GAN

Basic Idea of GAN

GAN as structured learning

Can Generator learn by itself

VAE (Variational Auto-Encoder，变分编码器)

VAE的缺陷

Can Discriminator generate

相关文章：

生成对抗网络Generative Adversarial Network，GAN

C++入门第八篇---STL模板---list的模拟实现

论文导读 | 大语言模型与知识图谱复杂逻辑推理

数智竞技何以成为“科技+体育”新样本？

Vue项目Jenkins自动化部署

特效！视频里的特效在哪制作——Adobe After Effects

2023年中国醇酸树脂涂料需求量、应用领域及市场规模前景分析[图]

【Linux进阶之路】动静态库

Ubuntu磁盘扩展容量

2023年中国羽绒制品需求现状、市场规模及细分产品规模分析[图]

动手学深度学习——循环神经网络的从零开始实现（原理解释+代码详解）

【操作系统】文件系统的逻辑结构与目录结构

局域网内Ubuntu上搭建Git服务器

基础课10——自然语言生成

xpath

Java拼图小游戏

终于有人把数据资产入表知识地图总结出来了，轻松看懂

白鳝：聊聊IvorySQL的Oracle兼容技术细节与实现原理

vue和uni-app的递归组件排坑

【考研】数据结构(更新到顺序表)

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

全球首个30米分辨率湿地数据集(2000—2022)

关键领域软件测试的突围之路：如何破解安全与效率的平衡难题

JVM 内存结构详解

Vite中定义@软链接

tomcat入门

Chrome 浏览器前端与客户端双向通信实战

【C++】纯虚函数类外可以写实现吗？

Elastic 获得 AWS 教育 ISV 合作伙伴资质，进一步增强教育解决方案产品组合

土建施工员考试：建筑施工技术重点知识有哪些？