当前位置：首页 > news >正文

昇思学习打卡-20-生成式/GAN图像生成

news 2026/2/10 0:59:37

文章目录

网络介绍
生成器和判别器的博弈过程
数据集可视化
模型细节
训练过程
网络优缺点
- 优点
- 缺点

网络介绍

GAN通过设计生成模型和判别模型这两个模块，使其互相博弈学习产生了相当好的输出。

GAN模型的核心在于提出了通过对抗过程来估计生成模型这一全新框架。在这个框架中，将会同时训练两个模型——捕捉数据分布的生成模型𝐺和估计样本是否来自训练数据的判别模型𝐷。

在训练过程中，生成器会不断尝试通过生成更好的假图像来骗过判别器，而判别器在这过程中也会逐步提升判别能力。这种博弈的平衡点是，当生成器生成的假图像和训练数据图像的分布完全一致时，判别器拥有50%的真假判断置信度。

生成器和判别器的博弈过程

在训练刚开始的时候，生成器和判别器的质量都比较差，生成器会随机生成一个数据分布。
判别器通过求取梯度和损失函数对网络进行优化，将靠近真实数据分布的数据判定为1，将靠近生成器生成出来数据分布的数据判定为0。
生成器通过优化，生成出更加贴近真实数据分布的数据。
生成器所生成的数据和真实数据达到相同的分布，此时判别器的输出为1/2。

过程如下图所示：
在这里插入图片描述
在上图中，蓝色虚线表示判别器，黑色虚线表示真实数据分布，绿色实线表示生成器生成的虚假数据分布，𝑧表示隐码，𝑥表示生成的虚假图像 𝐺(𝑧) 。

数据集可视化

import matplotlib.pyplot as pltdata_iter = next(mnist_ds.create_dict_iterator(output_numpy=True))
figure = plt.figure(figsize=(3, 3))
cols, rows = 5, 5
for idx in range(1, cols * rows + 1):image = data_iter['image'][idx]figure.add_subplot(rows, cols, idx)plt.axis("off")plt.imshow(image.squeeze(), cmap="gray")
plt.show()

在这里插入图片描述

模型细节

下面介绍本网络用到的生成器、判别器及损失函数和优化器：

生成器 Generator 的功能是将隐码映射到数据空间。由于数据是图像，这一过程也会创建与真实图像大小相同的灰度图像(或 RGB 彩色图像)。在本案例演示中，该功能通过五层 Dense 全连接层来完成的，每层都与 BatchNorm1d 批归一化层和 ReLU 激活层配对，输出数据会经过 Tanh 函数，使其返回 [-1,1] 的数据范围内。注意实例化生成器之后需要修改参数的名称，不然静态图模式下会报错。
判别器 Discriminator 是一个二分类网络模型，输出判定该图像为真实图的概率。主要通过一系列的 Dense 层和 LeakyReLU 层对其进行处理，最后通过 Sigmoid 激活函数，使其返回 [0, 1] 的数据范围内，得到最终概率。
损失函数使用MindSpore中二进制交叉熵损失函数BCELoss ；
这里生成器和判别器都是使用Adam优化器，但是需要构建两个不同名称的优化器，分别用于更新两个模型的参数，详情见下文代码。注意优化器的参数名称也需要修改。

训练过程

import os
import time
import matplotlib.pyplot as plt
import mindspore as ms
from mindspore import Tensor, save_checkpointtotal_epoch = 12  # 训练周期数
batch_size = 64  # 用于训练的训练集批量大小# 加载预训练模型的参数
pred_trained = False
pred_trained_g = './result/checkpoints/Generator99.ckpt'
pred_trained_d = './result/checkpoints/Discriminator99.ckpt'checkpoints_path = "./result/checkpoints"  # 结果保存路径
image_path = "./result/images"  # 测试结果保存路径

# 生成器计算损失过程
def generator_forward(test_noises):fake_data = net_g(test_noises)fake_out = net_d(fake_data)loss_g = adversarial_loss(fake_out, ops.ones_like(fake_out))return loss_g# 判别器计算损失过程
def discriminator_forward(real_data, test_noises):fake_data = net_g(test_noises)fake_out = net_d(fake_data)real_out = net_d(real_data)real_loss = adversarial_loss(real_out, ops.ones_like(real_out))fake_loss = adversarial_loss(fake_out, ops.zeros_like(fake_out))loss_d = real_loss + fake_lossreturn loss_d# 梯度方法
grad_g = ms.value_and_grad(generator_forward, None, net_g.trainable_params())
grad_d = ms.value_and_grad(discriminator_forward, None, net_d.trainable_params())def train_step(real_data, latent_code):# 计算判别器损失和梯度loss_d, grads_d = grad_d(real_data, latent_code)optimizer_d(grads_d)loss_g, grads_g = grad_g(latent_code)optimizer_g(grads_g)return loss_d, loss_g# 保存生成的test图像
def save_imgs(gen_imgs1, idx):for i3 in range(gen_imgs1.shape[0]):plt.subplot(5, 5, i3 + 1)plt.imshow(gen_imgs1[i3, 0, :, :] / 2 + 0.5, cmap="gray")plt.axis("off")plt.savefig(image_path + "/test_{}.png".format(idx))# 设置参数保存路径
os.makedirs(checkpoints_path, exist_ok=True)
# 设置中间过程生成图片保存路径
os.makedirs(image_path, exist_ok=True)net_g.set_train()
net_d.set_train()# 储存生成器和判别器loss
losses_g, losses_d = [], []for epoch in range(total_epoch):start = time.time()for (iter, data) in enumerate(mnist_ds):start1 = time.time()image, latent_code = dataimage = (image - 127.5) / 127.5  # [0, 255] -> [-1, 1]image = image.reshape(image.shape[0], 1, image.shape[1], image.shape[2])d_loss, g_loss = train_step(image, latent_code)end1 = time.time()if iter % 10 == 10:print(f"Epoch:[{int(epoch):>3d}/{int(total_epoch):>3d}], "f"step:[{int(iter):>4d}/{int(iter_size):>4d}], "f"loss_d:{d_loss.asnumpy():>4f} , "f"loss_g:{g_loss.asnumpy():>4f} , "f"time:{(end1 - start1):>3f}s, "f"lr:{lr:>6f}")end = time.time()print("time of epoch {} is {:.2f}s".format(epoch + 1, end - start))losses_d.append(d_loss.asnumpy())losses_g.append(g_loss.asnumpy())# 每个epoch结束后，使用生成器生成一组图片gen_imgs = net_g(test_noise)save_imgs(gen_imgs.asnumpy(), epoch)# 根据epoch保存模型权重文件if epoch % 1 == 0:save_checkpoint(net_g, checkpoints_path + "/Generator%d.ckpt" % (epoch))save_checkpoint(net_d, checkpoints_path + "/Discriminator%d.ckpt" % (epoch))

在这里插入图片描述

网络优缺点

优点

生成数据自然：
GAN通过生成器和判别器的对抗训练，生成的图像数据具有高度的自然性和逼真度。这种自然性使得GAN在图像生成、图像修复、图像超分辨率等领域具有广泛应用。
训练效率高：
GAN的创新之处在于其两个神经网络的对抗训练方式，这种训练方式简单易控，且能够显著改善生成式模型的训练效率。

缺点

训练不稳定：
GAN的训练过程可能不稳定，容易出现模式崩溃等问题。模式崩溃表现为生成器开始退化，总是生成同样的样本点，无法继续学习。这可能是由于生成器和判别器之间的对抗关系过于复杂，导致训练难以达到稳定的纳什均衡状态。
计算资源需求高：
GAN的训练过程需要大量的计算资源和时间。特别是对于大规模的数据集和高分辨率的图像，GAN的训练成本可能非常高昂。此外，GAN中的神经网络结构通常较为复杂，这也需要大量的存储空间来支持。

此章节学习到此结束，感谢昇思平台。

昇思学习打卡-20-生成式/GAN图像生成

文章目录网络介绍生成器和判别器的博弈过程数据集可视化模型细节训练过程网络优缺点优点缺点网络介绍 GAN通过设计生成模型和判别模型这两个模块，使其互相博弈学习产生了相当好的输出。 GAN模型的核心在于提出了通过对抗过程来估计生成模型这一全新框架。在这个…...

编程日记 2024/7/17 21:13:58

javafx、node js、socket、OpenGL多线程

机器学习、算法、人工智能、汇编（mips、arm、8086）、操作系统、数据挖掘、编译原理、计算机网络、Arena软件、linux xv6、racket、shell、Linux、PHP、Haskell、Scala、spark、UML、mathematica、GUI、javafx、node js、socket、OpenGL、多线程、qt、数据…...

编程日记 2024/7/17 21:12:57

【学习笔记】无人机（UAV）在3GPP系统中的增强支持(七)-通过无人机实现无线接入的独立部署

引言本文是3GPP TR 22.829 V17.1.0技术报告，专注于无人机（UAV）在3GPP系统中的增强支持。文章提出了多个无人机应用场景，分析了相应的能力要求，并建议了新的服务级别要求和关键性能指标（KPIs）。…...

编程日记 2024/7/17 21:11:56

模糊综合评价

对多因素影响的事务的评价（如人才，方案，成果），有时难以给出影响的确切表达，此时可以采取模糊综合评价的方法。该方法可以对人，事，物进行比较全面而又定量化的评价。实例1&#xff…...

编程日记 2024/7/17 21:04:50

系统测试-白盒测试学习

目录 1、语句覆盖法： 2、判定覆盖法： 3、条件覆盖法： 4、判定条件覆盖： 5、条件组合的覆盖： 6、路径覆盖： 黑盒：需求白盒：主要用于单元测试 1、语句覆盖法： 程序…...

编程日记 2024/7/17 21:01:46

UI设计工具选择指南：Sketch、XD、Figma、即时设计

在数字产品设计产业链中，UI设计师往往起着连接前后的作用。产品经理从一个“需求”开始，制定一个抽象的产品概念原型。UI设计师通过视觉呈现将抽象概念具体化，完成线框图交互逻辑视觉用户体验，最终输出高保真原型，并将…...

编程日记 2024/7/17 20:58:43

Pycharm 导入 conda 环境

使用时经常在此处卡壳，在此做个记录。这个位置选择 conda 安装路径下的 python.exe 文件即可...

编程日记 2024/7/17 20:54:40

Vue封装Tooltip(提示工具)

<template> <div class"tooltip" mouseover"showTooltip" mouseleave"hideTooltip"> <slot></slot>  <span class"tooltiptext" v-if"visible">{…...

编程日记 2024/7/17 20:52:38

Go 1.19.4 函数-Day 08

1. 函数概念和调用原理 1.1 基本介绍函数是基本的代码块，用于执行一个任务。 Go 语言最少有个 main() 函数。你可以通过函数来划分不同功能，逻辑上每个函数执行的是指定的任务。函数声明告诉了编译器函数的名称，返回类型，和参…...

编程日记 2024/7/17 20:50:35

Docker-Nvidia(NVIDIA Container Toolkit)

安装NVIDIA Container Toolkit工具，支持docker使用GPU 目录 1.NVIDIA Container Toolkit 安装1.1 nvidia-docker安装1.2 验证1.2.1 验证安装1.2.2 额外补充 1.NVIDIA Container Toolkit 安装 1.1 nvidia-docker安装 NVIDIA/nvidia-docker Installing the NVIDIA …...

编程日记 2024/7/17 20:44:27

Mongodb 3.6 数据恢复操作

一、安装MongoDB 忽略二、创建账号和授权在新的MongoDB上创建用户管理员。先切换到admin库，然后通过命令创建数据库管理员账号和密码。最后再验证账号密码是否创建成功！ use admin db.createUser({user:"root",pwd:"123456Ab",…...

编程日记 2024/7/17 20:34:18

C++ | Leetcode C++题解之第238题除自身以外数组的乘积

题目： 题解： class Solution { public:vector<int> productExceptSelf(vector<int>& nums) {int length nums.size();// L 和 R 分别表示左右两侧的乘积列表vector<int> L(length, 0), R(length, 0);vector<int> answer(l…...

编程日记 2024/7/17 20:31:15

挂耳式蓝牙耳机什么牌子好？这五款综合表现遥遥领先

为什么这几年开放式耳机受到了越来越多消费者的喜爱？我想是因为它全方位的弥补了入耳式耳机堵塞耳朵、不够安全健康的缺陷，真正做到了安全性与舒适性兼得。那么刚入坑开放式耳机的小白该如何挑选一款品质较高的开放式耳机呢？挂耳式蓝牙耳机什…...

编程日记 2024/7/17 20:30:14

防火墙-NAT策略和智能选路

一、背景技术在日常网络环境，内部网络想要访问外网无法直接进行通信，这时候就需要进行NAT地址转换，而在防火墙上配置NAT和路由器上有点小区别，思路基本一致，这次主要就以防火防火墙配置NAT策略为例，防火墙…...

编程日记 2024/7/17 20:29:13

一键优雅为Ubuntu20.04服务器挂载新磁盘

itopen组织1、提供OpenHarmony优雅实用的小工具2、手把手适配riscv qemu linux的三方库移植3、未来计划riscv qemu ohos的三方库移植小程序开发4、一切拥抱开源，拥抱国产化一、小于2T磁盘挂载方式 1.1 安装磁盘到电脑后启动系统 1.2 查找未分区的磁盘打…...

编程日记 2024/7/17 20:27:11

踩坑日记 | 记一次流程图问题排查

踩坑日记：记一次流程图问题排查标签： activiti | 流程引言今天排查了一个流程图问题，耗时2个小时终于解决，记录下来现象流程审批驳回报错：Unknown property used in expression: ${xxxx} 使用的是 activiti …...

编程日记 2024/7/17 20:25:09

数据建设实践之大数据平台(四)安装mysql

安装mysql 卸载mysql [bigdatanode101 ~]$ sudo rpm -qa | grep mariadb | xargs sudo rpm -e --nodeps 上传安装包到/opt/software目录并解压 [bigdatanode101 software]$ tar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar -C mysql_lib/ 到mysql_lib目录下顺序安装 …...

编程日记 2024/7/17 20:24:08

MongoDB常用命令大全，概述、备份恢复

文章目录一、MongoDB简介二、服务启动停止、连接三、数据库相关四、集合操作五、文档操作六、数据备份与恢复/导入导出数据6.1 mongodump备份数据库6.2 mongorestore还原数据库6.3 mongoexport导出表或表中部分字段6.4 mongoimport导入表或表中部分字段七、其他常用命令八…...

编程日记 2024/7/17 20:18:02

uni-app 保存号码到通讯录

1、添加模块 2、添加权限 3、添加策略 Android： "permissionExternalStorage" : {"request" : "none","prompt" : "应用保存运行状态等信息，需要获取读写手机存储（系统提示为访问设备上的照片…...

编程日记 2024/7/17 20:16:00

Jetson-AGX-Orin gstreamer+rtmp+http-flv 推拉流

Jetson-AGX-Orin gstreamerrtmphttp-flv 推拉流 Orin是ubuntu20.04 ARM64架构的系统，自带gstreamer 1、测试摄像头测试摄像头可以用v4l2-ctl命令或者用gst-launch-1.0 #用v4l2-ctl测试摄像头,有尖角符号持续打印则正常 v4l2-ctl -d /dev/video0 --set-fmt-vid…...

编程日记 2024/7/17 20:12:57

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计：let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性，这种设计体现了语言的核心哲学。以下是深度解析： 1.1 设计理念剖析安全优先原则：默认不可变强制开发者明确声明意图 let x 5; …...

编程新知 2025/9/28 20:12:12

JavaScript 中的 ES|QL：利用 Apache Arrow 工具

作者：来自 Elastic Jeffrey Rengifo 学习如何将 ES|QL 与 JavaScript 的 Apache Arrow 客户端工具一起使用。想获得 Elastic 认证吗？了解下一期 Elasticsearch Engineer 培训的时间吧！ Elasticsearch 拥有众多新功能，助你为自己…...

编程新知 2026/1/23 7:23:58

从零实现富文本编辑器#5-编辑器选区模型的状态结构表达

先前我们总结了浏览器选区模型的交互策略，并且实现了基本的选区操作，还调研了自绘选区的实现。那么相对的，我们还需要设计编辑器的选区表达，也可以称为模型选区。编辑器中应用变更时的操作范围，就是以模型选区为基准来…...

编程新知 2026/1/16 16:34:26

微服务商城-商品微服务

数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...

编程新知 2026/1/29 18:30:30

c#开发AI模型对话

AI模型前面已经介绍了一般AI模型本地部署，直接调用现成的模型数据。这里主要讲述讲接口集成到我们自己的程序中使用方式。微软提供了ML.NET来开发和使用AI模型，但是目前国内可能使用不多，至少实践例子很少看见。开发训练模型就不介绍了&am…...

编程新知 2026/2/1 8:59:45

k8s业务程序联调工具-KtConnect

概述原理工具作用是建立了一个从本地到集群的单向VPN，根据VPN原理，打通两个内网必然需要借助一个公共中继节点，ktconnect工具巧妙的利用k8s原生的portforward能力，简化了建立连接的过程，apiserver间接起到了中继节…...

编程新知 2026/2/1 4:14:14

大语言模型（LLM）中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型（LLM）参数规模的增长，推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长，而KV缓存的内存消耗可能高达数十GB（例如Llama2-7B处理100K token时需50GB内存&a…...

编程新知 2026/1/28 1:40:03

论文笔记——相干体技术在裂缝预测中的应用研究

目录相关地震知识补充地震数据的认识地震几何属性相干体算法定义基本原理第一代相干体技术：基于互相关的相干体技术（Correlation）第二代相干体技术：基于相似的相干体技术（Semblance）基于多道相似的相干体…...

编程新知 2026/2/7 1:51:12

无人机侦测与反制技术的进展与应用

国家电网无人机侦测与反制技术的进展与应用引言随着无人机（无人驾驶飞行器，UAV）技术的快速发展，其在商业、娱乐和军事领域的广泛应用带来了新的安全挑战。特别是对于关键基础设施如电力系统，无人机的“黑飞”&…...

编程新知 2026/1/26 6:01:03

免费PDF转图片工具

免费PDF转图片工具一款简单易用的PDF转图片工具，可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件，也不需要在线上传文件，保护您的隐私。工具截图主要特点 🚀 快速转换：本地转换，无需等待上…...

编程新知 2026/1/26 9:07:56