当前位置：首页 > news >正文

计算机毕设基于生成对抗网络的照片上色动态算法设计与实现 - 深度学习 opencv python

news 2026/5/23 21:29:14

文章目录

1 前言
1 课题背景
2 GAN(生成对抗网络)
- 2.1 简介
- 2.2 基本原理
3 DeOldify 框架
4 First Order Motion Model
5 最后

1 前言

🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要求，这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。

为了大家能够顺利以及最少的精力通过毕设，学长分享优质毕业设计项目，今天要分享的是

🚩 基于生成对抗网络的照片上色动态算法设计与实现

🥇学长这里给一个题目综合评分(每项满分5分)

难度系数：3分
工作量：3分
创新点：4分

在这里插入图片描述

1 课题背景

随着科技的发展，现在已经没有朋友会再去买胶卷拍照片了。不过对于很多70、80后来说，他们家中还保存着大量之前拍摄的胶卷和老照片。这些老照片是一个时代的记忆，记录着我们生活中的点点滴滴。不过时代发展了，这些老照片的保存和浏览也应该与时俱进。在本期文章中，我们就介绍如何将这些老照片转化为数字照片，更方便大家在电脑或者手机上浏览、保存和回忆。

本项目中我们利用生成对抗网络-GAN和图像动作驱动-First Order Motion Model来给老照片上色并使它动起来。

2 GAN(生成对抗网络)

2.1 简介

**GANs（Generative adversarial networks，对抗式生成网络）**可以把这三个单词拆分理解。

Generative：生成式模型
Adversarial：采取对抗的策略
Networks：网络（不一定是深度学习）

模型通过框架中(至少)两个模块：生成模型(Generative Model)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始 GAN 理论中，并不要求 G 和 D 都是神经网络，只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。

在这里插入图片描述

2.2 基本原理

这里介绍的是原生的GAN算法，虽然有一些不足，但提供了一种生成对抗性的新思路。放心，我这篇博文不会堆一大堆公式，只会提供一种理解思路。

理解GAN的两大护法G和D，生成对抗网络（GAN）由2个重要的部分构成：

生成器(Generator)：通过机器生成数据（大部分情况下是图像），负责凭空捏造数据出来，目的是“骗过”判别器
判别器(Discriminator)：判断这张图像是真实的还是机器生成的，负责判断数据是不是真数据，目的是找出生成器做的“假数据”

在这里插入图片描述

这样可以简单的看作是两个网络的博弈过程。在最原始的GAN论文里面，G和D都是两个多层感知机网络。首先，注意一点，GAN操作的数据不一定非得是图像数据，不过为了更方便解释，用图像数据为例解释以下GAN：

在这里插入图片描述

tensorflow实现

import tensorflow as tfdef load_dataset(mnist_size, mnist_batch_size, cifar_size, cifar_batch_size,):""" load mnist and cifar10 dataset to shuffle.Args:mnist_size: mnist dataset size.mnist_batch_size: every train dataset of mnist.cifar_size: cifar10 dataset size.cifar_batch_size: every train dataset of cifar10.Returns:mnist dataset, cifar10 dataset"""# load mnist data(mnist_train_images, mnist_train_labels), (_, _) = tf.keras.datasets.mnist.load_data()# load cifar10 data(cifar_train_images, cifar_train_labels), (_, _) = tf.keras.datasets.cifar10.load_data()mnist_train_images = mnist_train_images.reshape(mnist_train_images.shape[0], 28, 28, 1).astype('float32')mnist_train_images = (mnist_train_images - 127.5) / 127.5  # Normalize the images to [-1, 1]cifar_train_images = cifar_train_images.reshape(cifar_train_images.shape[0], 32, 32, 3).astype('float32')cifar_train_images = (cifar_train_images - 127.5) / 127.5  # Normalize the images to [-1, 1]# Batch and shuffle the datamnist_train_dataset = tf.data.Dataset.from_tensor_slices(mnist_train_images)mnist_train_dataset = mnist_train_dataset.shuffle(mnist_size).batch(mnist_batch_size)cifar_train_dataset = tf.data.Dataset.from_tensor_slices(cifar_train_images)cifar_train_dataset = cifar_train_dataset.shuffle(cifar_size).batch(cifar_batch_size)return mnist_train_dataset, cifar_train_dataset

3 DeOldify 框架

本项目中用到的上色就用到了DeOldify 框架，DeOldify 创建的目的是为了给黑白照片上色，但让人惊艳的是它除了能处理图片外，也可以处理视频；

DeOldify 的核心网络框架是 GAN ，对比以前上色技术有以下几个特点：

1，老照片中的伪影在上色过程中会被消除；
2，老照片的人脸部位来说，处理后皮肤会变得更光滑；
3，呈现更详细、真实的渲染效果；

实现过程

准备好权重文件

在这里插入图片描述

相关代码

#部分代码
def deoldify(self,img,render_factor=35):"""风格化"""# 转换通道img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)pil_img = Image.fromarray(img)# 渲染彩图color_img = self.deoldify_model.filter(pil_img, pil_img, render_factor=render_factor,post_process=True)color_img = np.asarray(color_img)color_img = cv2.cvtColor(color_img, cv2.COLOR_RGB2BGR)# 转为numpy图print('deoldify 转换成功')return np.asarray(color_img)

实现效果：

4 First Order Motion Model

First Order Motion model的任务是image animation，给定一张源图片，给定一个驱动视频，生成一段视频，其中主角是源图片，动作是驱动视频中的动作，源图像通常包含一个主体，驱动视频包含一系列动作。

通俗来说，First Order Motion能够将给定的驱动视频中的人物A的动作迁移至给定的源图片中的人物B身上，生成全新的以人物B的脸演绎人物A的表情的视频。

以人脸表情迁移为例，给定一个源人物，给定一个驱动视频，可以生成一个视频，其中主体是源人物，视频中源人物的表情是由驱动视频中的表情所确定的。通常情况下，我们需要对源人物进行人脸关键点标注、进行表情迁移的模型训练。

基本框架

first-order 的算法框架如下图所示，主要包括三个部分的网络，keyporint detector 检测图像中的关键点，以及每个关键点对应的jaccobian矩阵；dense motion network 基于前面的结果生成最终的transform map 以及occulation map；使用transform map 和 occulation map 对编码后的source feature 做变换和mask处理，再decoder 生成出最终的结果。

在这里插入图片描述

本项目相关代码

    def FOM_video(self,driving_video,source_image,result_video):# 读取图片source_image = imageio.imread(source_image)# 读取视频reader = imageio.get_reader(driving_video)fps = reader.get_meta_data()['fps']driving_video = []try:for im in reader:driving_video.append(im)except RuntimeError:passreader.close()# 预处理source_image = resize(source_image, (255, 255))[..., :3]driving_video = [resize(frame, (255, 255))[..., :3] for frame in driving_video]# 推理predictions = self.make_animation(source_image, driving_video, self.fom_generator, self.fom_kp_detector, relative=True, adapt_movement_scale=True, cpu=True)# 保存imageio.mimsave(result_video, [img_as_ubyte(frame) for frame in predictions], fps=fps)driving_video = './images/test2.mp4'
source_image = './images/out2.jpg'
result_video = './putput/result.mp4'
# 图像动起来
gan.FOM_video(driving_video, source_image,result_video)

运行如下命令，实现表情动作迁移。其中，各参数的具体使用说明如下：

driving_video: 驱动视频，视频中人物的表情动作作为待迁移的对象。本项目中驱动视频路径为 “work/driving_video.MOV”，大家可以上传自己准备的视频，更换 driving_video 参数对应的路径;
source_image: 原始图片，视频中人物的表情动作将迁移到该原始图片中的人物上。这里原始图片路径使用 “work/image.jpeg”，大家可以使用自己准备的图片，更换 source_image 参数对应的路径;
relative: 指示程序中使用视频和图片中人物关键点的相对坐标还是绝对坐标，建议使用相对坐标，若使用绝对坐标，会导致迁移后人物扭曲变形;
adapt_scale: 根据关键点凸包自适应运动尺度;
ratio: 针对多人脸，将框出来的人脸贴回原图时的区域占宽高的比例，默认为0.4，范围为【0.4，0.5】

命令运行成功后会在ouput文件夹生成名为result.mp4的视频文件，该文件即为动作迁移后的视频。

实现效果：

，若使用绝对坐标，会导致迁移后人物扭曲变形;

adapt_scale: 根据关键点凸包自适应运动尺度;
ratio: 针对多人脸，将框出来的人脸贴回原图时的区域占宽高的比例，默认为0.4，范围为【0.4，0.5】

命令运行成功后会在ouput文件夹生成名为result.mp4的视频文件，该文件即为动作迁移后的视频。

实现效果：

在这里插入图片描述

5 最后

计算机毕设基于生成对抗网络的照片上色动态算法设计与实现 - 深度学习 opencv python

文章目录 1 前言1 课题背景2 GAN(生成对抗网络)2.1 简介2.2 基本原理 3 DeOldify 框架4 First Order Motion Model5 最后 1 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升，传统的毕设题目缺少创新和亮点，往往达不到毕业答辩的要…...

编程日记 2023/9/3 15:25:11

Citespace、vosviewer、R语言的文献计量学、SCI

文献计量学是指用数学和统计学的方法，定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体，注重量化的综合性知识体系。特别是，信息可视化技术手段和方法的运用，可直观的展示主题的研究发展历程、研究现状、研究…...

编程日记 2023/9/3 15:24:10

linux操作系统的权限的深入学习

1.Linux权限的概念 Linux下有两种用户：超级用户（root）、普通用户。超级用户：可以再linux系统下做任何事情，不受限制普通用户：在linux下做有限的事情。超级用户的命令提示符是“#”，普通用户…...

编程日记 2023/9/3 15:23:09

LeetCode——三数之和（中等）

题目给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ，同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。注意：答案中不可以包含重复的三元组。 …...

编程日记 2023/9/3 15:22:05

SpringMVC使用

文章目录一.MVC基础概念1.MVC定义2.SpringMVC和MVC的关系二.SpringMVC的使用1.RequestMapping2.获取参数1.获取单个参数2.传递对象3.后端参数重命名（后端参数映射）4.获取URL中参数PathVariable5.上传文件RequestPart6.获取Cookie/Session/header 3.返回…...

编程日记 2023/9/3 15:21:03

【css】css奇数、偶数、指定数选择器：

文章目录一、简单数字序号写法:nth-child(number)二、倍数写法:nth-child(an)三、倍数分组匹配:nth-child(anb) 与 :nth-child(an-b)四、反向倍数分组匹配:nth-child(-anb)五、奇偶匹配:nth-child(odd) 与 :nth-child(even) :nth-child(n) 选择器匹配属于其父元素的第 N 个子元…...

编程日记 2023/9/3 15:18:59

三维数据Ply格式介绍与读取

三维数据Ply格式介绍与读取 PLY文件格式是在1990年代中期由斯坦福大学的一组研究人员开发的。它已经发展成为最广泛使用的3D数据文件格式之一。该文件格式有ASCII版本和二进制版本。在需要文件大小和处理效率的情况下，首选二进制版本。ASCII版本使得调试变得非常容易。在这里…...

编程日记 2023/9/3 15:17:59

内存管理方式

内存管理一、C/C内存分布1、内存空间的介绍2、示例题目3、示例题目图解二、C语言动态内存管理方式1、代码2、介绍三、C内存管理方式1、概念2、代码3、代码所代表的意义四、new和delete操作自定义类型1、代码2、运行结果3、特点五、operator new与operator delete函数1、概…...

编程日记 2023/9/3 15:16:58

文心一言接入Promptulate，开发复杂LLM应用程序

简介最近在尝试将文心一言的LLM能力接入Promptulate，故写了一篇博客记录一下，Promptulate 是 Promptulate AI 旗下的大语言模型自动化与应用开发框架，旨在帮助开发者通过更小的成本构建行业级的大模型应用，其包含了LLM领域应用层…...

编程日记 2023/9/3 15:15:55

TDengine函数大全-聚合函数

以下内容来自 TDengine 官方文档及 GitHub 内容。以下所有示例基于 TDengine 3.1.0.3 TDengine函数大全 1.数学函数 2.字符串函数 3.转换函数 4.时间和日期函数 5.聚合函数 6.选择函数 7.时序数据库特有函数 8.系统函数聚合函数 TDengine函数大全APERCENTILEAVGCOUNTELAPS…...

编程日记 2023/9/3 15:14:53

DRM全解析 —— ADD_FB（2）

接前一篇文章：DRM全解析 —— ADD_FB（1） 本文参考以下博文： DRM驱动（四）之ADD_FB 特此致谢！ 上一回围绕libdrm与DRM在Linux内核中的接口： DRM_IOCTL_DEF(DRM_IOCTL_MODE_ADDFB, d…...

编程日记 2023/9/3 15:13:53

windows下docker compose方式挂载数据卷volume遇到的问题

例子一，windows 下docker desk top部署TDengine td-compose.yml version: 3 services:tdengine1:image: tdengine/tdengine:latestcontainer_name: tdengine1hostname: tdengine1ports:- 6030:6030- 6041:6041- 6043-6049:6043-6049- 6043-6049:6043-6049/udpresta…...

编程日记 2023/9/3 15:12:52

TCP三次握手四次挥手总结

目录一、两种传输模式： 二、数据方向： 三、端口的作用： 四、端口类型： 五、三次握手： 六、四次断开常见面试题 TCP（Transfer control protocol）传输控制协议一、两种传输模式&#x…...

编程日记 2023/9/3 15:11:51

【0901作业】QTday3 对话框、发布软件、事件处理机制，使用文件相关操作完成记事本的保存功能、处理键盘事件完成圆形的移动

目录一、思维导图二、作业 2.1 使用文件相关操作完成记事本的保存功能 2.2 处理键盘事件完成圆形的移动一、思维导图二、作业 2.1 使用文件相关操作完成记事本的保存功能 void Widget::on_saveBtn_clicked() {QString filename QFileDialog::getSaveFileName(this,&…...

编程日记 2023/9/3 15:10:50

mysql数据库运行sql：datetime(0) NULL DEFAULT NULL报错【杭州多测师_王sir】

一、错误信息 CREATE TABLE file (id varchar(32) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT 文件md5,name varchar(128) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL,create_time datetime(0) NULL DEFAULT NULL,update_time date…...

编程日记 2023/9/3 15:09:49

文章目录

1 前言

1 课题背景

2 GAN(生成对抗网络)

2.1 简介

2.2 基本原理

3 DeOldify 框架

4 First Order Motion Model

5 最后

相关文章：