当前位置: 首页 > news >正文

Python - 面向现实世界的人脸复原 GFP-GAN 简介与使用

目录

一.引言

二.GFP-GAN 简介

1.GFP-GAN  数据

2.GFP-GAN 架构

3.GFP-GAN In Wave2Lip

三.GFPGAN 实践

1.环境搭建

2.模型下载

3.代码测试

4.测试效果

四.总结


一.引言

近期 wav2lip 大火,其通过语音驱动唇部动作并对视频质量进行修复,其中涉及到三个知识点:

◆ tts 文本到语音转化

◆ wav2lip 语音驱动唇部动作

◆ GFP-GAN 图像质量修复

本文主要介绍腾讯在人像复原、超分等方面的佳作 GFP-GAN。其在 wav2lip 中扮演视频质量判别器的任务,负责对嘴唇修复后的图像帧进行质量修复,提供更高质量的视频效果。

可以看到与多种新兴方法相比,GFP-GAN 的效果相对更优。

二.GFP-GAN 简介

1.GFP-GAN  数据

GFP-GAN 基于 FFHQ 上训练,由 70000 张高质量图像组成。在训练过程中,将所有图像的大小调整为5122。GFP-GAN是在合成数据上训练的,这些合成数据近似于真实的低质量图像,并在推理过程中推广到真实世界的图像。我们遵循惯例采用以下退化模型:

◆ kσ 高斯模糊 - 高质量图像 y 首先与高斯进行卷积模糊核 kσ,采样范围 [0.2:10]

◆ r - 基于比例因子 r 进行下采样,采样范围 [1:8]

◆  - 添加高斯白噪声,采样范围 [0:15]

◆ JPEGq - 具有质量因子 q 的 JPEG 图像,采样范围 [60: 100]

从这个样本构造的过程也可以看出,GFP-GAN 是一种无监督或者是自监督的训练模型,其不需要人工的标注数据。除此之外,我们在色彩增强训练中添加色彩抖动。下图是图像模型在三个真实世界数据集的定性比较,通过放大以获得最佳视图:

2.GFP-GAN 架构

GFP-GAN 模型主要用到了一个 <Degradation Removal > 退化清除模块,其引入了 <Restoration Loss> 面部恢复损失和一个预训练的 GAN 作为先验。二者通过 Channel-Split SFT 进行桥接。训练过程由 3 类 Loss 混合控制: 

Adversarial Loss -中间恢复 Loss 消除复杂退化

Facial Component Loss - 面部成分 Loss 增强面部细节

Identify Preserving Loss - 身份保留 Loss 以保留人脸身份

其整个恢复训练过程就像低维向量 X 向高维向量 Y 的重建过程。借助 GFP-GAN,我们可以将视频关键帧进行截取与处理,最终拼接为高质量的视频。

3.GFP-GAN In Wave2Lip

wav2lip 模型的训练分为两个阶段,第一阶段是专家音频和口型同步判别器预训练;第二阶段是GAN网络训练。训练部分包括一个生成器和两个判别器,这里的两个判别器分别是专家音频和口型同步判别器和视觉质量判别器,前者预训练完毕后,在GAN训练过程中保持冻结。GFP-GAN 在这里扮演视觉质量判别器的任务,其有多个卷积块组成,训练目标是最大化目标函数 Ldisc:

其中 Lg 对应生成器 G 生成的图像,LG 对应真实图像。其中最右侧的 Visual Quality Discriminator 视觉质量鉴别器用于引入视频质量的 Loss 进行图像修复。其训练数据可以参照 LRS2 数据集,这是一个来自 BBC 的唇语视频,包含 4w 多个口语句子。其中推荐视频帧率为 25fps,音频采样率为 16k,视频一帧对应音频块的长度为 16:

三.GFPGAN 实践

1.环境搭建

创建 Python 环境

需要 python >= 3.7 且 PyTorch >= 1.7,我们直接创建并激活 Python 3.8 的新环境:

conda create --name GFP-GAN python=3.8
conda activate GFP-GAN

Clone repo

git clone https://github.com/TencentARC/GFPGAN.git
cd GFPGAN

Install dependent packages

# Install basicsr - https://github.com/xinntao/BasicSR
# We use BasicSR for both training and inference
pip install basicsr# Install facexlib - https://github.com/xinntao/facexlib
# We use face detection and face restoration helper in the facexlib package
pip install facexlibpip install -r requirements.txt
python setup.py develop# If you want to enhance the background (non-face) regions with Real-ESRGAN,
# you also need to install the realesrgan package
pip install realesrgan

最终的 py 3.8 其余 package 依赖版本如下:

torch==2.0.1
torchvision==0.15.2
basicsr==1.4.2
facexlib==0.3.0
realesrgan==0.3.0
opencv-python==4.8.1.78
scipy==1.11.3

2.模型下载

官方 Githuba 提供三个修复模型供使用:

◆ V1 - Paper 中对应模型,带彩色。

◆ V2 - 无着色,不需要CUDA扩展。通过预处理使用更多数据进行训练。

◆ V3 - 基于V1.2,更自然的恢复结果;在非常低质量 / 高质量的输入上获得更好的结果。

我们这里直接下载 V1.3 对应的 GFPGANv1.3.pth,大小约为 333 M:

wget https://github.com/TencentARC/GFPGAN/releases/download/v1.3.0/GFPGANv1.3.pth -P experiments/pretrained_models

3.代码测试

这里快速测试的话只需要 -i 传入图片对应的文件夹,-o 传入输出地址: 

python inference_gfpgan.py -i inputs/whole_imgs -o results -v 1.3 -s 2

-v 代表模型版本,-s 代表上采样比例,由于原始代码中逻辑涉及到从 URL 中获取 .pth 的复原模型,所以我们需要对代码稍作修改,避免网络原因导致模型下载失败进而异常。

直接指定模型,避免 URL 下载

直接将下载好的 .pth 的模型全路径传给 model_path 即可,除此之外 gfpgan/weights 下面还需要下载两个辅助的 .pth 模型,这里需要等代码执行完毕,如果中途退出下载再运行会在加载时报模型文件异常:

RuntimeError: unexpected EOF, expected xxx more bytes. The file might be corrupted.

4.测试效果

运行结束后会得到多个文件夹:

◆ cmp 即为 compare 对应每个人物的修复效果前后对比

◆ cropped_faces 为裁剪得到的原始人脸图像

◆ restored_faces 为对应的修复人脸图像

◆ restored_imgs 为完整的修复图像。

为了获得比较真实的老图,我们上网找到了三张老板本 <三国演义> 的剧照,看看整体恢复效果:

再看看不同角色的对比修复效果:

case 整体的修复效果还是不错的,不过鲁肃脸上由于光线的原因,修复后有些棱角分明。

四.总结

上面是一些 GFP-GAN 的基本信息与调用流程,官方 Github 还提供了自定义的训练脚本,如果有自己场景的图像数据也可以对模型持续训练。后面有空我们也会分享 wave2lip 的其他相关知识。

参考数据与链接:

LRS2: LRS2数据集处理

GFP-GAN 论文: https://arxiv.org/pdf/2101.04061.pdf

GFP-GAN 代码: GitHub - developing Practical Algorithms for Real-world Face Restoration.

Wave2Lip 论文: http://cdn.iiit.ac.in/cdn/cvit.iiit.ac.in/images/Projects/Speech-to-Lip/paper.pdf

相关文章:

Python - 面向现实世界的人脸复原 GFP-GAN 简介与使用

目录 一.引言 二.GFP-GAN 简介 1.GFP-GAN 数据 2.GFP-GAN 架构 3.GFP-GAN In Wave2Lip 三.GFPGAN 实践 1.环境搭建 2.模型下载 3.代码测试 4.测试效果 四.总结 一.引言 近期 wav2lip 大火&#xff0c;其通过语音驱动唇部动作并对视频质量进行修复&#xff0c;其中…...

Xcode15 framework ‘CoreAudioTypes‘ not found

Xcode15遇见"framework ‘CoreAudioTypes’ not found。" 可尝试移除CoreAudioTypes&#xff0c;添加CoreAudio。 CoreAudio是CoreAudioTypes的套壳。 CoreAudio/CoreAudioTypes.h头文件内容 /*CoreAudio/CoreAudioTypes.h has moved to CoreAudioTypes/CoreAudi…...

torch.cuda.is_available()=false的原因

1、检查是否为nvidia显卡&#xff1b; 2、检查GPU是否支持cuda; 3、命令行cmd输入nvidia-smi&#xff08;中间没有空格&#xff09;&#xff0c;查看显卡信息&#xff0c;cuda9.2版本只支持Driver Version>396.26&#xff1b;如果小于这个值&#xff0c;那么你就需要更新显…...

asp.net docker-compose添加网关和网关配置

打开docker-compose.yml 添加 killsb-social-apigw:image: ${REGISTRY:-killsbdapr}/killsb-social-apigw:${TAG:-latest}build:context: .dockerfile: src/ApiGateways/SocialEnvoy/Dockerfile 在路径src\ApiGateways\SocialEnvoy 添加envoy.yaml admin:access_log_path: …...

论文阅读:LOGO-Former: Local-Global Spatio-Temporal Transformer for DFER(ICASSP2023)

文章目录 摘要动机与贡献具体方法整体架构输入嵌入生成LOGO-Former多头局部注意力多头全局注意力 紧凑损失正则化 实验思考总结 本篇论文 LOGO-Former: Local-Global Spatio-Temporal Transformer for Dynamic Facial Expression Recognition发表在ICASSP&#xff08;声学顶会…...

【GO】项目import第三方的依赖包

目录 一、导入第三方包 1.执行命令 2.查看go环境变量参数 3.查看go.mod文件的变化情况 二、程序里如何import 1. import依赖包 2. 程序编写 本次学习go如果依赖第三方的包&#xff0c;并根据第三方的包提供的接口进行编程&#xff0c;这里需要使用go get命令。下面将go…...

【Linux基础IO篇】用户缓冲区、文件系统、以及软硬链接

【Linux基础IO篇】用户缓冲区、文件系统、以及软硬链接 目录 【Linux基础IO篇】用户缓冲区、文件系统、以及软硬链接深入理解用户缓冲区缓冲区刷新问题缓冲区存在的意义 File模拟实现C语言中文件标准库 文件系统认识磁盘对目录的理解 软硬链接软硬链接的删除文件的三个时间 作者…...

电脑软件:推荐一款电脑多屏幕管理工具DisplayFusion

下载https://download.csdn.net/download/mo3408/88514558 一、软件简介 DisplayFusion是一款多屏幕管理工具&#xff0c;它可以让用户更轻松地管理连接到同一台计算机上的多个显示器。 二、软件功能 2.1 多个任务栏 通过在每个显示器上显示任务栏&#xff0c;让您的窗口管理更…...

免费好用的网页采集工具软件推荐

在众多各具特色的采集器软件中&#xff0c;真正好用的采集器软件有哪些&#xff1f; 自己一个个去查找和尝试无疑会耗费大量的时间和精力。 因此&#xff0c;在深入体验大多数采集器后&#xff0c;给大家推荐几款优秀且好用的免费网页采集器软件。 本文将对这几款采集器进行…...

6.ELK之Elasticsearch嵌套(Nested)类型

0、前言 在Elasticsearch实际应用中经常会遇到嵌套文档的情况&#xff0c;而且会有“对象数组彼此独立地进行索引和查询的诉求”。在ES中这种嵌套文档称为父子文档&#xff0c;父子文档“彼此独立地进行查询”至少有以下两种方式&#xff1a; 1&#xff09;父子文档。在ES的5.…...

RefConv: 重参数化的重新聚焦卷积(论文翻译)

文章目录 摘要1、简介2、相关研究2.1、用于更好性能的架构设计2.2、结构重参数化2.3、权重重参数化方法 3、重参数化的重聚焦卷积3.1、深度RefConv3.2、普通的RefConv3.3、重聚焦学习 4、实验4.1、在ImageNet上的性能评估4.2、与其他重参数化方法的比较4.3、目标检测和语义分割…...

指令重排序

指令重排序是现代处理器在执行指令时的一种优化技术&#xff0c;其目的是为了提高处理器执行指令的效率。这种优化手段会对指令进行重新排序&#xff0c;以提高并行度和性能。 为何会发生指令重排序&#xff1a; 处理器性能优化&#xff1a; 为了更好地利用现代处理器的流水线、…...

【Head First 设计模式】-- 观察者模式

背景 客户有一个WeatherData对象&#xff0c;负责追踪温度、湿度和气压等数据。现在客户给我们提了个需求&#xff0c;让我们利用WeatherData对象取得数据&#xff0c;并更新三个布告板&#xff1a;目前状况、气象统计和天气预报。 WeatherData对象提供了4个接口&#xff1a; …...

JavaWeb篇_01——JavaEE简介【面试常问】

JavaEE简介 什么是JavaEE JavaEE&#xff08;Java Enterprise Edition&#xff09;&#xff0c;Java企业版&#xff0c;是一个用于企业级web开发平台,它是一组Specification。最早由Sun公司定制并发布&#xff0c;后由Oracle负责维护。在JavaEE平台规范了在开发企业级web应用…...

QtC++与QRadioButton详解

介绍 QRadioButton 是 Qt 中的一个重要部件&#xff0c;用于创建单选按钮&#xff0c;它有以下几个主要作用和特点&#xff1a; 单选功能&#xff1a; QRadioButton 用于创建单选按钮&#xff0c;用户可以从一组互斥的选项中选择一个。这在用户界面设计中常用于需要用户从多个…...

移远EC600U-CN开发板 day01

1.官方文档快速上手&#xff0c;安装驱动&#xff0c;下载QPYcom QuecPython 快速入门 - QuecPython (quectel.com)https://python.quectel.com/doc/Getting_started/zh/index.html 注意&#xff1a; &#xff08;1&#xff09;打开开发板步骤 成功打开之后就可以连接开发板…...

【C/C++】什么是POD(Plain Old Data)类型

2023年11月6日&#xff0c;周一下午 目录 POD类型的定义标量类型POD类型的特点POD类型的例子整数类型&#xff1a;C 风格的结构体&#xff1a;数组&#xff1a;C 风格的字符串&#xff1a;std::array:使用 memcpy 对 POD 类型进行复制把POD类型存储到文件中&#xff0c;并从文…...

注册虾皮买家号需要哪些资料?

注册虾皮买家号其实是很简单的&#xff0c;使用相应国家的手机号及对应的环境就可以注册了的&#xff0c;如果想要账号更方便使用&#xff0c;也可以绑定邮箱进行认证。 而如果想要使用shopee买家通系统进行自动化的注册&#xff0c;那么对于资料就有一定的要求了。 1、手机号…...

小腿筋膜炎怎么治疗最有效

小腿筋膜炎症状主要有疼痛、肌肉紧张、活动受限等。 1.疼痛&#xff1a;小腿筋膜炎主要会导致炎症性疼痛&#xff0c;没有固定的压痛点&#xff0c;通常以踝关节、膝关节活动时疼痛为主。疼痛呈持续性&#xff0c;或者反复发作&#xff0c;尤其是在晨起或者天气变化、劳累、受…...

After Effects 2024 v24.0.2(AE2024)

After Effects 2024是视频特效和动态图形设计软件。以下是After Effects 2024的主要功能和特点&#xff1a; 支持创建各种令人惊叹的视觉效果&#xff0c;例如粒子系统、合成特效、绿屏抠像等。支持动画制作&#xff0c;包括关键帧动画、形状动画、运动跟踪等工具&#xff0c;…...

qt模块学习记录

qt模块学习记录一、Qt Core其他模块都用到的核心非图形类二、Qt GUI 设计 GUI 界面的基础类&#xff0c;包括 OpenGL三、功能模块Qt Network 使网络编程更简单和轻便的类Qt SQL 使用 SQL 用于数据库操作的类Qt Multimedia 音频、视频、摄像头和广播功能的类四、老式界面Qt Widg…...

一个关键词的SEO优化过程中需要注意什么

一个关键词的SEO优化过程中需要注意什么 在数字营销的世界里&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;是一个核心的组成部分。其中&#xff0c;关键词优化是SEO策略的关键环节。对于一个关键词的SEO优化过程中&#xff0c;有许多细节需要注意&#xff0c;以确保最…...

OpenClaw+千问3.5-35B-A3B-FP8:法律文书审查辅助工具

OpenClaw千问3.5-35B-A3B-FP8&#xff1a;法律文书审查辅助工具 1. 为什么需要AI辅助法律文书审查 去年接手一个并购项目时&#xff0c;我连续72小时审阅了137份合同文件。在最后一份文件上签字时&#xff0c;手指已经不受控制地颤抖——这不是夸张的文学描写&#xff0c;而是…...

FLUX.1-dev像素模型部署教程:Docker Compose编排前端+后端+模型服务

FLUX.1-dev像素模型部署教程&#xff1a;Docker Compose编排前端后端模型服务 1. 项目概述 像素幻梦(Pixel Dream Workshop)是基于FLUX.1-dev扩散模型构建的像素艺术生成平台&#xff0c;采用16-bit像素风格设计&#xff0c;为创作者提供沉浸式的AI绘图体验。本教程将指导您使…...

TI SAR ADC模型(Matlab) 包含各类非理想因素,时钟偏差,增益偏差

TI SAR ADC模型&#xff08;Matlab&#xff09; 包含各类非理想因素&#xff0c;时钟偏差&#xff0c;增益偏差&#xff0c;失调偏差 模型参数均可自由设置直接上干货吧&#xff0c;今天聊聊怎么用Matlab折腾带非理想特性的SAR ADC模型。玩过ADC的都知道&#xff0c;现实中的转…...

嵌入式系统XIP技术:原理、实现与优化

1. XIP技术核心概念解析eXecute In Place&#xff08;XIP&#xff09;技术是现代嵌入式系统中的一项关键创新。简单来说&#xff0c;它允许CPU直接从非易失性存储器&#xff08;如NOR Flash&#xff09;中读取并执行代码&#xff0c;而无需先将代码复制到RAM中。这种技术最早应…...

10分钟零成本搭建KIMI AI免费API:个人智能助手完整指南

10分钟零成本搭建KIMI AI免费API&#xff1a;个人智能助手完整指南 【免费下载链接】kimi-free-api &#x1f680; KIMI AI 长文本大模型逆向API【特长&#xff1a;长文本解读整理】&#xff0c;支持高速流式输出、智能体对话、联网搜索、探索版、K1思考模型、长文档解读、图像…...

AD7193高精度ADC驱动设计与嵌入式集成实践

1. PRDC_AD7193 库概述&#xff1a;面向高精度测量的 AD7193 嵌入式驱动设计与工程实践AD7193 是 Analog Devices&#xff08;ADI&#xff09;推出的一款专为高精度、低噪声测量场景优化的 Σ-Δ 型 24 位模数转换器&#xff08;ADC&#xff09;。其核心特性包括&#xff1a;集…...

嵌入式开发关键技术演进与实战经验分享

1. 嵌入式开发的行业现状与核心挑战2023年的嵌入式开发领域呈现出明显的多元化发展趋势。作为一名从业超过十年的嵌入式工程师&#xff0c;我观察到这个行业正在经历从传统单机设备向智能化、网络化方向的快速转型。根据AspenCore最新发布的行业调查报告&#xff0c;目前超过30…...

从Flash到I2C:盘点那些让你头疼的时序图符号,并教你用Python+逻辑分析仪自动解析

从Flash到I2C&#xff1a;时序图符号解析与Python自动化实战 第一次翻开某款Flash芯片的数据手册时&#xff0c;我被密密麻麻的时序图符号彻底击垮了。灰色交叉、斜坡箭头、省略号标记...这些看似简单的图形背后&#xff0c;隐藏着芯片厂商精心设计的通信规则。作为嵌入式开发者…...