当前位置：首页 > news >正文

【论文阅读】ESRGAN+

news 2026/2/10 7:49:39

学习资料

论文题目：进一步改进增强型超分辨率生成对抗网络（ESRGAN+ : FURTHER IMPROVING ENHANCED SUPER-RESOLUTION GENERATIVE ADVERSARIAL NETWORK）
论文地址：2001.08073
代码：ncarraz/ESRGANplus： ICASSP 2020 - ESRGAN+：进一步改进增强型超分辨率生成对抗网络 - ICPR 2020 - Tarsier：超分辨率 GAN 中不断发展的噪声注入

1. WHY

尽管 ESRGAN 能够生成视觉质量较好的图像，但仍有提升空间。作者旨在进一步提高 ESRGAN 生成图像的感知质量，缩小生成图像与真实图像之间的差距。

2. WHAT

2.1. ESRGAN +

ESRGAN 的基本块使得网络易于训练且容量较高。本文保持 ESRGAN 的整体架构不变，但将其中的 Dense 块替换为新提出的块。

新块名为 Residual - in - Residual Dense Residual Block（RRDRB），它在 RRDB（Residual - in - Residual Dense Block）的基础上进行了改进。RRDB 原本具有残差 - 残差结构且主路径中有 Dense 块，新块在 Dense 块内部又增加了一个层次的残差学习，也就是每两层就添加一个残差。这样做的好处是，在不增加网络复杂度的情况下提升了网络容量。

例如，原来的 Dense 块在处理图像特征时可能能力有限，新的结构可以让网络更好地学习和利用图像特征，就像给网络增加了更多的 “工具” 来处理图像信息，从而使生成图像的视觉质量比使用简单 Dense 块时更好。

从特征利用角度看，新架构结合了 ResNet 能重用特征和 DenseNet 能发现新特征的优点，所以能生成感知质量更高的图像，使用这种新架构的模型被命名为 ESRGAN +。

上：密集块是ESRGAN的RRDB中使用的主要路径。下：在密集块中，每两个层添加一个残差。

2.2. nESRGAN +

引入噪声的目的和方式：在人脸生成领域已经有将噪声添加到生成器的做法，且效果较好，但在超分辨率领域尚未应用。本文为了让生成的图像具有随机细节，在生成器架构中引入噪声输入。具体来说，在每个残差密集块的输出添加高斯噪声，同时还有学习到的每个特征的缩放因子。例如，网络在处理图像时，每经过一个残差密集块，就会给输出的图像特征加上一些随机的噪声，这些噪声会根据学习到的缩放因子进行调整。

噪声对图像的影响：这种随机变化只会影响图像的某些局部方面，不会改变我们对图像的整体感知。比如，对于一幅风景图像，添加噪声后，图像的整体形状、主要物体的布局等大的方面不会改变，但像树叶、草地等局部细节会变得更加随机和丰富。这样做的好处是，网络不需要专门生成空间变化的伪随机数来提供细节，从而可以将原本用于生成随机数的网络容量高效利用起来，在高级方面（如整体结构和高层次信息保持不变的情况下）提供更精细的细节。同时使用新块和噪声输入的模型被称为 nESRGAN +。

2.3. 实验

训练集

DIV2K：包含 2K 分辨率的图像；数据集原本有 800 张图像，实验中通过随机水平翻转和旋转进行数据增强，以扩充训练数据量

测试集

BSD100、Urban100、OST300、Set5、Set14、PIRM

图像预处理

低分辨率（LR）图像通过对高分辨率（HR）图像使用双三次核（bicubic kernel）下采样得到，缩放因子为 $\times 4$

并且裁剪出 $128\times 128$ 的 HR 子图像用于训练。

训练参数设置

小批量设置（mini - batch）	16（每次训练时使用16张图像进行计算和参数更新）
模型初始化	利用一个以 PSNR（峰值信噪比）为导向的预训练模型来初始化生成器，为后续训练提供一个较好的初始参数状态。
损失函数参数	损失函数保持不变，其中 $\lambda =5\times 10^{-3}$ ， $\eta =1\times 10^{-2}$ ，这些参数用于平衡不同损失项在总损失中的比重。
学习率策略	初始学习率设置为 $1\times 10^{-4}$ ，并且在训练过程中的 $50k$ 、 $100k$ 、 $200k$ 、 $300k$ 次迭代时将学习率减半，以逐步调整模型的学习步长，使模型在训练后期能够更精细地收敛。
优化器设置	采用 Adam 优化器来优化模型参数，其中 $\beta _{1}=0.9$ ， $\beta _{2}=0.999$ ，这些超参数控制着优化器对梯度的估计和权重更新的方式。

训练硬件

训练过程在 NVIDIA Tesla K80 GPUs 上进行，利用其强大的计算能力加速训练过程。

模型结构

训练所使用的生成器具有23个块，模型的实现基于 Pytorch 框架，该框架提供了高效的深度学习模型构建和训练功能。

3. HOW

3.1. 定量评估

在 PIRM 数据集上评估模型，在 YCbCr 颜色空间中，仅测量亮度通道上的 PSNR（峰值信噪比），同时使用 PIRM - SR 挑战赛中的感知指数（基于 $Ma's score$ 和 $NIQE$ ，计算方式为 $\frac{1}{2}\left ( \left ( 10-Ma \right ) +NIQE\right )$ ）进行评估。

结果显示，ESRGAN + 和 nESRGAN + 模型在感知质量方面始终优于 ESRGAN，nESRGAN + 在 PIRM 数据集上的感知分数更好，突出了噪声输入在生成器网络中的优势，但噪声注入的泛化存在局限性，如在 Urban100 和 OST300 数据集上，添加噪声对某些图像类别（如建筑物图像）的感知质量提升不明显。

最佳和第二最佳结果分别用高亮和下划线标出。

我们使用感知指数（右侧的数值）进行评估，但也提供了PSNR（左侧的数值）作为参考。

3.2. 定性评估

通过对比基于 PSNR 和感知质量的模型（如 SRCNN、EnhanceNet、SRGAN、ESRGAN 等），使用 Set14 数据集图像进行定性比较。结果表明，作者提出的模型重建的图像具有更详细的结构，与真实图像更难区分，并且能较好地保留原始图像的大部分纹理，如男孩的肤色等。

【论文阅读】ESRGAN+

1. WHY

2. WHAT

2.1. ESRGAN +

2.2. nESRGAN +

2.3. 实验

3. HOW

3.1. 定量评估

3.2. 定性评估

相关文章：

【论文阅读】ESRGAN+

北京市首发教育领域人工智能应用指南，力推个性化教育新篇章

【Java并发编程】信号量Semaphore详解

window11使用wsl2安装Ubuntu22.04

虚拟滚动 - 从基本实现到 Angular CDK

Spring WebFlux学习笔记（一）

富格林：正确追损思维安全交易

前端vue2迁移至uni-app

恋爱脑学Rust之闭包三Traits：Fn，FnOnce，FnMut

区块链介绍

git回滚间隔的提交

Map和Set（数据结构）

vue3uniapp实现自定义拱形底部导航栏，解决首次闪烁问题

新需求编码如何注意低级错误代码

系统架构图设计（行业领域架构）

windows 文件监控 c++ 11及以上版本可用

jsMind：炸裂项目，用JavaScript构建的思维导图库，GitHub上的热门开源项目

postman的脚本设置接口关联

【python】OpenCV—Tracking（10.3）—GOTURN

git pull遇到一个问题

golang循环变量捕获问题

树莓派超全系列教程文档--(62)使用rpicam-app通过网络流式传输视频

Appium+python自动化（十六）- ADB命令

练习（含atoi的模拟实现,自定义类型等练习）

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

django filter 统计数量按属性去重

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

【Web 进阶篇】优雅的接口设计：统一响应、全局异常处理与参数校验

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用