当前位置：首页 > news >正文

DiffIR: Efficient Diffusion Model for Image Restoration

news 2026/2/9 10:55:46

清华&ETH&字节&UTD
https://github.com/Zj-BinXia/DiffIR

问题引入

IR任务和image synthesis任务不同点是IR任务本身有一个很强的低质量图片作为先验，所以可以不完全遵循图片生成的范式，本文主要在compact的IPR空间进行DM；
本文提出的模型分为三个部分，1)CPEN(compact IR prior extraction network)来得到IPR(IR prior representation)，这个作为回归模型的指导信息；2)DIRformer回归模型，类比为decoder；3)DM来通过LQ图片得到IPR
训练分为两个stage，首先第一个stage训练CPEN和DIRformer，此时CPEN输入的是高质量图片；第二个stage使用的IPR是DM得到的；

methods

在这里插入图片描述

stage1: 训练CPEN和DIRformer，首先将gt和LQ concat到一起，然后经过pixelunshuffle得到CPEN的输入，输出IPR $CPEN_{S1}(PixelUnshuffle(Concat(I_{GT},I_{LQ}))),Z\in\mathbb{R}^{4C'}$ ，之后IPR被送到DIRformer的DGFN和DMTA模块，第一阶段训练的损失是GT和生成HQ的L1损失，超分和inpainting任务还有erceptual loss and adversarial
loss；
DMTA的操作 $W_l^1Z\odot Norm(F) + W_l^2 Z$ ，其中 $W_l$ 是linear层， $F, F^{'}$ 分别是输入和输出的feature map， $Q = W_d^QW_c^QF',K=W_d^KW_c^KF',V = W_d^VW_c^VF'$ ，其中 $W_d$ 是depthwise卷积， $W_c$ 是pointwise卷积，之后被reshape成 $\widehat{Q}\in\mathbb{R}^{\widehat{H}\widehat{W}\times\widehat{C}},\widehat{K}\in\mathbb{R}^{\widehat{C}\times\widehat{H}\widehat{W}},\widehat{V}\in\mathbb{R}^{\widehat{H}\widehat{W}\times\widehat{C}}$ ，最后 $\widehat{F}=W_c\widehat{V}\cdot Softmax(\widehat{K}\cdot \widehat{Q}/\gamma)+F$ ；
DGFN的操作： $\widehat{F}=GELU(W_d^1W_c^1F')\odot W^2_dW_c^2F' + F$ ；
stage2：同时训练三个部分，首先使用 $CPEN_{S1}$ 得到 $Z$ ，之后经过diffusion process得到 $Z_T\in\mathbb{R}^{4C'}$ ， $CPEN_{S2}$ 得到 $D = CPEN_{S2}(PixelUnshuffle(I_{LQ}))$ ，之后进行DM，以D为条件，进行去噪t-1次得到 $\widehat{Z}$ ，和 $CPEN_{S1}$ 得到的 $Z$ 计算损失 $L_{diff} = \frac{1}{4C'}\sum_{i = 1}^{4C'}|\widehat{Z}(i) - Z(i)|$ ，这损失和stage1的损失在一起计算总损失；

实验

DiffIR: Efficient Diffusion Model for Image Restoration

清华&ETH&字节&UTDhttps://github.com/Zj-BinXia/DiffIR 问题引入 IR任务和image synthesis任务不同点是IR任务本身有一个很强的低质量图片作为先验，所以可以不完全遵循图片生成的范式，本文主要在compact的IPR空间进行DM；本文提…...

编程日记 2024/6/20 0:39:48

xss一些笔记

（乱写的一些笔记） innerHTML只防script像是img就不会防 innerText都防上面代码执行避免用户交互 js也可以用’‘执行例子 alert’1‘ document.location.hash // #号后的部分，包括#号 document.location.host // 域名…...

编程日记 2024/6/20 0:38:47

以太坊网络中为什么要设置Gas上限

以太坊网络中的Gas上限（Gas Limit）是一个重要的机制，它主要出于以下几个目的： 防止无限循环和拒绝服务攻击（DoS）： Gas上限防止了智能合约中的无限循环，这可以保护网络免受恶意合约的…...

编程日记 2024/6/20 0:36:44

vue-cli是什么？和 webpack是什么关系？

前言 Vue CLI是Vue.js项目的官方脚手架，基于Node.js与Webpack构建。安装Vue CLI前需确保Node.js已安装，随后通过npm全局安装。Vue CLI能迅速创建和管理Vue.js项目，提升开发效率。而Webpack则负责资源打包，通过配置文件管理依赖、插…...

编程日记 2024/6/20 0:34:42

leetcode刷题(46-50)

算法是码农的基本功，也是各个大厂必考察的重点，让我们一起坚持写题吧。遇事不决，可问春风，春风不语，即是本心。我们在我们能力范围内，做好我们该做的事，然后相信一切都事最好的安排就可以啦…...

编程日记 2024/6/20 0:33:41

Runner-HackTheBox 信息搜集 nmap扫描端口 nmap -sV -v 10.10.11.13扫描结果如下 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 8.9p1 Ubuntu 3ubuntu0.6 (Ubuntu Linux; protocol 2.0) 80/tcp open http nginx 1.18.0 (Ubuntu) 8000…...

编程日记 2024/6/20 0:32:39

keil5显示内存和存储占用百分比进度条工具

简介 [Keil5_disp_size_bar] 以进度条百分比来显示keil编译后生成的固件对芯片的内存ram和存储flash的占用情况, 并生成各个源码文件对ram和flash的占比整合排序后的map信息的表格和饼图。原理是使用C语言遍历当前目录找到keil工程和编译后生成的map文件然后读取工程文件和m…...

编程日记 2024/6/20 0:31:37

示例:推荐一个应用Adorner做的消息对话框

一、目的：开发过程中，经常用到对话框，下面演示一个应用Adorner做的带遮盖层蒙版的控件，使用MainWindow的Adorner实现不需要额外定义遮盖层，使用Object作为参数，可自定义DataTemplate定制消息显示样式二、效…...

编程日记 2024/6/20 0:29:34

Building wheels for collected packages: mmcv, mmcv-full 卡住

安装 anime-face-detector 的时候遇到一个问题：Installation takes forever #1386：在构建mmcv-full时卡住，这里分享下解决方法（安装 mmcv 同理，将下面命令中的 mmcv-full 替换成 mmcv） 具体表现如下&#x…...

编程日记 2024/6/20 0:28:33

可视化表单拖拽生成器优势多助力流程化办公！

当前，很多企业需要实现流程化办公，进入数字化转型时期。要想实现这一目标，就需要借助更优质的平台产品。低代码技术平台是得到企业喜爱的发展平台，拥有可视化操作、灵活、高效、更可靠等优势特点，在推动企业实现流程化…...

编程日记 2024/6/20 0:26:29

数据集制作——语义分割前png、jpg格式标签图转yolo格式.txt文件（附代码）

💪 专业从事且热爱图像处理，图像处理专栏更新如下👇： 📝《图像去噪》 📝《超分辨率重建》 📝《语义分割》 📝《风格迁移》 📝《目标检测》 📝《暗光增强》 &a…...

编程日记 2024/6/20 0:23:26

机器学习课程复习——ANN

Q：ANN？ 基本架构由输入层、隐藏层、输出层等构建前馈/反馈传播工作原理先加权求和：每个神经元的输出是输入加权和的激活再送入激活函数：激活函数的存在使得其能够拟合各类非线性任务联想：像adaboosting的加权求…...

编程日记 2024/6/20 0:22:24

C++回溯算法(2)

棋盘问题 #include<bits/stdc.h> using namespace std; void func(int,int); bool tf(int,int); void c(); int n,k; char a[110][110]; int cnt20; int main() {cin>>n>>k;for(int i0;i<n;i){for(int j0;j<n;j){cin>>a[i][j];}}func(0,0);cout…...

编程日记 2024/6/20 0:20:22

流量有限、日活低的APP适合对接广告变现吗？

APP广告变现，总用户数和日活用户（DUA）是衡量APP价值和影响力的重要指标之一。 APP DUA过万，尤其是大几万时，通常具备了商业化价值，适合接入广告变现。日活1W意味着每天有1万名用户在使用这款应用&#xff…...

编程日记 2024/6/20 0:19:20

Shell 学习笔记 - 变量的类型 + 变量的赋值

1.6 Shell 变量的类型 Shell 变量分为四类，分别是自定义变量环境变量位置变量预定义变量根据工作要求临时定义的变量称为自定义变量； 环境变量一般是指用 export 内置命令导出的变量，用于定义 Shell 的运行环境，保证 Shell …...

编程日记 2024/6/20 0:17:18

vue播放flv格式的直播流

在ios无法播放，安卓可以安装 npm install flv.js --save页面 <template><div><videoref"videoElement"style"width: 100%; height: 100%"autoplayplaysinlinemuted></video></div> </template><scr…...

编程日记 2024/6/20 0:16:17

Qt入门小项目 | 实现一个图片查看器

文章目录一、实现一个图片查看软件一、实现一个图片查看软件需要实现的功能： 打开目录选择图片显示图片的名字显示图片在以上功能的基础上进行优化，需要解决如下问题： 如何记住上次打开的路径？ 将路径保存到配置文件中&#x…...

编程日记 2024/6/20 0:13:13

qt仿制qq登录界面

#include "mainwindow.h"MainWindow::MainWindow(QWidget *parent): QMainWindow(parent) {// 设置窗口大小this->resize(window_width, window_heigth);// 固定窗口大小this->setFixedSize(window_width, window_heigth);// 设置窗口图标this->se…...

编程日记 2024/6/20 0:12:12

HashMap详解(含动画演示)

目录 HashMap1、HashMap的继承体系2、HashMap底层数据结构3、HashMap的构造函数①、无参构造②、有参构造1 和有参构造2 (可以自定义初始容量和负载因子)③、有参构造3(接受一个Map参数)JDK 8之前版本的哈希方法：JDK 8版本的哈希方法 4、拉链法解决哈希冲突什么是拉…...

编程日记 2024/6/20 0:11:10

TVS的原理及选型

目录案例描述 TVS管的功能与作用： TVS选型注意事项： 高速TVS管选型最近项目中遇到TVS管选型错误的问题。在此对TVS的功能及选型做一个分享。案例描述项目中保护指标应为4-14V，而选型的TVS管位SMJ40CA，其保护电压为40V未…...

编程日记 2024/6/20 0:10:08

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径， 以及修改通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解，但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后，通常在该文件中会出现以下配置&…...

编程新知 2026/1/28 15:17:32

MVC 数据库

MVC 数据库引言在软件开发领域，Model-View-Controller（MVC）是一种流行的软件架构模式，它将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系，以…...

编程新知 2025/10/30 4:58:11

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上，看到基于小智 AI DIY 玩具的演示，感觉有点意思，想着自己也来试试。如果只是想烧录现成的固件，乐鑫官方除了提供了 Windows 版本的 Flash 下载工具之外，还提供了基于网页版的 ESP LA…...

编程新知 2026/2/3 8:13:35

ETLCloud可能遇到的问题有哪些？常见坑位解析

数据集成平台ETLCloud，主要用于支持数据的抽取（Extract）、转换（Transform）和加载（Load）过程。提供了一个简洁直观的界面，以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...

编程新知 2026/2/3 12:56:31

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

AI 领域的快速发展正在催生一个新时代，智能代理（agents）不再是孤立的个体，而是能够像一个数字团队一样协作。然而，当前 AI 生态系统的碎片化阻碍了这一愿景的实现，导致了“AI 巴别塔问题”——不同代理之间…...

编程新知 2026/1/31 3:30:33

实现弹窗随键盘上移居中

实现弹窗随键盘上移的核心思路在Android中，可以通过监听键盘的显示和隐藏事件，动态调整弹窗的位置。关键点在于获取键盘高度，并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...

编程新知 2025/10/6 18:46:56

计算机基础知识解析：从应用到架构的全面拆解

目录前言 1、计算机的应用领域：无处不在的数字助手 2、计算机的进化史：从算盘到量子计算 3、计算机的分类：不止 “台式机和笔记本” 4、计算机的组件：硬件与软件的协同 4.1 硬件：五大核心部件 4.2 软件&#…...

编程新知 2026/1/31 9:44:27

springboot 日志类切面，接口成功记录日志，失败不记录

springboot 日志类切面，接口成功记录日志，失败不记录自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...

编程新知 2026/2/1 13:59:09

恶补电源：1.电桥

一、元器件的选择搜索并选择电桥，再multisim中选择FWB，就有各种型号的电桥: 电桥是用来干嘛的呢？ 它是一个由四个二极管搭成的“桥梁”形状的电路，用来把交流电（AC）变成直流电（DC）。…...

编程新知 2026/2/9 5:44:35

32单片机——基本定时器

STM32F103有众多的定时器，其中包括2个基本定时器（TIM6和TIM7）、4个通用定时器（TIM2~TIM5）、2个高级控制定时器（TIM1和TIM8），这些定时器彼此完全独立，不共享任何资源 1、定…...

编程新知 2026/2/4 20:31:20

DiffIR: Efficient Diffusion Model for Image Restoration

问题引入

methods

实验

相关文章：

DiffIR: Efficient Diffusion Model for Image Restoration

xss一些笔记

以太坊网络中为什么要设置Gas上限

vue-cli是什么？和 webpack是什么关系？

leetcode刷题(46-50)

[渗透测试学习] Runner-HackTheBox

keil5显示内存和存储占用百分比进度条工具

示例:推荐一个应用Adorner做的消息对话框

Building wheels for collected packages: mmcv, mmcv-full 卡住

可视化表单拖拽生成器优势多助力流程化办公！

数据集制作——语义分割前png、jpg格式标签图转yolo格式.txt文件（附代码）

机器学习课程复习——ANN

C++回溯算法(2)

流量有限、日活低的APP适合对接广告变现吗？

Shell 学习笔记 - 变量的类型 + 变量的赋值

vue播放flv格式的直播流

Qt入门小项目 | 实现一个图片查看器

qt仿制qq登录界面

HashMap详解(含动画演示)

TVS的原理及选型

关于nvm与node.js

MVC 数据库

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

ETLCloud可能遇到的问题有哪些？常见坑位解析

第一篇：Agent2Agent (A2A) 协议——协作式人工智能的黎明

实现弹窗随键盘上移居中

计算机基础知识解析：从应用到架构的全面拆解

springboot 日志类切面，接口成功记录日志，失败不记录

恶补电源：1.电桥

32单片机——基本定时器