当前位置: 首页 > news >正文

深度学习中的Pixel Shuffle和Pixel Unshuffle:图像超分辨率的秘密武器

在深度学习的计算机视觉任务中,提升图像分辨率和压缩特征图是重要需求。Pixel Shuffle和Pixel Unshuffle是在超分辨率、图像生成等任务中常用的操作,能够通过转换空间维度和通道维度来优化图像特征表示。本篇文章将深入介绍这两种操作的原理,并结合PyTorch实现可视化展示,希望能帮助大家更好地理解他们的用途与效果。

为什么需要Pixel Shuffle和Pixel Unshuffle

Pixel Shuffle是一种从特征图中提取空间信息的方法,主要应用于图像超分辨率等任务。超分辨率(Super-Resolution,SR)指的是通过机器学习算法生成比输入分辨率更好的图像。Pixel Shuffle操作可以帮助模型通过减少通道数、扩大空间分辨率来重建出更精细的图像。这不仅有效提升了模型的效果,还在一定程度上降低了计算成本。

相对应地,Pixel Unshuffle是Pixel Shuffle的逆操作,将空间维度重新映射回通道维度,这在特征压缩和编码解码任务中非常有用。

Pixel Shuffle和Pixel Unshuffle的原理解释及代码示例

Pixel Shuffle的工作原理

Pixel Shuffle是一种将通道维度转换为空间维度的操作,用于将特征图从较低的空间分辨率上采样到较高的分辨率。它的基本工作过程如下:

假设输入特征图的维度是 C × H × W C×H×W C×H×W,我们希望将其上采样到更高的空间分辨率 r H × r W rH×rW rH×rW,其中 r r r是放大倍率。Pixel Shuffle的操作步骤如下:

  1. 分解通道数:将特征图通道 C C C分解为 C ′ = C r 2 C'=\frac{C}{r^2} C=r2C,其中 C ′ C' C是新的通道数。
  2. 增加空间维度:将输入特征图的维度从 C × H × W C×H×W C×H×W变为 C ′ × r × r × H × W C'×r×r×H×W C×r×r×H×W,其中 r × r r×r r×r是每个通道中的小块大小。
  3. 重排特征图:将 r × r r×r r×r的小块移动到空间维度上,形成一个大小为 C ′ × r H × r W C'×rH×rW C×rH×rW的特征图。

通过上述过程,Pixel Shuffle可以将特征图的空间分辨率从 H × W H×W H×W放大到 r H × r W rH×rW rH×rW,同时减少通道数。

示例

假设输入特征图的维度是 4 × 2 × 2 4×2×2 4×2×2,我们希望放大2倍,即将分辨率换成 4 × 4 4×4 4×4。Pixel Shuffle操作过程如下:

  • 原始特征图 4 × 2 × 2 4×2×2 4×2×2
  • 分解通道数 4 4 4通道分解为 1 1 1通道的小块,即 1 × 2 × 2 × 2 × 2 1×2×2×2×2 1×2×2×2×2
  • 重排特征图:重排为 1 × 4 × 4 1×4×4 1×4×4的特征图。

这个过程相当于将每个通道中的像素块分配到更大的空间位置,从而实现高效的上采样操作。

代码示例

在PyTorch中,我们可以使用torch.nn.PixelShuffle来实现。以下是一个代码示例,展示如何在PyTorch中应用Pixel Shuffle。

import torch
import torch.nn as nn# 创建一个示例张量
x = torch.randn(1, 4, 2, 2)  # 输入形状 (batch, channels, height, width)# Pixel Shuffle 操作,使用上采样因子 2
pixel_shuffle = nn.PixelShuffle(2)
y = pixel_shuffle(x)print(f"输入形状: {x.shape}, 输出形状: {y.shape}")
# 输入形状: torch.Size([1, 4, 2, 2]), 输出形状: torch.Size([1, 1, 4, 4]) 

在这段代码,我们创建了一个形状为(1,4,2,2)的示例张量,将其通过Pixel Shuffle转换成形状为(1,1,4,4)的张量。这里的(2)是上采样因子,代表输出空间维度扩大2倍,而通道数被缩小为 2 2 2^2 22倍,即将4个通道转换为更大的空间维度,使得高分辨率图像生成称为可能。通过这种方式,网络可以利用更多的控价信息,生成更高质量的图像。

Pixel Unshuffle的工作原理

Pixel Unshuffle 是 Pixel Shuffle 的逆操作,用于将特征图从较高的空间分辨率下采样到较低的分辨率,将空间维度的高频信息重新映射回通道中。这种操作在编码解码模型(将高分辨率图像重新映射回多通道低分辨率特征图)、图像压缩等任务中非常实用。

假设输入特征图的维度是 C ′ × r H × r W C'×rH×rW C×rH×rW,我们希望将其下采样至 C × H × W C×H×W C×H×W的特征图。Pixel Unshuffle 的具体操作步骤如下:

  1. 分解空间维度:将输入特征图的空间维度 r H × r W rH×rW rH×rW 分解为 H × W H×W H×W 和每个位置的小块大小 r × r r×r r×r
  2. 增加通道数:将特征图的维度从 C ′ × r H × r W C'×rH×rW C×rH×rW 变为 C × H × W C×H×W C×H×W,其中 C = C ′ × r 2 C=C'×r^2 C=C×r2,即原始通道数。
  3. 重排通道:将空间维度的 r × r r×r r×r 小块重新映射到通道维度中,从而实现特征的压缩。

通过上述步骤,Pixel Unshuffle 将空间信息压缩回通道中,实现了图像特征的有效下采样。

示例

假设输入特征图的维度是 1 × 4 × 4 1×4×4 1×4×4,希望将其下采样到 4 4 4 通道,尺寸为 2 × 2 2×2 2×2。Pixel Unshuffle 的操作过程如下:

  • 原始特征图 1 × 4 × 4 1×4×4 1×4×4
  • 分解空间维度:将空间维度 4 × 4 4×4 4×4 分解为 2 × 2 2×2 2×2 2 × 2 2×2 2×2的小块
  • 增加通道数:将特征图的维度变为 4 × 2 × 2 4×2×2 4×2×2

这个过程相当于将空间中的信息“压缩”到通道中,从而获得较低分辨率但信息密集的特征图。

代码示例

以下代码展示了如何用Pixel Unshuffle恢复特征图

import torch
import torch.nn.functional as F# 假设 y (1,1,4,4)是 Pixel Shuffle 的输出
x_reconstructed = F.pixel_unshuffle(y, 2)
print(f"重新构建后的形状: {x_reconstructed.shape}")
# 重新构建后的形状: torch.Size([1, 4, 2, 2])

在这个示例中,pixel_unshuffle将分辨率降回Pixel Shuffle之前的形状,将空间维度信息重映射回通道中,从而实现特征图的压缩。

可视化展示

为了能够更直观地展示Pixel Shuffle的效果,我们可以通过一张实际图片来演示。以下代码将读取一张图片,通过Pixel Shuffle操作后进行对比可视化,方便理解其在上采样中的效果。假设我们读取的图片为
DOG

import torch.nn as nn
import torchvision.transforms as transforms
from PIL import Image
import matplotlib.pyplot as plt# 1. 读取图片并预处理
img_path = 'your_image_path.jpg'  # 替换为你的图片路径
image = Image.open(img_path).convert('RGB')# 2. 图像转换为张量,并调整形状以适应 Pixel Shuffle
transform = transforms.Compose([transforms.Resize((8, 8)),  # 调整为较小尺寸以便观察transforms.ToTensor()
])img_tensor = transform(image).unsqueeze(0)  # 增加 batch 维度# 3. 增加通道以便演示 Pixel Shuffle(例如转为 4 通道)
img_tensor = img_tensor.repeat(1, 4, 1, 1)  # 这里将通道数扩展到4# 4. 执行 Pixel Shuffle 操作
pixel_shuffle = nn.PixelShuffle(2)
img_shuffled = pixel_shuffle(img_tensor)# 5. 可视化原图与 Pixel Shuffle 后的图像
fig, axs = plt.subplots(1, 2, figsize=(10, 5))# 原图
axs[0].imshow(transforms.ToPILImage()(img_tensor.squeeze(0)[:3, :, :]))  # 只取前3个通道
axs[0].set_title("Original")# Pixel Shuffle 后的图
axs[1].imshow(transforms.ToPILImage()(img_shuffled.squeeze(0)[:3, :, :]))  # 只取前3个通道
axs[1].set_title("Pixel Shuffle")plt.show()

在这段代码中,我们读取一张图片并将其转换为张量格式,扩展通道数以符合 Pixel Shuffle 的输入要求。通过 Pixel Shuffle 操作,图像的空间分辨率增加,而通道数减少。经过代码处理后的结果为image-20241114093549088

可视化后可以清晰看到,Pixel Shuffle 操作有效地上采样了图片,使其更加细化并且包含更丰富的细节信息。

Pixel Shuffle 与 Pixel Unshuffle 的实际应用

在实际应用中,Pixel Shuffle 常用于超分辨率任务,例如在著名的 EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution)或 SRGAN(Super-Resolution Generative Adversarial Network)模型中,Pixel Shuffle 是提升图像质量的关键组件之一。Pixel Unshuffle 则适用于特征图压缩和编码场景,帮助模型更高效地处理高维特征。

总结

Pixel Shuffle:用于上采样,将通道维度转换为空间维度,提升图像分辨率。

Pixel Unshuffle:用于下采样,将空间维度转换为通道维度,降低图像分辨率进行特征压缩。

Pixel Shuffle 和 Pixel Unshuffle 通过在通道维度和空间维度之间进行信息重排,使得模型在不引入额外插值误差的情况下,实现高效的上采样和下采样操作。

参考文献

  1. Shi, Wenzhe, et al. “Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016): 1874-1883.
  2. Yu, Jiahui, et al. “Wide Activation for Efficient and Accurate Image Super-Resolution.” arXiv preprint arXiv:1808.08718 (2018).
    (2016): 1874-1883.
  3. Yu, Jiahui, et al. “Wide Activation for Efficient and Accurate Image Super-Resolution.” arXiv preprint arXiv:1808.08718 (2018).
  4. Lim, Bee, et al. “Enhanced Deep Residual Networks for Single Image Super-Resolution.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (2017): 136-144.

相关文章:

深度学习中的Pixel Shuffle和Pixel Unshuffle:图像超分辨率的秘密武器

在深度学习的计算机视觉任务中,提升图像分辨率和压缩特征图是重要需求。Pixel Shuffle和Pixel Unshuffle是在超分辨率、图像生成等任务中常用的操作,能够通过转换空间维度和通道维度来优化图像特征表示。本篇文章将深入介绍这两种操作的原理,…...

AntFlow 0.11.0版发布,增加springboot starter模块,一款设计上借鉴钉钉工作流的免费企业级审批流平台

AntFlow 0.11.0版发布,增加springboot starter模块,一款设计上借鉴钉钉工作流的免费企业级审批流平台 传统老牌工作流引擎比如activiti,flowable或者camunda等虽然功能强大,也被企业广泛采用,然后也存着在诸如学习曲线陡峭,上手难度大&#x…...

golang操作mysql基础驱动github.com/go-sql-driver/mysql使用

golang中类似java操作mysql的jdbc一样,github.com/go-sql-driver/mysql也为go提供了基础接口,在开发中往往需要写更多的代码来满足自己的定制需求,java在驱动基础上有了扩展,orm框架诞生,mybatis、jpa等都是好用的扩展…...

正则表达式完全指南,总结全面通俗易懂

目录 元字符 连接符 限定符 定位符 修饰符(标记) 运算符优先级 普通字符集及其替换 零宽断言 正向先行断言 负向先行断言 正向后发断言 负向后发断言 捕获组 普通捕获组 命名捕获组 PS:非捕获组 正则表达式在线测试: 正则在线测试工具 …...

运维面试题.云计算面试题之三ELK

1.ELK是什么? ELK 其实并不是一款软件,而是一整套解决方案,是三个软件产品的首字母缩写 Elasticsearch:负责日志检索和储存 Logstash:负责日志的收集和分析、处理 Kibana:负责日志的可视化 这三款软件都是开源软件,通常是配合使用,而且又先后归于 Elastic.co 公司名下,…...

C# DataTable使用Linq查询详解

前奏- C# 对DataTable进行查询 C# 可以对 DataTable 进行查询。在 .NET 框架中,DataTable 类提供了几种方法来查询数据,包括 Select 方法和 AsEnumerable 扩展方法(在 System.Data.DataSetExtensions 命名空间中)。 使用 Select…...

【企业级分布式系统】ELK优化

文章目录 Elasticsearch作为日志存储时的优化优化ES索引设置优化线程池配置锁定内存,不让JVM使用Swap减少分片数、副本数 Elasticsearch作为日志存储时的优化 linux内核优化、JVM优化、ES配置优化、架构优化(filebeat/fluentd代替logstash、加入kafka做…...

51单片机基础05 定时器

目录 一、为什么要定时器 二、定时器中断 1、定时器中断参数 2、定时器中断程序 3、定时器计数 一、为什么要定时器 前文提到,比如进行流水灯等操作,都是直接写了delay_ms这类操作。 但是在51单片机中,其一般就是靠双for进行的循环时延&…...

tdengine学习笔记实战-jdbc连接tdengine数据库

先上代码,里面有两种获取连接的方式,一个单例,一个连接池 package com.tdengine.utils;import com.alibaba.druid.pool.DruidDataSource;import java.sql.*; import java.util.Properties;public class TDConnectUtils {// 单例对象private …...

vue3项目执行npm install下载依赖报错问题排查方法

1、检查当前node与npm的版本 nodejs 和 npm 的版本是有适配的,具体可以看官网:nodejs 和 npm 的版本是有适配的 若是版本不兼容,修改node或者npm的版本即可,建议使用nvm版本管理工具,切换方便; 2、清除缓…...

【vue】项目迭代部署后 自动清除浏览器缓存

前言&#xff1a; vue项目打包部署上线后&#xff0c;因浏览器缓存问题&#xff0c;导致用户访问的依旧是上个迭代批次的旧资源&#xff0c;需要用户手动清除缓存才能更新至最新版本&#xff0c;影响用户体验。 解决方法&#xff1a; html根文件添加以下标签 <meta http-eq…...

Leetcode(滑动窗口习题思路总结,持续更新。。。)

讲解题目&#xff1a;长度最小的子数组 给定一个含有 n 个正整数的数组和一个正整数 target &#xff0c;找出该数组中满足其和 ≥ target 的长度最小的连续子数组。如果不存在符合条件的连续子数组&#xff0c;返回 0。示例: 输入: target 7, nums [2,3,1,2,4,3] 输出: 2 解…...

【UNIAPP】uniapp版图片压缩工具

二次封装的uniapp版本图片压缩、上传工具&#xff0c;支持全端&#xff08;H5、小程序、APP&#xff09; 新建文件&#xff1a;file-util.js class FileUtil {/*** [文件上传]* param {[object]} fileObj [图片地址]* param {[object]} formData [参数]* param {[str…...

PaddlePaddle 开源产业级文档印章识别PaddleX-Pipeline “seal_recognition”模型 开箱即用篇(一)

AI时代到来&#xff0c;各行各业都在追求细分领域垂直类深度学习模型&#xff0c;今天给大家介绍一个PaddlePaddle旗下&#xff0c;基于PaddleX Pipeline 来完成印章识别的模型“seal_recognition”。 官方地址&#xff1a;https://github.com/PaddlePaddle/PaddleX/blob/relea…...

Vue3 + Vite 项目引入 Typescript

文章目录 一、TypeScript简介二、TypeScript 开发环境搭建三、编译方式1. 自动编译单个文件2. 自动编译整个项目 四、配置文件1. compilerOptions基本选项严格模式相关选项&#xff08;启用 strict 后自动包含这些&#xff09;模块与导入相关选项 2. include 和 excludeinclude…...

微信小程序实战篇-分类页面制作

一、项目背景与目标 在微信小程序开发中&#xff0c;分类页面是一个常见且重要的功能模块。它能够帮助用户快速定位和浏览不同类别的商品或信息&#xff0c;提升用户体验和操作效率。今天&#xff0c;我们将深入探讨如何制作一个实用的微信小程序分类页面&#xff0c;先来看一下…...

第三十七章 如何清理docker 日志

如何清理docker 日志 目标 掌握docker 日志设置掌握docker日志的清理办法背景 在现代软件开发和部署环境中,Docker 容器技术因其轻量级、可移植性和高效资源利用的特点,已成为许多企业和开发团队的首选。Docker 容器在运行过程中会产生大量的日志信息,这些日志对于监控容器…...

二刷代码随想录第七天

454. 四数相加 II 先用map记录前两个数的和num1 num2的值出现了多少次再在后两个数组里找0 - (num1 num2),找到后就累加map中的次数 class Solution { public:int fourSumCount(vector<int>& nums1, vector<int>& nums2, vector<int>& nums3…...

1.tree of thought (使用LangChain解决4x4数独问题)

本教程将介绍如何使用LangChain库和chatglm API来解决一个4x4的数独问题。我们将通过以下步骤实现这一目标&#xff1a; 初始化chatglm 的聊天模型。定义数独问题和解决方案。创建一个自定义的检查器来验证每一步的思考。使用ToTChain来运行整个思考过程。 1. 初始化chatglm4…...

网络基础(4)IP协议

经过之前的学习对传输协议的学习&#xff0c;对于传输协议从系统底层到应用层对于socket套接字的学习已经有了一套完整的理论。 对于网络的层状结构&#xff0c;现在已经学习到了应用层和传输层: 在之前的学习中&#xff0c;通信的双方都只考虑了双方的传输层的东西&#xff0…...

反射获取方法和属性

Java反射获取方法 在Java中&#xff0c;反射&#xff08;Reflection&#xff09;是一种强大的机制&#xff0c;允许程序在运行时访问和操作类的内部属性和方法。通过反射&#xff0c;可以动态地创建对象、调用方法、改变属性值&#xff0c;这在很多Java框架中如Spring和Hiberna…...

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)

要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况&#xff0c;可以通过以下几种方式模拟或触发&#xff1a; 1. 增加CPU负载 运行大量计算密集型任务&#xff0c;例如&#xff1a; 使用多线程循环执行复杂计算&#xff08;如数学运算、加密解密等&#xff09;。运行图…...

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

企业如何增强终端安全?

在数字化转型加速的今天&#xff0c;企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机&#xff0c;到工厂里的物联网设备、智能传感器&#xff0c;这些终端构成了企业与外部世界连接的 “神经末梢”。然而&#xff0c;随着远程办公的常态化和设备接入的爆炸式…...

Aspose.PDF 限制绕过方案:Java 字节码技术实战分享(仅供学习)

Aspose.PDF 限制绕过方案&#xff1a;Java 字节码技术实战分享&#xff08;仅供学习&#xff09; 一、Aspose.PDF 简介二、说明&#xff08;⚠️仅供学习与研究使用&#xff09;三、技术流程总览四、准备工作1. 下载 Jar 包2. Maven 项目依赖配置 五、字节码修改实现代码&#…...

C#中的CLR属性、依赖属性与附加属性

CLR属性的主要特征 封装性&#xff1a; 隐藏字段的实现细节 提供对字段的受控访问 访问控制&#xff1a; 可单独设置get/set访问器的可见性 可创建只读或只写属性 计算属性&#xff1a; 可以在getter中执行计算逻辑 不需要直接对应一个字段 验证逻辑&#xff1a; 可以…...

无人机侦测与反制技术的进展与应用

国家电网无人机侦测与反制技术的进展与应用 引言 随着无人机&#xff08;无人驾驶飞行器&#xff0c;UAV&#xff09;技术的快速发展&#xff0c;其在商业、娱乐和军事领域的广泛应用带来了新的安全挑战。特别是对于关键基础设施如电力系统&#xff0c;无人机的“黑飞”&…...

STM32HAL库USART源代码解析及应用

STM32HAL库USART源代码解析 前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

C++实现分布式网络通信框架RPC(2)——rpc发布端

有了上篇文章的项目的基本知识的了解&#xff0c;现在我们就开始构建项目。 目录 一、构建工程目录 二、本地服务发布成RPC服务 2.1理解RPC发布 2.2实现 三、Mprpc框架的基础类设计 3.1框架的初始化类 MprpcApplication 代码实现 3.2读取配置文件类 MprpcConfig 代码实现…...

云原生安全实战:API网关Envoy的鉴权与限流详解

&#x1f525;「炎码工坊」技术弹药已装填&#xff01; 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、基础概念 1. API网关 作为微服务架构的统一入口&#xff0c;负责路由转发、安全控制、流量管理等核心功能。 2. Envoy 由Lyft开源的高性能云原生…...