深度学习中的Pixel Shuffle和Pixel Unshuffle:图像超分辨率的秘密武器
在深度学习的计算机视觉任务中,提升图像分辨率和压缩特征图是重要需求。Pixel Shuffle和Pixel Unshuffle是在超分辨率、图像生成等任务中常用的操作,能够通过转换空间维度和通道维度来优化图像特征表示。本篇文章将深入介绍这两种操作的原理,并结合PyTorch实现可视化展示,希望能帮助大家更好地理解他们的用途与效果。
为什么需要Pixel Shuffle和Pixel Unshuffle
Pixel Shuffle是一种从特征图中提取空间信息的方法,主要应用于图像超分辨率等任务。超分辨率(Super-Resolution,SR)指的是通过机器学习算法生成比输入分辨率更好的图像。Pixel Shuffle操作可以帮助模型通过减少通道数、扩大空间分辨率来重建出更精细的图像。这不仅有效提升了模型的效果,还在一定程度上降低了计算成本。
相对应地,Pixel Unshuffle是Pixel Shuffle的逆操作,将空间维度重新映射回通道维度,这在特征压缩和编码解码任务中非常有用。
Pixel Shuffle和Pixel Unshuffle的原理解释及代码示例
Pixel Shuffle的工作原理
Pixel Shuffle是一种将通道维度转换为空间维度的操作,用于将特征图从较低的空间分辨率上采样到较高的分辨率。它的基本工作过程如下:
假设输入特征图的维度是 C × H × W C×H×W C×H×W,我们希望将其上采样到更高的空间分辨率 r H × r W rH×rW rH×rW,其中 r r r是放大倍率。Pixel Shuffle的操作步骤如下:
- 分解通道数:将特征图通道 C C C分解为 C ′ = C r 2 C'=\frac{C}{r^2} C′=r2C,其中 C ′ C' C′是新的通道数。
- 增加空间维度:将输入特征图的维度从 C × H × W C×H×W C×H×W变为 C ′ × r × r × H × W C'×r×r×H×W C′×r×r×H×W,其中 r × r r×r r×r是每个通道中的小块大小。
- 重排特征图:将 r × r r×r r×r的小块移动到空间维度上,形成一个大小为 C ′ × r H × r W C'×rH×rW C′×rH×rW的特征图。
通过上述过程,Pixel Shuffle可以将特征图的空间分辨率从 H × W H×W H×W放大到 r H × r W rH×rW rH×rW,同时减少通道数。
示例
假设输入特征图的维度是 4 × 2 × 2 4×2×2 4×2×2,我们希望放大2倍,即将分辨率换成 4 × 4 4×4 4×4。Pixel Shuffle操作过程如下:
- 原始特征图: 4 × 2 × 2 4×2×2 4×2×2
- 分解通道数: 4 4 4通道分解为 1 1 1通道的小块,即 1 × 2 × 2 × 2 × 2 1×2×2×2×2 1×2×2×2×2
- 重排特征图:重排为 1 × 4 × 4 1×4×4 1×4×4的特征图。
这个过程相当于将每个通道中的像素块分配到更大的空间位置,从而实现高效的上采样操作。
代码示例
在PyTorch中,我们可以使用torch.nn.PixelShuffle来实现。以下是一个代码示例,展示如何在PyTorch中应用Pixel Shuffle。
import torch
import torch.nn as nn# 创建一个示例张量
x = torch.randn(1, 4, 2, 2) # 输入形状 (batch, channels, height, width)# Pixel Shuffle 操作,使用上采样因子 2
pixel_shuffle = nn.PixelShuffle(2)
y = pixel_shuffle(x)print(f"输入形状: {x.shape}, 输出形状: {y.shape}")
# 输入形状: torch.Size([1, 4, 2, 2]), 输出形状: torch.Size([1, 1, 4, 4])
在这段代码,我们创建了一个形状为(1,4,2,2)的示例张量,将其通过Pixel Shuffle转换成形状为(1,1,4,4)的张量。这里的(2)是上采样因子,代表输出空间维度扩大2倍,而通道数被缩小为 2 2 2^2 22倍,即将4个通道转换为更大的空间维度,使得高分辨率图像生成称为可能。通过这种方式,网络可以利用更多的控价信息,生成更高质量的图像。
Pixel Unshuffle的工作原理
Pixel Unshuffle 是 Pixel Shuffle 的逆操作,用于将特征图从较高的空间分辨率下采样到较低的分辨率,将空间维度的高频信息重新映射回通道中。这种操作在编码解码模型(将高分辨率图像重新映射回多通道低分辨率特征图)、图像压缩等任务中非常实用。
假设输入特征图的维度是 C ′ × r H × r W C'×rH×rW C′×rH×rW,我们希望将其下采样至 C × H × W C×H×W C×H×W的特征图。Pixel Unshuffle 的具体操作步骤如下:
- 分解空间维度:将输入特征图的空间维度 r H × r W rH×rW rH×rW 分解为 H × W H×W H×W 和每个位置的小块大小 r × r r×r r×r。
- 增加通道数:将特征图的维度从 C ′ × r H × r W C'×rH×rW C′×rH×rW 变为 C × H × W C×H×W C×H×W,其中 C = C ′ × r 2 C=C'×r^2 C=C′×r2,即原始通道数。
- 重排通道:将空间维度的 r × r r×r r×r 小块重新映射到通道维度中,从而实现特征的压缩。
通过上述步骤,Pixel Unshuffle 将空间信息压缩回通道中,实现了图像特征的有效下采样。
示例
假设输入特征图的维度是 1 × 4 × 4 1×4×4 1×4×4,希望将其下采样到 4 4 4 通道,尺寸为 2 × 2 2×2 2×2。Pixel Unshuffle 的操作过程如下:
- 原始特征图: 1 × 4 × 4 1×4×4 1×4×4
- 分解空间维度:将空间维度 4 × 4 4×4 4×4 分解为 2 × 2 2×2 2×2 和 2 × 2 2×2 2×2的小块
- 增加通道数:将特征图的维度变为 4 × 2 × 2 4×2×2 4×2×2
这个过程相当于将空间中的信息“压缩”到通道中,从而获得较低分辨率但信息密集的特征图。
代码示例
以下代码展示了如何用Pixel Unshuffle恢复特征图
import torch
import torch.nn.functional as F# 假设 y (1,1,4,4)是 Pixel Shuffle 的输出
x_reconstructed = F.pixel_unshuffle(y, 2)
print(f"重新构建后的形状: {x_reconstructed.shape}")
# 重新构建后的形状: torch.Size([1, 4, 2, 2])
在这个示例中,pixel_unshuffle将分辨率降回Pixel Shuffle之前的形状,将空间维度信息重映射回通道中,从而实现特征图的压缩。
可视化展示
为了能够更直观地展示Pixel Shuffle的效果,我们可以通过一张实际图片来演示。以下代码将读取一张图片,通过Pixel Shuffle操作后进行对比可视化,方便理解其在上采样中的效果。假设我们读取的图片为

import torch.nn as nn
import torchvision.transforms as transforms
from PIL import Image
import matplotlib.pyplot as plt# 1. 读取图片并预处理
img_path = 'your_image_path.jpg' # 替换为你的图片路径
image = Image.open(img_path).convert('RGB')# 2. 图像转换为张量,并调整形状以适应 Pixel Shuffle
transform = transforms.Compose([transforms.Resize((8, 8)), # 调整为较小尺寸以便观察transforms.ToTensor()
])img_tensor = transform(image).unsqueeze(0) # 增加 batch 维度# 3. 增加通道以便演示 Pixel Shuffle(例如转为 4 通道)
img_tensor = img_tensor.repeat(1, 4, 1, 1) # 这里将通道数扩展到4# 4. 执行 Pixel Shuffle 操作
pixel_shuffle = nn.PixelShuffle(2)
img_shuffled = pixel_shuffle(img_tensor)# 5. 可视化原图与 Pixel Shuffle 后的图像
fig, axs = plt.subplots(1, 2, figsize=(10, 5))# 原图
axs[0].imshow(transforms.ToPILImage()(img_tensor.squeeze(0)[:3, :, :])) # 只取前3个通道
axs[0].set_title("Original")# Pixel Shuffle 后的图
axs[1].imshow(transforms.ToPILImage()(img_shuffled.squeeze(0)[:3, :, :])) # 只取前3个通道
axs[1].set_title("Pixel Shuffle")plt.show()
在这段代码中,我们读取一张图片并将其转换为张量格式,扩展通道数以符合 Pixel Shuffle 的输入要求。通过 Pixel Shuffle 操作,图像的空间分辨率增加,而通道数减少。经过代码处理后的结果为
可视化后可以清晰看到,Pixel Shuffle 操作有效地上采样了图片,使其更加细化并且包含更丰富的细节信息。
Pixel Shuffle 与 Pixel Unshuffle 的实际应用
在实际应用中,Pixel Shuffle 常用于超分辨率任务,例如在著名的 EDSR(Enhanced Deep Residual Networks for Single Image Super-Resolution)或 SRGAN(Super-Resolution Generative Adversarial Network)模型中,Pixel Shuffle 是提升图像质量的关键组件之一。Pixel Unshuffle 则适用于特征图压缩和编码场景,帮助模型更高效地处理高维特征。
总结
Pixel Shuffle:用于上采样,将通道维度转换为空间维度,提升图像分辨率。
Pixel Unshuffle:用于下采样,将空间维度转换为通道维度,降低图像分辨率进行特征压缩。
Pixel Shuffle 和 Pixel Unshuffle 通过在通道维度和空间维度之间进行信息重排,使得模型在不引入额外插值误差的情况下,实现高效的上采样和下采样操作。
参考文献
- Shi, Wenzhe, et al. “Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (2016): 1874-1883.
- Yu, Jiahui, et al. “Wide Activation for Efficient and Accurate Image Super-Resolution.” arXiv preprint arXiv:1808.08718 (2018).
(2016): 1874-1883. - Yu, Jiahui, et al. “Wide Activation for Efficient and Accurate Image Super-Resolution.” arXiv preprint arXiv:1808.08718 (2018).
- Lim, Bee, et al. “Enhanced Deep Residual Networks for Single Image Super-Resolution.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops (2017): 136-144.
相关文章:
深度学习中的Pixel Shuffle和Pixel Unshuffle:图像超分辨率的秘密武器
在深度学习的计算机视觉任务中,提升图像分辨率和压缩特征图是重要需求。Pixel Shuffle和Pixel Unshuffle是在超分辨率、图像生成等任务中常用的操作,能够通过转换空间维度和通道维度来优化图像特征表示。本篇文章将深入介绍这两种操作的原理,…...
AntFlow 0.11.0版发布,增加springboot starter模块,一款设计上借鉴钉钉工作流的免费企业级审批流平台
AntFlow 0.11.0版发布,增加springboot starter模块,一款设计上借鉴钉钉工作流的免费企业级审批流平台 传统老牌工作流引擎比如activiti,flowable或者camunda等虽然功能强大,也被企业广泛采用,然后也存着在诸如学习曲线陡峭,上手难度大&#x…...
golang操作mysql基础驱动github.com/go-sql-driver/mysql使用
golang中类似java操作mysql的jdbc一样,github.com/go-sql-driver/mysql也为go提供了基础接口,在开发中往往需要写更多的代码来满足自己的定制需求,java在驱动基础上有了扩展,orm框架诞生,mybatis、jpa等都是好用的扩展…...
正则表达式完全指南,总结全面通俗易懂
目录 元字符 连接符 限定符 定位符 修饰符(标记) 运算符优先级 普通字符集及其替换 零宽断言 正向先行断言 负向先行断言 正向后发断言 负向后发断言 捕获组 普通捕获组 命名捕获组 PS:非捕获组 正则表达式在线测试: 正则在线测试工具 …...
运维面试题.云计算面试题之三ELK
1.ELK是什么? ELK 其实并不是一款软件,而是一整套解决方案,是三个软件产品的首字母缩写 Elasticsearch:负责日志检索和储存 Logstash:负责日志的收集和分析、处理 Kibana:负责日志的可视化 这三款软件都是开源软件,通常是配合使用,而且又先后归于 Elastic.co 公司名下,…...
C# DataTable使用Linq查询详解
前奏- C# 对DataTable进行查询 C# 可以对 DataTable 进行查询。在 .NET 框架中,DataTable 类提供了几种方法来查询数据,包括 Select 方法和 AsEnumerable 扩展方法(在 System.Data.DataSetExtensions 命名空间中)。 使用 Select…...
【企业级分布式系统】ELK优化
文章目录 Elasticsearch作为日志存储时的优化优化ES索引设置优化线程池配置锁定内存,不让JVM使用Swap减少分片数、副本数 Elasticsearch作为日志存储时的优化 linux内核优化、JVM优化、ES配置优化、架构优化(filebeat/fluentd代替logstash、加入kafka做…...
51单片机基础05 定时器
目录 一、为什么要定时器 二、定时器中断 1、定时器中断参数 2、定时器中断程序 3、定时器计数 一、为什么要定时器 前文提到,比如进行流水灯等操作,都是直接写了delay_ms这类操作。 但是在51单片机中,其一般就是靠双for进行的循环时延&…...
tdengine学习笔记实战-jdbc连接tdengine数据库
先上代码,里面有两种获取连接的方式,一个单例,一个连接池 package com.tdengine.utils;import com.alibaba.druid.pool.DruidDataSource;import java.sql.*; import java.util.Properties;public class TDConnectUtils {// 单例对象private …...
vue3项目执行npm install下载依赖报错问题排查方法
1、检查当前node与npm的版本 nodejs 和 npm 的版本是有适配的,具体可以看官网:nodejs 和 npm 的版本是有适配的 若是版本不兼容,修改node或者npm的版本即可,建议使用nvm版本管理工具,切换方便; 2、清除缓…...
【vue】项目迭代部署后 自动清除浏览器缓存
前言: vue项目打包部署上线后,因浏览器缓存问题,导致用户访问的依旧是上个迭代批次的旧资源,需要用户手动清除缓存才能更新至最新版本,影响用户体验。 解决方法: html根文件添加以下标签 <meta http-eq…...
Leetcode(滑动窗口习题思路总结,持续更新。。。)
讲解题目:长度最小的子数组 给定一个含有 n 个正整数的数组和一个正整数 target ,找出该数组中满足其和 ≥ target 的长度最小的连续子数组。如果不存在符合条件的连续子数组,返回 0。示例: 输入: target 7, nums [2,3,1,2,4,3] 输出: 2 解…...
【UNIAPP】uniapp版图片压缩工具
二次封装的uniapp版本图片压缩、上传工具,支持全端(H5、小程序、APP) 新建文件:file-util.js class FileUtil {/*** [文件上传]* param {[object]} fileObj [图片地址]* param {[object]} formData [参数]* param {[str…...
PaddlePaddle 开源产业级文档印章识别PaddleX-Pipeline “seal_recognition”模型 开箱即用篇(一)
AI时代到来,各行各业都在追求细分领域垂直类深度学习模型,今天给大家介绍一个PaddlePaddle旗下,基于PaddleX Pipeline 来完成印章识别的模型“seal_recognition”。 官方地址:https://github.com/PaddlePaddle/PaddleX/blob/relea…...
Vue3 + Vite 项目引入 Typescript
文章目录 一、TypeScript简介二、TypeScript 开发环境搭建三、编译方式1. 自动编译单个文件2. 自动编译整个项目 四、配置文件1. compilerOptions基本选项严格模式相关选项(启用 strict 后自动包含这些)模块与导入相关选项 2. include 和 excludeinclude…...
微信小程序实战篇-分类页面制作
一、项目背景与目标 在微信小程序开发中,分类页面是一个常见且重要的功能模块。它能够帮助用户快速定位和浏览不同类别的商品或信息,提升用户体验和操作效率。今天,我们将深入探讨如何制作一个实用的微信小程序分类页面,先来看一下…...
第三十七章 如何清理docker 日志
如何清理docker 日志 目标 掌握docker 日志设置掌握docker日志的清理办法背景 在现代软件开发和部署环境中,Docker 容器技术因其轻量级、可移植性和高效资源利用的特点,已成为许多企业和开发团队的首选。Docker 容器在运行过程中会产生大量的日志信息,这些日志对于监控容器…...
二刷代码随想录第七天
454. 四数相加 II 先用map记录前两个数的和num1 num2的值出现了多少次再在后两个数组里找0 - (num1 num2),找到后就累加map中的次数 class Solution { public:int fourSumCount(vector<int>& nums1, vector<int>& nums2, vector<int>& nums3…...
1.tree of thought (使用LangChain解决4x4数独问题)
本教程将介绍如何使用LangChain库和chatglm API来解决一个4x4的数独问题。我们将通过以下步骤实现这一目标: 初始化chatglm 的聊天模型。定义数独问题和解决方案。创建一个自定义的检查器来验证每一步的思考。使用ToTChain来运行整个思考过程。 1. 初始化chatglm4…...
网络基础(4)IP协议
经过之前的学习对传输协议的学习,对于传输协议从系统底层到应用层对于socket套接字的学习已经有了一套完整的理论。 对于网络的层状结构,现在已经学习到了应用层和传输层: 在之前的学习中,通信的双方都只考虑了双方的传输层的东西࿰…...
React 第五十五节 Router 中 useAsyncError的使用详解
前言 useAsyncError 是 React Router v6.4 引入的一个钩子,用于处理异步操作(如数据加载)中的错误。下面我将详细解释其用途并提供代码示例。 一、useAsyncError 用途 处理异步错误:捕获在 loader 或 action 中发生的异步错误替…...
python打卡day49
知识点回顾: 通道注意力模块复习空间注意力模块CBAM的定义 作业:尝试对今天的模型检查参数数目,并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...
React hook之useRef
React useRef 详解 useRef 是 React 提供的一个 Hook,用于在函数组件中创建可变的引用对象。它在 React 开发中有多种重要用途,下面我将全面详细地介绍它的特性和用法。 基本概念 1. 创建 ref const refContainer useRef(initialValue);initialValu…...
以下是对华为 HarmonyOS NETX 5属性动画(ArkTS)文档的结构化整理,通过层级标题、表格和代码块提升可读性:
一、属性动画概述NETX 作用:实现组件通用属性的渐变过渡效果,提升用户体验。支持属性:width、height、backgroundColor、opacity、scale、rotate、translate等。注意事项: 布局类属性(如宽高)变化时&#…...
无法与IP建立连接,未能下载VSCode服务器
如题,在远程连接服务器的时候突然遇到了这个提示。 查阅了一圈,发现是VSCode版本自动更新惹的祸!!! 在VSCode的帮助->关于这里发现前几天VSCode自动更新了,我的版本号变成了1.100.3 才导致了远程连接出…...
ETLCloud可能遇到的问题有哪些?常见坑位解析
数据集成平台ETLCloud,主要用于支持数据的抽取(Extract)、转换(Transform)和加载(Load)过程。提供了一个简洁直观的界面,以便用户可以在不同的数据源之间轻松地进行数据迁移和转换。…...
ServerTrust 并非唯一
NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角 要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念 点说明authenticationMethodURLAuthenticationChallenge.protectionS…...
反射获取方法和属性
Java反射获取方法 在Java中,反射(Reflection)是一种强大的机制,允许程序在运行时访问和操作类的内部属性和方法。通过反射,可以动态地创建对象、调用方法、改变属性值,这在很多Java框架中如Spring和Hiberna…...
大模型多显卡多服务器并行计算方法与实践指南
一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...
【C语言练习】080. 使用C语言实现简单的数据库操作
080. 使用C语言实现简单的数据库操作 080. 使用C语言实现简单的数据库操作使用原生APIODBC接口第三方库ORM框架文件模拟1. 安装SQLite2. 示例代码:使用SQLite创建数据库、表和插入数据3. 编译和运行4. 示例运行输出:5. 注意事项6. 总结080. 使用C语言实现简单的数据库操作 在…...
