图像超分辨率技术新进展:混合注意力聚合变换器HAAT
目录
1. 引言:
2. 混合注意力聚合变换器(HAAT):
2.1 Swin-Dense-Residual-Connected Block(SDRCB):
2.2 Hybrid Grid Attention Block(HGAB):
3. 实验结果:
4. 结论:
1. 引言:
在计算机视觉领域,单图像超分辨率(SISR)技术的目标是从一个低分辨率的图像中重建出高分辨率的图像。这一技术因其在多种应用中的广泛需求而成为一个关键的研究领域。传统的基于CNN的方法,如SRCNN、VDSR和SRGAN,通过使用卷积神经网络显著改善了图像的纹理特征恢复。然而,这些方法在模拟图像中的长距离依赖关系方面存在局限,这主要是由于CNN的固有偏置,包括参数依赖的感受野扩展和卷积操作的核大小限制,这可能导致忽略图像中的非局部空间信息。
为了解决这些问题,研究者开始探索基于Transformer的SISR模型,这些模型能够利用其长距离依赖模拟的能力,从而提高SISR的性能。特别是,SwinIR利用Swin Transformer取得了显著的改进,而混合注意力变换器(HAT)通过结合重叠的交叉注意力模块、基于窗口的自注意力和通道注意力,也产生了最先进的结果。
2. 混合注意力聚合变换器(HAAT):
HAAT模型的提出是为了解决现有基于Transformer的方法在图像恢复问题上的局限性,尤其是当前基于窗口的Transformer网络将自注意力计算限制在集中区域,导致感受野受限并且无法充分利用原始图像的特征信息。
HAAT通过整合Swin-Dense-Residual-Connected Blocks(SDRCB)和Hybrid Grid Attention Blocks(HGAB)来构建,其中SDRCB在保持精简架构的同时扩展了感受野,从而提高了性能。HGAB则结合了通道注意力、稀疏注意力和窗口注意力,以改善非局部特征融合,并实现更引人注目的视觉结果。
2.1 Swin-Dense-Residual-Connected Block(SDRCB):
SDRCB是HAAT模型的一个关键组成部分,它利用Swin Transformer Layer(STL)的移窗自注意力机制来捕获长距离依赖关系。STL根据全局内容调整模型的强调点,增强特征提取,并在网络加深时保持全局细节,扩大感受野而不降低性能。SDRCB通过与密集残差连接的结合,进一步扩展了感受野,并提高了对关键信息的强调,这对于需要细致、上下文敏感处理的SISR任务至关重要。SDRCB的计算过程涉及到多级特征图的连接、特征转换和残差缩放,其中残差缩放因子用于稳定训练过程。下图是SDRCB框架:

2.2 Hybrid Grid Attention Block(HGAB):
HGAB是HAAT模型的另一个核心组成部分,它由混合注意力层(MAL)和多层感知器(MLP)层组成。HGAB的工作流程是将输入特征按照通道分割,并分别通过不同的自注意力机制进行处理,包括窗口多头自注意力(W-MSA)、稀疏窗口多头自注意力(SW-MSA)和网格多头自注意力(Grid-MSA)。此外,HGAB还对输入特征执行通道注意力操作。HGAB的设计采用了后归一化方法,以增强网络训练的稳定性。MAL的计算过程涉及到对输入特征的分割、不同自注意力机制的处理以及通道注意力的操作,最终将这些特征重新组合并加到原始特征上。下图是HGAB结构:

3. 实验结果:
HAAT模型在DF2K数据集上进行了训练,该数据集是一个包含DIV2K和Flickr2K的大规模聚合数据集。在训练过程中,研究人员通过双三次下采样方法生成了不同缩放因子的低分辨率图像。为了评估模型的有效性,研究人员在Set5和Set14等知名的SISR基准数据集上进行了性能评估。实验结果表明,HAAT在峰值信噪比(PSNR)和结构相似性(SSIM)这两个评价指标上均优于现有的最先进技术。这一结果证明了HAAT在参数数量更少、计算需求更低的情况下,仍然能够取得比现有最先进模型更好的结果。下图是HAAT与SOTA方法的定量比较:

4. 结论:
本文介绍了HAAT,这是一种新型的单图像超分辨率模型。HAAT通过增强DRCT架构,强调了信息流的稳定性和通过残差块中的密集连接扩展感受野,以及通过移窗注意力机制自适应地获取全局信息。这使得模型能够增强对全局地理信息的强调,优化其能力,并避免信息瓶颈。此外,HAAT还提供了HGAB来表示图像中的长距离关系,通过整合通道注意力、稀疏注意力和窗口注意力,提高了多级结构相似性。
HAAT在DF2K数据集上进行了训练,并在Set5和Set14数据集上进行了验证。实验结果表明,HAAT在单图像超分辨率任务中的性能超越了现有的最先进技术。
引用论文:HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution
相关文章:
图像超分辨率技术新进展:混合注意力聚合变换器HAAT
目录 1. 引言: 2. 混合注意力聚合变换器(HAAT): 2.1 Swin-Dense-Residual-Connected Block(SDRCB): 2.2 Hybrid Grid Attention Block(HGAB): 3. 实验结…...
文件IO——01
1. 认识文件 1)文件概念 “文件”是一个广义的概念,可以代表很多东西 操作系统里,会把很多的硬件设备和软件资源抽象成“文件”,统一管理 但是大部分情况下的文件,都是指硬盘的文件(文件相当于是对“硬…...
【opencv入门教程】5. Mat 类用法
文章选自: 一、BackGround Mat对象是一种图像数据结构,它是一个容器,存储任何通道任何数的图片数据以及对应的矩阵,使用完成后,内存自动释放。二、Code void Samples::MatFunc() {1. 图像处理// 方法1:…...
SSM虾米音乐项目2--分页查询
1.分页查询的底层逻辑 首先根据用户输入的流派,进行模糊查询根据查询的数据进行分页需要前端用户提供pageNo(当前页数)和pageSize(每页的数据量)并且要从后端计算count(总数据量)和totalPage(总页数),以及startNum(每页开始的记录)从而将对应的页面数据…...
nodejs 获取本地局域网 ip 扫描本地端口
因为傻逼老板的垃圾需求,不得不成长 示例代码: 获取本地局域网 ip 地址: 需要注意的是:如果存在虚拟机网络,则返回的是虚拟机网络的 ipv4 地址 import os from os; export const getLocalIp () > {const in…...
区块链签名种类
1. eth_sign 简介:最早实现的签名方法,用于对任意数据进行签名。签名内容:直接对原始消息的哈希值进行签名。特点: 安全性较低,因为签名的消息没有明确的上下文或结构。很容易被滥用,攻击者可以伪造签名内…...
【062B】基于51单片机无线病房呼叫系统(+时间)【Keil程序+报告+原理图】
☆、设计硬件组成:51单片机最小系统NRF24L01无线模块DS1302时钟芯片LCD1602液晶显示按键设置蜂鸣器LED灯。 1、本设计采用STC89C51/52、AT89C51/52、AT89S51/52作为主控芯片,采用LCD1602液晶显示呼叫信息,系统共有两个板子(一个接…...
突破空间限制!从2D到3D:北大等开源Lift3D,助力精准具身智能操作!
文章链接:https://arxiv.org/pdf/2411.18623 项目链接:https://lift3d-web.github.io/ 亮点直击 提出了Lift3D,通过系统地提升隐式和显式的3D机器人表示,提升2D基础模型,构建一个3D操作策略。 对于隐式3D机器人表示&a…...
【pyspark学习从入门到精通24】机器学习库_7
目录 聚类 在出生数据集中寻找簇 主题挖掘 回归 聚类 聚类是机器学习中另一个重要的部分:在现实世界中,我们并不总是有目标特征的奢侈条件,因此我们需要回归到无监督学习的范式,在那里我们尝试在数据中发现模式。 在出生数据…...
Echart折线图属性设置 vue2
Echart折线图 官方配置项手册 Documentation - Apache ECharts 下面代码包含:设置标题、线条样式、图例圆圈的样式、显示名称格式、图片保存、增加Y轴目标值 updateChart(data) {const sortedData data.slice().sort((a, b) > new Date(a.deviceTime) - ne…...
LabVIEW-简单串口助手
LabVIEW-简单串口助手 串口函数VISA配置串口VISA写入函数VISA读取函数VISA资源名称按名称解除捆绑 函数存放位置思维导图主体界面为以下 串口函数 VISA配置串口 VISA写入函数 VISA读取函数 VISA资源名称 按名称解除捆绑 函数存放位置 思维导图 主体界面为以下 从创建好的“枚举…...
Linux下,用ufw实现端口关闭、流量控制(二)
本文是 网安小白的端口关闭实践 的续篇。 海量报文,一手掌握,你值得拥有,让我们开始吧~ ufw 与 iptables的关系 理论介绍: ufw(Uncomplicated Firewall)是一个基于iptables的前端工具…...
C#开发-集合使用和技巧(九)Join的用法
在C#中,IEnumerable 的 Join 方法用于根据键将两个序列中的元素进行关联。Join 方法通常用于执行类似于 SQL 中的内连接操作。以下是 Join 方法的基本用法: 基本语法 public static IEnumerable<TResult> Join<TOuter, TInner, TKey, TResult…...
Dockerfile容器镜像构建技术
文章目录 1、容器回顾1_容器与容器镜像之间的关系2_容器镜像分类3_容器镜像获取的方法 2、其他容器镜像获取方法演示1_在DockerHub直接下载2_把操作系统的文件系统打包为容器镜像3_把正在运行的容器打包为容器镜像 3、Dockerfile介绍4、Dockerfile指令1_FROM2_RUN3_CMD4_EXPOSE…...
Github 2024-12-01 开源项目月报 Top20
根据Github Trendings的统计,本月(2024-12-01统计)共有20个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10TypeScript项目9Go项目2HTML项目1Shell项目1Jupyter Notebook项目1屏幕截图转代码应用 创建周期:114 天开发语言:TypeScript, Py…...
Spring Boot 3项目集成Swagger3教程
Spring Boot 3项目集成Swagger3教程 ?? 前言 欢迎来到我的小天地,这里是我记录技术点滴、分享学习心得的地方。?? ?? 技能清单 编程语言:Java、C、C、Python、Go、前端技术:Jquery、Vue.js、React、uni-app、EchartsUI设计: Element-u…...
NISP信息安全一级考试200道;免费题库;大风车题库
下载链接:大风车题库-文件 大风车题库网站:大风车题库 大风车excel(试题转excel):大风车excel...
Android ConstraintLayout 约束布局的使用手册
目录 前言 一、ConstraintLayout基本介绍 二、ConstraintLayout使用步骤 1、引入库 2、基本使用,实现按钮居中。相对于父布局的约束。 3、A Button 居中展示,B Button展示在A Button正下方(距离A 46dp)。相对于兄弟控件的约束…...
在网安中什么是白帽子
在网络安全领域,白帽子是指那些专门从事网络安全研究,帮助企业或个人发现并修复安全漏洞的专家。以下是对白帽子的详细解释: 一、定义与角色 白帽子是网络安全领域的术语,通常指那些具备专业技能和知识的网络安全专家。他们的工作…...
软件专业科目难度分级 你输在了哪里?
感想: 我把我们现在软件专业学的东西分了个难度级别 级别描述视角服务对象例子0 基本软件的使用用户-Photoshop wps ssms等1 软件的原理开发者用户各种编程语言2软件的原理的原理开发者开发者各种函数的深层定义,数据结构等 0级就是咱们平时用的那些软…...
未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?
编辑:陈萍萍的公主一点人工一点智能 未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战,在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...
FFmpeg 低延迟同屏方案
引言 在实时互动需求激增的当下,无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作,还是游戏直播的画面实时传输,低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架,凭借其灵活的编解码、数据…...
Qt Widget类解析与代码注释
#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码,写上注释 当然可以!这段代码是 Qt …...
iPhone密码忘记了办?iPhoneUnlocker,iPhone解锁工具Aiseesoft iPhone Unlocker 高级注册版分享
平时用 iPhone 的时候,难免会碰到解锁的麻烦事。比如密码忘了、人脸识别 / 指纹识别突然不灵,或者买了二手 iPhone 却被原来的 iCloud 账号锁住,这时候就需要靠谱的解锁工具来帮忙了。Aiseesoft iPhone Unlocker 就是专门解决这些问题的软件&…...
基于数字孪生的水厂可视化平台建设:架构与实践
分享大纲: 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年,数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段,基于数字孪生的水厂可视化平台的…...
[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...
Neo4j 集群管理:原理、技术与最佳实践深度解析
Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档,本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石,用于构建高可用、可扩展且一致的图数据库服务…...
uniapp中使用aixos 报错
问题: 在uniapp中使用aixos,运行后报如下错误: AxiosError: There is no suitable adapter to dispatch the request since : - adapter xhr is not supported by the environment - adapter http is not available in the build 解决方案&…...
C++.OpenGL (14/64)多光源(Multiple Lights)
多光源(Multiple Lights) 多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...
JVM 内存结构 详解
内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 每个线程都有一个程序计数…...
