当前位置: 首页 > news >正文

图像超分辨率技术新进展:混合注意力聚合变换器HAAT

目录

1. 引言:

2. 混合注意力聚合变换器(HAAT):

2.1 Swin-Dense-Residual-Connected Block(SDRCB):

2.2 Hybrid Grid Attention Block(HGAB):

3. 实验结果:

4. 结论:


1. 引言:

在计算机视觉领域,单图像超分辨率(SISR)技术的目标是从一个低分辨率的图像中重建出高分辨率的图像。这一技术因其在多种应用中的广泛需求而成为一个关键的研究领域。传统的基于CNN的方法,如SRCNN、VDSR和SRGAN,通过使用卷积神经网络显著改善了图像的纹理特征恢复。然而,这些方法在模拟图像中的长距离依赖关系方面存在局限,这主要是由于CNN的固有偏置,包括参数依赖的感受野扩展和卷积操作的核大小限制,这可能导致忽略图像中的非局部空间信息。

为了解决这些问题,研究者开始探索基于Transformer的SISR模型,这些模型能够利用其长距离依赖模拟的能力,从而提高SISR的性能。特别是,SwinIR利用Swin Transformer取得了显著的改进,而混合注意力变换器(HAT)通过结合重叠的交叉注意力模块、基于窗口的自注意力和通道注意力,也产生了最先进的结果。

2. 混合注意力聚合变换器(HAAT):

HAAT模型的提出是为了解决现有基于Transformer的方法在图像恢复问题上的局限性,尤其是当前基于窗口的Transformer网络将自注意力计算限制在集中区域,导致感受野受限并且无法充分利用原始图像的特征信息。

HAAT通过整合Swin-Dense-Residual-Connected Blocks(SDRCB)和Hybrid Grid Attention Blocks(HGAB)来构建,其中SDRCB在保持精简架构的同时扩展了感受野,从而提高了性能。HGAB则结合了通道注意力、稀疏注意力和窗口注意力,以改善非局部特征融合,并实现更引人注目的视觉结果。

2.1 Swin-Dense-Residual-Connected Block(SDRCB):

SDRCB是HAAT模型的一个关键组成部分,它利用Swin Transformer Layer(STL)的移窗自注意力机制来捕获长距离依赖关系。STL根据全局内容调整模型的强调点,增强特征提取,并在网络加深时保持全局细节,扩大感受野而不降低性能。SDRCB通过与密集残差连接的结合,进一步扩展了感受野,并提高了对关键信息的强调,这对于需要细致、上下文敏感处理的SISR任务至关重要。SDRCB的计算过程涉及到多级特征图的连接、特征转换和残差缩放,其中残差缩放因子用于稳定训练过程。下图是SDRCB框架:

2.2 Hybrid Grid Attention Block(HGAB):

HGAB是HAAT模型的另一个核心组成部分,它由混合注意力层(MAL)和多层感知器(MLP)层组成。HGAB的工作流程是将输入特征按照通道分割,并分别通过不同的自注意力机制进行处理,包括窗口多头自注意力(W-MSA)、稀疏窗口多头自注意力(SW-MSA)和网格多头自注意力(Grid-MSA)。此外,HGAB还对输入特征执行通道注意力操作。HGAB的设计采用了后归一化方法,以增强网络训练的稳定性。MAL的计算过程涉及到对输入特征的分割、不同自注意力机制的处理以及通道注意力的操作,最终将这些特征重新组合并加到原始特征上。下图是HGAB结构:

3. 实验结果:

HAAT模型在DF2K数据集上进行了训练,该数据集是一个包含DIV2K和Flickr2K的大规模聚合数据集。在训练过程中,研究人员通过双三次下采样方法生成了不同缩放因子的低分辨率图像。为了评估模型的有效性,研究人员在Set5和Set14等知名的SISR基准数据集上进行了性能评估。实验结果表明,HAAT在峰值信噪比(PSNR)和结构相似性(SSIM)这两个评价指标上均优于现有的最先进技术。这一结果证明了HAAT在参数数量更少、计算需求更低的情况下,仍然能够取得比现有最先进模型更好的结果。下图是HAAT与SOTA方法的定量比较:

4. 结论:

本文介绍了HAAT,这是一种新型的单图像超分辨率模型。HAAT通过增强DRCT架构,强调了信息流的稳定性和通过残差块中的密集连接扩展感受野,以及通过移窗注意力机制自适应地获取全局信息。这使得模型能够增强对全局地理信息的强调,优化其能力,并避免信息瓶颈。此外,HAAT还提供了HGAB来表示图像中的长距离关系,通过整合通道注意力、稀疏注意力和窗口注意力,提高了多级结构相似性。

HAAT在DF2K数据集上进行了训练,并在Set5和Set14数据集上进行了验证。实验结果表明,HAAT在单图像超分辨率任务中的性能超越了现有的最先进技术。

引用论文:HAAT: Hybrid Attention Aggregation Transformer for Image Super-Resolution

相关文章:

图像超分辨率技术新进展:混合注意力聚合变换器HAAT

目录 1. 引言: 2. 混合注意力聚合变换器(HAAT): 2.1 Swin-Dense-Residual-Connected Block(SDRCB): 2.2 Hybrid Grid Attention Block(HGAB): 3. 实验结…...

文件IO——01

1. 认识文件 1)文件概念 “文件”是一个广义的概念,可以代表很多东西 操作系统里,会把很多的硬件设备和软件资源抽象成“文件”,统一管理 但是大部分情况下的文件,都是指硬盘的文件(文件相当于是对“硬…...

【opencv入门教程】5. Mat 类用法

文章选自: 一、BackGround Mat对象是一种图像数据结构,它是一个容器,存储任何通道任何数的图片数据以及对应的矩阵,使用完成后,内存自动释放。二、Code void Samples::MatFunc() {1. 图像处理// 方法1:…...

SSM虾米音乐项目2--分页查询

1.分页查询的底层逻辑 首先根据用户输入的流派,进行模糊查询根据查询的数据进行分页需要前端用户提供pageNo(当前页数)和pageSize(每页的数据量)并且要从后端计算count(总数据量)和totalPage(总页数),以及startNum(每页开始的记录)从而将对应的页面数据…...

nodejs 获取本地局域网 ip 扫描本地端口

因为傻逼老板的垃圾需求,不得不成长 示例代码: 获取本地局域网 ip 地址: 需要注意的是:如果存在虚拟机网络,则返回的是虚拟机网络的 ipv4 地址 import os from os; export const getLocalIp () > {const in…...

区块链签名种类

1. eth_sign 简介:最早实现的签名方法,用于对任意数据进行签名。签名内容:直接对原始消息的哈希值进行签名。特点: 安全性较低,因为签名的消息没有明确的上下文或结构。很容易被滥用,攻击者可以伪造签名内…...

【062B】基于51单片机无线病房呼叫系统(+时间)【Keil程序+报告+原理图】

☆、设计硬件组成:51单片机最小系统NRF24L01无线模块DS1302时钟芯片LCD1602液晶显示按键设置蜂鸣器LED灯。 1、本设计采用STC89C51/52、AT89C51/52、AT89S51/52作为主控芯片,采用LCD1602液晶显示呼叫信息,系统共有两个板子(一个接…...

突破空间限制!从2D到3D:北大等开源Lift3D,助力精准具身智能操作!

文章链接:https://arxiv.org/pdf/2411.18623 项目链接:https://lift3d-web.github.io/ 亮点直击 提出了Lift3D,通过系统地提升隐式和显式的3D机器人表示,提升2D基础模型,构建一个3D操作策略。 对于隐式3D机器人表示&a…...

【pyspark学习从入门到精通24】机器学习库_7

目录 聚类 在出生数据集中寻找簇 主题挖掘 回归 聚类 聚类是机器学习中另一个重要的部分:在现实世界中,我们并不总是有目标特征的奢侈条件,因此我们需要回归到无监督学习的范式,在那里我们尝试在数据中发现模式。 在出生数据…...

Echart折线图属性设置 vue2

Echart折线图 官方配置项手册 Documentation - Apache ECharts 下面代码包含:设置标题、线条样式、图例圆圈的样式、显示名称格式、图片保存、增加Y轴目标值 updateChart(data) {const sortedData data.slice().sort((a, b) > new Date(a.deviceTime) - ne…...

LabVIEW-简单串口助手

LabVIEW-简单串口助手 串口函数VISA配置串口VISA写入函数VISA读取函数VISA资源名称按名称解除捆绑 函数存放位置思维导图主体界面为以下 串口函数 VISA配置串口 VISA写入函数 VISA读取函数 VISA资源名称 按名称解除捆绑 函数存放位置 思维导图 主体界面为以下 从创建好的“枚举…...

Linux下,用ufw实现端口关闭、流量控制(二)

本文是 网安小白的端口关闭实践 的续篇。 海量报文,一手掌握,你值得拥有,让我们开始吧~ ufw 与 iptables的关系 理论介绍: ufw(Uncomplicated Firewall)是一个基于iptables的前端工具&#xf…...

C#开发-集合使用和技巧(九)Join的用法

在C#中&#xff0c;IEnumerable 的 Join 方法用于根据键将两个序列中的元素进行关联。Join 方法通常用于执行类似于 SQL 中的内连接操作。以下是 Join 方法的基本用法&#xff1a; 基本语法 public static IEnumerable<TResult> Join<TOuter, TInner, TKey, TResult…...

Dockerfile容器镜像构建技术

文章目录 1、容器回顾1_容器与容器镜像之间的关系2_容器镜像分类3_容器镜像获取的方法 2、其他容器镜像获取方法演示1_在DockerHub直接下载2_把操作系统的文件系统打包为容器镜像3_把正在运行的容器打包为容器镜像 3、Dockerfile介绍4、Dockerfile指令1_FROM2_RUN3_CMD4_EXPOSE…...

Github 2024-12-01 开源项目月报 Top20

根据Github Trendings的统计,本月(2024-12-01统计)共有20个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10TypeScript项目9Go项目2HTML项目1Shell项目1Jupyter Notebook项目1屏幕截图转代码应用 创建周期:114 天开发语言:TypeScript, Py…...

Spring Boot 3项目集成Swagger3教程

Spring Boot 3项目集成Swagger3教程 ?? 前言 欢迎来到我的小天地&#xff0c;这里是我记录技术点滴、分享学习心得的地方。?? ?? 技能清单 编程语言&#xff1a;Java、C、C、Python、Go、前端技术&#xff1a;Jquery、Vue.js、React、uni-app、EchartsUI设计: Element-u…...

NISP信息安全一级考试200道;免费题库;大风车题库

下载链接&#xff1a;大风车题库-文件 大风车题库网站&#xff1a;大风车题库 大风车excel&#xff08;试题转excel&#xff09;&#xff1a;大风车excel...

Android ConstraintLayout 约束布局的使用手册

目录 前言 一、ConstraintLayout基本介绍 二、ConstraintLayout使用步骤 1、引入库 2、基本使用&#xff0c;实现按钮居中。相对于父布局的约束。 3、A Button 居中展示&#xff0c;B Button展示在A Button正下方&#xff08;距离A 46dp&#xff09;。相对于兄弟控件的约束…...

在网安中什么是白帽子

在网络安全领域&#xff0c;白帽子是指那些专门从事网络安全研究&#xff0c;帮助企业或个人发现并修复安全漏洞的专家。以下是对白帽子的详细解释&#xff1a; 一、定义与角色 白帽子是网络安全领域的术语&#xff0c;通常指那些具备专业技能和知识的网络安全专家。他们的工作…...

软件专业科目难度分级 你输在了哪里?

感想&#xff1a; 我把我们现在软件专业学的东西分了个难度级别 级别描述视角服务对象例子0 基本软件的使用用户-Photoshop wps ssms等1 软件的原理开发者用户各种编程语言2软件的原理的原理开发者开发者各种函数的深层定义&#xff0c;数据结构等 0级就是咱们平时用的那些软…...

AI助手开发实战:从资源索引到生产级系统搭建指南

1. 项目概述&#xff1a;一个为AI助手开发者准备的“藏宝图” 如果你正在开发一个AI助手应用&#xff0c;或者正打算将大语言模型的能力集成到你的产品里&#xff0c;那你大概率会遇到一个经典难题&#xff1a;面对市面上眼花缭乱的模型、API和工具&#xff0c;我到底该怎么选&…...

第08章 FastAPI 与 SSE 流式 RAG 后端

第08章 FastAPI 与 SSE 流式 RAG 后端 到目前为止&#xff0c;知识库、检索工具、MCP 客户端都已经就绪&#xff0c;但仍缺少一个面向最终用户的入口。本章用 FastAPI 把整条 RAG 链路串起来&#xff1a;接收前端发来的自然语言问题&#xff0c;调用 MCP 工具检索相关工单&…...

终极CoreCycler完全指南:5步掌握CPU单核稳定性测试与精准调校

终极CoreCycler完全指南&#xff1a;5步掌握CPU单核稳定性测试与精准调校 【免费下载链接】corecycler Script to test single core stability, e.g. for PBO & Curve Optimizer on AMD Ryzen or overclocking/undervolting on Intel processors 项目地址: https://gitco…...

如何用nmrpflash拯救你的Netgear路由器:从“变砖“到重生的完整指南

如何用nmrpflash拯救你的Netgear路由器&#xff1a;从"变砖"到重生的完整指南 【免费下载链接】nmrpflash Netgear Unbrick Utility 项目地址: https://gitcode.com/gh_mirrors/nmr/nmrpflash 当你的Netgear路由器固件升级失败、意外断电或系统崩溃后无法启动…...

QMCFLAC2MP3终极指南:免费快速解锁QQ音乐格式限制

QMCFLAC2MP3终极指南&#xff1a;免费快速解锁QQ音乐格式限制 【免费下载链接】qmcflac2mp3 直接将qmcflac文件转换成mp3文件&#xff0c;突破QQ音乐的格式限制 项目地址: https://gitcode.com/gh_mirrors/qm/qmcflac2mp3 你是否曾经在QQ音乐下载了心爱的歌曲&#xff0…...

高效浏览器视频嗅探工具:猫抓扩展完整使用指南

高效浏览器视频嗅探工具&#xff1a;猫抓扩展完整使用指南 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓&#xff08;Cat-Catch&#xff09;…...

利用OCI免费套餐构建高可用Kubernetes集群实战指南

1. 项目概述&#xff1a;在免费云上构建企业级K8s集群最近在技术社区里&#xff0c;一个名为“nce/oci-free-cloud-k8s”的项目引起了我的注意。这个标题乍一看有点“黑话”的味道&#xff0c;但拆解开来&#xff0c;它指向了一个非常具体且极具吸引力的场景&#xff1a;利用Or…...

MCP服务器开发指南:为AI助手构建安全可控的外部工具扩展

1. 项目概述&#xff1a;一个为AI助手赋能的MCP服务器最近在折腾AI应用开发的朋友&#xff0c;可能都绕不开一个词&#xff1a;MCP。全称是Model Context Protocol&#xff0c;你可以把它理解成一套标准化的“插件协议”。它让像Claude、Cursor这类AI助手&#xff0c;能够安全、…...

构建轻量级应用沙盒:Microverse原理与实践指南

1. 项目概述&#xff1a;一个轻量级、可移植的“微宇宙”开发沙盒最近在折腾一些边缘计算和嵌入式AI应用的原型验证&#xff0c;经常遇到一个头疼的问题&#xff1a;开发环境和部署环境不一致。在本地笔记本上跑得好好的Python脚本&#xff0c;放到树莓派或者Jetson Nano上&…...

【2026年阿里巴巴集团暑期实习- 5月16日-算法岗-第二题- 坏掉的键盘】(题目+思路+JavaC++Python解析+在线测试)

题目内容 小明准备输入一个仅由小写英文字母组成的字符串,但他的键盘在一开始就有且仅有一个按键失灵,导致该字母在原串中的所有出现都没有被输入,最终得到的字符串为 sss。小明还告诉你:原本要输入的完整字符串中任意相邻两个字符都不相同。 请你计算,对于每一个可能的…...