论文阅读:Omnidirectional Image Super-resolution via Bi-projection Fusion
对于全景图像(ODIs)的超分辨率的技术有:等矩投影(ERP)但是这个没有利用 ODIs 的独特任何特性。ERP提供了完整的视场但引入了显著的失真,而立方体映射投影(CMP)可以减少失真但视场有限。
作者提出了一种新颖的双投影全景图像超分辨率(BPOSR)网络,以利用上述两种投影的几何特性。然后,为这两种投影设计了两种定制的注意力方法:用于ERP的水平条纹变换块(HSTB)和用于CMP的视角变换变换块(PSTB)。此外,作者提出了一种融合模块,使这些投影相互补充。
正文
将传统的二维图像的超分辨率方法用于全景图像的超分辨率是不可行的,因为将球面全景图像投影到二维平面时会出现失真和不连续性。同时,图像域之间的不同特性增加了ODIs重建的复杂性。
当前的用于全景图像的超分辨率网络主要是集中在了 ERP 域中解决这一任务,没有考虑 ODIs 中使用的各种投影格式。
ODIs中最常用的两种投影格式是等矩投影(ERP)和立方体映射投影(CMP)。具体而言,ERP提供广泛的全局视图但引入显著失真,而CMP失真较小,但仅提供有限的中央视图,并且边界不连续。
所以作者为了可以充分利用这两种投影的任何特性与互补信息,开发了双投影全景图像超分辨率(BPOSR)网络,使得 ERP 与 CMP 分支的信息流同时进行,并允许不同投影特征之间的交互和融合。
从下图可以看出,ERP 与 CMP 的不同的特性:
(a) ERP水平相似性。将ERP在水平方向上划分为不同区域后,可以观察到每个区域内存在多尺度相似性。
(b) CMP透视可变性。橙色箭头表示球面旋转,绿色箭头表示投影到CMP上。通过球面旋转和投影到CMP上,CMP的六个表面捕捉到不同的信息。
基于这些观察,我们为ERP引入了水平条纹变换块(HSTB),为CMP引入了视角变换变换块(PSTB),以充分挖掘不同投影的内在特性。最后,我们开发了一个块注意融合模块(BAFM),以促进来自不同投影和深度的特征之间的信息交互,并通过分配不同的注意权重来增强网络的表示学习能力。
贡献
- 提出了一个双投影全景图像超分辨率(BPOSR)网络,利用两种全景投影,即ERP和CMP,促进两种投影信息的交互。
- 通过分析ERP和CMP的图像几何特性,引入了水平条纹变换块(HSTB)和视角变换变换块(PSTB),以利用两种投影的内在特性。
- 引入了一个块注意融合模块(BAFM),促进来自不同投影和深度的特征之间的融合。
ODIs 分析
等距圆柱投影(ERP)
ERP 通过经度和纬度均匀采样球体。设经度和纬度分别为φ和θ,其中, ( ϕ , θ ) ∈ [ − π , π ] ∗ [ − π 2 , π 2 ] (\phi, \theta) \in [-\pi, \pi] * [-\frac{\pi}{2}, \frac{\pi}{2}] (ϕ,θ)∈[−π,π]∗[−2π,2π]. 角度位置可以通过以下公式转换为标准球体上的坐标:
从以下的图片中可以看到,ERP将球体投影到单个表面,从而获得宽广的视场。然而,由于投影中纬线的均匀间距和平行特性,ERP引入了显著的失真,尤其是在极附近。随着纬线向极点收敛,失真变得更加明显,导致图像拉长和变形。
水平相似性
如图2(a)所示,ERP图像的水平区域普遍存在多尺度相似性。因此,传统的全局尺度各向同性注意力机制对于处理ERP图像特征变得冗余。
因此,为ERP提出了一种更合适的方法,即利用水平窗口来建模图像内部依赖关系。此外,通过结合这些水平窗口内的局部感知和上下文信息,我们可以引入有限的空间范围来降低注意力的复杂性。
立方体映射投影(CMP)
CMP 是将球体投影到立方体的六个表面上。所得的六个表面是特定的透视图像,对应于六个视图方向:前、后、左、右、上和下。
可以从图 3 b 中看到,与等距圆柱投影(ERP)相比,CMP 在图像失真方面有显著减少。然而,它通过破坏不同面边界处物体的连续性,引入了不连续性问题。
透视可变性
CMP 将球体投影到六个平面,每个平面可以从不同的视角获取球体的信息。如图 2 (b) 所示,当球体旋转并投影到 CMP 时,六个平面的视角会发生变化。
基于这一观察,我们提出了 CMP 的透视可变性。新增加的视角使得信息的可用性得以增强。通过在 CMP 上改变视角,我们有效地增强了 CMP 的特征表示,并解决了 CMP 中图像不连续性的固有局限性。
整体架构
模型主要由 3 个分支组成:ERP分支、CMP分支和融合分支。给定一个低分辨率的输入 I E R P l r I^{lr}_{ERP} IERPlr,会先将这个转换为 CMP 形式的 I C M P l r I^{lr}_{CMP} ICMPlr,然后使用 3*3
卷积分别提取两个投影的浅层特征,公式如下:
E2C
表示从 ERP 到 CMP 的投影, W 3 ∗ 3 W_{3*3} W3∗3 表示 3*3
的卷积。接下来就是提取 ERP 与 CMP 分支的深层特征,公式如下:
HSAB(·)和PSAB(·)分别是水平条纹变换块和视角变换块。
同时,为了促进两个投影之间的信息交互与特征融合,提出了一种特征交互融合块,这个块会利用 F E R P i F_{ERP}^i FERPi 与 F C M P i F_{CMP}^i FCMPi 生成融合特征,然后将结果特征施加到源特征上。这个过程如下:
‘
最后,为了整合来自不同分支和不同深度的特征,我们开发了一个块注意力融合模块(BAFM),以生成最终特征 F f F_f Ff,如下所示:
最后,通过具有单个3×3卷积和像素 shuffle 操作的上采样模块来重建高分辨率图像 F u p F_{up} Fup:
水平条纹变换块(HSTB)
HSTB是通过利用ERP的水平相似性设计的,它由多个水平Swin变换层(HSTL)和一个卷积层组成,如图4(a)所示。
与传统的 SwinIR 不同,作者将输入特征分为水平窗口,并对这些特征应用移位窗口自注意力机制。如下图所示:
HSTL利用水平条纹窗口内的自注意力机制来建立长期依赖关系。通过将注意力计算限制在水平窗口内,我们能够在更广泛和有效的范围内建立依赖关系,从而全面探索ERP中的上下文信息。
视角变换块(PSTB)
PSTB是基于CMP的视角可变性设计的。如图4(b)所示。PSTB由多个具有移位窗口自注意力的Swin变换层(Swin transformer layer, STL)和一个卷积层组成。
通过在输入之后和输出之前部署视角变换层(PSL)来引入视角变换。
PSL首先使用C2E将CMP特征 F C M P F_{CMP} FCMP 转换为ERP,然后在ERP域内水平滚动特征。PSL的最终输出是通过E2C将特征转换回CMP得到的,公式如下:
F C M P = E 2 C ( R ( C 2 E ( F C M P ) ) ) F_{CMP}=E2C(R(C2E(F_{CMP}))) FCMP=E2C(R(C2E(FCMP)))
R R R 是水平滚动操作。移位窗口自注意力模块的建模能力受限于不同视图之间缺乏连接,这一限制阻碍了它们充分挖掘CMP的特性。PSTB 通过引入不同视角之间的互连,使得建模范围更广、更有效。
块注意力融合模块(BAFM)
从公式 11 中可以看到,BAFM 的输入特征来自不同的深度和投影。为了增强融合效果,作者开发了 BAFM,如下图所示:
BAFM 的核心是 3d
自注意力机制,它选择性地增强了具有重要贡献的特征块,同时抑制冗余特征块。通过这种方式,网络的整体表示能力得到了增强。
其公式如下:
这里的 3 D C o n v ( ) 3DConv() 3DConv() 表示 1 ∗ 1 ∗ 1 1*1*1 1∗1∗1 的 3d
卷积。
这里的 s 为缩放因子, F m ∈ R N ∗ C ∗ H ∗ W F_m \in R^{N*C*H*W} Fm∈RN∗C∗H∗W。最后,可以提到结果:
实验
使用 ODI-SR 与 SUN 360 验证了方法的有效性,这些数据集包含各种类型的全景场景。
与最先进的方法的比较
可以看到,模型在两个数据集上都优于其他的对手。优于所有的 SISR 网络。
定性结果
BPOSR 可以有效抑制伪影,并利用场景细节和内部自然图像统计来恢复高频内容。
消融研究
双投影与单投影
引入了BPOSR的两个替代变体:Variant-CMP和Variant-ERP,它们分别在两个分支中都使用ERP或CMP。可以看到,双投影优于其他的两个版本。
水平条纹 transformer 块的有效性
通过改变使用的窗口大小进一步验证了我们的ERP水平条纹注意力的有效性。
当使用相同的注意力区域大小时,水平选择优于方形版本。这表明水平窗口注意力比方形变体更适合建模ERP。
透视移位Transformer块的有效性。
当不对CMP应用透视移位时,WS-PSNR下降了0.14 dB。这一观察强调了视图转换在提高CMP性能方面的重要性。
块注意力融合模块的有效性
进行了使用1 × 1卷积和平均操作来替代BAFM的实验。表5显示,移除BAFM导致WS-PSNR性能下降0.10 dB,这表明我们的设计是有效的。
相关文章:

论文阅读:Omnidirectional Image Super-resolution via Bi-projection Fusion
对于全景图像(ODIs)的超分辨率的技术有:等矩投影(ERP)但是这个没有利用 ODIs 的独特任何特性。ERP提供了完整的视场但引入了显著的失真,而立方体映射投影(CMP)可以减少失真但视场有限…...

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:智行无忧停车场管理系统(前后端源码 + 数据库 sql 脚本)
🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 项目介绍 1.1 项目功能 2.0 用户登录功能 3.0 首页界面 4.0 车辆信息管理功能 5.0 停车位管理功能 6.0 入场登记管理功能 7.0 预约管理功能 8.0 收费规则功能 9.0…...
微服务的负载均衡可以通过哪些组件实现
微服务的负载均衡可以通过多种组件来实现,以下是一些常见的负载均衡组件及其特点: Nginx: Nginx是一款轻量级的HTTP和反向代理服务器,也是一个高性能的负载均衡器。它支持多种负载均衡算法,如轮询、加权轮询、IP哈希等…...
Spring Boot 支持哪些云环境?
Spring Boot 对云环境的支持非常广泛,它本身是为云原生应用设计的,能够很好地与多种云平台集成。以下是小编给大家列举的一些 Spring Boot 支持的一些主要云环境: Pivotal Cloud Foundry: Pivotal 是 Spring Boot 的创建者&#x…...

第31天:安全开发-JS应用WebPack打包器第三方库JQuery安装使用安全检测
时间轴: 演示案例: 打包器-WebPack-使用&安全 第三方库-JQuery-使用&安全 打包器-WebPack-使用&安全 参考:https://mp.weixin.qq.com/s/J3bpy-SsCnQ1lBov1L98WA Webpack 是一个模块打包器。在 Webpack 中会将前端的所有资源…...

word如何快速创建目录?
文章目录 1,先自己写出目录的各级标题。2、选中目标标题,然后给它们编号3、给标题按照个人需求开始分级4、插入域构建目录。4.1、利用快捷键插入域构建目录4.2、手动插入域构建目录 听懂掌声!学会了吗? 前提声明:我在此…...
关于linux 下的中断
1. /proc/irq/<irq_number>/ 下属性详解 在 Linux 系统中,每个中断号(IRQ)都有一个对应的目录 /proc/irq/<irq_number>/,包含与该中断相关的属性文件。这些文件用于查看和配置中断的具体行为。 以下是 /proc/irq/&l…...

两个畸变矩阵相乘后还是一个2*2的矩阵,有四个畸变元素。1、畸变矩阵吸收了法拉第矩阵。2、畸变矩阵也给法拉第旋转角带来模糊(求解有多种可能)
角度一;恢复畸变的时候也把法拉第旋转恢复了 角度二:求解法拉第旋转角的时候 前面乘的复系数的不同也会带来法拉第旋转角和畸变的不同解 注意:无论多少个畸变矩阵相乘,结果都是2*2的矩阵,也就是畸变参数可以减少…...

MCU利用单总线协议(1-wire)读取DHT11温湿度
第1章 硬件连接 硬件原理图 第2章 通讯过程 用户MCU发送一次开始信号,DHT11从低功耗模式转换到高速模式,DHT11等待主机开始信号结束。DHT11等待主机开始信号结束后,DHT11发送响应信号。DHT11发送响应信号后,紧接着送出40bit的数据…...

[保姆式教程]使用目标检测模型YOLO11 OBB进行旋转目标检测:训练自己的数据集(基于卫星和无人机的农业大棚数据集)
之前写了一个基于YOLOv8z做旋转目标检测的文章,内容写得不够好,内容也比较杂乱。现如今YOLO已经更新到11了,数据集也集齐了无人机和卫星的农业大棚,所以这次就写一个基于YOLO11 OBB的农业大棚旋转检测。 1. 下载源码配置环境 在h…...

【网络安全】网站常见安全漏洞 - 网站基本组成及漏洞定义
文章目录 引言1. 一个网站的基本构成2. 一些我们经常听到的安全事件3. 网站攻击者及其意图3.1 网站攻击者的类型3.2 攻击者的意图 4. 漏洞的分类4.1 按来源分类4.2 按危害分类4.3 常见漏洞与OWASP Top 10 引言 在当今的数字化时代,安全问题已成为技术领域不可忽视的…...
Redis——个人笔记留存
今日内容 1. redis1. 概念2. 下载安装3. 命令操作1. 数据结构4. 持久化操作5. 使用Java客户端操作redis Redis 1. 概念: redis是一款高性能的NOSQL系列的非关系型数据库 1.1.什么是NOSQLNoSQL(NoSQL Not Only SQL),意即“不仅仅是SQL”,是…...

人工智能_大模型091_大模型工作流001_使用工作流的原因_处理复杂问题_多轮自我反思优化ReAct_COT思维链---人工智能工作笔记0236
# 清理环境信息,与上课内容无关 import os os.environ["LANGCHAIN_PROJECT"] "" os.environ["LANGCHAIN_API_KEY"] "" os.environ["LANGCHAIN_ENDPOINT"] "" os.environ["LANGCHAIN_TRACING_V…...
linux上jdk1.8安装elasticsearch6.8.5踩坑总结
先在windows上下载了elasticsearch8安装成功后,本来是想在linux上也安装一个一样的版本,然后发现各种启动不了,查了一天原来jdk版本不同,需要下载不同版本的elasticsearch,我测试了8,7,6&#x…...
Three.js教程_02场景、相机与渲染器全面解析
Three.js 场景、相机与渲染器全面解析 Three.js 是一个强大的 JavaScript 库,用于在网页上创建和渲染 3D 图形。本文将深入解析 Three.js 中的几个核心概念,并介绍它们的用法及拓展方法。内容包括场景、相机、渲染器、网格对象、光源、坐标轴、控制器和…...

【数据结构】动态规划-基础篇
针对动态规划问题,我总结了以下5步: 确定dp数组以及下标的含义; 递推公式; dp数组如何初始化; 遍历顺序; 打印dp数组(用来debug); 以上5步适用于任何动态规划问题&#x…...

opencv读取展示图片
import time import cv2 # 创建窗口 cv2.namedWindow(window, cv2.WINDOW_AUTOSIZE) # cv2.WINDOW_AUTOSIZE自动大小,不允许修改窗口大小 cat cv2.imread("./6.jpg", 0) # opencv默认读取bgr,0代表的是灰度图模式,1是彩色图 # 展示名字为window…...

网站访问统计A/B测试与数据分析
在网站运营中,访问统计和数据分析是优化用户体验和提高转化率的关键工具。A/B测试作为一种数据驱动的方法,能够帮助网站运营者验证设计和内容的有效性。A/B测试的基本原理是同时展示两个不同的版本(A和B),通过比较它们…...

前端开发 之 15个页面加载特效下【附完整源码】
文章目录 十二:铜钱3D圆环加载特效1.效果展示2.HTML完整代码 十三:扇形百分比加载特效1.效果展示2.HTML完整代码 十四:四色圆环显现加载特效1.效果展示2.HTML完整代码 十五:跷跷板加载特效1.效果展示2.HTML完整代码 十二ÿ…...

详解八大排序(六)------(三路划分,自省排序,归并排序外排序)
文章目录 1. 快排之三路划分1. 1 三路划分的诞生由来1. 2 三路划分的具体思路1. 3 代码实现 2. 快排之自省排序2. 1 自省排序的目的2. 2 自省排序的思路2. 3 自省排序的实现代码 3. 归并排序外排序3. 1 外排序介绍3. 2 归并排序外排序的思路3. 3 归并排序的实现代码 1. 快排之三…...

智慧医疗能源事业线深度画像分析(上)
引言 医疗行业作为现代社会的关键基础设施,其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入,智慧医疗能源事业线应运而生,致力于通过创新技术与管理方案,重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

现代密码学 | 椭圆曲线密码学—附py代码
Elliptic Curve Cryptography 椭圆曲线密码学(ECC)是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。 椭圆曲线密码学是多种数字签名算法的基础,例如椭圆曲线数字签…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...
Android Bitmap治理全解析:从加载优化到泄漏防控的全生命周期管理
引言 Bitmap(位图)是Android应用内存占用的“头号杀手”。一张1080P(1920x1080)的图片以ARGB_8888格式加载时,内存占用高达8MB(192010804字节)。据统计,超过60%的应用OOM崩溃与Bitm…...
AspectJ 在 Android 中的完整使用指南
一、环境配置(Gradle 7.0 适配) 1. 项目级 build.gradle // 注意:沪江插件已停更,推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...

学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...

Mysql中select查询语句的执行过程
目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析(Parser) 2.4、执行sql 1. 预处理(Preprocessor) 2. 查询优化器(Optimizer) 3. 执行器…...
多模态图像修复系统:基于深度学习的图片修复实现
多模态图像修复系统:基于深度学习的图片修复实现 1. 系统概述 本系统使用多模态大模型(Stable Diffusion Inpainting)实现图像修复功能,结合文本描述和图片输入,对指定区域进行内容修复。系统包含完整的数据处理、模型训练、推理部署流程。 import torch import numpy …...
MySQL 部分重点知识篇
一、数据库对象 1. 主键 定义 :主键是用于唯一标识表中每一行记录的字段或字段组合。它具有唯一性和非空性特点。 作用 :确保数据的完整性,便于数据的查询和管理。 示例 :在学生信息表中,学号可以作为主键ÿ…...

android13 app的触摸问题定位分析流程
一、知识点 一般来说,触摸问题都是app层面出问题,我们可以在ViewRootImpl.java添加log的方式定位;如果是touchableRegion的计算问题,就会相对比较麻烦了,需要通过adb shell dumpsys input > input.log指令,且通过打印堆栈的方式,逐步定位问题,并找到修改方案。 问题…...