当前位置: 首页 > news >正文

论文阅读:Omnidirectional Image Super-resolution via Bi-projection Fusion

对于全景图像(ODIs)的超分辨率的技术有:等矩投影(ERP)但是这个没有利用 ODIs 的独特任何特性。ERP提供了完整的视场但引入了显著的失真,而立方体映射投影(CMP)可以减少失真但视场有限。

作者提出了一种新颖的双投影全景图像超分辨率(BPOSR)网络,以利用上述两种投影的几何特性。然后,为这两种投影设计了两种定制的注意力方法:用于ERP的水平条纹变换块(HSTB)和用于CMP的视角变换变换块(PSTB)。此外,作者提出了一种融合模块,使这些投影相互补充。

正文

将传统的二维图像的超分辨率方法用于全景图像的超分辨率是不可行的,因为将球面全景图像投影到二维平面时会出现失真和不连续性。同时,图像域之间的不同特性增加了ODIs重建的复杂性。

当前的用于全景图像的超分辨率网络主要是集中在了 ERP 域中解决这一任务,没有考虑 ODIs 中使用的各种投影格式。

ODIs中最常用的两种投影格式是等矩投影(ERP)和立方体映射投影(CMP)。具体而言,ERP提供广泛的全局视图但引入显著失真,而CMP失真较小,但仅提供有限的中央视图,并且边界不连续。

所以作者为了可以充分利用这两种投影的任何特性与互补信息,开发了双投影全景图像超分辨率(BPOSR)网络,使得 ERP 与 CMP 分支的信息流同时进行,并允许不同投影特征之间的交互和融合。

从下图可以看出,ERP 与 CMP 的不同的特性:

(a) ERP水平相似性。将ERP在水平方向上划分为不同区域后,可以观察到每个区域内存在多尺度相似性。

(b) CMP透视可变性。橙色箭头表示球面旋转,绿色箭头表示投影到CMP上。通过球面旋转和投影到CMP上,CMP的六个表面捕捉到不同的信息。

基于这些观察,我们为ERP引入了水平条纹变换块(HSTB),为CMP引入了视角变换变换块(PSTB),以充分挖掘不同投影的内在特性。最后,我们开发了一个块注意融合模块(BAFM),以促进来自不同投影和深度的特征之间的信息交互,并通过分配不同的注意权重来增强网络的表示学习能力。

贡献

  • 提出了一个双投影全景图像超分辨率(BPOSR)网络,利用两种全景投影,即ERP和CMP,促进两种投影信息的交互。
  • 通过分析ERP和CMP的图像几何特性,引入了水平条纹变换块(HSTB)和视角变换变换块(PSTB),以利用两种投影的内在特性。
  • 引入了一个块注意融合模块(BAFM),促进来自不同投影和深度的特征之间的融合。

ODIs 分析

等距圆柱投影(ERP)

ERP 通过经度和纬度均匀采样球体。设经度和纬度分别为φ和θ,其中, ( ϕ , θ ) ∈ [ − π , π ] ∗ [ − π 2 , π 2 ] (\phi, \theta) \in [-\pi, \pi] * [-\frac{\pi}{2}, \frac{\pi}{2}] (ϕ,θ)[π,π][2π,2π]. 角度位置可以通过以下公式转换为标准球体上的坐标:

从以下的图片中可以看到,ERP将球体投影到单个表面,从而获得宽广的视场。然而,由于投影中纬线的均匀间距和平行特性,ERP引入了显著的失真,尤其是在极附近。随着纬线向极点收敛,失真变得更加明显,导致图像拉长和变形。

水平相似性

如图2(a)所示,ERP图像的水平区域普遍存在多尺度相似性。因此,传统的全局尺度各向同性注意力机制对于处理ERP图像特征变得冗余。

因此,为ERP提出了一种更合适的方法,即利用水平窗口来建模图像内部依赖关系。此外,通过结合这些水平窗口内的局部感知和上下文信息,我们可以引入有限的空间范围来降低注意力的复杂性。

立方体映射投影(CMP)

CMP 是将球体投影到立方体的六个表面上。所得的六个表面是特定的透视图像,对应于六个视图方向:前、后、左、右、上和下。

可以从图 3 b 中看到,与等距圆柱投影(ERP)相比,CMP 在图像失真方面有显著减少。然而,它通过破坏不同面边界处物体的连续性,引入了不连续性问题。

透视可变性

CMP 将球体投影到六个平面,每个平面可以从不同的视角获取球体的信息。如图 2 (b) 所示,当球体旋转并投影到 CMP 时,六个平面的视角会发生变化。

基于这一观察,我们提出了 CMP 的透视可变性。新增加的视角使得信息的可用性得以增强。通过在 CMP 上改变视角,我们有效地增强了 CMP 的特征表示,并解决了 CMP 中图像不连续性的固有局限性。

整体架构

模型主要由 3 个分支组成:ERP分支、CMP分支和融合分支。给定一个低分辨率的输入 I E R P l r I^{lr}_{ERP} IERPlr,会先将这个转换为 CMP 形式的 I C M P l r I^{lr}_{CMP} ICMPlr,然后使用 3*3 卷积分别提取两个投影的浅层特征,公式如下:

E2C 表示从 ERP 到 CMP 的投影, W 3 ∗ 3 W_{3*3} W33 表示 3*3 的卷积。接下来就是提取 ERP 与 CMP 分支的深层特征,公式如下:

HSAB(·)和PSAB(·)分别是水平条纹变换块和视角变换块。

同时,为了促进两个投影之间的信息交互与特征融合,提出了一种特征交互融合块,这个块会利用 F E R P i F_{ERP}^i FERPi F C M P i F_{CMP}^i FCMPi 生成融合特征,然后将结果特征施加到源特征上。这个过程如下:

最后,为了整合来自不同分支和不同深度的特征,我们开发了一个块注意力融合模块(BAFM),以生成最终特征 F f F_f Ff,如下所示:

最后,通过具有单个3×3卷积和像素 shuffle 操作的上采样模块来重建高分辨率图像 F u p F_{up} Fup

水平条纹变换块(HSTB)

HSTB是通过利用ERP的水平相似性设计的,它由多个水平Swin变换层(HSTL)和一个卷积层组成,如图4(a)所示。

与传统的 SwinIR 不同,作者将输入特征分为水平窗口,并对这些特征应用移位窗口自注意力机制。如下图所示:

HSTL利用水平条纹窗口内的自注意力机制来建立长期依赖关系。通过将注意力计算限制在水平窗口内,我们能够在更广泛和有效的范围内建立依赖关系,从而全面探索ERP中的上下文信息。

视角变换块(PSTB)

PSTB是基于CMP的视角可变性设计的。如图4(b)所示。PSTB由多个具有移位窗口自注意力的Swin变换层(Swin transformer layer, STL)和一个卷积层组成。

通过在输入之后和输出之前部署视角变换层(PSL)来引入视角变换。

PSL首先使用C2E将CMP特征 F C M P F_{CMP} FCMP 转换为ERP,然后在ERP域内水平滚动特征。PSL的最终输出是通过E2C将特征转换回CMP得到的,公式如下:

F C M P = E 2 C ( R ( C 2 E ( F C M P ) ) ) F_{CMP}=E2C(R(C2E(F_{CMP}))) FCMP=E2C(R(C2E(FCMP)))
R R R 是水平滚动操作。移位窗口自注意力模块的建模能力受限于不同视图之间缺乏连接,这一限制阻碍了它们充分挖掘CMP的特性。PSTB 通过引入不同视角之间的互连,使得建模范围更广、更有效。

块注意力融合模块(BAFM)

从公式 11 中可以看到,BAFM 的输入特征来自不同的深度和投影。为了增强融合效果,作者开发了 BAFM,如下图所示:

BAFM 的核心是 3d 自注意力机制,它选择性地增强了具有重要贡献的特征块,同时抑制冗余特征块。通过这种方式,网络的整体表示能力得到了增强。

其公式如下:

这里的 3 D C o n v ( ) 3DConv() 3DConv() 表示 1 ∗ 1 ∗ 1 1*1*1 1113d 卷积。

这里的 s 为缩放因子, F m ∈ R N ∗ C ∗ H ∗ W F_m \in R^{N*C*H*W} FmRNCHW。最后,可以提到结果:

实验

使用 ODI-SR 与 SUN 360 验证了方法的有效性,这些数据集包含各种类型的全景场景。

与最先进的方法的比较

可以看到,模型在两个数据集上都优于其他的对手。优于所有的 SISR 网络。

定性结果

BPOSR 可以有效抑制伪影,并利用场景细节和内部自然图像统计来恢复高频内容。

消融研究

双投影与单投影

引入了BPOSR的两个替代变体:Variant-CMP和Variant-ERP,它们分别在两个分支中都使用ERP或CMP。可以看到,双投影优于其他的两个版本。

水平条纹 transformer 块的有效性

通过改变使用的窗口大小进一步验证了我们的ERP水平条纹注意力的有效性。

当使用相同的注意力区域大小时,水平选择优于方形版本。这表明水平窗口注意力比方形变体更适合建模ERP。

透视移位Transformer块的有效性。

当不对CMP应用透视移位时,WS-PSNR下降了0.14 dB。这一观察强调了视图转换在提高CMP性能方面的重要性。

块注意力融合模块的有效性

进行了使用1 × 1卷积和平均操作来替代BAFM的实验。表5显示,移除BAFM导致WS-PSNR性能下降0.10 dB,这表明我们的设计是有效的。

相关文章:

论文阅读:Omnidirectional Image Super-resolution via Bi-projection Fusion

对于全景图像(ODIs)的超分辨率的技术有:等矩投影(ERP)但是这个没有利用 ODIs 的独特任何特性。ERP提供了完整的视场但引入了显著的失真,而立方体映射投影(CMP)可以减少失真但视场有限…...

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:智行无忧停车场管理系统(前后端源码 + 数据库 sql 脚本)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 项目介绍 1.1 项目功能 2.0 用户登录功能 3.0 首页界面 4.0 车辆信息管理功能 5.0 停车位管理功能 6.0 入场登记管理功能 7.0 预约管理功能 8.0 收费规则功能 9.0…...

微服务的负载均衡可以通过哪些组件实现

微服务的负载均衡可以通过多种组件来实现,以下是一些常见的负载均衡组件及其特点: Nginx: Nginx是一款轻量级的HTTP和反向代理服务器,也是一个高性能的负载均衡器。它支持多种负载均衡算法,如轮询、加权轮询、IP哈希等…...

Spring Boot 支持哪些云环境?

Spring Boot 对云环境的支持非常广泛,它本身是为云原生应用设计的,能够很好地与多种云平台集成。以下是小编给大家列举的一些 Spring Boot 支持的一些主要云环境: Pivotal Cloud Foundry: Pivotal 是 Spring Boot 的创建者&#x…...

第31天:安全开发-JS应用WebPack打包器第三方库JQuery安装使用安全检测

时间轴: 演示案例: 打包器-WebPack-使用&安全 第三方库-JQuery-使用&安全 打包器-WebPack-使用&安全 参考:https://mp.weixin.qq.com/s/J3bpy-SsCnQ1lBov1L98WA Webpack 是一个模块打包器。在 Webpack 中会将前端的所有资源…...

word如何快速创建目录?

文章目录 1,先自己写出目录的各级标题。2、选中目标标题,然后给它们编号3、给标题按照个人需求开始分级4、插入域构建目录。4.1、利用快捷键插入域构建目录4.2、手动插入域构建目录 听懂掌声!学会了吗? 前提声明:我在此…...

关于linux 下的中断

1. /proc/irq/<irq_number>/ 下属性详解 在 Linux 系统中&#xff0c;每个中断号&#xff08;IRQ&#xff09;都有一个对应的目录 /proc/irq/<irq_number>/&#xff0c;包含与该中断相关的属性文件。这些文件用于查看和配置中断的具体行为。 以下是 /proc/irq/&l…...

两个畸变矩阵相乘后还是一个2*2的矩阵,有四个畸变元素。1、畸变矩阵吸收了法拉第矩阵。2、畸变矩阵也给法拉第旋转角带来模糊(求解有多种可能)

角度一&#xff1b;恢复畸变的时候也把法拉第旋转恢复了 角度二&#xff1a;求解法拉第旋转角的时候 前面乘的复系数的不同也会带来法拉第旋转角和畸变的不同解 注意&#xff1a;无论多少个畸变矩阵相乘&#xff0c;结果都是2*2的矩阵&#xff0c;也就是畸变参数可以减少…...

MCU利用单总线协议(1-wire)读取DHT11温湿度

第1章 硬件连接 硬件原理图 第2章 通讯过程 用户MCU发送一次开始信号&#xff0c;DHT11从低功耗模式转换到高速模式&#xff0c;DHT11等待主机开始信号结束。DHT11等待主机开始信号结束后&#xff0c;DHT11发送响应信号。DHT11发送响应信号后&#xff0c;紧接着送出40bit的数据…...

[保姆式教程]使用目标检测模型YOLO11 OBB进行旋转目标检测:训练自己的数据集(基于卫星和无人机的农业大棚数据集)

之前写了一个基于YOLOv8z做旋转目标检测的文章&#xff0c;内容写得不够好&#xff0c;内容也比较杂乱。现如今YOLO已经更新到11了&#xff0c;数据集也集齐了无人机和卫星的农业大棚&#xff0c;所以这次就写一个基于YOLO11 OBB的农业大棚旋转检测。 1. 下载源码配置环境 在h…...

【网络安全】网站常见安全漏洞 - 网站基本组成及漏洞定义

文章目录 引言1. 一个网站的基本构成2. 一些我们经常听到的安全事件3. 网站攻击者及其意图3.1 网站攻击者的类型3.2 攻击者的意图 4. 漏洞的分类4.1 按来源分类4.2 按危害分类4.3 常见漏洞与OWASP Top 10 引言 在当今的数字化时代&#xff0c;安全问题已成为技术领域不可忽视的…...

Redis——个人笔记留存

今日内容 1. redis1. 概念2. 下载安装3. 命令操作1. 数据结构4. 持久化操作5. 使用Java客户端操作redis Redis 1. 概念&#xff1a; redis是一款高性能的NOSQL系列的非关系型数据库 1.1.什么是NOSQLNoSQL(NoSQL Not Only SQL)&#xff0c;意即“不仅仅是SQL”&#xff0c;是…...

人工智能_大模型091_大模型工作流001_使用工作流的原因_处理复杂问题_多轮自我反思优化ReAct_COT思维链---人工智能工作笔记0236

# 清理环境信息&#xff0c;与上课内容无关 import os os.environ["LANGCHAIN_PROJECT"] "" os.environ["LANGCHAIN_API_KEY"] "" os.environ["LANGCHAIN_ENDPOINT"] "" os.environ["LANGCHAIN_TRACING_V…...

linux上jdk1.8安装elasticsearch6.8.5踩坑总结

先在windows上下载了elasticsearch8安装成功后&#xff0c;本来是想在linux上也安装一个一样的版本&#xff0c;然后发现各种启动不了&#xff0c;查了一天原来jdk版本不同&#xff0c;需要下载不同版本的elasticsearch&#xff0c;我测试了8&#xff0c;7&#xff0c;6&#x…...

Three.js教程_02场景、相机与渲染器全面解析

Three.js 场景、相机与渲染器全面解析 Three.js 是一个强大的 JavaScript 库&#xff0c;用于在网页上创建和渲染 3D 图形。本文将深入解析 Three.js 中的几个核心概念&#xff0c;并介绍它们的用法及拓展方法。内容包括场景、相机、渲染器、网格对象、光源、坐标轴、控制器和…...

【数据结构】动态规划-基础篇

针对动态规划问题&#xff0c;我总结了以下5步&#xff1a; 确定dp数组以及下标的含义&#xff1b; 递推公式&#xff1b; dp数组如何初始化&#xff1b; 遍历顺序&#xff1b; 打印dp数组&#xff08;用来debug&#xff09;&#xff1b; 以上5步适用于任何动态规划问题&#x…...

opencv读取展示图片

import time import cv2 # 创建窗口 cv2.namedWindow(window, cv2.WINDOW_AUTOSIZE) # cv2.WINDOW_AUTOSIZE自动大小&#xff0c;不允许修改窗口大小 cat cv2.imread("./6.jpg", 0) # opencv默认读取bgr,0代表的是灰度图模式,1是彩色图 # 展示名字为window…...

网站访问统计A/B测试与数据分析

在网站运营中&#xff0c;访问统计和数据分析是优化用户体验和提高转化率的关键工具。A/B测试作为一种数据驱动的方法&#xff0c;能够帮助网站运营者验证设计和内容的有效性。A/B测试的基本原理是同时展示两个不同的版本&#xff08;A和B&#xff09;&#xff0c;通过比较它们…...

前端开发 之 15个页面加载特效下【附完整源码】

文章目录 十二&#xff1a;铜钱3D圆环加载特效1.效果展示2.HTML完整代码 十三&#xff1a;扇形百分比加载特效1.效果展示2.HTML完整代码 十四&#xff1a;四色圆环显现加载特效1.效果展示2.HTML完整代码 十五&#xff1a;跷跷板加载特效1.效果展示2.HTML完整代码 十二&#xff…...

详解八大排序(六)------(三路划分,自省排序,归并排序外排序)

文章目录 1. 快排之三路划分1. 1 三路划分的诞生由来1. 2 三路划分的具体思路1. 3 代码实现 2. 快排之自省排序2. 1 自省排序的目的2. 2 自省排序的思路2. 3 自省排序的实现代码 3. 归并排序外排序3. 1 外排序介绍3. 2 归并排序外排序的思路3. 3 归并排序的实现代码 1. 快排之三…...

【Java从入门到放弃 之 从字节码的角度异常处理】

从字节码的角度异常处理 生成字节码Javap 命令的使用基本语法 字节码文件testTryCatchtestTryCatchFinallytestTryWithResource 如果大家对与java的异常使用还有问题或者还不太了解&#xff0c;建议先看一下我之前写的Java异常了解一下基本 的异常处理知识&#xff0c;再看这篇…...

Java虚拟机(JVM)中的元空间(Metaspace)一些关键点的总结

• 元空间的引入&#xff1a;在Java 8中&#xff0c;JVM的内存结构经历了变化&#xff0c;其中方法区被替代为元空间&#xff08;Metaspace&#xff09;。元空间用于存储类的元数据信息&#xff0c;包括类的名称、方法、字段等信息。 • 存储位置&#xff1a;与方法区不同&…...

小程序 模版与配置

WXML模版语法 一、数据绑定 1、数据绑定的基本原则 &#xff08;1&#xff09;在data中定义数据 &#xff08;2&#xff09;在WXML中使用数据 2、在data中定义页面的数据 3、Mustache语法的格式&#xff08;双大括号&#xff09; 4、Mustache语法的应用场景 &#xff08;…...

当大的div中有六个小的div,上面三个下面三个,当外层div高变大的时候我希望里面的小的div的高也变大

问&#xff1a; 当大的div中有六个小的div&#xff0c;上面三个下面三个&#xff0c;当外层div高变大的时候我希望里面的小的div的高也变大 回答&#xff1a; 这时候我们就不能写死六个小的div的高度&#xff0c;否则上下的小的div的间距就会变大&#xff0c;因为他们的高度…...

MySQL——操作

一.库的操作 1.基本操作 创建数据库 create database 数据库名称; 查看数据库 show databases; 删除数据库 drop database 数据库名称; 执行删除之后的结果: 数据库内部看不到对应的数据库 对应的数据库文件夹被删除&#xff0c;级联删除&#xff0c;里面的数据表全部被删…...

Python语法之正则表达式详解以及re模块中的常用函数

正则表达式详解及re模块中的常用函数 概念、作用和步骤 概念&#xff1a; 本身也是一个字符串&#xff0c;其中的字符具有特殊含义&#xff0c;将来我们可以根据这个字符串【正则表达式】去处理其他的字符串&#xff0c;比如可以对其他字符串进行匹配&#xff0c;切分&#xf…...

《地球化学》

《地球化学》主要报道近代地球化学, 特别是其主要分支学科, 如岩石地球化学、元素地球化学、有机地球化学、环境地球化学、矿床地球化学、实验地球化学、生物地球化学、天体化学、计算地球化学、分析地球化学、海洋地球化学、沉积地球化学、纳米地球化学、油气地球化学和同位素…...

alpine openssl 编译

./config no-shared --prefix/usr/local/openssl apk add musl-dev gcc g apk add linux-headers ssh root 登录 编辑 SSH 配置文件 打开 SSH 配置文件 /etc/ssh/sshd_config&#xff1a; vi /etc/ssh/sshd_config PermitRootLogin yes...

【AI模型对比】AI新宠Kimi与ChatGPT的全面对比:技术、性能、应用全揭秘

文章目录 Moss前沿AI技术背景Kimi人工智能的技术积淀ChatGPT的技术优势 详细对比列表模型研发Kimi大模型的研发历程ChatGPT的发展演进 参数规模与架构Kimi大模型的参数规模解析ChatGPT的参数体系 模型表现与局限性Kimi大模型的表现ChatGPT的表现 结论&#xff1a;如何选择适合自…...

【C#设计模式(17)——迭代器模式(Iterator Pattern)】

前言 迭代器模式可以使用统一的接口来遍历不同类型的集合对象&#xff0c;而不需要关心其内部的具体实现。 代码 //迭代器接口 public interface Iterator {bool HashNext();object Next(); } //集合接口 public interface Collection {Iterator CreateIterator(); } //元素迭…...