RoI Transformer论文翻译详解
Learning RoI Transformer for Oriented Object Detection in Aerial Images
0.摘要
航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务,因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时,基于水平建议的普通目标检测方法往往会导致感兴趣区域(Region of interest, RoIs)与目标之间的不匹配。这就导致了最终目标分类置信度与定位精度之间的常见偏差。在本文中,我们提出了一个RoI Transformer来解决这些问题。RoI Transformer的核心思想是对RoI进行空间变换,并在定向包围框(OBB)注释的监督下学习变换参数。RoI Transformer是轻量级的,可以很容易地嵌入到检测器中,用于定向对象检测。简单地将RoI Transformer应用于light-head RCNN 已经在两个常见且具有挑战性的航空数据集上取得了最先进的性能,即DOTA和HRSC2016,检测速度的降低可以忽略。当定向边界框注释可用时,我们的RoI Transformer超过了可变形的位置敏感 RoI pool-ing。大量的实验也验证了我们的RoI Transformer的灵活性和有效性。
1.介绍
(1)背景
水平框检测会造成边界框和目标的不一致性,尤其是当目标密集分布时。由于航空影像目标方向的多样性,使用有限方向的RRoIs很难与所有的目标都正确匹配,并且多方向的RRoIs还会造成计算的高度复杂性。空间变换、形变卷积和RoI池化常被用来处理几何变形,并且不涉及标注的旋转边界框。在航空影像中,提取具有旋转不变性的区域特征,对于消除区域特征和目标的不匹配问题是非常重要的。
(2)本文研究的主要内容:
提出了RoI Transformer的模块结构,通过标注RRoI的监督学习和基于位置敏感对齐的特征提取,旨在利用双阶段框架实现密集旋转目标的检测。它由两部分组成:
第一个是RRoI学习器,它学习从hroi到RRoI的转换。
第二个是旋转位置敏感RoI Align,从RRoI中提取旋转不变特征,用于后续的对象分类和位置回归。
(3)本文研究的主要贡献:
- 我们提出了一个有监督的旋转RoI学习器,它是一个可以将水平RoI转换为RoI的可学习模块。该设计不仅可以有效缓解RoIs与对象之间的错位,还可以避免为定向对象检测而设计的大量锚点。
- 设计了用于空间不变特征提取的旋转位置敏感感兴趣区域对齐模块,可以有效地促进目标分类和位置回归。当使用light-head RoI-wise操作时,保证了效率和低复杂性。
- 我们在几个公共大规模数据集上实现了最先进的性能,用于航空图像中的定向目标检测。实验还表明,所提出的RoI Transformer可以很容易地嵌入到不同的主干中,并显著提高了检测性能。
2.相关工作
2.1. 定向边框回归
定向目标检测是一般水平目标检测的延伸。该任务是利用方向信息对目标进行定位和分类,主要采用基于区域建议的方法进行处理。基于HRoI的方法[15,37]通常使用普通的RoI warp从HRoI中提取特征,并回归相对于地面真实值的位置偏移。基于HRoI的方法存在区域特征与实例不匹配的问题。基于RRoI的方法[30,26]通常使用旋转RoI翘动(rotate RoI Warping)从RRoI中提取特征,并回归相对于RRoI的位置偏移量,可以在一定程度上避免误差问题。然而,基于RRoI的方法涉及生成大量旋转的提案。[26]对轮换提案采用[27]中的方法。SRBBS[27]很难嵌入到神经网络中,旋转生成提案会花费额外的时间。[30,43,41,1]在RPN[32]中采用了旋转锚的设计。然而,由于锚点数量的急剧增加(num scales×num aspect ratios×num angles),该设计仍然很耗时。例如,在一个位置设置3 × 5 × 6 = 90个锚。大量的锚点增加了网络中参数的计算量,同时也降低了建议与ground truth匹配的效率。此外,由于存在大量冗余的旋转锚点,定向包围框之间的直接匹配比水平包围框之间的直接匹配更难。因此,在旋转锚的设计中,[30,24]都采用了松弛匹配策略。有一些锚点在任何真实情况下都没有达到0.5以上的IoU,但它们被分配为True Positive样本,这仍然会导致不对齐的问题。在这项工作中,我们仍然使用水平锚。不同的是,当生成hroi时,我们通过轻全连接层将它们转换为rroi。基于这种策略,没有必要增加主播的数量。并且可以获得大量精确的rroi,这将促进匹配过程。因此,我们直接使用OBBs之间的借条作为匹配标准,可以有效地避免不对中问题。
2.2 空间不变特征提取
CNN具有平移不变性,但在旋转和尺度变化方面表现较差。对于图像特征提取,提出了空间变压器[14]和可变形卷积[5]来模拟任意变形。他们从目标任务中学习,没有额外的监督。对于区域特征提取,提出了可变形RoI池化[5],该算法通过对RoI池化采样网格进行偏移学习实现。与常规RoI翘曲相比,它可以更好地在实例级对变形进行建模[8,10,4]。STN和可变形模块被广泛应用于场景文本和航空图像识别领域[40,33,19,34,39]。航空图像中目标检测存在较多的旋转和尺度变化,很少有非刚性变形。因此,我们的RoI Transformer仅对刚性空间变换建模,该空间变换以(dx, dy, dw, dh, dθ)的格式学习。然而,与可变形的RoI池化不同,我们的RoI Transformer在地面真相的监督下学习偏移量。RRoIs还可以用于进一步的旋转边界框回归,这也有助于提高目标定位性能。
2.3 轻roi操作
在两阶段算法中,由于计算是不共享的,所以roi操作是效率的瓶颈。为了解决这一问题,提出了Light-head R-CNN[17]算法,通过使用更大的可分离卷积来获得薄特征。它还采用PS RoI池[4]进一步降低特征图的维数。在维数为10的池化特征上采用单一的全连通层,可以显著提高两阶段算法的速度。在航拍图像中,存在实例数量较大的场景。例如,单个1024 × 1024映像上可能有超过800个实例。我们的方法类似于可变形RoI池[5],其中进行两次RoI操作。为了保证效率,还采用了light-head设计。
3. RoI Transformer
在本节中,我们将详细介绍我们提出的RoI Transformer,它包含两个部分,RRoI Learner 和
RRoI Warping。RRoI Learner是一个PS RoI Align,后面是一个维度为5的全连接层,它回归了相对于hroi的旋转地面真理(rgs)的偏移量。RRoI Warping对旋转区域特征进行变形,以保持旋转不变性。对于端到端训练,这两层都是可微的。其架构如图2所示。

3.1. RRoI Learner
RRoI学习器的目标是从水平roi的特征图中学习旋转roi。假设我们有n个HRoI,用{Hi}表示,格式为(x, y, w, h),用于预测HRoI的二维位置、宽度和高度,对应的特征映射可记为{Fi}。由于在理想情况下,每个HRoI都是RRoI的外部矩形,我们试图通过使用全连接层从每个特征映射Fi推断RRoI的几何形状。我们首先给出相对于一般rroi的偏移的回归目标为

其中(xr, yr, wr, hr, θr)是表示RRoI的位置、宽度、高度和方向的堆叠向量,(x∗,y∗,w∗,h∗,θ∗)是有向包围盒(OBB)的地面真值参数。为了便于计算,用mod来调整角偏移目标t * θ在[0,2 π)内。的确,相对于HRoI的回归偏移的目标是Eq.(1)的特殊情况,如果θ∗= 3π 2。一般相对偏移量如图3所示为例。

为了推导式(1),需要将OBB的坐标从全局坐标系转换为局部坐标系(例如x1O1y1)。从数学上讲,全连接层为每个特征映射Fi by t = G(F;Θ),(2)

其中G表示全连通层,Θ是G的权重参数,F是每个HRoI的特征图。在训练过程中,我们需要匹配输入的HRoIs和定向包围盒(obb)的ground truth。为了提高效率,将HRoI与轴向包围框进行了基于原始地面真实值的匹配。一旦HRoI与OBB的ground truth相匹配,我们根据Eq.(1)中的定义直接设置t *。我们使用平滑L1损失[9]函数作为回归损失。对于每一次前向传递中的预测t,我们将其从偏移量解码为RRoI参数。也就是说,我们提出的RRoI学习器可以从HRoI特征图F中学习RRoI的参数。
3.2. RRoI Warping
得到RRoI参数后,可以提取旋转不变的深度特征,用于RRoI翘曲定向目标检测。在这里,我们提出了旋转位置敏感(RPS) RoI对齐模块作为具体的RRoI扭曲,因为我们的基线(更多细节在第2.3节)是Light-Head R-CNN[17]。给定形状为(H, W, K × K × C)的输入特征图D和RRoI (xr, yr, wr, hr, θr),其中(xr, yr)表示RRoI的中心,(wr, hr)表示RRoI的宽度和高度。θr给出了RRoI的方向。RPS RoI Align将旋转后的RoI分成K × K个bin,输出形状为(K, K, C)的特征图Y。对于输出通道C(0≤C < C)的索引为(i, j)(0≤i, j < K)的bin,我们有

其中Di,j,c是K × K × c特征映射中的一个特征映射。从输入到输出的通道映射与原来的位置敏感RoI池[4]相同。n × n是箱子中采样位置的个数。bin(i,j)表示坐标集{i wrk +(sx+ 0.5) wrk×n;Sx = 0,1,…N−1}×{j HRK +(sy +0.5) hrk×n;Sy = 0,1,…N−1}。对于每个(x, y)∈bin(i, j),它被Tθ转换为(x ', y '),其中
(x ', y ')为

通常,式(3)由双线性插值实现。
3.3. RoI Transformer for Oriented Object Detection
RRoI leaner和RRoI warping的组合形成了RRoI Transformer(RT)。它可以用来代替正常的RoI warping操作。来自RT的池化特征是旋转不变的。此外,RRoI为以后的回归提供了更好的初始化,因为与匹配的HRoI相比,匹配的RRoI更接近RGT。如前所述,RRoI是一个包含5个元素(xr, yr, wr, hr, θr)的元组。为了消除歧义,我们用h表示RRoI的短边,用w表示长边。选择垂直于h且落在[0,π]的方向作为RRoI的最终方向。在所有这些操作之后,避免了歧义。此外,这些操作还需要减少旋转变化。
(1)IoU between Polygons
在匹配RRoI和RGT时,我们仍然使用IoU作为标准。如果任何RGT的RRoI的欠条超过0.5的阈值,则被认为是真阳性(TP)。对于RRoI和RGT之间的IoU的计算,我们使用式(5)如下所示。

它与水平边界框之间的IoU计算形式类似。唯一的区别是,rroi的IoU计算是在多边形内执行的。Br表示RRoI的包围框。Bgt代表基本真理的边界框。面积是计算任意多边形面积的函数。
(2)Targets Calculation
对RRoI进行翘曲后,得到旋转不变性特征。然后我们加入一个2048维的全连通层(fc),再加入两个兄弟层(fcs),进行最终的分类和回归(如图2)。分类目标与之前的工作相同。然而,回归目标是不同的。为了保持一致性,偏移量也需要是旋转不变的。为了达到这一目标,我们使用图3所示的相对偏移量。主要思想是使用绑定到RRoI的坐标系,而不是图像进行偏移量计算。
4.实验
略
5.结论
本文提出了一个RoI Transformer模块来对几何变换进行建模,该模块可以有效地避免区域特征与物体之间的错位问题。该设计对具有挑战性的DOTA和HRSC上的面向对象检测带来了显著的改进,而计算成本的增加可以忽略不计。通过与可变形RoI池化的综合比较,验证了在有定向边界框标注的情况下,该模型更为合理。
相关文章:
RoI Transformer论文翻译详解
Learning RoI Transformer for Oriented Object Detection in Aerial Images 0.摘要 航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务,因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时,基于…...
Prometheus 自动发现监控AWS EC2实例
本文章简述对接自动发现AWS云EC2实例 前提环境: PromethuesGrafanaAWS IAM权限 涉及参考文档: AWS EC2Grafana 通用监控模板 一、IAM 用户创建 1、创建Prometheus 策略 策略规则: {"Version": "2012-10-17",&quo…...
从recat源码角度看setState流程
setState setState() 将对组件 state 的更改排入队列批量推迟更新,并通知 React 需要使用更新后的 state 重新渲染此组件及其子组件。其实setState实际上不是异步,只是代码执行顺序不同,有了异步的感觉。 使用方法 setState(stateChange | u…...
【Java|golang】1234. 替换子串得到平衡字符串---双指针
有一个只含有 ‘Q’, ‘W’, ‘E’, ‘R’ 四种字符,且长度为 n 的字符串。 假如在该字符串中,这四个字符都恰好出现 n/4 次,那么它就是一个「平衡字符串」。 给你一个这样的字符串 s,请通过「替换一个子串」的方式,…...
自监督表征学习方法——BYOL(Bootstrap Your Own Latent)
自监督表征学习方法——BYOL(Bootstrap Your Own Latent) 参考文献:《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》 1.前言背景 学习良好的图像表示是计算机视觉中的一个关键挑战,因为它允许对下游任务进行有效的训练。许…...
均衡负载集群(LBC)-1
均衡负载集群(LBC) 客户–>通过Internet—>负载调度器—>n台真实服务器 负载调度器: 软件:LVS;Nginx;Haproxy硬件:F5; LVS架构: 使用到C/S(B/S…...
WebSocket
关于WebSocket: WebSocket 协议在2008年诞生,2011年成为国际标准。现在所有浏览器都已经支持了。 WebSocket 的最大特点就是,服务器可以主动向客户端推送信息,客户端也可以主动向服务器发送信息,是真正的双向平等对话…...
GA-PEG-GA,Glutaric Acid-PEG-Glutaric Acid,戊二酸-聚乙二醇-戊二酸供应
英文名称:Glutaric Acid-PEG-Glutaric Acid,GA-PEG-GA 中文名称:戊二酸-聚乙二醇-戊二酸 GA-PEG-GA是一种线性双功能PEG羧酸试剂。PEG和羧基COOH之间存在C4酯键。PEG羧酸可用于与氨基反应,与NHS和DCC、EDC等肽偶联试剂反应。 P…...
使用sqlmap + burpsuite sql工具注入拿flag
使用sqlmap burpsuite sql工具注入拿flag 记录一下自己重新开始学习web安全之路③。 目标网站:http://mashang.eicp.vip:1651/7WOY59OBj74nTwKzs3aftsh1MDELK2cG/ 首先判断网站是否存在SQL注入漏洞 1.找交互点 发现只有url这一个交互点,搜索框和登录…...
替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案
替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案 CS5260是一款是一款实现USB TYPE-C到VGA视频转换的单片机解决方案转换器。CS5260支持USB Type-C显示端口交替模式,CS5260可以将视频和音频流从USB Type-C接口传输到VGA端口。在CS5260芯片中,显示…...
乐鑫特权隔离机制的 OTA 固件升级
固件空中升级 (OTA, Over-The-Air) 是任何联网设备的重要功能之一,支持开发人员通过远程更新固件,以发布新功能或修复错误。乐鑫特权隔离框架中包含两类应用程序:受保护的应用程序 (protected_app) 和用户应用程序 (user_app) ,这…...
C++数据结构 —— 二叉搜索树
目录 1.二叉搜索树的基本概念 1.1二叉搜索树的基本特征 2.二叉搜索树的实现 2.1数据的插入(迭代实现) 2.2数据的搜索(迭代实现) 2.3中序遍历(递归实现) 2.4数据的删除(迭代实现) 2.5数据的搜索(递归实现) 2.6数据的插入(递归实现) 2.7数据的删除(递归实现) 2.8类的完…...
Maven面试题及答案
1、Maven有哪些优点和缺点 优点: 1、简化项目依赖管理 2、方便与持续集成工具(Jenkins)整合 3、有助于多模块项目开发,比如一个模块开发好后发布到仓库,依赖该模块时可以直接从远程仓库更新,不用自己手动去编译 4、有很多插件&am…...
WebRTC系列-Qos系列之接收放RTX处理
文章目录 1. RTX详解1.1 RTX包头解析1.2 RTX包中的OSN2. RTX在WebRTC中处理2.1 组包2.2 解包2.3 发送及接收处理流程2.3.1 发送流程2.3.2 rtx标记的设置流程2.3.3 解析流程2.3.4 RTX解包在上一篇 WebRTC系列-Qos系列之接收NACK文章中分析了接收到nack后解析的主要流程。在WebR…...
国内能否炒伦敦金,2023国际十大正规伦敦金交易平台排名
在目前的投资市场环境中,现货黄金是一种屡见不鲜的投资选择,它依靠国际化的投资环境,成为了世界范围内投资者的重要选择对象。进行现货黄金投资,人们除了要认识市场发展基本现状之外,更要做好基本面和技术面分析工作&a…...
react路由 - react-router-dom
react路由 现代的前端应用大多都是 SPA(单页应用程序),也就是只有一个 HTML 页面的应用程序。因为它的用户体验更好、对服务器的压力更小,所以更受欢迎。为了有效的使用单个页面来管理原来多页面的功能,前端路由应运而…...
01-RTOS
对于裸机而言,对于RTOS而言即:对于裸机,打游戏意味着不能回消息 回消息意味着不能打游戏对于RTOS 打游戏和裸机的切换只需要一个时间片节拍 1ms 从宏观来看 就是同时进行的两件事(但要在这两件事情的优先级一样的情况下࿰…...
信息安全管理
信息安全管理信息安全管理信息安全风险管理信息安全管理体系应急响应与灾难恢复应急响应概况信息系统灾难修复灾难恢复相关技术信息安全管理 管理概念:组织、协调、控制的活动,核心过程的管理控制 管理对象和组成:包括人员在内相关资产&…...
深度学习tips
1、datasets_make函数中最后全部转化为numpy形式 datanp.array(data)否则会出现问题,比如数据是103216,经过trainloader生成tensor后(batch_size为30),发现生成的数据为: data.shape #(10,) data[0].shape…...
2023-2-13 刷题情况
替换子串得到平衡字符串 题目描述 有一个只含有 ‘Q’, ‘W’, ‘E’, ‘R’ 四种字符,且长度为 n 的字符串。 假如在该字符串中,这四个字符都恰好出现 n/4 次,那么它就是一个「平衡字符串」。 给你一个这样的字符串 s,请通过…...
边缘计算医疗风险自查APP开发方案
核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...
在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:
在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档,…...
pam_env.so模块配置解析
在PAM(Pluggable Authentication Modules)配置中, /etc/pam.d/su 文件相关配置含义如下: 配置解析 auth required pam_env.so1. 字段分解 字段值说明模块类型auth认证类模块,负责验证用户身份&am…...
《通信之道——从微积分到 5G》读书总结
第1章 绪 论 1.1 这是一本什么样的书 通信技术,说到底就是数学。 那些最基础、最本质的部分。 1.2 什么是通信 通信 发送方 接收方 承载信息的信号 解调出其中承载的信息 信息在发送方那里被加工成信号(调制) 把信息从信号中抽取出来&am…...
Spring Boot+Neo4j知识图谱实战:3步搭建智能关系网络!
一、引言 在数据驱动的背景下,知识图谱凭借其高效的信息组织能力,正逐步成为各行业应用的关键技术。本文聚焦 Spring Boot与Neo4j图数据库的技术结合,探讨知识图谱开发的实现细节,帮助读者掌握该技术栈在实际项目中的落地方法。 …...
【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)
要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况,可以通过以下几种方式模拟或触发: 1. 增加CPU负载 运行大量计算密集型任务,例如: 使用多线程循环执行复杂计算(如数学运算、加密解密等)。运行图…...
Maven 概述、安装、配置、仓库、私服详解
目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...
C# 求圆面积的程序(Program to find area of a circle)
给定半径r,求圆的面积。圆的面积应精确到小数点后5位。 例子: 输入:r 5 输出:78.53982 解释:由于面积 PI * r * r 3.14159265358979323846 * 5 * 5 78.53982,因为我们只保留小数点后 5 位数字。 输…...
代码随想录刷题day30
1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币,另给一个整数 amount 表示总金额。 请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额,返回 0 。 假设每一种面额的硬币有无限个。 题目数据保证结果符合 32 位带…...
安宝特案例丨Vuzix AR智能眼镜集成专业软件,助力卢森堡医院药房转型,赢得辉瑞创新奖
在Vuzix M400 AR智能眼镜的助力下,卢森堡罗伯特舒曼医院(the Robert Schuman Hospitals, HRS)凭借在无菌制剂生产流程中引入增强现实技术(AR)创新项目,荣获了2024年6月7日由卢森堡医院药剂师协会࿰…...
