当前位置：首页 > news >正文

RoI Transformer论文翻译详解

news 2026/5/12 22:42:02

Learning RoI Transformer for Oriented Object Detection in Aerial Images

0.摘要

航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务，因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时，基于水平建议的普通目标检测方法往往会导致感兴趣区域(Region of interest, RoIs)与目标之间的不匹配。这就导致了最终目标分类置信度与定位精度之间的常见偏差。在本文中，我们提出了一个RoI Transformer来解决这些问题。RoI Transformer的核心思想是对RoI进行空间变换，并在定向包围框(OBB)注释的监督下学习变换参数。RoI Transformer是轻量级的，可以很容易地嵌入到检测器中，用于定向对象检测。简单地将RoI Transformer应用于light-head RCNN 已经在两个常见且具有挑战性的航空数据集上取得了最先进的性能，即DOTA和HRSC2016，检测速度的降低可以忽略。当定向边界框注释可用时，我们的RoI Transformer超过了可变形的位置敏感 RoI pool-ing。大量的实验也验证了我们的RoI Transformer的灵活性和有效性。

1.介绍

（1）背景
水平框检测会造成边界框和目标的不一致性，尤其是当目标密集分布时。由于航空影像目标方向的多样性，使用有限方向的RRoIs很难与所有的目标都正确匹配，并且多方向的RRoIs还会造成计算的高度复杂性。空间变换、形变卷积和RoI池化常被用来处理几何变形，并且不涉及标注的旋转边界框。在航空影像中，提取具有旋转不变性的区域特征，对于消除区域特征和目标的不匹配问题是非常重要的。

（2)本文研究的主要内容：
提出了RoI Transformer的模块结构，通过标注RRoI的监督学习和基于位置敏感对齐的特征提取，旨在利用双阶段框架实现密集旋转目标的检测。它由两部分组成：
第一个是RRoI学习器，它学习从hroi到RRoI的转换。
第二个是旋转位置敏感RoI Align，从RRoI中提取旋转不变特征，用于后续的对象分类和位置回归。

（3）本文研究的主要贡献：

我们提出了一个有监督的旋转RoI学习器，它是一个可以将水平RoI转换为RoI的可学习模块。该设计不仅可以有效缓解RoIs与对象之间的错位，还可以避免为定向对象检测而设计的大量锚点。
设计了用于空间不变特征提取的旋转位置敏感感兴趣区域对齐模块，可以有效地促进目标分类和位置回归。当使用light-head RoI-wise操作时，保证了效率和低复杂性。
我们在几个公共大规模数据集上实现了最先进的性能，用于航空图像中的定向目标检测。实验还表明，所提出的RoI Transformer可以很容易地嵌入到不同的主干中，并显著提高了检测性能。

2.相关工作

2.1. 定向边框回归
定向目标检测是一般水平目标检测的延伸。该任务是利用方向信息对目标进行定位和分类，主要采用基于区域建议的方法进行处理。基于HRoI的方法[15,37]通常使用普通的RoI warp从HRoI中提取特征，并回归相对于地面真实值的位置偏移。基于HRoI的方法存在区域特征与实例不匹配的问题。基于RRoI的方法[30,26]通常使用旋转RoI翘动(rotate RoI Warping)从RRoI中提取特征，并回归相对于RRoI的位置偏移量，可以在一定程度上避免误差问题。然而，基于RRoI的方法涉及生成大量旋转的提案。[26]对轮换提案采用[27]中的方法。SRBBS[27]很难嵌入到神经网络中，旋转生成提案会花费额外的时间。[30,43,41,1]在RPN[32]中采用了旋转锚的设计。然而，由于锚点数量的急剧增加(num scales×num aspect ratios×num angles)，该设计仍然很耗时。例如，在一个位置设置3 × 5 × 6 = 90个锚。大量的锚点增加了网络中参数的计算量，同时也降低了建议与ground truth匹配的效率。此外，由于存在大量冗余的旋转锚点，定向包围框之间的直接匹配比水平包围框之间的直接匹配更难。因此，在旋转锚的设计中，[30,24]都采用了松弛匹配策略。有一些锚点在任何真实情况下都没有达到0.5以上的IoU，但它们被分配为True Positive样本，这仍然会导致不对齐的问题。在这项工作中，我们仍然使用水平锚。不同的是，当生成hroi时，我们通过轻全连接层将它们转换为rroi。基于这种策略，没有必要增加主播的数量。并且可以获得大量精确的rroi，这将促进匹配过程。因此，我们直接使用OBBs之间的借条作为匹配标准，可以有效地避免不对中问题。

2.2 空间不变特征提取
CNN具有平移不变性，但在旋转和尺度变化方面表现较差。对于图像特征提取，提出了空间变压器[14]和可变形卷积[5]来模拟任意变形。他们从目标任务中学习，没有额外的监督。对于区域特征提取，提出了可变形RoI池化[5]，该算法通过对RoI池化采样网格进行偏移学习实现。与常规RoI翘曲相比，它可以更好地在实例级对变形进行建模[8,10,4]。STN和可变形模块被广泛应用于场景文本和航空图像识别领域[40,33,19,34,39]。航空图像中目标检测存在较多的旋转和尺度变化，很少有非刚性变形。因此，我们的RoI Transformer仅对刚性空间变换建模，该空间变换以(dx, dy, dw, dh, dθ)的格式学习。然而，与可变形的RoI池化不同，我们的RoI Transformer在地面真相的监督下学习偏移量。RRoIs还可以用于进一步的旋转边界框回归，这也有助于提高目标定位性能。

2.3 轻roi操作
在两阶段算法中，由于计算是不共享的，所以roi操作是效率的瓶颈。为了解决这一问题，提出了Light-head R-CNN[17]算法，通过使用更大的可分离卷积来获得薄特征。它还采用PS RoI池[4]进一步降低特征图的维数。在维数为10的池化特征上采用单一的全连通层，可以显著提高两阶段算法的速度。在航拍图像中，存在实例数量较大的场景。例如，单个1024 × 1024映像上可能有超过800个实例。我们的方法类似于可变形RoI池[5]，其中进行两次RoI操作。为了保证效率，还采用了light-head设计。

3. RoI Transformer

在本节中，我们将详细介绍我们提出的RoI Transformer，它包含两个部分，RRoI Learner 和
RRoI Warping。RRoI Learner是一个PS RoI Align，后面是一个维度为5的全连接层，它回归了相对于hroi的旋转地面真理(rgs)的偏移量。RRoI Warping对旋转区域特征进行变形，以保持旋转不变性。对于端到端训练，这两层都是可微的。其架构如图2所示。
在这里插入图片描述
3.1. RRoI Learner
RRoI学习器的目标是从水平roi的特征图中学习旋转roi。假设我们有n个HRoI，用{Hi}表示，格式为(x, y, w, h)，用于预测HRoI的二维位置、宽度和高度，对应的特征映射可记为{Fi}。由于在理想情况下，每个HRoI都是RRoI的外部矩形，我们试图通过使用全连接层从每个特征映射Fi推断RRoI的几何形状。我们首先给出相对于一般rroi的偏移的回归目标为
在这里插入图片描述
其中(xr, yr, wr, hr， θr)是表示RRoI的位置、宽度、高度和方向的堆叠向量，(x∗，y∗，w∗，h∗，θ∗)是有向包围盒(OBB)的地面真值参数。为了便于计算，用mod来调整角偏移目标t * θ在[0,2 π)内。的确，相对于HRoI的回归偏移的目标是Eq.(1)的特殊情况，如果θ∗= 3π 2。一般相对偏移量如图3所示为例。
在这里插入图片描述
为了推导式(1)，需要将OBB的坐标从全局坐标系转换为局部坐标系(例如x1O1y1)。从数学上讲，全连接层为每个特征映射Fi by t = G(F;Θ)，(2)

其中G表示全连通层，Θ是G的权重参数，F是每个HRoI的特征图。在训练过程中，我们需要匹配输入的HRoIs和定向包围盒(obb)的ground truth。为了提高效率，将HRoI与轴向包围框进行了基于原始地面真实值的匹配。一旦HRoI与OBB的ground truth相匹配，我们根据Eq.(1)中的定义直接设置t *。我们使用平滑L1损失[9]函数作为回归损失。对于每一次前向传递中的预测t，我们将其从偏移量解码为RRoI参数。也就是说，我们提出的RRoI学习器可以从HRoI特征图F中学习RRoI的参数。

3.2. RRoI Warping
得到RRoI参数后，可以提取旋转不变的深度特征，用于RRoI翘曲定向目标检测。在这里，我们提出了旋转位置敏感(RPS) RoI对齐模块作为具体的RRoI扭曲，因为我们的基线(更多细节在第2.3节)是Light-Head R-CNN[17]。给定形状为(H, W, K × K × C)的输入特征图D和RRoI (xr, yr, wr, hr， θr)，其中(xr, yr)表示RRoI的中心，(wr, hr)表示RRoI的宽度和高度。θr给出了RRoI的方向。RPS RoI Align将旋转后的RoI分成K × K个bin，输出形状为(K, K, C)的特征图Y。对于输出通道C(0≤C < C)的索引为(i, j)(0≤i, j < K)的bin，我们有
在这里插入图片描述
其中Di,j,c是K × K × c特征映射中的一个特征映射。从输入到输出的通道映射与原来的位置敏感RoI池[4]相同。n × n是箱子中采样位置的个数。bin(i,j)表示坐标集{i wrk +(sx+ 0.5) wrk×n;Sx = 0,1，…N−1}×{j HRK +(sy +0.5) hrk×n;Sy = 0,1，…N−1}。对于每个(x, y)∈bin(i, j)，它被Tθ转换为(x '， y ')，其中
(x '， y ')为
在这里插入图片描述
通常，式(3)由双线性插值实现。

3.3. RoI Transformer for Oriented Object Detection
RRoI leaner和RRoI warping的组合形成了RRoI Transformer(RT)。它可以用来代替正常的RoI warping操作。来自RT的池化特征是旋转不变的。此外，RRoI为以后的回归提供了更好的初始化，因为与匹配的HRoI相比，匹配的RRoI更接近RGT。如前所述，RRoI是一个包含5个元素(xr, yr, wr, hr， θr)的元组。为了消除歧义，我们用h表示RRoI的短边，用w表示长边。选择垂直于h且落在[0，π]的方向作为RRoI的最终方向。在所有这些操作之后，避免了歧义。此外，这些操作还需要减少旋转变化。

（1）IoU between Polygons

在匹配RRoI和RGT时，我们仍然使用IoU作为标准。如果任何RGT的RRoI的欠条超过0.5的阈值，则被认为是真阳性(TP)。对于RRoI和RGT之间的IoU的计算，我们使用式(5)如下所示。
在这里插入图片描述
它与水平边界框之间的IoU计算形式类似。唯一的区别是，rroi的IoU计算是在多边形内执行的。Br表示RRoI的包围框。Bgt代表基本真理的边界框。面积是计算任意多边形面积的函数。

（2）Targets Calculation
对RRoI进行翘曲后，得到旋转不变性特征。然后我们加入一个2048维的全连通层(fc)，再加入两个兄弟层(fcs)，进行最终的分类和回归(如图2)。分类目标与之前的工作相同。然而，回归目标是不同的。为了保持一致性，偏移量也需要是旋转不变的。为了达到这一目标，我们使用图3所示的相对偏移量。主要思想是使用绑定到RRoI的坐标系，而不是图像进行偏移量计算。

4.实验

略

5.结论

本文提出了一个RoI Transformer模块来对几何变换进行建模，该模块可以有效地避免区域特征与物体之间的错位问题。该设计对具有挑战性的DOTA和HRSC上的面向对象检测带来了显著的改进，而计算成本的增加可以忽略不计。通过与可变形RoI池化的综合比较，验证了在有定向边界框标注的情况下，该模型更为合理。

相关文章：

RoI Transformer论文翻译详解

Learning RoI Transformer for Oriented Object Detection in Aerial Images 0.摘要航空图像中的目标检测是计算机视觉中一个活跃而又具有挑战性的任务，因为它具有鸟瞰视角、高度复杂的背景和变化的物体外观。特别是在航空图像中检测密集的目标时，基于…...

编程日记 2023/5/13 22:06:08

Prometheus 自动发现监控AWS EC2实例

本文章简述对接自动发现AWS云EC2实例前提环境： PromethuesGrafanaAWS IAM权限涉及参考文档： AWS EC2Grafana 通用监控模板一、IAM 用户创建 1、创建Prometheus 策略策略规则： {"Version": "2012-10-17",&quo…...

编程日记 2023/5/25 6:44:16

从recat源码角度看setState流程

setState setState() 将对组件 state 的更改排入队列批量推迟更新，并通知 React 需要使用更新后的 state 重新渲染此组件及其子组件。其实setState实际上不是异步，只是代码执行顺序不同，有了异步的感觉。使用方法 setState(stateChange | u…...

编程日记 2023/4/10 14:54:28

【Java|golang】1234. 替换子串得到平衡字符串---双指针

有一个只含有 ‘Q’, ‘W’, ‘E’, ‘R’ 四种字符，且长度为 n 的字符串。假如在该字符串中，这四个字符都恰好出现 n/4 次，那么它就是一个「平衡字符串」。给你一个这样的字符串 s，请通过「替换一个子串」的方式，…...

编程日记 2023/5/23 1:50:09

自监督表征学习方法——BYOL(Bootstrap Your Own Latent)

自监督表征学习方法——BYOL(Bootstrap Your Own Latent) 参考文献：《Bootstrap Your Own Latent A New Approach to Self-Supervised Learning》 1.前言背景学习良好的图像表示是计算机视觉中的一个关键挑战，因为它允许对下游任务进行有效的训练。许…...

编程日记 2023/5/28 3:53:07

均衡负载集群（LBC）-1

均衡负载集群（LBC） 客户–>通过Internet—>负载调度器—>n台真实服务器负载调度器： 软件：LVS；Nginx；Haproxy硬件：F5； LVS架构： 使用到C/S（B/S…...

编程日记 2023/5/24 13:59:03

WebSocket

关于WebSocket： WebSocket 协议在2008年诞生，2011年成为国际标准。现在所有浏览器都已经支持了。 WebSocket 的最大特点就是，服务器可以主动向客户端推送信息，客户端也可以主动向服务器发送信息，是真正的双向平等对话…...

编程日记 2023/5/29 8:26:12

GA-PEG-GA，Glutaric Acid-PEG-Glutaric Acid，戊二酸-聚乙二醇-戊二酸供应

英文名称：Glutaric Acid-PEG-Glutaric Acid，GA-PEG-GA 中文名称：戊二酸-聚乙二醇-戊二酸 GA-PEG-GA是一种线性双功能PEG羧酸试剂。PEG和羧基COOH之间存在C4酯键。PEG羧酸可用于与氨基反应，与NHS和DCC、EDC等肽偶联试剂反应。 P…...

编程日记 2023/5/12 20:17:41

使用sqlmap + burpsuite sql工具注入拿flag

使用sqlmap burpsuite sql工具注入拿flag 记录一下自己重新开始学习web安全之路③。目标网站：http://mashang.eicp.vip:1651/7WOY59OBj74nTwKzs3aftsh1MDELK2cG/ 首先判断网站是否存在SQL注入漏洞 1.找交互点发现只有url这一个交互点，搜索框和登录…...

编程日记 2023/5/22 22:51:29

替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案

替代AG9300|替代NCS8823|CS5260 Type-C转VGA视频转换方案 CS5260是一款是一款实现USB TYPE-C到VGA视频转换的单片机解决方案转换器。CS5260支持USB Type-C显示端口交替模式，CS5260可以将视频和音频流从USB Type-C接口传输到VGA端口。在CS5260芯片中，显示…...

编程日记 2023/5/14 18:01:55

乐鑫特权隔离机制的 OTA 固件升级

固件空中升级 (OTA, Over-The-Air) 是任何联网设备的重要功能之一，支持开发人员通过远程更新固件，以发布新功能或修复错误。乐鑫特权隔离框架中包含两类应用程序：受保护的应用程序 (protected_app) 和用户应用程序 (user_app) ，这…...

编程日记 2023/5/22 22:50:26

C++数据结构 —— 二叉搜索树

目录 1.二叉搜索树的基本概念 1.1二叉搜索树的基本特征 2.二叉搜索树的实现 2.1数据的插入(迭代实现) 2.2数据的搜索(迭代实现) 2.3中序遍历(递归实现) 2.4数据的删除(迭代实现) 2.5数据的搜索(递归实现) 2.6数据的插入(递归实现) 2.7数据的删除(递归实现) 2.8类的完…...

编程日记 2023/5/12 3:36:58

Maven面试题及答案

1、Maven有哪些优点和缺点优点： 1、简化项目依赖管理 2、方便与持续集成工具(Jenkins)整合 3、有助于多模块项目开发，比如一个模块开发好后发布到仓库，依赖该模块时可以直接从远程仓库更新，不用自己手动去编译 4、有很多插件&am…...

编程日记 2023/5/22 22:52:13

WebRTC系列-Qos系列之接收放RTX处理

文章目录 1. RTX详解1.1 RTX包头解析1.2 RTX包中的OSN2. RTX在WebRTC中处理2.1 组包2.2 解包2.3 发送及接收处理流程2.3.1 发送流程2.3.2 rtx标记的设置流程2.3.3 解析流程2.3.4 RTX解包在上一篇 WebRTC系列-Qos系列之接收NACK文章中分析了接收到nack后解析的主要流程。在WebR…...

编程日记 2023/4/14 5:02:18

国内能否炒伦敦金，2023国际十大正规伦敦金交易平台排名

在目前的投资市场环境中，现货黄金是一种屡见不鲜的投资选择，它依靠国际化的投资环境，成为了世界范围内投资者的重要选择对象。进行现货黄金投资，人们除了要认识市场发展基本现状之外，更要做好基本面和技术面分析工作&a…...

编程日记 2023/5/16 16:24:39

react路由 - react-router-dom

react路由现代的前端应用大多都是 SPA（单页应用程序），也就是只有一个 HTML 页面的应用程序。因为它的用户体验更好、对服务器的压力更小，所以更受欢迎。为了有效的使用单个页面来管理原来多页面的功能，前端路由应运而…...

编程日记 2023/5/25 16:26:57

01-RTOS

对于裸机而言，对于RTOS而言即：对于裸机，打游戏意味着不能回消息回消息意味着不能打游戏对于RTOS 打游戏和裸机的切换只需要一个时间片节拍 1ms 从宏观来看就是同时进行的两件事（但要在这两件事情的优先级一样的情况下&#xff0…...

编程日记 2023/3/15 2:36:11

信息安全管理

信息安全管理信息安全管理信息安全风险管理信息安全管理体系应急响应与灾难恢复应急响应概况信息系统灾难修复灾难恢复相关技术信息安全管理管理概念：组织、协调、控制的活动，核心过程的管理控制管理对象和组成：包括人员在内相关资产&…...

编程日记 2023/5/30 9:44:59

深度学习tips

1、datasets_make函数中最后全部转化为numpy形式 datanp.array(data)否则会出现问题，比如数据是103216，经过trainloader生成tensor后（batch_size为30），发现生成的数据为： data.shape #(10,) data[0].shape…...

编程日记 2023/5/11 23:49:23

2023-2-13 刷题情况

替换子串得到平衡字符串题目描述有一个只含有 ‘Q’, ‘W’, ‘E’, ‘R’ 四种字符，且长度为 n 的字符串。假如在该字符串中，这四个字符都恰好出现 n/4 次，那么它就是一个「平衡字符串」。给你一个这样的字符串 s，请通过…...

编程日记 2023/5/29 8:27:08

粒子群灰狼优化算法稀疏码设计【附代码】

✨ 长期致力于稀疏码多址接入、星型正交振幅调制、功率不平衡码本、粒子群算法、混合粒子群灰狼优化算法研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&#xff…...

编程新知 2026/5/12 21:52:09

JavaScript自动化PPT生成：如何用代码解放你的演示文稿生产力

JavaScript自动化PPT生成：如何用代码解放你的演示文稿生产力【免费下载链接】PptxGenJS Build PowerPoint presentations with JavaScript. Works with Node, React, web browsers, and more. 项目地址: https://gitcode.com/gh_mirrors/pp/PptxGenJS 还在为…...

编程新知 2026/5/12 19:09:46

基于Python与aiogram构建多模型AI助手：集成GPT-4、Claude与Gemini的Telegram机器人开发实践

1. 项目概述：一个多模型AI助手的自研之路最近在折腾一个挺有意思的玩意儿，我把它叫做“AIAssistantBot”。简单来说，这是一个跑在Telegram上的机器人，但它不是那种只会回复固定指令的“傻”机器人。它的核心是整合了市面上几家主…...

编程新知 2026/5/12 18:56:21

Word转Markdown踩过的那些坑：Writage插件失效、Pandoc命令报错怎么办？

Word转Markdown实战避坑指南：从工具失效到完美转换的完整方案每次技术分享会上，总有人问我："为什么我的Word转Markdown总出问题？"这让我想起自己刚接触文档转换时踩过的无数坑——插件神秘消失、命令行报错、格式全乱套…...

编程新知 2026/5/12 17:01:38

告别配置烦恼！Qt 5.14.2下QCustomPlot源码集成与QChart开箱即用全攻略

Qt 5.14.2图表库极简集成指南：QCustomPlot源码直连与QChart零配置实战刚接手一个需要快速实现数据可视化的Qt项目时，开发者往往会在图表库的选择和集成上耗费大量时间。传统方案如Qwt需要繁琐的编译配置，而官方文档又常常默认读者已经熟悉Qt…...

编程新知 2026/5/12 14:30:30

地铁站内人员危险情况检测人员跌倒检测数据集VOC+YOLO格式4369张2类别

数据集格式：Pascal VOC格式YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)：4369 标注数量(xml文件个数)：4369 标注数量(txt文件个数)：4369 …...

编程新知 2026/5/12 13:52:31

Spinach印相紧急修复方案：当--v 6.2输出突然丢失青橙分离感时，立即执行的4步CLI热补丁与config.json强制回滚指令

更多请点击： https://intelliparadigm.com 第一章：Spinach印相紧急修复方案：当--v 6.2输出突然丢失青橙分离感时，立即执行的4步CLI热补丁与config.json强制回滚指令 Spinach 6.2 版本在部分 GPU 加速路径下会因色彩空间映射缓存污…...

编程新知 2026/5/12 13:41:23

GitLab实战指南：从零到一的团队协作与项目管理

1. GitLab入门：从注册到组织搭建第一次接触GitLab时，很多人会被它丰富的功能搞得晕头转向。作为一个长期使用GitLab管理技术团队的老鸟，我想分享一套真正实用的入门方法。GitLab本质上是一个集代码托管、项目管理、CI/CD于一体的DevOps平台&…...

编程新知 2026/5/12 12:37:50

从原型到优化：基于LoRa SX1278与STM32的音频对讲系统实战剖析

1. 项目背景与原型机搭建记得第一次用STM32F103C8T6驱动LoRa SX1278模块时，手边只有个简易麦克风模块和杜邦线。当时就想做个能传语音的无线对讲系统，没想到后来踩了这么多坑。这个项目最核心的三部分就是ADC采集声音、SPEEX压缩音频、LoRa传输数据&am…...

编程新知 2026/5/12 9:39:26

ElevenLabs商业规模化陷阱（内部白皮书节选）：当TTS调用量突破500万/月，这3个架构断层将触发收入增长断崖

更多请点击： https://intelliparadigm.com 第一章：ElevenLabs Growing Business ElevenLabs 已从语音合成初创公司快速演进为全球 AI 语音基础设施的关键提供者，其业务增长体现在 API 调用量年增超 320%、企业客户数突破 12,000 家&#xff…...

编程新知 2026/5/12 8:42:09