基于整体学习的大幅面超高分遥感影像桥梁目标检测(含数据集下载地址)
文章摘要
在遥感图像(RSIs)中进行桥梁检测在各种应用中起着至关重要的作用,但与其他对象检测相比,桥梁检测面临独特的挑战。在RSIs中,桥梁在空间尺度和纵横比方面表现出相当大的变化。因此,为了确保桥梁的可见性和完整性,必须在大尺寸高分辨率(VHR)RSIs中进行整体桥梁检测。然而,缺乏大尺寸VHR RSIs的数据集限制了深度学习算法在桥梁检测中的性能。由于在处理大尺寸图像时GPU内存的限制,基于深度学习的物体检测方法通常采用裁剪策略,这不可避免地导致标签碎片化和预测不连续。为了缓解数据集的稀缺性,文章提出了一个名为GLH-Bridge的大规模数据集,该数据集包括从全球不同地理位置采样的6,000张VHR RSIs。这些图像的大小范围从2,048 × 2,048到16,384 × 16,384像素不等,共包含59,737座桥梁。这些桥梁跨越不同的背景,并且每个桥梁都被手动标注,使用了定向边界框(OBB)和水平边界框(HBB)。此外,作者提出了一种高效的整体桥梁检测网络(HBD-Net),用于大尺寸RSIs中的桥梁检测。HBD-Net采用了基于独立检测器的特征融合(SDFF)架构,并通过形状敏感样本重加权(SSRW)策略进行了优化。SDFF架构执行层间特征融合(IFF),以在大尺寸图像的动态图像金字塔(DIP)中融合多尺度上下文,SSRW策略则用于确保不同纵横比桥梁的回归权重的平衡。基于提出的GLH-Bridge数据集,作者建立了包括OBB和HBB任务的桥梁检测基准,并验证了所提出的HBD-Net的有效性。此外,在两个公开可用数据集上的跨数据集泛化实验展示了GLH-Bridge数据集的强泛化能力。
论文地址:
https://ieeexplore.ieee.org/document/10509806
数据集体量较大,超过20G,且需要科学上网进行下载,我们已经为大家下载完毕。
数据集下载地址:
https://www.dilitanxianjia.com/15644/
前世今生
桥梁作为关键的基础设施组件,横跨各种地形,起着基本的交通设施作用。它们在民用交通、军事行动和灾害救援中具有重要意义 [1]。同时,桥梁建设迅速且频繁改造。例如,2012年,美国约有617,000座桥梁,其恶化将在未来50年增加,需要超过1250亿美元用于修复积压的维修工作。因此,桥梁检测的高效性和有效性对于及时更新导航图并进一步监测桥梁的结构健康和状况至关重要 [2],[3]。遥感图像(RSIs)以其广泛的地理覆盖和高频率的重访,适合作为桥梁检测的基础数据。同时,考虑到深度网络的强大特征表示能力,基于深度学习的RSIs桥梁检测具有很大潜力,已成为研究的重点 [4]。

如图1所示,与其他常见物体相比,在RSIs中检测多尺度桥梁相当具有挑战性,主要有两个特征:(i)多样的对象尺度。在高分辨率(VHR)RSIs中,桥梁实例的长度从几像素到数千像素不等。(ii)极端的纵横比。不同桥梁的伸长程度存在显著差异。为了确保小型或狭窄桥梁的可检测性,使用非常高分辨率(VHR)的图像至关重要。同时,为了追求VHR图像中大且长桥梁的结构完整性,有必要在大尺寸图像中进行整体桥梁检测,这对数据集和方法都提出了严格要求。尽管在多类物体检测 [12],[13],[14],[15],[16] 和桥梁检测 [4],[11],[17] 方面取得了显著进展,但在大尺寸VHR RSIs中进行整体桥梁检测的大规模数据集和适当方法仍然存在不足。

如表1所示,尽管已经创建了许多流行的RSIs物体检测数据集 [6],[7],[8],[18],这些数据集中的桥梁数量有限。此外,专门为桥梁检测创建的数据集 [4],[11] 通常受样本量和图像尺寸的限制。现有的一些数据集仅提供水平边界框(HBB)注释,而不是精确的定向边界框(OBB)注释。因此,使用上述数据集训练一个鲁棒且具有广泛适应性的桥梁检测模型似乎不现实。为了解决数据限制问题,作者构建了GLH-Bridge,一个用于大尺寸VHR RSIs桥梁检测的大规模数据集。GLH-Bridge包含全球采样的6,000张VHR RSIs和超过59,000座手动标注的桥梁。与现有的桥梁检测数据集相比,GLH-Bridge通过在大尺寸VHR RSIs中标注多尺度桥梁,涵盖了植被、干河床和道路等多种背景类型,从而更好地捕捉真实场景中桥梁的特征。简而言之,与现有的桥梁检测数据集相比,GLH-Bridge展示了全面的优势和显著的优点。
为了推进这一基础且实际的问题的研究,作者提出了一个新的具有挑战性且有意义的任务:在大尺寸VHR RSIs中进行整体桥梁检测。为了解决这个任务,潜在的解决方案可以分为四个主要方面:(i)鉴于GPU内存的限制,主流的基于深度学习的物体检测方法 [15],[16],[19],[20],[21] 通常采用裁剪策略 [7],[22]。然而,这些策略有固有的局限性,容易切断大型桥梁,如图1所示。除了裁剪策略外,一些物体检测方法通过固定窗口下采样策略处理原始大尺寸图像 [23],[24],[25],导致显著的图像信息丢失;(ii)流式方法 [26] 对大尺寸图像的小块进行前向和后向传递,但无法支持带有归一化的深度神经网络(DNN);(iii)LMS方法 [27] 使用内存卸载将内存跨系统内存(CPU DRAM)和GPU内存共享。然而,它们引入了显著的时间开销,并受最大内存扩展率的限制;(iv)多GPU张量并行化技术 [28],[29] 有望扩展深度网络以支持大尺寸图像的整体处理。然而,它们往往资源密集,且在常规条件下难以操作。总之,现有方法在普通计算资源(如单个24 GB内存的GPU)下无法有效进行大尺寸VHR RSIs的整体桥梁检测。
考虑到上述潜在解决方案的限制,作者提出了一个专为大尺寸VHR RSIs桥梁检测设计的整体桥梁检测网络(HBD-Net)。作者的方法具有两个关键优点:(i)基于独立检测器的特征融合(SDFF)架构在应用于动态图像金字塔(DIP)时,展示了一种高效处理大尺寸图像的方式,资源消耗最小。(ii)形状敏感样本重加权(SSRW)策略平衡了不同纵横比桥梁的回归权重。在GLH-Bridge上的实验结果展示了提出的HBD-Net的出色性能。
总之,据作者所知,本文首次探索了大尺寸VHR RSIs中的整体桥梁检测。本文的主要贡献如下:
-
提出了GLH-Bridge,第一个用于大尺寸VHR RSIs桥梁检测的大规模数据集。该数据集包含59,737座桥梁,覆盖各种背景,提供了现实场景中桥梁的全面表示。
-
提出了一个用于大尺寸图像的低成本整体桥梁检测网络(即HBD-Net),它可以高效处理大尺寸图像,并通过设计精良的SDFF架构和SSRW策略整体检测多尺度桥梁。
-
利用提出的GLH-Bridge数据集,作者创建了一个桥梁检测基准,涵盖了OBB和HBB任务。HBD-Net在性能上优于现有的最先进算法。此外,作者进行了跨数据集泛化实验,展示了GLH-Bridge的强泛化能力。作者希望这个基准可以为大尺寸图像中的物体检测的基础评估做出贡献。
匠心独运
作者开发新数据集用于桥梁检测的目标有两个:(i) 填补大尺寸高分辨率遥感影像(VHR RSIs)桥梁检测的大规模数据集的空白。(ii) 推动一个新颖且具有挑战性的任务:大尺寸VHR RSIs中的整体桥梁检测。

图2. 来自提议的 GLH-Bridge 数据集的采样图像的地理分布图。

图3. 根据标准标注的示例,其中黄色圆圈表示未标注的情况。(a) 形状过于弯曲或不规则的跨水道路不进行标注。(b) 两个终端连接不进行标注。

图4. GLH-Bridge 数据集特征的说明。(a) 不同数据集中桥梁特征的比较。(b) GLH-Bridge 中桥梁面积的分布。(c) GLH-Bridge 中桥梁长度的分布。(d) GLH-Bridge 中桥梁密度的分布。

图5. GLH-Bridge 数据集中不同背景下的桥梁示例。(a) 穿越植被的桥梁。(b) 穿越干涸河床的桥梁。(c) 穿越道路的桥梁。(d) 穿越水体的桥梁。

图6. 所提议的HBD-Net流程。它包含所提出的SDFF架构和SSRW策略。SDFF架构由独立检测器和IFF模块组成。从输入的大尺寸VHR图像开始,作者构建一个DIP并将其发送到SDFF的独立检测器以获取特征。然后,通过IFF模块融合所有SDFF检测器的特征,以共享上下文和详细纹理信息。SSRW策略在对象检测器的样本选择阶段应用,以平衡回归权重。最后,将输出的融合特征输入到对象检测器的头部,以获取每一层的结果,这些结果用于与相应的真实标签计算损失。

图7. 所提议的IFF模块示意图。图中展示了两个相邻层之间特征融合的方法。

图8. 所提出的SSRW策略示意图。红色和蓝色点分别表示对象检测器选择的正样本和负样本。对于基于锚点的检测器,这些点对应于生成锚点或提议的特征图位置。对于无锚点的检测器,这些点指示特征图上的网格。为保持清晰和简洁,与样本点相关联的锚点或提议(适用于基于锚点的方法)在此示意图中未显示。
卓越性能

未来展望
本文提出了一个名为GLH-Bridge的大规模数据集,用于在大尺寸高分辨率遥感图像中进行整体桥梁检测。所提出的数据集包含6,000个高分辨率遥感图像,图像尺寸从2,048 × 2,048到16,384 × 16,384像素不等,包含59,737座跨越不同背景的桥梁,并带有OBB和HBB注释。大尺寸图像、大样本量以及对象尺度和背景类型的多样性使GLH-Bridge成为一个宝贵的数据集,其具备推动一个新的具有挑战性但意义深远的任务的前提:在大尺寸高分辨率遥感图像中进行整体桥梁检测。此外,作者提出了HBD-Net,这是一种专为大尺寸图像中的整体桥梁检测量身定制的经济高效的解决方案。基于所提出的GLH-Bridge数据集,作者建立了一个基准,并对所提出的HBD-Net的有效性进行了经验验证。在未来的工作中,作者将继续丰富GLH-Bridge数据集的样本量和子类别注释。此外,作者的目标包括将所提出的HBD-Net推广到满足大尺寸图像中的多类对象检测。作者努力探索可以同时提高大尺度和小尺度桥梁准确性的方法,从而扩大HBD-Net在各种场景中的适用性和有效性。
相关文章:
基于整体学习的大幅面超高分遥感影像桥梁目标检测(含数据集下载地址)
文章摘要 在遥感图像(RSIs)中进行桥梁检测在各种应用中起着至关重要的作用,但与其他对象检测相比,桥梁检测面临独特的挑战。在RSIs中,桥梁在空间尺度和纵横比方面表现出相当大的变化。因此,为了确保桥梁的…...
逻辑回归模型(非回归问题,而是解决二分类问题)
目录: 一、Sigmoid激活函数:二、逻辑回归介绍:三、决策边界四、逻辑回归模型训练过程:1.训练目标:2.梯度下降调整参数: 一、Sigmoid激活函数: Sigmoid函数是构建逻辑回归模型的重要激活函数&am…...
QT的OpenGL渲染窗QOpenGLWidget Class
Qt - QOpenGLWidget (class) (runebook.dev) 一、说明 QOpenGLWidget 类是用于渲染 OpenGL 图形的小部件。从Qt 5.4就开始退出,它对于OpenGL有专门的配合设计。 二、QOpenGLWidget类的成员 2.1 Public类函数 QOpenGLWidget(QWidget *parent nullptr,Qt…...
单元测试和集成测试
软件测试中,单元测试和集成测试是比较常见的方法 单元测试:这是一种专注于最小可测试单元(通常是函数或方法)的测试,用于验证单个组件的行为是否符合预期。它通常由开发者自己完成,可以尽早发现问题&#…...
【JAVA入门】Day15 - 接口
【JAVA入门】Day15 - 接口 文章目录 【JAVA入门】Day15 - 接口一、接口是对“行为”的抽象二、接口的定义和使用三、接口中成员的特点四、接口和类之间的关系五、接口中新增的方法5.1 JDK8开始接口中新增的方法5.1.1 接口中的默认方法5.1.2 接口中的静态方法 5.2 JDK9 开始接口…...
ES6 之 Set 与 Map 数据结构要点总结(一)
Set 数据结构 Set 对象允许你存储任何类型的唯一值,无论是原始值还是对象引用。 特性: 所有值都是唯一的,没有重复。值的顺序是根据添加的顺序确定的。可以使用迭代器遍历 Set。 常用方法: 1. add(value):添加一个新…...
一文学会用RKE部署高可用Kubernetes集群
k8s架构图 RKE简介 RKE全称Rancher Kubernetes Engine,是一个快速的,多功能的 Kubernetes 安装工具。通过RKE,我们可以快速的安装一个高可用K8S集群。RKE 支持多种操作系统,包括 MacOS、Linux 和 Windows。 K8S原生安装需要的先…...
数据加密的常见方法
数据加密是一门历史悠久的技术,它通过加密算法和加密密钥将明文(原始的或未加密的数据)转变为密文,而解密则是通过解密算法和解密密钥将密文恢复为明文。这一技术的核心是密码学,它利用密码技术对信息进行加密,实现信息隐蔽&#…...
天童美语:推荐给孩子的人文历史纪录片
孩子们都有自己的偏好,有的孩子喜欢打游戏,有的孩子喜欢看剧看电影,有的孩子喜欢看书。针对不同的孩子我们要因材施教,所以,广州天童教育给大家推荐一下适合给孩子看的人文历史类的纪录片,让精美的画面&…...
数字人技术如何推动教育事业可持续创新发展?
数字人技术作为一种新兴的教育手段,无论是幼儿园还是大学课堂,数字人都可以融入于各阶段教育中,结合动作捕捉、AI等技术,提高教育资源的利用。 AI智能交互数字人应用: 数字人结合NLP自然语言处理技术以及AI大模型技术…...
FPGA程序设计
在设计FPGA时,多运用模块化的思想取设计模块,将某一功能设计成module。 设计之前要先画一下模块设计图,列出输入输出接口,再进一步设计内部功能。 状态机要画图,确定每个状态和状态之间怎么切换。状态用localparam定…...
彻底开源,免费商用,上海AI实验室把大模型门槛打下来
终于,业内迎来了首个全链条大模型开源体系。 大模型领域,有人探索前沿技术,有人在加速落地,也有人正在推动整个社区进步。 就在近日,AI 社区迎来首个统一的全链条贯穿的大模型开源体系。 虽然社区有LLaMA等影响力较大…...
MTEB评估基准使用指北
文章目录 介绍评估数据 介绍 文本嵌入通常是在单一任务的少量数据集上进行评估,这些数据集未涵盖其可能应用于其他任务的情况,不清楚在语义文本相似性(semantic textual similarity, STS)等任务上的最先进嵌入是否同样适用于聚类或…...
31. 1049. 最后一块石头的重量 II, 494.目标和,474.一和零
class Solution { public:int lastStoneWeightII(vector<int>& stones) {int sum 0;for(int stone : stones) sum stone;int bagSize sum /2;vector<int> dp(bagSize 1, 0);for(int i 0; i < stones.size(); i){ //遍历物品for(int j bagSize; j >…...
PDF 中图表的解析探究
PDF 中图表的解析探究 0. 引言1. 开源方案探究 0. 引言 一直以来,对文档中的图片和表格处理都非常有挑战性。这篇文章记录一下最近工作上在这块的探究。图表分为图片和表格,这篇文章主要记录了对表格的探究。还有,我个人主要做日本项目&…...
递推(C语言)
文章目录 1.斐波那契数列2.太波那契数列3.二维递推问题4.实战4.1 力扣509 斐波那契数4.2 力扣70 爬楼梯4.3 力扣119 杨辉三角|| 递推最通俗的理解就是数列,递推和数列的关系就好比 算法 和 数据结构 的关系,数列有点 像数据结构中的线性表(可以是顺序表&…...
安卓微信8.0之后如何利用缓存找回的三天之前不可见的朋友圈图片
安卓微信8.0之后如何利用缓存找回的三天之前不可见的朋友圈图片 复习了下安卓程序的知识,我们会了解到,安卓程序清楚数据的时候有两个选项 一个是清除全部数据一个是清除缓存。 清除全部数据表示清除应用数据缓存。 对于安卓微信8.0之后而言࿰…...
ES6 Class(类) 总结(九)
ES6 中的 class 是一种面向对象编程的语法糖,提供了一种简洁的方式来定义对象的结构和行为。 JavaScript 语言中,生成实例对象的传统方法是通过构造函数。下面是一个例子。 function Point(x, y) {this.x x;this.y y; } Point.prototype.toString fu…...
使用 Vue.js 和 Element Plus 实现自动完成搜索功能
使用 Vue.js 和 Element Plus 实现自动完成搜索功能 一、前言1.环境准备2.组件配置3.后端数据请求4.样式5.总结 一、前言 在前端开发中,实现自动完成(autocomplete)功能可以极大地提升用户体验,特别是在需要用户输入和选择内容的…...
SpringBoot自定义starter
SpringBoot自定义starter 1、SpringBoot之starter机制 1.1、什么是自定义starter SpringBoot中的starter是一种非常重要的机制(自动化配置),能够抛弃以前繁杂的配置,将其统一集成进starter,应用者只需要在maven中引入starter依赖&#…...
Vim 调用外部命令学习笔记
Vim 外部命令集成完全指南 文章目录 Vim 外部命令集成完全指南核心概念理解命令语法解析语法对比 常用外部命令详解文本排序与去重文本筛选与搜索高级 grep 搜索技巧文本替换与编辑字符处理高级文本处理编程语言处理其他实用命令 范围操作示例指定行范围处理复合命令示例 实用技…...
Nginx server_name 配置说明
Nginx 是一个高性能的反向代理和负载均衡服务器,其核心配置之一是 server 块中的 server_name 指令。server_name 决定了 Nginx 如何根据客户端请求的 Host 头匹配对应的虚拟主机(Virtual Host)。 1. 简介 Nginx 使用 server_name 指令来确定…...
【Java_EE】Spring MVC
目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递 注意事项 编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据 编辑RequestBody …...
汇编常见指令
汇编常见指令 一、数据传送指令 指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX(不访问内存)XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...
九天毕昇深度学习平台 | 如何安装库?
pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子: 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...
TSN交换机正在重构工业网络,PROFINET和EtherCAT会被取代吗?
在工业自动化持续演进的今天,通信网络的角色正变得愈发关键。 2025年6月6日,为期三天的华南国际工业博览会在深圳国际会展中心(宝安)圆满落幕。作为国内工业通信领域的技术型企业,光路科技(Fiberroad&…...
【Veristand】Veristand环境安装教程-Linux RT / Windows
首先声明,此教程是针对Simulink编译模型并导入Veristand中编写的,同时需要注意的是老用户编译可能用的是Veristand Model Framework,那个是历史版本,且NI不会再维护,新版本编译支持为VeriStand Model Generation Suppo…...
在鸿蒙HarmonyOS 5中使用DevEco Studio实现指南针功能
指南针功能是许多位置服务应用的基础功能之一。下面我将详细介绍如何在HarmonyOS 5中使用DevEco Studio实现指南针功能。 1. 开发环境准备 确保已安装DevEco Studio 3.1或更高版本确保项目使用的是HarmonyOS 5.0 SDK在项目的module.json5中配置必要的权限 2. 权限配置 在mo…...
Linux中INADDR_ANY详解
在Linux网络编程中,INADDR_ANY 是一个特殊的IPv4地址常量(定义在 <netinet/in.h> 头文件中),用于表示绑定到所有可用网络接口的地址。它是服务器程序中的常见用法,允许套接字监听所有本地IP地址上的连接请求。 关…...
WinUI3开发_使用mica效果
简介 Mica(云母)是Windows10/11上的一种现代化效果,是Windows10/11上所使用的Fluent Design(设计语言)里的一个效果,Windows10/11上所使用的Fluent Design皆旨在于打造一个人类、通用和真正感觉与 Windows 一样的设计。 WinUI3就是Windows10/11上的一个…...
