当前位置: 首页 > news >正文

论文阅读:Ensemble Knowledge Transfer for Semantic Segmentation

论文地址:https://ieeexplore.ieee.org/document/8354272
项目及数据地址:https://github.com/ishann/aeroscapes
发表时间:2018年5月7日

语义分割网络通常以严格监督的方式学习,即它们在相似的数据分布上进行训练和测试。在域转移的存在下,性能急剧下降。在本文中,我们探索了在场景结构、视点和对象统计数据上存在显著不同的训练和测试分布的学习方法。由于空中无人机机器人技术的蓬勃发展,我们考虑了从空中视点进行语义分割的目标任务。受城市景观[11]的启发,我们引入了航空景观,这是一个新的3269张航空场景图像(由无人机舰队捕获),标注有密集的语义分割。我们的数据集在视点、场景组成和对象尺度方面不同于现有的分割数据集(专注于地面视图或室内场景领域)。我们提出了一种简单但有效的方法,将知识从如此不同的领域(其中存在大量带注释的训练数据)转移到我们的目标任务中。为此,我们通过对每个源域的渐进式微调来训练多个模型进行空中视角分割。然后,我们将这些模型集合视为一个可以聚合以显著提高性能的集成。我们展示了比广泛使用的标准基线有很大的绝对改进(8.12%)。

关键知识

1、本文核心点为知识集成(将多个不同类别标签的源域数据知识转移到标签类别存在差异的目标域中),但并未提出有效的知识集成方案,所展示的就是多模型softmax平均集成方案较优,多模型加权平均方案最优。其主要创意就是实现了从多个数据集中抽取目标知识,基于动机此我们可以从多个开源的预训练模型中直接抽取目标知识。
在这里插入图片描述

2、本文探讨了知识迁移,将室内和室外场景的数据知识迁移到航空视角,并指出不同源域中数据的冲突(同一类别在不同源中成像差异;不同类别在不同源中有结构相似性)、不同源域中的数据分布差异(类别成像面积、尺寸差异),也提到由于源域与目标域的个别类别相似会有迁移优势(相同成像特征的类别,可以直接迁移到目标域)。其在进行多源数据迁移时,使用了相同的模型(FCN模型),冻结了backbone,只训练分类层(目的是保留各个源域数据集间的信息互补性)

3、发布了一个航空视角下的数据集,具体类别包含两个大类,材料类——植被类、道路类、天空类、建筑类 |||| 物体类——人类、自行车类、汽车类、无人机类、船只类、障碍物类、动物类。该数据集从141个视频序列中获得的3269张图像,其中物体类的数据只占比1.51%。
在这里插入图片描述

4、在多模型结果集成上比较了Ensemble-Winner、Ensemble-MixMatch、Ensemble-Average和Ensemble-SoftReg四种方法,Ensemble-Winner仅比最佳单源模型强1.8%,而Ensemble-MixMatch强3%,Ensemble-Average强4.6%,Ensemble-SoftReg强5%。其篇幅很多,但其展示集成方案的是多模型平均更占优势。Ensemble-SoftReg方案具体没有说明,预计实施过程中为预测结果的线性加权。其阐述了Ensemble-Average差0.4是因为Cityscapes迁移模型对船只效果较差

1、Introduction

自然场景的像素级语义分割是一项基本的视觉识别任务。最近的历史显示,在标准分割基准方面取得了重大进展,例如,PASCAL VOC和微软COCO [13,29]。这种成功在很大程度上要归功于卷积网络的[50,28,8]。该社区还探索了分割任务,包括无定形的背景区域,如草和天空和定形的物体,如汽车和人。其他的应用程序也出现在生物医学影像等领域和卫星成像。特别是,自动驾驶已经见证了和越来越多的可用基准。

Segmentation benchmarks: 经典的语义分割基准测试集中于一般场景,包括室内和室外场景。受新型传感器的限制,许多分割基准专注于特定场景的有限视角,如城市环境的地面视角(自动驾驶车辆),和高空的俯视视角(轨道卫星)。然而,无人机技术的最新进展允许更容易地捕捉不同的视点和场景。与以前研究的领域相比,这在统计学上存在诸多的不同,这是我们工作的重点。
域适应迁移技术应用到航空数据中时,会存在较多的数据分布差异(频率差异、尺度差异)

Domain shift: 大多数深度分割模型都是在相似的数据域上进行精心训练和测试的,以获得较高的精度。在存在域转移时,经常会观察到剧烈的性能下降。实际上,跨数据集分布的域变化对于学习能够很好地推广到所有域的良好表示带来了一个主要挑战。有趣的是,另一个观点是,来自这些不同源域的表示的多源学习实际上可能有助于泛化,因为每个域都为目标任务提供了互补的信息。在我们的工作中,我们引入了一种简单的方法,为特定的目标任务从不同的源域传输适当的信息。
域迁移会导致精度下降,但也能提升泛化能力,本文为特定目标从不同域的迁移提供适当的信息

Knowledge transfer: 我们转向Knowledge transfer技术,允许我们将知识从现有的领域(存在大量的注释数据)转移到空中设置(存在有限的注释数据)。虽然从源任务到目标任务的迁移学习是一个研究良好的问题[38,49],但迄今为止最常见的方法是对源任务[18]上预先训练的模型进行微调。事实上,几乎所有的当代视觉识别系统都将知识从ImageNet [43]转移到感兴趣的目标任务上。我们使用这种方法,通过对一组适度的航空训练图像(例如,ImageNet→航空地图)进行微调,生成一个卷积网络(FCN)作为初始基线。但是,我们希望从多个领域转移知识,包括室内场景和城市环境的地视图图像(见图1)。这种具有丰富注释数据集的源域代表了我们希望利用的丰富的知识源。但是,这些知识传递的精确方式可能是独特而微妙的——一些室内物体(比如人)可以出现在户外,也许一些户外物体在空中视角下看起来很相似(比如自行车和摩托车)。
与基于ImageNet的迁移学习不同(ImageNet→多个目标域),本文意图实现将多个源域的部分知识集成到目标数据中(多个源域→一个目标域)
在这里插入图片描述

Ensemble transfer: 我们的关键见解是通过学习一套模型进行渐进微调训练的集合(ImageNet→航空地图数据集等),结合来自多个来源的知识。直观地说,集成中的每个模型都使用了不同的源知识,因此很可能会产生不同的错误(例如,PASCAL模型可能对人更准确,因为它们经常发生在PASCAL,而城市景观模型可能在车辆上更准确)。然后,我们最优地组合这些集合,以得到最终的预测。我们的集成模型比强基线提高了8.12%。
数据集存在类别偏好,PASCAL数据对人描述更为精准,而城市景观对车辆更为精准。通过集成多个源域的优势,可以提升模型性能

综上所述,本研究的贡献如下:
•我们提出了一种新的与架构无关的方法来传输存在于不同数据源中的知识,由为感兴趣的目标领域定制的丰富标记源数据集进行编码。
•我们发布了航空景观航空语义分割数据集,用于研究从多个分割基准中获取的知识的可移植性。
•我们使用全卷积网络通过实验验证了我们提出的基准测试,并报告了比经过广泛采用的最佳实践训练的强基线相比的显著改进。

2. Related Work

Semantic segmentation: 最先进的语义分割方法使用卷积网络来学习从图像空间到语义标签空间[30,9,50,28,27,12]的像素到像素的映射。这些深度神经网络的成功可以归因于大量像素级注释的可用性,以及深度网络以端到端方式从大数据中学习的能力。最成功的深度模型之一是全卷积网络(FCN)[30],它可以直接生成空间标签地图作为输出。

Multi-task learning: 多任务学习通过结合通过在每个领域[6]上的互补任务学习到的特定领域信息来改进模型的泛化。这些方法通常通过学习跨领域的表示来学习一种可推广的表示。受多任务学习范式的启发,我们提出了一个多源学习框架,它从多个源表示中学习单个目标域的表示。理论上,在多任务框架[25]下,从不同的领域学习单一表示是可能的。然而,在实践中,这需要在不同的任务之间进行适当的加权和大量的内存预算来同时处理多域数据。我们提出的多源学习框架证明了以一个简单而有效的方式取得优质的结果。

Knowledge Transfer: 语义类别的像素级注释是一项耗时的工作。很多文献采用了半监督和弱监督的学习方法来帮助这种繁琐的标签工作,这可以看作是在标签空间中的知识转移。弱监督一般作为类级标签提供特定的点标注[3],对象本地化[48],或显著性机制[21]。[39]的作者开发了一个在弱监督和半监督设置下的图像分割的期望最大化框架。最近,Chaudhry等人的[7]结合了显著性图和注意图来获得可靠的线索来提高分割性能,并有效地从类标签中探索知识。

Domain Adaptation: 领域自适应方法旨在解决不同数据域[26]之间的分布之间的差距。最近的基于深度学习的方法通过最大化混淆[14,15,47]或显式地最小化它们跨域分布之间的距离[31,32]来对齐域特征。据我们所知,[19]是唯一一种应用于语义分割的深度领域自适应方法。它涉及图像域对抗训练和类分布对齐,使得学习困难。许多领域自适应方法关注于目标域中很少或没有标记数据可用的场景。在我们的案例中,我们已经付出了相当大的努力来收集和注释航天景观数据集,因此使用完善的微调范式来将知识从多个源域转移到我们的目标航天景观域。

3. AeroScapes Semantic Segmentation Dataset

大多数分类基准测试都侧重于理解图像中的对象,而不考虑对象出现位置。背景元素为前景[36,5]中的对象提供了语义和几何上下文。例如,自动驾驶汽车可能会根据它在视线范围内识别出的道路进行导航,或者道路规划者可能会要求汽车从不试图停在空中或水上。因此,必须基于位置识别前景和背景元素。--该段不需要--

预见未来事件的能力是实时自主系统的一个关键属性,它依赖于现场理解来进行决策。适合类系统的测试台必须包含标记的图像序列[42,11]。依赖于视觉场景理解来做决策的代理也必须学会将时间信息融入到他们的表征中。因此,导航系统的评估基准必须包含视频数据。--该段不需要--

飞行器允许我们捕捉到以前未被探索过的观点和不同的环境。自动驾驶汽车只能在地面上移动,但飞行器可以自由地进行三维导航,这让我们能够捕捉到比之前的基准测试更丰富、更多样化的视觉尺度和视角。上述限制条件促使我们收集航空景观数据集1,其中包含了从在5-50米高空操作的无人机上捕获的图像。与这些图像相关的分割地图被标记为两个大类,材料类——植被类、道路类、天空类、建筑类;物体类——人类、自行车类、汽车类、无人机类、船只类、障碍物类、动物类(图2)。
在这里插入图片描述

航空航天地图数据集包括从141个视频序列中获得的3269张图像,并包含几个经过时间降采样的视频序列。航空景观中的类分布反映了在由东西和事物注释组成的典型户外图像中观察到的数据不平衡。事物类的累积权值约为数据的1.51%(图3)。
在这里插入图片描述

频率或概率只能说明数据集的部分特点(关于统计分布),成像视角(视点角度、拍摄距离)则反应了物体内容的实质性差异(如俯视图、平视图)。图4显示了来自(a) ILSVRC数据集[43]、(b) ADE20k数据集[51]和©航空航天飞机数据集的人类的代表性样本。在ILSVRC(源域)上训练的深度卷积网络很可能不会将它学习到的人类的表示与航空景观(目标域)的表示联系起来。然而,ADE20k在视觉上看起来类似于人类的航空景观。在第5节中,我们观察到对象类别的视觉外观会影响到系统在特定类上的性能。
在这里插入图片描述

4. Ensemble Knowledge Transfer

我们的主要论点是,分割基准的集体集代表了一个“元”知识源,可以应用于一个相关的,但不同的任务。重要的是,每个来源都编码了大量经过策划的人类知识,通过图像和标签表现出来。我们通过在每个数据源上训练深度网络来提取这些知识,并通过微调将知识转移到目标领域

上述过程生成一个模型集合(针对每个数据源生成一个模型),可以应用于目标域。经典的集成技术可以用于聚合预测,而压缩技术可以将集体知识提炼成单个网络[17,4]。

4.1. Motivation

自然场景中的对称性和结构往往会导致意想不到的视觉对应。我们定性地检查了源域[13,36,51]和目标域(航空图),以了解对象是否在跨域的视觉上显得相似。我们发现了一些可预测的相似之处——在户外场景中,一种盆栽植物可能就像一棵树,交通标志和交通灯可能看起来类似于像路灯这样的障碍物(图5a)。然而,在缺乏语义相似性的情况下,视觉结构和对称性也可能出现相似性——来自室内场景的风扇可能类似于室外无人机,而室内场景中的淋浴可能类似于远处的交通灯(图5b)。由于我们只从这些源域转移任务不可知的知识,这种形态上的相似性可能会转化为定量性能的改进。不同场景中目标的相似性会对性能造成影响
在这里插入图片描述

4.2. Data-driven Knowledge Transfer

知识转移依赖于保留在学习一项任务时获得的知识,并将其应用到另一项任务中。同时存在的大量像素注释的可用性和深度网络灾难性健忘的[35]性质促使我们以数据驱动的方式研究知识转移,作为解决注释可用数量有限的任务的一种手段。具体来说,我们建议从视觉上不同的领域转移知识,以学习在有限的数据下对目标领域的改进预测。

在监督学习设置中,我们有一组源域, D s , ∀ s ∈ { 1 , 2 , . . . , S } , D_{s},\forall s\in\{1,2,...,S\}, Ds,s{1,2,...,S}, 其知识在相应的分类器集合中紧凑地表示, C s , ∀ s ∈ { 1 , 2 , . . . , S } , C_{s},\forall s\in\{1,2,...,S\}, Cs,s{1,2,...,S},,哪个可以适用于目标域中的任务 D t a r g e t D_{target} Dtarget。设 X t a r g e t X_{target} Xtarget D t a r g e t D_{target} Dtarget中的图像, Y t a r g e t Y_{target} Ytarget为其关联的标签。我们利用 X t a r g e t X_{target} Xtarget在域 D s D_{s} Ds中的投影来得到表示 P s P_{s} Ps。这有助于我们整合来自 D s D_{s} Ds领域的知识:
C s ( X t a r g e t ) ⇒ P s C_s(X_{target})\Rightarrow P_s Cs(Xtarget)Ps

编码在每个表示中的互补信息 P s P_s Ps进一步用于学习一个函数 f f f,该函数 f f f聚合它们来预测目标域标签 Y t a r g e t ˆ Y^ˆ_{target} Ytargetˆ
f ( P 1 , P 2 , . . . , P S ) ⇒ Y t a r g e t ^ f(P_1,P_2,...,P_S)\Rightarrow\hat{Y_{target}} f(P1,P2,...,PS)Ytarget^

4.3. Transferring Representations Across Domains

目前最先进的语义分割方法都是基于深度神经网络的。我们的语义分割模型Cs,采用了全卷积网络(FCNs)的形式。最近已经提出了一些架构的[8,27,28]。然而,我们选择使用简单而有效的普通FCN体系结构来进行分析。

由于神经网络由数百万个参数组成,并且对训练数据分布相当敏感,因此直接使用它们作为目标域的特征提取器是不明智的。我们通过微调FCNs的较高的任务特定层,同时冻结较低的层,将从 D s D_s Ds域的投影 P s P_s Ps调整到目标域。我们认为,对网络进行部分微调是正确的策略,原因如下: (1)微调网络中较少的参数可以避免对数据有限的目标域进行过拟合。(2)重要的是,对所有层进行微调可能会导致不同源域中存在的互补信息的丢失。只微调特定于任务的层,使网络集成能够利用来自不同源领域的知识。

4.4. Learning Representation Ensembles

我们打算学习一种最优的方法来组合由分类器( C s C_s Cs)产生的表示( P s P_s Ps), 试图学习一个函数 f ( C 1 , C 2 , . . . , C S ; θ ) f(C_1,C_2,...,C_S;θ) fC1C2...CSθ,它可以预测每个像素位置上的分割标签。受hypercolumn公式[16]的启发,我们通过连接每个空间位置的类概率分布来结合S模型的预测。给定一个训练图像Xi及其地面真实分割图Yi目标,我们寻求优化以下目标:
min ⁡ θ ∑ i ∥ f ( P 1 i , P 2 i , . . . , P S i ) ; θ ) − Y t a r g e t i ∥ 2 \min_\theta\sum_i\|f(P_1^i,P_2^i,...,P_S^i);\theta)-Y_{target}^i\|^2 θminif(P1i,P2i,...,PSi);θ)Ytargeti2
我们将 f ( ⋅ ; θ ) f(·;θ) fθ建模为一个单层回归网络,以学习每个类的每个独立源域的贡献程度。在第二节中。5.2,我们将这个回归网络与其他结合来自每个源域的预测的策略进行了比较。

5. Experimental Analysis

在本节中,我们将探讨所提出的集成知识转移方法,以提高语义分割任务的性能。分析使用 Cityscapes [11], PASCAL Context [36], 和ADE20k [51]场景解析分割基准作为源域,并使用航空景观数据集(第3节)作为目标域。

我们首先简要描述了我们在独立源域上的航空景观数据集学习模型的方法,以及用于结合这些单源模型的集成知识转移网络设计。这些描述还伴随着对这些模型的性能的分析。最后,我们的分析表明,来自不同源域的互补信息提高了多源集成的性能。

Implementation Details: 我们在所有的实验中都使用了全卷积网络[30](FCNs)。我们训练了深度网络。通过随机梯度下降,使用小批量大小,1,1e−10固定学习率,0.99动量,和5e−4权重衰减。对于每个源域,我们冻结了网络的前九个卷积层,并对连续的层进行了微调。航空航天飞机数据集被划分为80%−20%的train-test。我们确保来自视频序列的图像帧只包含在训练或测试中。在我们的实验中,平均交叉点超过联合(mIOU)度量被用来报告分割性能。回归网络(第二节。5.2)采用固定的1e−2学习率、0.9动量和5e−4权重衰减进行训练。使用Caffe工具箱[20]实现网络。

5.1. Learning from Single Sources

近年来,在PASCAL VOC数据集上进行微调FCN型网都有在MS COCO数据集[29]进行先微调的中间步骤,这带来了一些性能改进。类似地,我们从公共分割基准中预先训练的几个FCN 8步网络调整为航空航天数据集的预测。我们使用的源域是PASCAL Context [36]、ADE20k [51]和Cityscapes[11]。请注意,PASCAL Context和PASCAL VOC [13]数据集包含重叠的图像,但有不同的分割图。

我们对所提出的框架进行了实证分析。我们首先对在成像集(ILSVRC)[43]上预训练的VGG-16卷积网络[44]进行微调,作为基线方法。我们在ILSVRC上预训练VGG-16网络,获得8步FCN网络。由于航空景观包含了许多小规模的对象类别,我们也训练了4步和2步的FCN网络。虽然我们观察到在FCN 8步网络上训练FCN 4步网络的性能有所提高,但FCN 2步网络并不比FCN 4步网络提供任何显著的改进。然后,我们在来自不同领域的预训练模型上重复这个过程,包括帕斯卡上下文、ADE20k和城市景观。对于每个源,我们搜索超参数,以找到知识转移的最佳设置。这就产生了三种不同的航空景观模型,其平均iou值分别为52.02%、51.62%和49.55%。每种方法的类级性能详见图7。
在这里插入图片描述

除了人和自行车外,在ILSVRC上训练的更精细分辨率网络比粗网络(FCN 8步)表现更好。我们假设,在粗糙分辨率下操作,一定程度的“模糊”有助于这些类的知识转移。这可能有助于预测,因为这些类是航空航天地图数据中最容易变形的东西类——细节可能会影响预测。使用其他知识源初始化的FCN 8步网络—— Cityscapes, PASCAL Context 、ADE20k——始终优于从ILSVRC数据初始化和训练的FCN网络。

可以预见的是,在特定领域上微调的航空航天景观模型在特定类上表现相对较好或更差。人类对任何分割基准都相当感兴趣。虽然POSCAL 人主要是大型前景物体,城市景观人类是直立的行人或司机,但ADE20k人类的一部分(如图4所示)在视觉上与空中景观人类相似。从城市景观中训练出模型在建筑方面表现更好,但在船只上表现更差。城市景观由几个类别组成,它们在视觉上类似于空中景观中的建筑,而在城市景观中没有船。令人惊讶的是,来自城市景观的模型在空中景观汽车上做得更。我们认为这是由于城市景观汽车的巨大视觉差异,它由前后景观图像组成,而空气景观是原始的俯视图汽车图像。这种类性能的不均匀性促使我们结合在不同源域上细化的模型的预测。

单源知识迁移存在局限性,每个数据都有自己的优势类别。且不同的数据集迁移后的最佳输出步幅也不同,在粗糙数据集上大步幅输出占优,而在精细数据集上小步幅输出占优

5.2. Learning from Multiple Sources

由于某些预先训练过的模型在特定的类上做得更好,所以很自然会探索赢家通吃的方法:对于每个类,选择最好的单源模型。该策略产生了53.83%的mIOU(图7中的集成赢家),比最好的单源模型好1.8%。虽然这表明组合源是有用的,但这不是一个可实现的模型。

通过结合在单一源(Sec.5.1)上学习的模型中得到的softmax分布,上述策略可以作为一个有形的系统来实现。我们从一种Ensemble-MixMatch的方法开始,从基于类级赢家的单源模型中吸收softmax分布。该模型产生55.02%的mIOU(图7中的集成混合匹配),比所有方法好1.2%。

Ensemble-MixMatch比Ensemble-Winner的方法提供了一个改进。然而,它忽略了除类赢家之外的所有表示,并丢弃了有用的信息。为每个类组合来自每个单源模型的表示的最简单策略是Ensemble-Average。这种平均集成方法产生了56.69%的mIOU(图7中的集成平均方法),比Ensemble-MixMatch比Ensemble-Winner好1.6%。这种方法假设所有的softmax分布对每个类都同等重要。

由于我们在第5.1节中观察到,某些单源模型在特定的类上相对更好或更差,所以我们现在学会了权衡和组合来自每个源网络的预测。具体来说,我们训练了一个单层回归网络,它学习在单源模型中线性地组合softmax分布。所提出的框架(图6)是通过softmax分布的后期融合得到的网络的加权平均集成,产生了57.08%的mIOU(图7中的集成softmax),比平均集成方法好0.4%。回归网络采用分层抽样的方法进行训练,以确保网络不偏向于东西类。
在这里插入图片描述

我们在图8中显示了定性的结果。第1行:提出的模型分割为人类,但单源模型失败。第2行:提出的模型分割了人类,也识别了部分障碍,但单源模型没有。第3行:单源模型不检测无人机,但提出了模型对其进行分割。
在这里插入图片描述

在多模型结果集成上比较了Ensemble-Winner、Ensemble-MixMatch、Ensemble-Average和Ensemble-SoftReg四种方法,Ensemble-Winner仅比最佳单源模型强1.8%,而Ensemble-MixMatch强3%,Ensemble-Average强4.6%,Ensemble-SoftReg强5%

Ensemble-Winner: 选用每个类的最佳单源模型的结果直接进行集成
Ensemble-MixMatch:选用每个类的最佳单源模型的softmax输出进行集成
Ensemble-Average:将所有的模型softmax输出进行一个平均
Ensemble-SoftReg: 对所有模型的softmax输出进行一个线性组合

Analysis: 由于集成模型的多样性,限制对上层任务特定层的微调有助于多源转移。Ensemble-MixMatch表现优于Ensemble-Winner表明,它能更好地处理负样本,而IOU度量是敏感的。Ensemble-Average性能优于Ensemble-MixMatch表明,从互补域中学习到的表示对于特定的类是很重要的。Ensemble-Average表现得非常好,这表明网络的集成学习了相当有效的互补表示,而简单的聚合工作得相当好。我们观察到Ensemble-Average和Ensemble-SoftReg之间的非平凡差异的唯一类别是船类。这可能是由于Cityscapes单源模型在船只上表现不佳,并降低了Ensemble-Average船分类器。

Single-source ensembles: 我们还研究了所提出的框架中性能提高的来源——多源集成的更高性能是来自多个源的互补知识的函数,还是仅仅是由于集成而增加的容量的函数?我们在奇异源域上训练等效容量的集成网络。图9显示,单源集成在一定程度上有所帮助。(单源模型和多源模型的比较。第一、第三和第五个模型代表了当单个网络从单个源域进行细化时的性能。第二、第四和第六个模型代表了从单个源域细化模型集合时的性能。第七个模型代表了我们提出的框架——从不同的源领域细化的模型集合。虽然我们观察到单源集成比单源单网络集成的性能有很小的改进,但多源集成实质上取代了其他方法。)。然而,单源集成(53.05% mIOU)的性能不如我们提出的多源方法(57.08% mIOU)。
在这里插入图片描述

6. Conclusion

全卷积网络(FCNs)已经在现有的语义分割基准测试上建立了最先进的性能。在监督设置中训练的数据驱动方法通常会在出现域转移的情况下出现性能下降。在本研究中,我们探索了跨数据在场景结构、视点和对象统计方面有显著差异的数据分布的语义分割。我们考虑了航空视点图像的语义分割,并研究了地面视图分割基准知识的可转移性。为此,我们准备并发布了航空航天地图数据集——一个由使用无人机舰队捕获的3269张航空图像(以及相关的语义分割地图)组成的集合。

我们通过从多个源域的渐进微调来训练多个模型进行空中分割。从每个领域转移的精确知识是截然不同的——室内的物体可以出现在户外,室外的物体可能在空中视点下看起来是相似的。因此,我们将从不同领域调优的模型视为一个集成,并将它们聚合以提高性能。我们通过回归网络成功地从每个源域学习了重要的组件,总体提高了8.12%。

所提出的框架不考虑底层的网络架构,并允许我们利用可能包含关键互补信息的小分割数据集。作为未来的工作,可以协同学习网络微调和预测回归,以利用来自不同数据源的信息。

相关文章:

论文阅读:Ensemble Knowledge Transfer for Semantic Segmentation

论文地址:https://ieeexplore.ieee.org/document/8354272 项目及数据地址:https://github.com/ishann/aeroscapes 发表时间:2018年5月7日 语义分割网络通常以严格监督的方式学习,即它们在相似的数据分布上进行训练和测试。在域转…...

定义函数(简单介绍)-def

定义 函数使用关键字 def,后跟函数名与括号内的形参列表。 函数语句从下一行开始,并且必须缩进。 # 定义一个函数,不包含任何操作或返回值 通常用于占位或作为将来扩展用 def do_nothing():pass def greet(name):#定义一个打招呼的函数retu…...

Mac VsCode g++编译报错:不支持C++11语法解决

编译运行时报错: [Running] cd “/Users/yiran/Documents/vs_projects/c/” && g 1116.cpp -o 1116 && "/Users/yiran/Documents/vs_projects/c/"1116 1116.cpp:28:22: warning: range-based for loop is a C11 extension [-Wc11-extensi…...

react_12

在异步操作里为状态属性赋值,需要放在 runInAction 里,否则会有警告错误 使用 store,所有使用 store 的组件,为了感知状态数据的变化,需要用 observer 包装,对应着图中 reactions import { Input } from …...

Android Mvp案例解析

目录 后端数据接口数据格式 App客户端布局逻辑主界面布局 M(Model)V(View)P(Presenter)OkhttpRetrofitRxJava网络http请求 Mvp架构-初学者MVP架构的契约者 后端数据接口 接口地址:https://apis.…...

vue的双向绑定的原理,和angular的对比

目录 前言 Vue的双向绑定用法 代码 Vue的双向绑定原理 Angular的双向绑定用法 代码 Angular的双向绑定原理 理解 效率: 虽然Vue和Angular的双向绑定原理不同,但它们都致力于提供高效的数据更新机制。但是,由于Vue使用的是数据劫持,其…...

平衡树相关笔记

引入 二叉查找树 二叉查找树(Binary Search Tree),又名二叉搜索树。满足以下性质: 对于非空的左子树,左子树点权值小于根节点。对于非空的右子树,左子树点权值大于根节点。二叉查找树的左右子树均是二叉…...

ASP.net C# 用Aspose.pdf实现pdf合并

直接上代码,供参考,备忘! using System; using System.Collections.Generic; using System.Web; using System.Web.UI; using System.Web.UI.WebControls; using System.Data; using System.Data.SqlClient; using System.Xml; using System…...

C语言实现原码一位除

具体代码如下&#xff0c;直接运行即可。 #include <stdio.h> int main() {int i, a 0, b 0, c 0, flag 3; // flag相当于指针来指明Q的位置char x[6], y[6];int R[6], Q[6], yb[6], y1[6]; // yb是-y的补码,y1为绝对值yprintf("请输入X(带一位符号位四位数值位…...

three.js点滴yan(整理后)

场景、相机和渲染器 Three.js整个系统主要包含场景Scene、相机Camera和WebGL渲染器WebGLRenderer三大块&#xff0c;其中场景又包含模型和光源。WebGL渲染器的主要作用就是把相机对应场景渲染出来&#xff0c;显示在网页Cnavas画布上。 Three.js源码 Three.js各个构造函数对应…...

VMware安装CentOS最小化开发环境导引

目录 一、概要 二、介绍 三、下载 四、安装 4.1 创建虚拟机 4.2 安装CentOS 五、配置网卡 六、配置本地安装源 七、安装软件 7.1 gcc/g 7.2 C的atomic库 7.3 java 7.4 Cmake 7.5 MariaDB客户端&#xff08;兼容mysql&#xff09; 八、用户配置文件.bash_profile…...

服务器端编程/数据库驱动程序/RESTful API:介绍

目录 服务器端编程数据库驱动程序RESTful API &#x1f44d; 点赞&#xff0c;你的认可是我创作的动力&#xff01; ⭐️ 收藏&#xff0c;你的青睐是我努力的方向&#xff01; ✏️ 评论&#xff0c;你的意见是我进步的财富&#xff01; 服务器端编程 服务器端编程是一种计…...

Qwt QwtThermo绘制温度计

1.简介 QwtThermo 是一个基于 Qt 框架的类库&#xff0c;用于创建温度计控件。它提供了一些方便的功能来展示和处理温度计相关的数据。 QwtThermo 添加了特定于温度计的功能。 使用 QwtThermo&#xff0c;可以实现以下功能&#xff1a; 设置温度范围&#xff1a;可以通过设置…...

U_boot介绍

系统移植之前的了解的&#xff1a; 首先需要移植一个 bootloader 代码&#xff0c;这个 bootloader 代码用于启动 Linux 内核&#xff0c;bootloader 有很多&#xff0c;常用的就是 U-Boot;移植好 U-Boot 以后再移植 Linux 内核&#xff0c;移植完 Linux 内核以后 Linux 还不能…...

Flink -- window(窗口)

1、窗口主要分成三大种&#xff1a; 1、Time Window &#xff08;时间窗口&#xff09;&#xff1a;固定时间触发一次窗口 a、SlidingEventTimeWindows: 滑动的事件时间窗口 public class Demo1TImeWindow {public static void main(String[] args) throws Exception {/*** 时…...

原语:串并转换器

串并转换器OSERDESE2 可被Select IO IP核调用。 OSERDESE2允许DDR功能 参考&#xff1a; FPGA原语学习与整理第二弹&#xff0c;OSERDESE2串并转换器 - 知乎 (zhihu.com) 正点原子。 ISERDESE2原语和OSERDESE2原语是串并转换器&#xff0c;他的的功能都是实现串行数据和并行…...

没网络也能安装.Net 3.5!如何脱机安装.NET Framework 3.5

.NET框架是由微软制定的一个软件框架。它有助于在Windows上运行控制台、Web或移动应用程序。此有用的工具适用于Windows设备。 如何脱机安装.NET Framework 3.5 如果你拥有Windows 10、8、8.1或7,有时第三方软件可能会导致问题。你可能会在图片中看到这样的问题。 看这张照片…...

JVM运行时数据区-虚拟机栈

目录 一、内存中的栈 二、基本内容 三、优点 四、栈的存储单位 五、栈运行原理 六、栈的内部结构 &#xff08;一&#xff09;局部变量表 &#xff08;二&#xff09;操作数栈 &#xff08;三&#xff09;动态链接 &#xff08;四&#xff09;方法返回地址 &#xf…...

Java中介者模式

目录 定义 结构 案例 优点 缺点 使用场景 定义 又叫调停模式&#xff0c;定义一个中介角色来封装一系列对象之间的交互&#xff0c;使原有对象之间的耦合松散&#xff0c;且可以独立地改变它们之间的交互。 结构 中介者模式包含以下主要角色&#xff1a; 抽象中介者角…...

前端框架Vue学习 ——(五)前端工程化Vue-cli脚手架

文章目录 Vue-cliVue项目-创建Vue项目-目录结构Vue项目-启动Vue项目-配置端口Vue项目开发流程 Vue-cli 介绍&#xff1a;Vue-cli 是 Vue 官方提供的一个脚手架&#xff0c;用于快速生成一个 Vue 的项目模版 安装 NodeJS安装 Vue-cli npm install -g vue/cliVue项目-创建 图…...

【Linux】C语言执行shell指令

在C语言中执行Shell指令 在C语言中&#xff0c;有几种方法可以执行Shell指令&#xff1a; 1. 使用system()函数 这是最简单的方法&#xff0c;包含在stdlib.h头文件中&#xff1a; #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

Nuxt.js 中的路由配置详解

Nuxt.js 通过其内置的路由系统简化了应用的路由配置&#xff0c;使得开发者可以轻松地管理页面导航和 URL 结构。路由配置主要涉及页面组件的组织、动态路由的设置以及路由元信息的配置。 自动路由生成 Nuxt.js 会根据 pages 目录下的文件结构自动生成路由配置。每个文件都会对…...

UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)

UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中&#xff0c;UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化&#xf…...

tree 树组件大数据卡顿问题优化

问题背景 项目中有用到树组件用来做文件目录&#xff0c;但是由于这个树组件的节点越来越多&#xff0c;导致页面在滚动这个树组件的时候浏览器就很容易卡死。这种问题基本上都是因为dom节点太多&#xff0c;导致的浏览器卡顿&#xff0c;这里很明显就需要用到虚拟列表的技术&…...

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

在 Spring Boot 中使用 JSP

jsp&#xff1f; 好多年没用了。重新整一下 还费了点时间&#xff0c;记录一下。 项目结构&#xff1a; pom: <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://ww…...

[USACO23FEB] Bakery S

题目描述 Bessie 开了一家面包店! 在她的面包店里&#xff0c;Bessie 有一个烤箱&#xff0c;可以在 t C t_C tC​ 的时间内生产一块饼干或在 t M t_M tM​ 单位时间内生产一块松糕。 ( 1 ≤ t C , t M ≤ 10 9 ) (1 \le t_C,t_M \le 10^9) (1≤tC​,tM​≤109)。由于空间…...

【iOS】 Block再学习

iOS Block再学习 文章目录 iOS Block再学习前言Block的三种类型__ NSGlobalBlock____ NSMallocBlock____ NSStackBlock__小结 Block底层分析Block的结构捕获自由变量捕获全局(静态)变量捕获静态变量__block修饰符forwarding指针 Block的copy时机block作为函数返回值将block赋给…...

ThreadLocal 源码

ThreadLocal 源码 此类提供线程局部变量。这些变量不同于它们的普通对应物&#xff0c;因为每个访问一个线程局部变量的线程&#xff08;通过其 get 或 set 方法&#xff09;都有自己独立初始化的变量副本。ThreadLocal 实例通常是类中的私有静态字段&#xff0c;这些类希望将…...

归并排序:分治思想的高效排序

目录 基本原理 流程图解 实现方法 递归实现 非递归实现 演示过程 时间复杂度 基本原理 归并排序(Merge Sort)是一种基于分治思想的排序算法&#xff0c;由约翰冯诺伊曼在1945年提出。其核心思想包括&#xff1a; 分割(Divide)&#xff1a;将待排序数组递归地分成两个子…...