当前位置：首页 > news >正文

（Arxiv，2024）Mind the Modality Gap：通过跨模态对齐建立遥感视觉语言模型

news 2026/2/10 1:14:31

文章目录

相关资料
摘要
引言
相关工作
- 对比语言图像预训练
- 遥感域专用 CLIP 模型
- 遥感中的多模态 CLIP 启发模型
方法
- 模型算法
- - - 输入阶段：
    - 输出阶段：
    - 步骤说明：
- 第一阶段：通过权重插值修补CLIP
- 将遥感图像模态与自然图像和文本对齐
实验

摘要

深度学习（DL）正在经历一场范式转变，随着基础模型的出现，这些基础模型被称为关键但不完整的模型。在这项工作中，我们专注于对比语言-图像预训练（CLIP），这是一个开放词汇基础模型，可以在许多图像分类任务中取得很高的准确率，并且通常与完全监督的基线竞争性能而无需显式训练。然而，仍然存在一些域，其中零样本CLIP性能远非最佳，例如遥感（RS）和医学图像。这些领域不仅与自然图像相比具有根本不同的分布，而且通常依赖于RGB之外的互补模态来提取有意义的见解。为此，我们提出了一种方法，目的是将不同的RS图像模态与CLIP的视觉和文本模态进行对齐。我们的两阶段过程包括对CLIP进行鲁棒微调以处理分布转移，同时伴随RS模态编码器的跨模态对齐，以扩展CLIP的零样本能力。最终，我们在RS图像分类和跨模态检索任务上展示了我们的方法。我们在几个RS基准数据集上经验性地展示，鲁棒微调和跨模态对准都能转化为显著的性能提升。值得注意的是，这些增强是在不依赖文本描述、不引入任何特定任务参数、不从头开始训练以及不引入灾难性遗忘的情况下实现的。

引言

相较于典型的图像分类器，开放词汇模型并不受限于固定的分类空间，能够使用分类名的文本描述执行任何图像分类任务。另一方面，作为基础模型的深度学习模型通常通过规模上的自监督训练，在大量通过网络爬虫方法获取的未标记数据上进行训练，它们是大型且多功能的深度学习模型，可以适用于各种下游任务。开放词汇基础模型结合了大规模预训练和处理固定词汇以外单词的能力，因此引起了极大关注，得益于其卓越性能和在不同领域的泛化能力，尤其在文本输入可能包含特定领域术语的情况下，这些模型尤其有用。
然而，在某些领域，如遥感和医学图像等领域，零样本CLIP性能仍远未达到最佳水平。尤其是在卫星场景分类方面，这是CLIP作者提出的少数任务之一，在EuroSAT数据集上，零样本CLIP表现明显低于完全监督的ResNet50基准模型，导致最大的差值（37.1%）。
为此，我们确定了卫星场景分类任务的三个主要差距，并在本研究中加以解决：

第一个差距涉及分布转移，即在训练期间使用的数据与模型部署时遇到的数据明显不同时，导致性能显著下降的潜在数据分布变化。
第二个差距来自仅依赖RGB模态所造成的信息约束。卫星影像通常利用超出RGB的辅助模态（如多光谱、高光谱和雷达数据），以及这些模态的副产品，如InSAR数据，从而获得有意义的见解。
第三个差距涉及具有卫星影像及相应文本描述对的数据集的稀缺性。
通常使用的遥感图像-文本配对数据集仅限于航空和超高分辨率商业卫星图像。这些数据集存在两个相关缺点。首先，它们不依赖于免费开放数据，如庇护神哨卫星星座数据。其次，这些数据集的空间分辨率直接关系到从场景中检索的细节级别，导致与非商业卫星数据相比具有不同的基础数据分布。这两个因素限制了它们在下游应用中的可用性。

为了解决这些差距，我们提出了一个新颖的方法学，包括两个连续阶段，旨在在CLIP的背景下对RS图像模态进行跨模态对齐。我们的研究基于OpenAI的CLIP预训练图像-文本模型的集合。在第一步中，我们定义了一个修补过程，通过使用RS数据的RGB混合图像对CLIP进行强化微调，以处理上述分布偏移，而不影响CLIP在自然图像分类任务上的零样本性能。至于第二步，我们通过将预训练的RS编码器与CLIP的视觉和文本模态进行跨模态对齐，扩展了CLIP的零样本能力。

我们的主要贡献可以总结如下：

我们提出了一种在CLIP背景下对RS图像模态进行跨模态对齐的新方法，无需依赖文本描述，无需引入任何特定于任务的参数，无需从头开始训练，也无需发生灾难性遗忘。
我们评估了修补和对齐模型的泛化能力，并在一系列著名的RS图像数据集上提供了关于RS图像分类和跨模态检索任务的广泛基准数据。

方法

让 $\{(I^1_{SAT} , y_1), . . . , (I^n_{SAT} , y_n)\}$ 成为一个标记的 RS 成像存档，其中包含 $n$ 个图像-标签对，其中 $(I^n_{SAT} , y_n)$ 是存档中的第 n 个图像-标签对。每个图像 $I^i_{SAT}$ 都有一个相应的 RGB 复合图像 $I^i_{RGB} ⊊I^i_{SAT}$ ，使用一个取决于 $I_{SAT}$ 的 RS 模态的专用函数 $T_{RGB} ()$ 生成。鉴于 RS 成像集合 $I_{SAT}$ 和相应的 RGB 复合物集合 $I_{RGB} ()$ ，以及相关的标签 $y$ ，我们旨在通过利用 RGB 复合物和标签作为锚点来学习一个共享的嵌入空间 $E$ ，以有效地对齐这些模态。目标是找到一个映射 $f: I_{SAT} ∪I_{RGB} ∪ y → E$ ，使得对于每个三元组 $(I^i_{SAT} , I^i_{RGB} , y^i )$ ，嵌入 $(I^i_{SAT} )、f (I^i_{RGB})$ 和 $f (y^i )$ 在 $E$ 中紧密对齐。最终的嵌入空间 $E$ 通过学习的表示，促进了 RS 成像模态、RGB 图像和文本之间的关联，从而实现了多模态下游任务。
为此，我们采用了一个分为两个阶段的方法，明确定义如算法 1。
在这里插入图片描述

模型算法

输入阶段：

初始化预训练的CLIP模型 M和分词器 T：加载预训练的CLIP模型和用于文本处理的分词器。
定义数据集D：包含若干图像-标签对 (xi, yi)，类别名称集合Dclassnames，以及提示集合Dprompts。
初始化预训练的卫星成像模式编码器Msat：加载用于处理卫星图像数据的预训练编码器。

输出阶段：

输出对齐的卫星编码器Msat：返回经过对齐的卫星成像模式编码器，该编码器能够与CLIP模型的视觉和文本模式更好地协同工作。

步骤说明：

创建分类头cls_head()：
- 设置CLIP模型为推理模式。
- 为每个类别创建一个分类头，通过将类别名称格式化为提示、分词、编码文本，然后归一化和平均文本嵌入。
对齐模型align(Mteach, Mstud)：
- 初始化一个冻结的分类头h，使用cls_head()创建的分类头。
- 设置Mstud（卫星成像模式编码器）为可训练状态，同时冻结Mteach（CLIP图像编码器）。
- 对于数据集中的每一对图像xi（RGB图像）和其对应的卫星图像xi，获取它们在CLIP模型和卫星编码器中的嵌入表示。
- 使用分类头h对卫星图像的嵌入进行分类，并计算损失函数，该函数是均方误差(MSE)和交叉熵(CE)的线性组合。
主函数main()：
- 步骤 1: CLIP模型修补Patching：
  - 使用BigEarthNet-S2数据集的RGB组合图像对CLIP模型进行微调。
  - 通过微调前后的权重线性插值，找到平衡修补任务和支持任务性能的混合系数α。
- 步骤 2: 跨模态对齐：
  - 加载卫星成像模式编码器Msat，并使用align()函数将其与CLIP模型的图像和文本编码器进行对齐。

这个算法的目的是通过两个阶段的处理，使得卫星成像模式编码器能够在一个共享的嵌入空间中与CLIP模型的视觉和文本模式有效对齐，从而提高遥感图像的分类和检索性能。
第一步解决卫星成像中的分布偏移，通过对 CLIP 图像编码器进行稳健的微调。
随后，在第二阶段，卫星多光谱模态嵌入与 RGB 图像和文本嵌入对齐，即将 Sentinel-2 多光谱成像对齐到 RGB 复合物和文本。由此产生的嵌入空间有效地关联了模态对，使得可以进行大量交叉模态检索和基于文本的零样本下游任务。

第一阶段：通过权重插值修补CLIP

在这里插入图片描述

Patching with Interpolation（PAINT）能显著提高在分布转变下的准确性，同时在目标分布上保持高性能。PAINT采用两步过程，包括对模型进行微调，然后在微调之前和之后的模型权重之间进行线性插值。这种方法使得模型在更多任务上实现高准确性，而无需引入任何特定任务的参数，也无需从头重新训练模型，同时避免灾难性遗忘。
为了处理自然图像与卫星图像之间的分布转变，我们首先对CLIP进行了稳健微调，如图1所示，遵循了Ilharco等人描述的补丁协议。最终，我们得到了一个精炼的嵌入空间，从而为便于进行卫星交叉模态对准阶段奠定了坚实的基础。鉴于一个开放词汇模型，即CLIP，带有权重 $W_{zs}$ ，我们在来自一个补丁任务 $D_{patch}$ 的训练数据上对 $W_{zs}$ 进行了微调，目的是产生权重 $W_{ft}$ ，在 $D_{patch}$ 上表现高准确性，而不降低已经足够良好的支持任务 $D_{supp}$ 上的性能。因此，通过保留的 $D_{patch}$ 和 $D_{supp}$ 上的留出验证集确定一个混合系数 $α \in [0, 1]$ ，以线性插值 $W_{zs}$ 和 $W_{ft}$ 并生成 $W_{patch} = (1-α)×W_{zs} +α×W_{ft}$ 。实质上， $W_{zs}$ 、 $W_{ft}$ 和 $W_{patch}$ 是CLIP图像编码器的权重。Ilharco等人[68]在微调过程中，使用CLIP的文本冻结输出作为图像编码器的输出层，以将图像特征映射到类别空间，而不是引入一个可学习的分类层。

将遥感图像模态与自然图像和文本对齐

在这里插入图片描述

在跨模态对齐阶段（如图 2 所示），我们利用第一阶段中使用的已修补的 CLIP 图像编码器 $M_{patched}$ 作为教师网络，以及一个预训练的卫星模态编码器 $M_{sat}$ 作为学生网络。为了有效地对齐这两个网络，我们采用一个基于以下假设的简单方法，即与相同样本相关的多种模态应在共享的CLIP嵌入空间中产生类似的嵌入。该过程涉及一对模态 $I_{RGB}$ 和 $I_{SAT}$ 对应于 RGB 组合和其他遥感模态。对于给定的来自这两个模态的图像 $x_i ∈ I_{RGB}$ 和其对应的样本 $\widetilde{x}_i ∈ I_{SAT}$ ，我们获得它们各自的嵌入 $E_i = M_{patched}(x_i)$ 和 $\widetilde{E}_i = M_{sat}(\widetilde{x}_i)$ 。
在嵌入维度 $E_i$ 和 $\widetilde{E}_i$ 不同的情况下，我们为学生网络 $M_{sat}$ 引入一个线性投影头，以确保输出嵌入尺寸匹配。
受知识蒸馏 [72] 损失函数以及先前的蒸馏工作 [73]-[76] 启发，通过一个联合目标函数 $L_{I,M}$ ，指导学生模仿教师的视觉和文本嵌入，该函数由交叉熵损失 $L_{CE}$ 和均方误差损失 $L_{MSE}$ 的线性组合构成。
在这里插入图片描述
$L_{CE}$ 通过使用 CLIP 文本编码器的冻结输出作为锚点利用标记数据监督确定，将图像特征映射到类别空间，而 $L_{MSE}$ 鼓励学生模仿教师的输出嵌入，与原始知识蒸馏损失的相对柔化的类别得分形成对比。

实验

在这里插入图片描述

文章目录

相关资料

摘要

引言

相关工作

对比语言图像预训练

遥感域专用 CLIP 模型

遥感中的多模态 CLIP 启发模型

方法

模型算法

输入阶段：

输出阶段：

步骤说明：

第一阶段：通过权重插值修补CLIP

将遥感图像模态与自然图像和文本对齐

实验

相关文章：