当前位置：首页 > news >正文

论文速读|Multi-Modal Disordered Representation Learning Network for TBPS.AAAI24

news 2026/6/2 6:28:11

论文地址：Multi-Modal Disordered Representation Learning Network for Description-Based Person Search
代码地址：未开源（2025.01.22）
bib引用：

@inproceedings{yang2024multi,title={Multi-Modal Disordered Representation Learning Network for Description-Based Person Search},author={Yang, Fan and Li, Wei and Yang, Menglong and Liang, Binbin and Zhang, Jianwei},booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},volume={38},number={15},pages={16316--16324},year={2024}
}

动机：全局方法忽视视觉和文本信息的细粒度细节；局部方法因手工分割或依赖额外模型，忽略了局部特征间的整体对应关系；局部+全局的方法忽视全局特征、依赖额外模型或计算量大且无法端到端训练等问题
解决方案：ViT+BERT(无序局部学习模块+跨模态交互模块）

InShort

提出了一种多模态无序表示学习网络（MDRL），用于基于描述的行人搜索，在CUHK - PEDES和ICFG - PEDES数据集上的实验结果表明，该方法优于现有方法，取得了最先进的性能。

研究背景：基于描述的行人搜索旨在通过文本描述检索目标行人的图像，是跨模态学习的关键任务，在公共安全和智能监控等领域意义重大。当前方法存在忽视局部特征全局关系、引入额外模型影响网络性能且无法端到端训练的问题。
相关工作
- 行人重识别：多种方法被提出，如分区策略、基于姿态信息的方法、结合整体与局部表示的方法等，但这些方法存在忽视全局特征、依赖额外模型或计算量大等问题。
- 基于描述的行人搜索：许多模型被设计用于完成该任务，部分方法聚焦全局层面，忽视了视觉和文本信息的细粒度细节；一些探索局部特征的方法，因手工分割或依赖额外模型，忽略了局部特征间的整体对应关系。
方法
- 总体框架：包含跨模态全局特征学习架构、局部学习模块（LLM）和跨模态交互模块（CIM），使用识别（ID）损失和跨模型投影匹配（CMPM）损失优化模型。
- 跨模态全局特征学习架构：由视觉信息学习分支和文本信息学习分支组成。视觉分支利用视觉Transformer（ViT）提取视觉表示，文本分支使用预训练语言模型BERT结合可学习的Transformer编码器学习文本嵌入。
- 无序局部学习模块：对视觉或文本嵌入令牌序列进行随机打乱和重组，结合全局特征学习局部特征，再通过局部空间Transformer编码器探索局部特征，增强网络的表示学习能力和鲁棒性。
- 跨模态交互模块：由多个跨模态交互Transformer编码器构成，将视觉和文本令牌序列连接并添加可学习的跨模态[cls]嵌入令牌，学习跨模态交互表示，促进两个分支在提取信息时考虑模态间的相关性。
实验
- 实验设置：在CUHK - PEDES和ICFG - PEDES数据集上进行评估，采用累积匹配特征曲线（CMC），以Rank - 1、Rank - 5和Rank - 10准确率作为评估指标，对图像和文本进行预处理，设置训练参数。
- 对比实验：与现有先进方法对比，在两个数据集上MDRL均取得最佳性能，在CUHK - PEDES数据集上Rank - 1准确率达74.56% ，比现有最佳方法IRRA高1.18%；在ICFG - PEDES数据集上Rank - 1准确率为65.88% ，比IRRA高2.42%。
- 消融实验：验证了各组件的有效性，无序局部学习模块（DDL）和跨模态交互模块（CIM）能提升性能；确定了可学习Transformer编码器（LTE）、CIM的合适数量，以及视觉和文本信息的最佳分割组数；证明了MDRL的无序分组方法优于传统分割方法。
研究结论：提出的MDRL能充分提取有判别力的视觉和文本特征，通过无序局部学习策略和跨模态交互，在不依赖额外辅助模型的情况下，表现出强大的判别表示学习能力，实验结果验证了其优越性。

摘要

基于描述的人物搜索旨在通过文本描述检索目标身份的图像。这项任务的挑战之一是从图像和描述中提取歧视性表示。现有的方法大多采用part based split 方法（基于分割成组件的方法）或外部模型来探索局部特征的细粒度细节，忽略了部分信息之间的全局关系，导致网络不稳定。为了克服这些问题，我们提出了一个多模态无序表示学习网络 （MDRL），用于基于描述的人物搜索，以完全提取视觉和文本表示。具体来说，我们设计了一个跨模态全局特征学习架构，从两种模态中学习全局特征，满足任务的需求。基于我们的全局网络，我们引入了无序局部学习模块，通过无序重组策略从视觉和文本两个方面探索局部特征，增强整个网络的稳健性。此外，我们引入了一个跨模态交互模块，以指导两个流在考虑模态之间的相关性的情况下提取视觉或文本表示。在两个公共数据集上进行了广泛的实验，结果表明，我们的方法在 CUHK-PEDES 和 ICFGPEDES 数据集上优于最先进的方法，并取得了卓越的性能。

Introduction

1.1. 研究现状【局部表征提取的方法大多采用hard split策略忽略了局部-全局之间的关系】

许多方法利用 Local Representation Extract 方案来丰富视觉和文本信息。然而，这些现有的方法大多采用硬分割策略，将视觉和文本表示按部分划分，提取部分信息，忽略了局部特征之间的全局关系。如果仅按局部或短语提取两种模式的局部特征，则将探索每个部分的单个细节，但它们之间的整体相关性将被破坏。例如，当两个不同的行人同时背着白色背包时，有关白色背包的信息几乎不会为行人区分提供有益的帮助。但是，当背包与其他部分线索（如蓝色外套或白色裤子）相关联时，如图 1 所示，包含整体相关性的部分表示将为最终特征的可区分性提供更有力的支持。因此，有必要探索具有全局相关性的部分表示。另一方面，其中一些方法（Wang 等人，2020 年;Jing et al. 2020）在网络中引入了额外的模型，例如语义分割、姿态估计或属性识别，以指导区域的划分。附加模型的准确性直接影响框架的性能，整个网络无法进行端到端的训练。

在这里插入图片描述

图 1：现有方法和我们的方法图示。我们设计了一种无序策略，无需额外模型即可增强局部线索的全局相关性，并增强图像/文本特征。

1.2. 本文工作【多模态无序表示学习网络：局部特征重组来学习相关性】

针对上述问题，我们提出了一种基于描述的人物搜索的多模态无序表示学习网络，以提高跨模态模型的学习能力。首先，我们构建了一个强大的跨模态全局特征学习架构来促进任务，它包含一个视觉信息学习分支和一个文本信息学习分支，分别生成图片和文本的特征。为了有效地提取图像和描述中的部分信息，我们将视觉或文本标记序列进行整合，并将它们重新组织成不同的组。与传统的分割方法不同，每组都包含整个图像或描述的随机部分。我们将图像或文本的全局表示与每个组连接起来，以了解局部特征以及来自这些无序标记序列的部分信息之间的相关性。此外，我们将视觉和文本标记序列结合起来，并在训练阶段利用识别损失将它们关联起来，以同时优化两个分支。

在这里插入图片描述

图 2：所提出的方法图示。

3. 方法

整体网络在图 2 中展示，框架包含跨模态全局特征学习架构、局部学习模块（LLM）和跨模态交互模块（CIM）。

在训练过程中，训练数据假设为 $D =$ ${I_{r}, T_{r}}_{r=1}^{G}$ ，其中 G 表示每批的图像 - 文本对数量。将行人的图像和描述都输入到全局学习架构中，利用视觉模型和语言模型学习视觉整体表示 $f_{g}^{I}$ 和文本全局表示 $f_{g}^{T}$ 。

然后，视觉补丁标记序列 ${f_{i}^{I}(i \in[1, N])}$ 和文本单词标记序列 ${f_{j}^{T}(j \in[1, M])}$ 分别由 LLM 和 CIM 处理，以学习视觉/文本局部特征和跨模态表示，i 和 j 是整数。

最后，结合识别（ID）损失和跨模型投影匹配（CMPM）损失（Zhang and Lu 2018）来监督和优化整个模型。

3.1. 跨模态全局特征学习架构

我们为基于描述的人物搜索构建了一个跨模态全局特征学习架构，其中包含一个视觉信息学习分支和一个文本信息学习分支。该管道如图 2 所示。

3.2. 视觉信息学习分支

我们利用 视觉Transformer（ViT） 提取视觉表示。给定一张图像 $I ∈ R^{(C×H×W)}$ ，其中 C、H 和 W 分别表示图像的通道数、高度和宽度。我们将图像分割为 N 个固定大小的图像块 ${I_i | i ∈ [1, N]}$ 。然后这些块被输入视觉骨干网络以学习全局视觉特征 $f_g$ 。

具体而言，我们使用一个线性投影嵌入层将每个图像块映射到 D 维空间，表示为“tokens” $x_i$ 。特征嵌入公式如下： $x_i = E(I_i) \tag{1}$ 其中，E(·) 表示线性投影嵌入层。

为了提取全局视觉表示，额外可学习的 [cls] 嵌入标记 $x_cls$ 被用于图像块序列的开始位置。由于 Transformer 的特性，平铺后的图像块在一维空间中丢失了原始的局部位置信息，因此我们利用一个可学习的位置嵌入 $P ∈ R^{(N×D)}$ 来为每个图像块学习位置信息。输入特征序列 X 的公式为： $(x_{cls}; x_1; x_2; \dots; x_N) + P \tag{2}$ 视觉骨干网络的输出公式为：
$F^1 = V(B(X)) = (f^1_g; f^2_g; \dots; f^h_g) \tag{3}$ 其中， $F^1$ 表示输出的视觉特征序列，V(B(·)) 是视觉骨干网络， $f^1_g$ 表示全局视觉特征。

3.3. 文本信息学习分支

为了学习文本表示，我们首先使用预训练的 BERT 模型。给定与行人相关的句子 Y，我们在句子开始和结尾分别添加可学习的 [cls] 和 [sep] 嵌入标记。文本标记序列公式如下： $(g_{cls}; T_1; T_2; \dots; T_M; g_{sep}) \tag{4}$
与文本标记序列类似，位置信息同样重要，因此我们添加可学习的位置嵌入 P 到文本标记序列中。文本分支的输入公式为： $(g_{cls}; T_1; T_2; \dots; T_M; g_{sep}) + P \tag{5}$
然后，我们将描述的文本序列输入到 BERT 模型中以学习其嵌入标记。值得注意的是，为了进一步增强语言表征能力，我们冻结 BERT 的参数并在其后添加可学习的 Transformer 解码器（LTE）。最终文本分支的输出公式为： $F^T = TB(Y) = (f^T_1; f^T_2; \dots; f^T_m) \tag{6}$ 其中，F^T 表示输出的文本嵌入序列，TB(·) 表示文本分支， $f^T_g$ 表示全局表示。

3.4. 无序局部学习模块

为了从视觉和文本信息中探索行人细节，我们提出了 无序局部学习模块（DLL），如图 3 所示。与传统的硬性分组方式不同，我们在训练期间动态打乱视觉标记序列 ${f^i_g | i ∈ [1, N]}$ 和文本标记序列 ${f^j_T | j ∈ [1, M]}$ ，然后将新的视觉和文本嵌入序列分成 P 和 Q 两组（假设 N 和 M 可以被 P 和 Q 整除）。通过这种随机打乱策略，每次从整体图像描述中选择一些随机嵌入，结合每组学习局部特征。视觉和文本局部标记序列公式如下：
$Z^i_g = (f_g^{i,1}, f_g^{i,2}, \dots, f_g^{i,p}), p ∈ [1, P], i ∈ [1, N]（7）$
$Z^j_T = (f_T^{j,1}, f_T^{j,2}, \dots, f_T^{j,q}), q ∈ [1, Q], j ∈ [1, M] （8）$
在文本局部序列和视觉局部序列中，分别通过自注意力层和局部共享层进行学习，公式如下：
$Z^i_g = Z^i_gW_q; \quad Z^j_T = Z^j_TW_q （9）$
$F^i_g = A·softmax(a^T_k(W_q^T/√d))（10）$
$F^i_g = A_0 + MLP(LN(A))（11）$
其中，W_q 是可学习的参数，A 是注意力层， $F^i_g$ 是局部特征，LN(·) 表示层归一化。

3.5. 跨模态交互模块CIM

虽然图像和文本是不同的模态，但描述同一个人的视觉和文本信息具有很强的相关性。因此，我们提出了一个交叉模态交互模块（CIM）来学习图像和文本的交互表示，这有利于模型对不同的人进行分类，学习两个分支的视觉和文本表示。CIM由K个交叉模态交互变压器编码器（CITE）组成，如图2所示。我们将视觉令牌序列 ${f_{i}^{I}|i\in[1， N]}$ 和文本令牌序列 ${f_{j}^{T}|j\in[1，M]}$ 连接起来，并在重组令牌序列之前添加一个可学习的交叉模态[cls]嵌入令牌 $x_{c l s}^{c}$ 来学习交叉模态交互表示。CIM的输入可以表示为
$W=x_{c l s}^{c}；f_{1}^{I}；f_{2}^{I}；…；f_{N}^{I}；f_{1}^{T}；f_{2}^{T}；…；f_{M}^{T}$

CITE的输出是
$F_{c}=CITE（W）=f_{c}；f_{1}^{c}；…；f_{N}^{c}；f_{N+1}^{c}；…；f_{N+M}^{c}$ 其中 $F_{c}$ 代表交叉模态序列， $C I TE （ - ）$ 表示交叉模态交互变压器编码器， $f_{c}$ 为交叉模态交互特征。交叉模态交互特征 $f_{c}$ 通过训练阶段的识别损失处理，很好地优化整个网络，并促进两个分支分别在提取文本或图像信息的过程中考虑模态之间的相关性。

3.6. 损失函数【ID损失+CMPM损失】

4. 实验

Implementation detail. 对所有输入图像进行尺寸调整为 384×128，并且将输入文本的长度统一为 64。接着提到整个网络训练 150 个 epoch，使用随机梯度下降（SGD）优化模型，其中权重衰减为 0.01，动量为 0.9。学习率设置为 7×10⁻⁵，并且在最初的 10 个 epoch 中通过热身技巧初始化学习率。

5. 结论

在本文中，我们提出了一个多模态无序表示学习网络，用于基于描述的人物搜索，以充分提取判别性的视觉和文本特征。通过这个网络，我们通过无序局部学习策略提取判别性局部特征，并通过结合视觉和文本信息来获得交互特征，以推动平行分支感知训练阶段模态之间的相关性。整体框架具有很强的判别表示学习能力，无需任何其他额外的辅助模型。在 CUHKPEDES 和 ICFG-PEDES 数据集上进行了广泛的实验，结果证实我们的方法优于现有的先进方法，并实现了最先进的性能。