当前位置：首页 > news >正文

【多视图学习】Self-Weighted Contrastive Fusion for Deep Multi-View Clustering

news 2025/7/10 7:35:01

Self-Weighted Contrastive Fusion for Deep Multi-View Clustering
用于深度多视图聚类的自加权对比融合
TMM 2024

代码链接
论文链接
在这里插入图片描述

0.摘要

多视图聚类可以从多个视图中探索共识信息，在过去二十年中越来越受到关注。然而，现有的工作面临两个主要挑战：i）如何处理学习视图共识信息和重建不一致的视图私有信息之间的冲突，以及ii）如何减轻由实现多视图数据的一致性目标引起的表示退化。为了解决这些挑战，我们提出了一种新的深度多视图聚类（SCMVC）的自加权对比融合框架。首先，我们的方法建立了一个层次化的特征融合框架，有效地分离了一致性目标和重建目标。然后，通过最大化视图一致性表示和全局表示之间的一致性表达来实现多视图对比融合，充分挖掘视图的一致性和互补性。更重要的是，我们提出测量成对表示之间的差异，然后引入自加权方法，自适应地加强特征融合中的有用视图，削弱不可靠视图，以减轻表示退化。在九个公共数据集上的广泛实验表明，我们提出的方法实现了最先进的聚类性能。

1.引言

随着多媒体应用的快速发展，大量的数据从各种来源收集或描述不同的属性。特别是，这些数据通常缺乏标签信息。例如，在视频的情况下，它可能包括从不同摄像机捕获的图像、具有不同声音的音频和文本描述。为了以无监督的方式探索多个视图之间有用的一致和互补信息，多视图聚类（MVC）[1]、[2]、[3]、[4]旨在整合来自不同来源的数据，以获得对潜在现象的更全面的理解。

在多视图聚类（MVC）领域，由于深度网络强大的表示学习能力，深度多视图聚类方法[5], [6] 已被证明具有优异的聚类性能。具体来说，这些方法[7]、[8]采用特定于视图的编码器网络来学习每个视图的显著特征。然后，这些学习到的视图表示被进一步融合以获得更具区分性的全局特征，该全局特征可以基于跨所有视图的互补信息被分成不同的类别。尽管近年来在深度多视图聚类领域取得了相当大的进展，但仍然存在两个主要挑战：（i）如何处理学习公共视图-共识信息和重建不一致的视图-私有信息之间的冲突，以及（ii）如何减轻由实现多视图数据的一致性目标引起的表示退化。

更具体地，多视图数据通常包含两种类型的信息，即跨所有视图的共识聚类结构[9]。有鉴于此，大多数深层MVC方法，例如[8], [10]，对潜在特征进行一致性目标，以揭示视图一致性。然而，他们倾向于忽略保留在同一特征空间中的重建目标可能会迫使显著特征冗余地重建无意义的私有信息。具体来说，前者试图尽可能多地学习所有视图的共识特征，而后者希望保持单个视图输入和输出之间的不变性。这种不一致的冲突严重限制了MVC方法。

为了应对上述挑战，已经提出了对比多视图聚类方法[9]，[11]，强调来自每个视图的表示的对齐以挖掘共识信息。尽管取得了令人满意的结果，但我们发现过度追求视图一致性可能会导致表示退化，即高质量视图将被迫与低质量视图对齐，以实现最大的视图一致性。这种副作用限制了多视图聚类任务的有效性（见图1）。此外，在对比学习过程中，全局互补信息经常被丢弃[12]。互补语义的缺乏可能会进一步加剧表征退化，从而导致无法捕获足够的区分信息。

图1。（a）典型的MCL框架：潜在嵌入 $\{\mathbf{Z}^v\}^M_{v=1}$ 被投影到一致特征空间 $\{\mathbf{R}^v\}^M_{v=1}$ 中，其中在不同视图之间实现对比学习，即 $\mathcal{L}^{m,o}_{CL}$ 和 $\mathcal{L}^{n,o}_{CL}$ 。（b）Caltech-5 V数据集上单个视图的聚类准确性。（c）具有典型MCL框架的视图1和视图4的聚类精度。高质量视图将被迫与低质量视图对齐。

为了解决上述问题，我们提出了一种新的深度多视图聚类自加权对比融合框架（SCMVC）。具体来说，围绕挑战（i），我们建立了一个分层特征融合框架，以避免重建损失直接作用于共识特征学习。首先，我们利用自动编码器从原始数据中学习低级特征。随后，堆叠两个MLP以将一致的特征学习与重建目标分开，其中线性MLP用于挖掘每个视图的视图共识信息，而另一个非线性MLP对所有潜在嵌入进行特征融合，以充分探索互补信息。基于来自不同视图的同一样本的显著表示通常相似的见解，我们在视图共识特征和全局特征之间进行多视图对比融合，以实现一致性目标。考虑到挑战（ii），我们建议首先测量成对表示之间的差异，然后在特征融合中自适应地加强有用的视图，削弱不可靠的视图。这样，具有信息语义的高质量视图将主导特征融合，同时显著减少低质量视图的影响。总括而言，我们的主要贡献如下：

•我们提出了一个分层特征融合框架，其中不同的目标在不同的特征空间中进行。通过这种方式，我们的方法可以有效地探索每个视图的共识信息，并进一步学习下游任务的全局判别表示。
•我们提出了一种新的自加权多视图对比融合范式，该范式可以在特征融合中自适应地增强具有信息语义的有用视图，同时减少不可靠视图的影响。
•在九个公共数据集上进行了广泛的实验，结果证明了我们提出的方法的最先进的聚类性能。

2.相关工作

A.多视图聚类

在本文中，我们将现有的MVC方法大致分为四类：（1）基于子空间的多视图聚类[13]，[14]。在[15]中，通过利用多个视图的互补性来学习更准确和鲁棒的latentsubspacerepresentations。Liu等[16]将锚点学习和图构建结合到一个统一的框架中。特别地，该算法通过图连通性约束直接输出聚类。（2）基于矩阵分解的多视图聚类[17]。使用非负矩阵分解将每个视图分解为低秩矩阵，然后在低维空间中对数据进行聚类[18]。魏等人[19]提出了一种基于深度矩阵分解的解决方案，其中多视图数据矩阵被逐层分解成多个表示子空间。（3）基于图的多视图聚类[20], [21]。许多方法通过引入拓扑信息来生成更有意义的聚类表示[22]。在[23]中，GraphAutoEncoder用于学习潜在聚类表示，其中采用一个信息图视图，并且潜在表示被重建为多个图视图。（4）深度嵌入多视图聚类[24]。最具代表性的工作之一是深度嵌入聚类DEC[25]，它联合学习自动编码器的聚类分配和嵌入特征。基于此，改进的DEC[26]引入了聚类和重建目标之间的权衡，以防止层模型的崩溃。此外，Yan等人[27]进一步介绍了用于深度多视图聚类任务的transformer架构，其中充分探索了所有样本的结构关系。

B.多视图对比学习

对比学习是一种新的无监督表示学习方法，旨在通过比较不同数据点之间的相似性或差异性来学习特征表示[28], [29]。在计算机视觉中，对比学习范式因其有效的特征学习能力而得到广泛应用 [30], [31]。例如，Zhong[32]通过对比学习将传统的实例级一致性提升到聚类级一致性。特别是，多视图对比学习（MCL）旨在处理多媒体应用中广泛存在的多视图数据，吸引了越来越多的关注[33], [34]。Keetal.[12]从多个视图进行对比融合，视图特定表征的特征得以保持。Xu等[9]探索了如何学习视图共识表示并避免视图私有信息的影响，其中通过对比学习来学习不同级别的特征。在文献[35]中，提出了一种双互信息约束聚类方法，其中所有维度上的互信息最小化，相似实例对的互信息最大化。尽管在许多情况下已经取得了优异的结果，但我们发现大多数先前的工作经常忽略了高质量视图将被迫与低质量视图对齐的表示退化问题，如图1。针对这一问题，本文提出了一种自加权对比融合框架（SCMVC）。

3.方法

问题陈述：给定一个多视图数据集 $\{\mathbf{X}^v\}^M_{v=1}$ ，在 $M$ 个视图中有 $N$ 个样本，其中 $\mathbf{X}^v = \{\mathbf{X}^v_1; \mathbf{X}^v_2; ...; \mathbf{X}^v_N \}∈\mathbb{R}^{N×D_v}$ ， $D_v$ 表示第 $v$ 个视图中原始特征的维数。多视图聚类旨在将 $N$ 个实例划分为 $k$ 个簇。为了提高清晰度和简洁性，表I列出了我们研究中使用的主要符号。

在这里插入图片描述
表一我们研究中使用的主要符号的描述

A.动机

通常，多视图数据集容易包含噪声和冗余信息。因此，主流方法通常实现自监督自动编码器模型，例如AE[36]、VAE[37]和MAE[38]，从原始特征中学习不同的表示。具体地，对于第 $v$ 视图，设 $E^v(\mathbf{X}^v; θ^v)$ 和 $D^v(\mathbf{Z}^v; φ^v)$ 表示多层非线性编码器和解码器，其中 $θ^v$ 和 $φ^v$ 是自动编码器网络的可学习参数，表示 $\mathbf{Z}^v = E^v(\mathbf{X}^v) ∈ \mathbb{R}^{N×d_v}$ 作为 $D_v$ 维特征空间中的潜在嵌入。然后，通过强制解码输出 $\hat{\mathbf{X}}^v = D^v(\mathbf{Z}^v) ∈ \mathbb{R}^{N×d_v}$ 与原始输入 $\mathbf{X}^v$ 一致来优化自动编码器，因此重建目标可以公式化为：
在这里插入图片描述
尽管自动编码器模型很受欢迎，但其有效性实际上受到两个主要因素的限制：（i）视图私有信息的影响：在（1）中， $\mathcal{L}_Z$ 旨在重建与输入一致的潜在嵌入 $\mathbf{Z}^v$ ，这将引入许多视图私有信息。它们毫无意义，甚至导致模型崩溃。(ii)缺乏信息交互：自动编码器仅限于其自身的视图信息，其中它缺乏跨视图交互，并且忽略了跨所有视图的互补信息。为了解决上述限制，多视图对比学习（例如，CoMVC[11]和MFLVC[9]）旨在挖掘多个视图的一致信息。具体地，如图1（a）所示，我们记下 $\mathcal{R}(\mathbf{Z}^v;Ψ)$ 作为作用于 $\{\mathbf{Z}^v\}^M_{v=1}$ 的特征MLP，以过滤掉所有视图的无意义私有信息，并且 $\mathcal{L}^{m,n}_{CL} (\mathcal{R}(\mathbf{Z}^m), \mathcal{R}(\mathbf{Z}^n))$ 表示视图对比损失。然后，通过最小化以下损失函数来实现总体目标：

在这里插入图片描述

其中一致性目标是通过对齐来自不同视图的潜在特征空间来实现的，并且 $λ > 0$ 表示折衷系数。 $d_r$ 维特征空间中的视图一致性表示 $\mathcal{R}^v = \mathcal{R}(\mathbf{Z}^v) ∈ \mathbb{R}^{N×d_r}$ 用于下游任务。

然而，如图1（b）-（c）所示，我们发现MCL可能会导致高质量视图被迫与低质量视图对齐的表示退化。主要有两个原因：1）以前的大多数工作，如（2），都是基于不同视图具有语义一致性的先验条件来实现一致性目标的。然而，不同视图中固有的特征和质量通常表现出显著的变化。低质量的视图往往会限制MCL的有效性。2）过度追求视图一致性可能模型丢弃互补信息，这将产生捕获不足语义的最终特征。

为了解决这些挑战，我们提出了一种用于深度多视图聚类（SCMVC）的自加权对比融合的新框架，如图2所示。为了充分探索跨视图互补信息，我们扩展了前面的框架，如图1（a），通过融合所有潜在特征来实现全局特征学习。然后，通过最大化视图一致性特征和全局特征之间的一致性表达来进行多视图对比融合。更重要的是，为了减轻表示退化，我们通过自加权方法实现一致性目标，该方法自适应地加强有用的视图，并减少不可靠视图的影响。总体而言，我们的优化目标是：

在这里插入图片描述
其中 $\mathcal{W}^v$ 是自适应视图权重。 $\mathbf{H}$ 和 $\mathbf{R}^v$ 表示全局表示和视图共识表示，这将在下一节中介绍。

在这里插入图片描述

图2.SCMVC的框架。我们提出了一种分层的网络架构来分离一致性目标和重构目标。具体来说，特征学习自动编码器首先将原始数据投影到低维潜在空间 $\{\mathbf{Z}^v\}^M_{v=1}$ 中。然后，两个特征MLP学习视图共识特征 $\{\mathbf{R}^v\}^M_{v=1}$ 和全局特征 $\mathbf{H}$ 。特别地，一种新的自加权方法自适应地增强特征融合中的有用视图，弱化不可靠视图，以实现多视图对比融合。

B.自加权对比融合

如上所述，由（1）获得的特征 $\{\mathbf{Z}^v\}^M_{v=1}$ 混合了共识信息和私有信息。为了解决这个问题，我们提出建立一个层次化的特征融合框架。如图3所示，我们首先将 $\{\mathbf{Z}^v\}^M_{v=1}$ 视为低级特征，并在 $\{\mathbf{Z}^v\}^M_{v=1}$ 上堆叠一个线性特征MLP $\mathcal{R}(\mathbf{Z}^v;Ψ)$ 以获得视图共识特征 $\{\mathbf{R}^v\}^M_{v=1}$ ，过滤掉无意义的私有信息。同时，与以前的MCL工作不同，如图1（a），它经常忽略互补信息。我们通过在 $\{\mathbf{Z}^v\}^M_{v=1}$ 上堆叠另一个非线性融合MLP来扩展我们的学习全局特征 $\mathbf{H}$ 的方法。这样，来自（1）中重建目标的梯度不能直接作用于 $\{\mathbf{R}^v\}^M_{v=1}$ 和 $\mathbf{H}$ 。全局表示 $\mathbf{H}$ 可以计算为：

在这里插入图片描述

其 $\hat{\mathbf{Z}} ∈ \mathbb{R}^{N×d}, d = M × d_v$ ，并且 $\mathbf{H} ∈ \mathbb{R}^{N×d_h}$ 。我们将 $Ψ$ 和 $Φ$ 表示为MLP的参数。为了保持 $\mathbf{H}$ 和 $\{\mathbf{R}^v\}^M_{v=1}$ 之间的一致性，我们设置 $d_h=d_r$ 。

在这里插入图片描述
图3。自加权对比融合框架。 $\mathbf{Z}$ 、 $\mathbf{R}$ 和 $\mathbf{H}$ 分别表示低级特征、视图共识特征和全局特征。一致性目标（即 $\mathcal{L}^{m}_{CL}$ 和 $\mathcal{L}^{n}_{CL}$ ）以自加权方式实现。

受MCL的启发，我们最大化了特征 $\{\mathbf{R}^v\}^M_{v=1}$ 和 $\mathbf{H}$ 之间的一致性表达。全局特征 $\mathbf{H}$ 可以直接从每个视图访问共识信息，而不是通过特征对齐间接获取公共语义。然后，总体目标是：

在这里插入图片描述

在一致特征空间中，学习到的全局特征 $\mathbf{H}$ 总结了每个视图的一致信息，其中来自同一样本中不同视图的这些视图一致表示 $\{\mathbf{R}^v\}^M_{v=1}$ 是相似的。因此，来自同一样本的不同视图的全局表示H和视图一致性表示 $\{\mathbf{R}^v\}^M_{v=1}$ 应该被紧密地映射在一起。在这方面，我们将 $\{\mathbf{H}_i, \mathbf{R}_j^v\}^{v=1,...,M}_{j=i}$ 表示为 $M$ 个正特征对，其余的 $\{\mathbf{H}_i, \mathbf{R}_j^v\}^{v=1,...,M}_{j\neq i}$ 表示为 $M (N - 1)$ 个负特征对。为了实现多视图对比融合，我们首先使用余弦距离来度量特征对的相似性：

在这里插入图片描述

其中 $〈 \cdot,\cdot 〉$ 是点积运算符。我们引入了一个温度参数 $τ$ 来缓和相似性的影响， $\mathbb{1}[j \neq i] ∈\{0, 1\}$ 表示指示函数。对于第 $v$ 视图，对比融合最大化正对的相似性，并最小化负对的相似性：

在这里插入图片描述
自加权法：不同视图中固有的特征和质量通常表现出显著的差异。在大多数先前的工作中，例如[11]、[24]，多视图对比学习以等和方式应用，例如 $∑_{m,n}\mathcal{L}^{m,n}_{CL}(\mathbf{R}^m, \mathbf{R}^n)$ 。直觉上，在对比学习期间，高质量的视图将被迫与低质量的视图对齐，以实现最大的一致性。为了减轻它，我们鼓励以自加权的方式进行一致性目标，即 $∑_v\mathcal{W}^v\mathcal{L}^v_{CL}(\mathbf{R}^v, \mathbf{H})$ 。这里， $\mathcal{W}^v$ 自适应地调整特征融合中每个视图的权重。具体地，如果视图是有用的并且具有信息语义，则它们之间的对比学习被适应性地加强。相反，对于不可靠的视图，它们之间的对比学习被适应性削弱。以这种方式，高质量视图将主导特征融合过程，显著减轻表示退化问题。有鉴于此，我们将多视图对比损失重新定义为：

在这里插入图片描述
其中 $\mathcal{W}^v$ 是全局表示 $\mathbf{H}$ 和视图一致性表示 $\mathbf{R}^v$ 之间的自适应权重。

在无监督的情况下，很难区分 $\{\mathbf{R}^v\}^M_{v=1}$ 中的哪些表示是无意义的噪声，哪些包含有价值的语义信息。为了简化它，我们建议测量全局特征 $\mathbf{H}$ 和视图一致特征 $\mathbf{R}$ 之间的差异。与全局特征 $\mathbf{H}$ 具有较低差异的特征 $\mathbf{R}^v$ 具有较高的相关性，因此被分配较高的视图权重，即 $\mathcal{W}^v$ 。为此，我们将 $\mathcal{D}(\mathbf{R}^v, \mathbf{H})$ 定义为 $\mathbf{H}$ 和 $\mathbf{R}^v$ 之间的差异，并将 $P (\cdot)$ 定义为权重决策函数。视图权重由以下更新：

在这里插入图片描述
为了估计不同特征对之间的相关性，最大平均差异（MMD）[39]可以基于两个视图数据 $\mathbf{X}_s = \{\mathbf{X}_i^s\}^{n_s}_{i=1}$ 和 $\mathbf{Y}_t = \{\mathbf{Y}_j^t\}^{n_t}_{j=1}$ 的期望有效地测量两个分布 $\mathbf{P}$ 和 $\mathbf{Q}$ 之间的差异。 $\mathbf{X}_s$ 和 $\mathbf{Y}_t$ 分别由分布 $\mathbf{P}$ 和 $\mathbf{Q}$ 生成。在数学上，MMD可以表示为：

在这里插入图片描述

其中 $\mathbb{H}$ 表示再生核希尔伯特空间（RHKS）， $φ (\cdot)$ 是非线性特征映射函数（例如，高斯核）。然后，得到方程两边：

在这里插入图片描述
在再生核希尔伯特空间中， $k(\mathbf{X}_i^s, \mathbf{Y}_j^t)$ 表示 $φ(\mathbf{X}_i^s)$ 和 $φ(\mathbf{Y}_j^t)$ 的内积。我们扩展（11）和 $MMD^2$ 最终可以公式化为：

在这里插入图片描述

最后，实现MMD来估计特征 $\mathbf{R}^v$ 和全局特征 $\mathbf{H}$ 之间的差异，即 $\mathcal{D}(\mathbf{R}^v, \mathbf{H})$ 。特别地，MMD是一种非参数方法，它避免了关于分布形式的特定假设，允许它适用于各种数据类型。我们使用线性核（即 $k(x, y)=x^T y$ ）来投影表示RKHS.由于特征 $\mathbf{R}^v$ 具有与全局特征 $\mathbf{H}$ 相同的大小，因此 $\mathcal{D}(\mathbf{R}^v, \mathbf{H})$ 可以表示为：

在这里插入图片描述

考虑到与全局特征 $\mathbf{H}$ 具有较低差异的特征 $\mathbf{R}^v$ 应该被加权较高的值，我们采用归一化权重决策函数 $\mathcal{P}(\mathcal{D}(\mathbf{R}^v, \mathbf{H})) = Softmax(−\mathcal{D}(\mathbf{R}^v, \mathbf{H}))$ 来计算权重 $\mathcal{W}^v$ 。最终视图权重通过以下方式更新：

在这里插入图片描述
因此，视图共识特征可以写成 $\mathbf{R}^v = \mathcal{R}(E(\mathbf{X}^v))$ ，允许它们过滤掉 $\{\mathbf{Z}^v\}^M_{v=1}$ 的视图私有信息。全局特征可以写成 $\mathbf{H} = \mathcal{F}([\mathbf{Z}^1, \mathbf{Z}^2,...,\mathbf{Z}^M ])$ ，充分探索跨视图共识和互补信息。更重要的是， $\mathcal{W}^v$ 自适应地调整 $\mathbf{H}$ 和 $\{\mathbf{R}^v\}^M_{v=1}$ 之间的一致性目标，其中有用的视图将主导特征融合，而不可靠的视图被削弱，显著减轻了表示退化。总体而言，我们提出的SCMVC的损失是：

在这里插入图片描述
其中 $\mathcal{L}_Z$ 和 $\mathcal{L}_{CL}$ 是在不同特征空间中进行的重建和一致性目标。由于我们的自加权方法，我们不需要权重参数来平衡不同的损失，即减少（5）中的超参数 $λ$ 。

C.聚类模块

对于最终的聚类任务，我们在全局特征 $\mathbf{H}$ 上采用k-means算法来获得所有样本的聚类结果。具体地，学习到的全局表示 $\mathbf{H}$ 被分解如下：

在这里插入图片描述

其中 $\mathbf{U} ∈ \mathbb{R}^{N×K}$ 是聚类指标矩阵。 $\mathbf{C} ∈ \mathbb{R}^{K×d_h}$ 是聚类的中心矩阵。

D.优化

算法1总结了SCMVC的整个优化过程。模型由多个自动编码器模型和两个MLP组成。具体来说，我们采用小批量梯度下降算法来优化模型。首先，所有自动编码器都由（1）初始化。其次，通过（3）进行自加权对比融合以实现一致性目标。最后，我们通过（4）计算全局表示，并且可以通过（16）获得聚类指示矩阵。

在这里插入图片描述

4.实验

4.1 实验设置

1）多视图数据集描述：为了全面评估我们提出的模型SCMVC的性能，我们在九个公开可用的多视图数据集上进行了实验，如表II所示。具体来说，有四个小规模多视图数据集，包括MNIST-USPS [40]、BDGP[41]、Prokaryotic[42]、Synthetic3d[43]来验证SCMVC在多视图任务中的有效性。此外，为了进一步探索模型泛化，我们选择了四个大规模数据集，即CCV[44]、时尚[45]、Cifar10、1 Cifar1001。最后，我们基于Caltech [46]构建了四个数据集，“Caltech-XV”表示它由 $X$ 个视图组成，允许随着视图数量的增加，我们将研究我们的模型鲁棒性。

在这里插入图片描述
2）比较方法：为了证明我们提出的SCMVC的性能，我们将其与10种最先进的多视图聚类方法进行了比较：

浅层多视图聚类方法：CGD：通过跨视图图扩散的多视图聚类[47]，LMVSC：大规模多视图子空间聚类[48]，EOMSC：高效一次多视图子空间聚类[16]。

深度多视图聚类方法：DEMVC：具有协作训练的深度嵌入多视图聚类[49]，CoMVC：对比多视图聚类 [11]，CONAN：用于多视图聚类的对比融合网络[12]，MFLVC：用于对比多视图聚类的多级特征学习[9]，DSMVC：深度安全多视图聚类[24], GCFAggMVC:用于多视图聚类的全局和交叉视图特征聚合[27]，以及DealMVC：用于多视图聚类的双对比校准[50]。其中，CoMVC、CONAN、MFLVC、GCFAggMVC和DealMVC采用多视图对比学习来实现一致性目标。

3）评估度量：应用三个广泛使用的度量来评估聚类性能，即聚类准确率（ACC）、归一化互信息（NMI）和纯度（PUR）。这些指标的值越高，聚类结果越好。报告了所有多视图聚类方法的10次运行的平均值。

4）实现细节：将所有数据集重塑为向量，并使用具有类似架构的全连接（Fc）自动编码器来提取低级特征 $\{\mathbf{Z}^v\}^M_{v=1}$ 。具体来说，对于每个视图，编码器的结构为：Input-FC500-FC500-FC2000-FC64，并且解码器与编码器不对称。之后，我们使用线性MLP（构造为输入（64）-Fc20）来提取视图一致性特征 $\{\mathbf{R}^v\}^M_{v=1}$ ，以及另一个具有两层架构的非线性MLP，即输入（M × 64）-FC256-FC20，来学习全局特征H。以下设置对于所有实验数据集都是相同的。ReLU激活功能用于除输出层之外的所有层中。Adam被选为优化器，默认学习率为0.0003。实验在配备英特尔®酷睿™i5-9300H CPU@2.40 GHz、16.0 GB RAM和TITAN XGPU(12GB缓存)的Windows PC上进行。

B.比较结果分析

八个数据集的比较结果如表III和表IV所示。我们可以观察到，所提出的SCMVC比以前的MVC方法取得了最好的结果。特别地，我们有以下观察结果：（1）比较三种浅层多视图聚类方法（即GCD、LMVSC和EOMSC），我们可以发现这些方法试图从原始数据中学习数据子空间表示或图结构关系，而保留了许多无意义的私有信息。这些信息对学习潜在特征是有害的，甚至会导致模型崩溃。（2）比较两种传统的深度多视图聚类方法（即DEMVC和DSMVC），我们可以发现这些方法实现了自动编码器模型来从原始数据中学习显著表示，其中一致性和重建目标保留在相同的特征空间中。无意义的视图私有信息不断被重构，进而产生次优解。

在这里插入图片描述
表III所有方法在四个小数据集上的结果

表IV所有方法在四个大数据集上的结果

此外，我们的方法优于以前的对比多视图聚类方法（即CONAN、CoMVC、MFLVC、GCFAggMVC和DealMVC）。具体来说，我们发现：（3）在CoMVC和MFLVC中，它们通过对齐每个视图的表示来探索视图一致性，这具有负面影响，因为缺乏全局互补信息容易产生劣质解。以原核数据集为例，与MFLVC和CoMVC相比，我们提出的SCMVC分别将ACC提高了27.0%和31.8%。（4）在CONAN和GCFAggMVC中，它们通过对比融合的方式获得一致的特征表示。然而，它们平等地对待每个视图，其中低质量的视图可能主导整个特征融合过程，因此对聚类有害。以CCV数据集为例，与第二好的基线GCFAggMVC相比，我们提出的SCMVC将ACC提高了5.2%。总之，我们提出的SCMVC方法通过全局信息聚合增强了视图互补性，并强调了特征融合中的高质量视图，以更有效地学习全局特征。

为了进一步验证我们的SCMVC方法随着视图数量增加的鲁棒性，我们在Caltech数据集上测试了不同视图数量的性能。表V显示了与所选竞争对手的比较结果。我们可以观察到，与以前的MVC方法相比，我们提出的SCMVC更健壮。这是因为我们在（8）中提出的自加权方法可以自适应地加强有用的视图，并且可以减少不可靠的视图，这显著地减轻了全局特征丢弃有用的语义，从而表现出很强的鲁棒性。

在这里插入图片描述
表V Caltech数据上所有多视图聚类方法的结果

C.模型分析

1）聚类结果的可视化：为了可视化地研究所提出的SCMVC的有效性，应用t-SNE算法[51]来可视化不同级别的潜在嵌入的分布，即特征 $\mathbf{Z}$ 、 $\mathbf{R}$ 和 $\mathbf{H}$ 。如图5所示，全局特征的聚类比低级特征 $\mathbf{Z}$ 和视图一致特征 $\mathbf{R}$ 更清晰，表现出更密集的聚类结构。这些结果都证实了SCMVC的有效性。

在这里插入图片描述
图5。（A-D）BDGP数据集的可视化结果。（e-h）MNIST-USPS数据集上的可视化结果。具体地，特征 $\mathbf{Z}$ 、 $\mathbf{R}$ 和 $\mathbf{H}$ 分别表示低级特征、视图共识特征和全局特征。

2）收敛性分析：不难发现重构目标 $\mathcal{L}_Z$ 与一致性目标 $\mathcal{L}_{CL}$ 即（（1），（7））都是凸函数。如图4所示，可以观察到损失值单调下降，直到达到收敛，而ACC和NMI的值表现出最初的逐渐增加，然后在狭窄的范围内波动。这些结果证实了SCMVC的收敛性。

在这里插入图片描述
图4。（A-C）分别在MNIST-USPS、Syntheic 3D和Caltech-5V上进行训练过程分析（即损失和性能变化）。

3）参数敏感性分析：由于我们精心设计的自加权对比融合框架，我们不需要大量的超参数来平衡不同的损失组成。具体来说，在本节中，我们探索（7）的超参数 $τ$ 的最佳设置。图8示出了当超参数 $τ$ 在{0.1、0.3、0.5、0.7、1}的范围内调谐时SCMVC的ACC、NMI和PUR。我们可以观察到：（1）当 $τ$ 处于较小值时，所提出的SCMVC的聚类性能下降。这可能是因为过度追求视图一致性可能导致固有特征空间不可分离。(2)当 $τ$ 值增大时，聚类性能逐渐恢复，在0.5~1范围内它们对 $τ$ 不敏感。根据经验，我们为CCV数据集设置 $τ = 0.3$ ，为所有Caltech数据集设置 $τ = 0.5$ ，为其他多视图数据集设置 $τ = 1$ 。

在这里插入图片描述
图8。（a-c）五个多视图数据集的参数敏感性分析，包括MNIST-USPS、Fashion、BDGP、Synthetic3d和Prokaryotic。

4）视图加权分析：自加权方法是SCMVC中的关键组成部分之一，它自适应地增强特征融合中有用的视图，弱化不可靠的视图。在本节中，我们进一步探索自加权方法如何调整多视图对比学习。具体地，图6分别示出了Caltech-5V、Prokaryotic和CCV数据集上不同视图的权重随迭代的变化。我们可以发现：（1）最初，不同的权重被分配给不同的视图。高质量视图由更高的值加权，低质量视图被去加权。相应地，具有高质量视图的对比学习将得到加强，同时减轻由与低质量视图对齐引起的损失，如图7所示。（2）随着迭代次数的增加，不同视图的权重逐渐收敛。这是因为多视图对比学习能够快速缩小同视图之间的语义差距，其中视图共识特征 $\mathbf{R}_v$ 和全局特征 $\mathbf{H}$ 之间的差异逐渐变得一致。

在这里插入图片描述
图6。分别查看Caltech-5 V、Synthetic3d和CCV数据集的加权分析。不同视图首先被赋予不同的权重，随着迭代次数的增加，不同视图的权重趋于收敛。

在这里插入图片描述
图7。不同质量视图的ACC变化分别与Caltech-5 V、Synthetic3d和CCV数据集上的对比学习迭代有关。全局特征可以从高质量视图中学习可靠的语义，同时减少低质量视图的影响。

以Caltech-5 V数据集为例，如图1（b）所示，我们可以观察到视图4是高质量视图，而视图1是低质量视图。相应地，我们的自加权方法为视图4给出了更高的权重，同时在图6（a）中对视图1进行了去加权。这样，全局特征可以更好地与高质量视图4对齐，而与低质量视图1的对比学习被自适应地削弱。如图7（a）所示，全局特征能够有效地保持与高质量视图的一致性，从而从可靠的视图中学习更多有用的语义。最后，随着迭代的增加，视图1和视图4的权重逐渐收敛到平均值，以实现一致性目标。值得注意的是，如图7（b）所示，受益于互补信息的全局特征倾向于实现优异的聚类性能。这些结果证明了我们提出的自加权多视图对比融合方法的有效性。

D.消融研究

1）损失组件：为了了解所提出的SCMVC组件的有效性，我们单独移除每个组件以观察性能的变化。具体来说，（a）MCL表示关于损失成分的多视图对比学习表VI消融研究，以实现一致性目标。（B）SEW表示自适应地对每个视图加权的自加权方法。（C）SCMVC表示我们方法的完整多视图对比融合。如表VI所示，MCL，即LCL，在SCMVC中起着至关重要的作用，如果没有它，模型性能显示CCV、Caltech-5 V和Prokaryotic数据集的ACC分别下降了10.9%、20.0%和14.3%。这是因为在没有LCL的情况下计算的全局特征 $\mathbf{H}$ 受到来自每个视图的固有不相关信息的干扰，这严重影响了聚类性能。此外，SEW可以进一步优化整个多视图对比融合框架，其中模型性能通过在CCV、Caltech-5 V和原核数据集上，ACC中分别为9.7%、5.6%和10.9%。这些结果证实了所提出的MCL和SEW的有效性。

在这里插入图片描述
2）分层特征融合框架：在我们的SCMVC中，我们引入了一个分层特征融合框架，其中不同的目标在不同的特征空间中进行。与以前的MCL框架如图1（a）相比，我们的框架通过特征融合进一步探索跨视图互补信息。同时，重新设计了视图一致特征和全局特征之间的一致性目标。为了进一步验证我们的架构的优越性，我们在不同级别的特征上执行k-means算法，如图9和10所示。特别是，对于多个视图的结果，我们选择它们最好的一个。结果表明，我们的分层特征融合框架可以使高级特征，即视图共识特征和全局特征，捕获更可靠的语义信息。同时，全局特征对于下游聚类任务表现出最佳性能。

在这里插入图片描述
图9。低级特征Z、视图共识特征R和全局特征H在三个小规模多视图数据集上的聚类性能。

在这里插入图片描述
图10。低级特征Z、视图共识特征R和全局特征H在三个大规模多视图数据集上的聚类性能。

5.结论

在本文中，我们提出了一种新的用于深度多视图聚类的自加权对比融合框架，其中一致性目标与重建目标有效分离。为了充分探索视图的一致性和互补性，我们最大化了全局特征和视图共识特征之间的共识表达，全局特征总结了每个视图的全局公共信息。特别地，引入了自加权方法来自适应地增强特征融合中的有用视图，弱化不可靠视图，显著缓解了表示退化问题。在九个公共数据集上的广泛实验结果表明，我们提出的方法优于最先进的多视图聚类方法。

0.摘要

1.引言

2.相关工作

A.多视图聚类

B.多视图对比学习

3.方法

A.动机

B.自加权对比融合

C.聚类模块

D.优化

4.实验

4.1 实验设置

B.比较结果分析

C.模型分析

D.消融研究

5.结论

相关文章：