当前位置: 首页 > news >正文

【多视图学习】Self-Weighted Contrastive Fusion for Deep Multi-View Clustering

Self-Weighted Contrastive Fusion for Deep Multi-View Clustering
用于深度多视图聚类的自加权对比融合
TMM 2024

代码链接
论文链接
在这里插入图片描述

0.摘要

多视图聚类可以从多个视图中探索共识信息,在过去二十年中越来越受到关注。然而,现有的工作面临两个主要挑战:i)如何处理学习视图共识信息和重建不一致的视图私有信息之间的冲突,以及ii)如何减轻由实现多视图数据的一致性目标引起的表示退化。为了解决这些挑战,我们提出了一种新的深度多视图聚类(SCMVC)的自加权对比融合框架。首先,我们的方法建立了一个层次化的特征融合框架,有效地分离了一致性目标和重建目标。然后,通过最大化视图一致性表示和全局表示之间的一致性表达来实现多视图对比融合,充分挖掘视图的一致性和互补性。更重要的是,我们提出测量成对表示之间的差异,然后引入自加权方法,自适应地加强特征融合中的有用视图,削弱不可靠视图,以减轻表示退化。在九个公共数据集上的广泛实验表明,我们提出的方法实现了最先进的聚类性能。

1.引言

随着多媒体应用的快速发展,大量的数据从各种来源收集或描述不同的属性。特别是,这些数据通常缺乏标签信息。例如,在视频的情况下,它可能包括从不同摄像机捕获的图像、具有不同声音的音频和文本描述。为了以无监督的方式探索多个视图之间有用的一致和互补信息,多视图聚类(MVC)[1]、[2]、[3]、[4]旨在整合来自不同来源的数据,以获得对潜在现象的更全面的理解。

在多视图聚类(MVC)领域,由于深度网络强大的表示学习能力,深度多视图聚类方法[5], [6] 已被证明具有优异的聚类性能。具体来说,这些方法[7]、[8]采用特定于视图的编码器网络来学习每个视图的显著特征。然后,这些学习到的视图表示被进一步融合以获得更具区分性的全局特征,该全局特征可以基于跨所有视图的互补信息被分成不同的类别。尽管近年来在深度多视图聚类领域取得了相当大的进展,但仍然存在两个主要挑战:(i)如何处理学习公共视图-共识信息和重建不一致的视图-私有信息之间的冲突,以及(ii)如何减轻由实现多视图数据的一致性目标引起的表示退化。

更具体地,多视图数据通常包含两种类型的信息,即跨所有视图的共识聚类结构[9]。有鉴于此,大多数深层MVC方法,例如[8], [10],对潜在特征进行一致性目标,以揭示视图一致性。然而,他们倾向于忽略保留在同一特征空间中的重建目标可能会迫使显著特征冗余地重建无意义的私有信息。具体来说,前者试图尽可能多地学习所有视图的共识特征,而后者希望保持单个视图输入和输出之间的不变性。这种不一致的冲突严重限制了MVC方法。

为了应对上述挑战,已经提出了对比多视图聚类方法[9],[11],强调来自每个视图的表示的对齐以挖掘共识信息。尽管取得了令人满意的结果,但我们发现过度追求视图一致性可能会导致表示退化,即高质量视图将被迫与低质量视图对齐,以实现最大的视图一致性。这种副作用限制了多视图聚类任务的有效性(见图1)。此外,在对比学习过程中,全局互补信息经常被丢弃[12]。互补语义的缺乏可能会进一步加剧表征退化,从而导致无法捕获足够的区分信息。

图1。(a)典型的MCL框架:潜在嵌入 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M被投影到一致特征空间 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M中,其中在不同视图之间实现对比学习,即 L C L m , o \mathcal{L}^{m,o}_{CL} LCLm,o L C L n , o \mathcal{L}^{n,o}_{CL} LCLn,o。(b)Caltech-5 V数据集上单个视图的聚类准确性。(c)具有典型MCL框架的视图1和视图4的聚类精度。高质量视图将被迫与低质量视图对齐。

为了解决上述问题,我们提出了一种新的深度多视图聚类自加权对比融合框架(SCMVC)。具体来说,围绕挑战(i),我们建立了一个分层特征融合框架,以避免重建损失直接作用于共识特征学习。首先,我们利用自动编码器从原始数据中学习低级特征。随后,堆叠两个MLP以将一致的特征学习与重建目标分开,其中线性MLP用于挖掘每个视图的视图共识信息,而另一个非线性MLP对所有潜在嵌入进行特征融合,以充分探索互补信息。基于来自不同视图的同一样本的显著表示通常相似的见解,我们在视图共识特征和全局特征之间进行多视图对比融合,以实现一致性目标。考虑到挑战(ii),我们建议首先测量成对表示之间的差异,然后在特征融合中自适应地加强有用的视图,削弱不可靠的视图。这样,具有信息语义的高质量视图将主导特征融合,同时显著减少低质量视图的影响。总括而言,我们的主要贡献如下:

•我们提出了一个分层特征融合框架,其中不同的目标在不同的特征空间中进行。通过这种方式,我们的方法可以有效地探索每个视图的共识信息,并进一步学习下游任务的全局判别表示。
•我们提出了一种新的自加权多视图对比融合范式,该范式可以在特征融合中自适应地增强具有信息语义的有用视图,同时减少不可靠视图的影响。
•在九个公共数据集上进行了广泛的实验,结果证明了我们提出的方法的最先进的聚类性能。

2.相关工作

A.多视图聚类

在本文中,我们将现有的MVC方法大致分为四类:(1)基于子空间的多视图聚类[13],[14]。在[15]中,通过利用多个视图的互补性来学习更准确和鲁棒的latentsubspacerepresentations。Liu等[16]将锚点学习和图构建结合到一个统一的框架中。特别地,该算法通过图连通性约束直接输出聚类。(2)基于矩阵分解的多视图聚类[17]。使用非负矩阵分解将每个视图分解为低秩矩阵,然后在低维空间中对数据进行聚类[18]。魏等人[19]提出了一种基于深度矩阵分解的解决方案,其中多视图数据矩阵被逐层分解成多个表示子空间。(3)基于图的多视图聚类[20], [21]。许多方法通过引入拓扑信息来生成更有意义的聚类表示[22]。在[23]中,GraphAutoEncoder用于学习潜在聚类表示,其中采用一个信息图视图,并且潜在表示被重建为多个图视图。(4)深度嵌入多视图聚类[24]。最具代表性的工作之一是深度嵌入聚类DEC[25],它联合学习自动编码器的聚类分配和嵌入特征。基于此,改进的DEC[26]引入了聚类和重建目标之间的权衡,以防止层模型的崩溃。此外,Yan等人[27]进一步介绍了用于深度多视图聚类任务的transformer架构,其中充分探索了所有样本的结构关系。

B.多视图对比学习

对比学习是一种新的无监督表示学习方法,旨在通过比较不同数据点之间的相似性或差异性来学习特征表示[28], [29]。在计算机视觉中,对比学习范式因其有效的特征学习能力而得到广泛应用 [30], [31]。例如,Zhong[32]通过对比学习将传统的实例级一致性提升到聚类级一致性。特别是,多视图对比学习(MCL)旨在处理多媒体应用中广泛存在的多视图数据,吸引了越来越多的关注[33], [34]。Keetal.[12]从多个视图进行对比融合,视图特定表征的特征得以保持。Xu等[9]探索了如何学习视图共识表示并避免视图私有信息的影响,其中通过对比学习来学习不同级别的特征。在文献[35]中,提出了一种双互信息约束聚类方法,其中所有维度上的互信息最小化,相似实例对的互信息最大化。尽管在许多情况下已经取得了优异的结果,但我们发现大多数先前的工作经常忽略了高质量视图将被迫与低质量视图对齐的表示退化问题,如图1。针对这一问题,本文提出了一种自加权对比融合框架(SCMVC)。

3.方法

问题陈述:给定一个多视图数据集 { X v } v = 1 M \{\mathbf{X}^v\}^M_{v=1} {Xv}v=1M,在 M M M个视图中有 N N N个样本,其中 X v = { X 1 v ; X 2 v ; . . . ; X N v } ∈ R N × D v \mathbf{X}^v = \{\mathbf{X}^v_1; \mathbf{X}^v_2; ...; \mathbf{X}^v_N \}∈\mathbb{R}^{N×D_v} Xv={X1v;X2v;...;XNv}RN×Dv D v D_v Dv表示第 v v v个视图中原始特征的维数。多视图聚类旨在将 N N N个实例划分为 k k k个簇。为了提高清晰度和简洁性,表I列出了我们研究中使用的主要符号。

在这里插入图片描述
表一我们研究中使用的主要符号的描述

A.动机

通常,多视图数据集容易包含噪声和冗余信息。因此,主流方法通常实现自监督自动编码器模型,例如AE[36]、VAE[37]和MAE[38],从原始特征中学习不同的表示。具体地,对于第 v v v视图,设 E v ( X v ; θ v ) E^v(\mathbf{X}^v; θ^v) Ev(Xv;θv) D v ( Z v ; φ v ) D^v(\mathbf{Z}^v; φ^v) Dv(Zv;φv)表示多层非线性编码器和解码器,其中 θ v θ^v θv φ v φ^v φv是自动编码器网络的可学习参数,表示 Z v = E v ( X v ) ∈ R N × d v \mathbf{Z}^v = E^v(\mathbf{X}^v) ∈ \mathbb{R}^{N×d_v} Zv=Ev(Xv)RN×dv作为 D v D_v Dv维特征空间中的潜在嵌入。然后,通过强制解码输出 X ^ v = D v ( Z v ) ∈ R N × d v \hat{\mathbf{X}}^v = D^v(\mathbf{Z}^v) ∈ \mathbb{R}^{N×d_v} X^v=Dv(Zv)RN×dv与原始输入 X v \mathbf{X}^v Xv一致来优化自动编码器,因此重建目标可以公式化为:
在这里插入图片描述
尽管自动编码器模型很受欢迎,但其有效性实际上受到两个主要因素的限制:(i)视图私有信息的影响:在(1)中, L Z \mathcal{L}_Z LZ旨在重建与输入一致的潜在嵌入 Z v \mathbf{Z}^v Zv,这将引入许多视图私有信息。它们毫无意义,甚至导致模型崩溃。(ii)缺乏信息交互:自动编码器仅限于其自身的视图信息,其中它缺乏跨视图交互,并且忽略了跨所有视图的互补信息。为了解决上述限制,多视图对比学习(例如,CoMVC[11]和MFLVC[9])旨在挖掘多个视图的一致信息。具体地,如图1(a)所示,我们记下 R ( Z v ; Ψ ) \mathcal{R}(\mathbf{Z}^v;Ψ) R(Zv;Ψ)作为作用于 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M的特征MLP,以过滤掉所有视图的无意义私有信息,并且 L C L m , n ( R ( Z m ) , R ( Z n ) ) \mathcal{L}^{m,n}_{CL} (\mathcal{R}(\mathbf{Z}^m), \mathcal{R}(\mathbf{Z}^n)) LCLm,n(R(Zm),R(Zn))表示视图对比损失。然后,通过最小化以下损失函数来实现总体目标:

在这里插入图片描述

其中一致性目标是通过对齐来自不同视图的潜在特征空间来实现的,并且 λ > 0 λ > 0 λ>0表示折衷系数。 d r d_r dr维特征空间中的视图一致性表示 R v = R ( Z v ) ∈ R N × d r \mathcal{R}^v = \mathcal{R}(\mathbf{Z}^v) ∈ \mathbb{R}^{N×d_r} Rv=R(Zv)RN×dr用于下游任务。

然而,如图1(b)-(c)所示,我们发现MCL可能会导致高质量视图被迫与低质量视图对齐的表示退化。主要有两个原因:1)以前的大多数工作,如(2),都是基于不同视图具有语义一致性的先验条件来实现一致性目标的。然而,不同视图中固有的特征和质量通常表现出显著的变化。低质量的视图往往会限制MCL的有效性。2)过度追求视图一致性可能模型丢弃互补信息,这将产生捕获不足语义的最终特征。

为了解决这些挑战,我们提出了一种用于深度多视图聚类(SCMVC)的自加权对比融合的新框架,如图2所示。为了充分探索跨视图互补信息,我们扩展了前面的框架,如图1(a),通过融合所有潜在特征来实现全局特征学习。然后,通过最大化视图一致性特征和全局特征之间的一致性表达来进行多视图对比融合。更重要的是,为了减轻表示退化,我们通过自加权方法实现一致性目标,该方法自适应地加强有用的视图,并减少不可靠视图的影响。总体而言,我们的优化目标是:

在这里插入图片描述
其中 W v \mathcal{W}^v Wv是自适应视图权重。 H \mathbf{H} H R v \mathbf{R}^v Rv表示全局表示和视图共识表示,这将在下一节中介绍。

在这里插入图片描述

图2.SCMVC的框架。我们提出了一种分层的网络架构来分离一致性目标和重构目标。具体来说,特征学习自动编码器首先将原始数据投影到低维潜在空间 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M中。然后,两个特征MLP学习视图共识特征 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M和全局特征 H \mathbf{H} H。特别地,一种新的自加权方法自适应地增强特征融合中的有用视图,弱化不可靠视图,以实现多视图对比融合。

B.自加权对比融合

如上所述,由(1)获得的特征 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M混合了共识信息和私有信息。为了解决这个问题,我们提出建立一个层次化的特征融合框架。如图3所示,我们首先将 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M视为低级特征,并在 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M上堆叠一个线性特征MLP R ( Z v ; Ψ ) \mathcal{R}(\mathbf{Z}^v;Ψ) R(Zv;Ψ)以获得视图共识特征 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M,过滤掉无意义的私有信息。同时,与以前的MCL工作不同,如图1(a),它经常忽略互补信息。我们通过在 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M上堆叠另一个非线性融合MLP来扩展我们的学习全局特征 H \mathbf{H} H的方法。这样,来自(1)中重建目标的梯度不能直接作用于 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M H \mathbf{H} H。全局表示 H \mathbf{H} H可以计算为:

在这里插入图片描述

Z ^ ∈ R N × d , d = M × d v \hat{\mathbf{Z}} ∈ \mathbb{R}^{N×d}, d = M × d_v Z^RN×d,d=M×dv,并且 H ∈ R N × d h \mathbf{H} ∈ \mathbb{R}^{N×d_h} HRN×dh。我们将 Ψ Ψ Ψ Φ Φ Φ表示为MLP的参数。为了保持 H \mathbf{H} H { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M之间的一致性,我们设置 d h = d r d_h=d_r dh=dr

在这里插入图片描述
图3。自加权对比融合框架。 Z \mathbf{Z} Z R \mathbf{R} R H \mathbf{H} H分别表示低级特征、视图共识特征和全局特征。一致性目标(即 L C L m \mathcal{L}^{m}_{CL} LCLm L C L n \mathcal{L}^{n}_{CL} LCLn)以自加权方式实现。

受MCL的启发,我们最大化了特征 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M H \mathbf{H} H之间的一致性表达。全局特征 H \mathbf{H} H可以直接从每个视图访问共识信息,而不是通过特征对齐间接获取公共语义。然后,总体目标是:

在这里插入图片描述

在一致特征空间中,学习到的全局特征 H \mathbf{H} H总结了每个视图的一致信息,其中来自同一样本中不同视图的这些视图一致表示 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M是相似的。因此,来自同一样本的不同视图的全局表示H和视图一致性表示 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M应该被紧密地映射在一起。在这方面,我们将 { H i , R j v } j = i v = 1 , . . . , M \{\mathbf{H}_i, \mathbf{R}_j^v\}^{v=1,...,M}_{j=i} {Hi,Rjv}j=iv=1,...,M表示为 M M M个正特征对,其余的 { H i , R j v } j ≠ i v = 1 , . . . , M \{\mathbf{H}_i, \mathbf{R}_j^v\}^{v=1,...,M}_{j\neq i} {Hi,Rjv}j=iv=1,...,M表示为 M ( N − 1 ) M (N − 1) M(N1)个负特征对。为了实现多视图对比融合,我们首先使用余弦距离来度量特征对的相似性:

在这里插入图片描述

其中 〈 ⋅ , ⋅ 〉 〈·, ·〉 ⋅,⋅是点积运算符。我们引入了一个温度参数 τ τ τ来缓和相似性的影响, 1 [ j ≠ i ] ∈ { 0 , 1 } \mathbb{1}[j \neq i] ∈\{0, 1\} 1[j=i]{0,1}表示指示函数。对于第 v v v视图,对比融合最大化正对的相似性,并最小化负对的相似性:

在这里插入图片描述
自加权法:不同视图中固有的特征和质量通常表现出显著的差异。在大多数先前的工作中,例如[11]、[24],多视图对比学习以等和方式应用,例如 ∑ m , n L C L m , n ( R m , R n ) ∑_{m,n}\mathcal{L}^{m,n}_{CL}(\mathbf{R}^m, \mathbf{R}^n) m,nLCLm,n(Rm,Rn)。直觉上,在对比学习期间,高质量的视图将被迫与低质量的视图对齐,以实现最大的一致性。为了减轻它,我们鼓励以自加权的方式进行一致性目标,即 ∑ v W v L C L v ( R v , H ) ∑_v\mathcal{W}^v\mathcal{L}^v_{CL}(\mathbf{R}^v, \mathbf{H}) vWvLCLv(Rv,H)。这里, W v \mathcal{W}^v Wv自适应地调整特征融合中每个视图的权重。具体地,如果视图是有用的并且具有信息语义,则它们之间的对比学习被适应性地加强。相反,对于不可靠的视图,它们之间的对比学习被适应性削弱。以这种方式,高质量视图将主导特征融合过程,显著减轻表示退化问题。有鉴于此,我们将多视图对比损失重新定义为:

在这里插入图片描述
其中 W v \mathcal{W}^v Wv是全局表示 H \mathbf{H} H和视图一致性表示 R v \mathbf{R}^v Rv之间的自适应权重。

在无监督的情况下,很难区分 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M中的哪些表示是无意义的噪声,哪些包含有价值的语义信息。为了简化它,我们建议测量全局特征 H \mathbf{H} H和视图一致特征 R \mathbf{R} R之间的差异。与全局特征 H \mathbf{H} H具有较低差异的特征 R v \mathbf{R}^v Rv具有较高的相关性,因此被分配较高的视图权重,即 W v \mathcal{W}^v Wv。为此,我们将 D ( R v , H ) \mathcal{D}(\mathbf{R}^v, \mathbf{H}) D(Rv,H)定义为 H \mathbf{H} H R v \mathbf{R}^v Rv之间的差异,并将 P ( ⋅ ) P(·) P()定义为权重决策函数。视图权重由以下更新:

在这里插入图片描述
为了估计不同特征对之间的相关性,最大平均差异(MMD)[39]可以基于两个视图数据 X s = { X i s } i = 1 n s \mathbf{X}_s = \{\mathbf{X}_i^s\}^{n_s}_{i=1} Xs={Xis}i=1ns Y t = { Y j t } j = 1 n t \mathbf{Y}_t = \{\mathbf{Y}_j^t\}^{n_t}_{j=1} Yt={Yjt}j=1nt的期望有效地测量两个分布 P \mathbf{P} P Q \mathbf{Q} Q之间的差异。 X s \mathbf{X}_s Xs Y t \mathbf{Y}_t Yt分别由分布 P \mathbf{P} P Q \mathbf{Q} Q生成。在数学上,MMD可以表示为:

在这里插入图片描述

其中 H \mathbb{H} H表示再生核希尔伯特空间(RHKS), φ ( ⋅ ) φ(·) φ()是非线性特征映射函数(例如,高斯核)。然后,得到方程两边:

在这里插入图片描述
在再生核希尔伯特空间中, k ( X i s , Y j t ) k(\mathbf{X}_i^s, \mathbf{Y}_j^t) k(Xis,Yjt)表示 φ ( X i s ) φ(\mathbf{X}_i^s) φ(Xis) φ ( Y j t ) φ(\mathbf{Y}_j^t) φ(Yjt)的内积。我们扩展(11)和 M M D 2 MMD^2 MMD2最终可以公式化为:

在这里插入图片描述

最后,实现MMD来估计特征 R v \mathbf{R}^v Rv和全局特征 H \mathbf{H} H之间的差异,即 D ( R v , H ) \mathcal{D}(\mathbf{R}^v, \mathbf{H}) D(Rv,H)。特别地,MMD是一种非参数方法,它避免了关于分布形式的特定假设,允许它适用于各种数据类型。我们使用线性核(即 k ( x , y ) = x T y k(x, y)=x^T y k(x,y)=xTy)来投影表示RKHS.由于特征 R v \mathbf{R}^v Rv具有与全局特征 H \mathbf{H} H相同的大小,因此 D ( R v , H ) \mathcal{D}(\mathbf{R}^v, \mathbf{H}) D(Rv,H)可以表示为:

在这里插入图片描述

考虑到与全局特征 H \mathbf{H} H具有较低差异的特征 R v \mathbf{R}^v Rv应该被加权较高的值,我们采用归一化权重决策函数 P ( D ( R v , H ) ) = S o f t m a x ( − D ( R v , H ) ) \mathcal{P}(\mathcal{D}(\mathbf{R}^v, \mathbf{H})) = Softmax(−\mathcal{D}(\mathbf{R}^v, \mathbf{H})) P(D(Rv,H))=Softmax(D(Rv,H))来计算权重 W v \mathcal{W}^v Wv。最终视图权重通过以下方式更新:

在这里插入图片描述
因此,视图共识特征可以写成 R v = R ( E ( X v ) ) \mathbf{R}^v = \mathcal{R}(E(\mathbf{X}^v)) Rv=R(E(Xv)),允许它们过滤掉 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M的视图私有信息。全局特征可以写成 H = F ( [ Z 1 , Z 2 , . . . , Z M ] ) \mathbf{H} = \mathcal{F}([\mathbf{Z}^1, \mathbf{Z}^2,...,\mathbf{Z}^M ]) H=F([Z1,Z2,...,ZM]),充分探索跨视图共识和互补信息。更重要的是, W v \mathcal{W}^v Wv自适应地调整 H \mathbf{H} H { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M之间的一致性目标,其中有用的视图将主导特征融合,而不可靠的视图被削弱,显著减轻了表示退化。总体而言,我们提出的SCMVC的损失是:

在这里插入图片描述
其中 L Z \mathcal{L}_Z LZ L C L \mathcal{L}_{CL} LCL是在不同特征空间中进行的重建和一致性目标。由于我们的自加权方法,我们不需要权重参数来平衡不同的损失,即减少(5)中的超参数 λ λ λ

C.聚类模块

对于最终的聚类任务,我们在全局特征 H \mathbf{H} H上采用k-means算法来获得所有样本的聚类结果。具体地,学习到的全局表示 H \mathbf{H} H被分解如下:

在这里插入图片描述

其中 U ∈ R N × K \mathbf{U} ∈ \mathbb{R}^{N×K} URN×K是聚类指标矩阵。 C ∈ R K × d h \mathbf{C} ∈ \mathbb{R}^{K×d_h} CRK×dh是聚类的中心矩阵。

D.优化

算法1总结了SCMVC的整个优化过程。模型由多个自动编码器模型和两个MLP组成。具体来说,我们采用小批量梯度下降算法来优化模型。首先,所有自动编码器都由(1)初始化。其次,通过(3)进行自加权对比融合以实现一致性目标。最后,我们通过(4)计算全局表示,并且可以通过(16)获得聚类指示矩阵。

在这里插入图片描述

4.实验

4.1 实验设置

1)多视图数据集描述:为了全面评估我们提出的模型SCMVC的性能,我们在九个公开可用的多视图数据集上进行了实验,如表II所示。具体来说,有四个小规模多视图数据集,包括MNIST-USPS [40]、BDGP[41]、Prokaryotic[42]、Synthetic3d[43]来验证SCMVC在多视图任务中的有效性。此外,为了进一步探索模型泛化,我们选择了四个大规模数据集,即CCV[44]、时尚[45]、Cifar10、1 Cifar1001。最后,我们基于Caltech [46]构建了四个数据集,“Caltech-XV”表示它由 X X X个视图组成,允许随着视图数量的增加,我们将研究我们的模型鲁棒性。

在这里插入图片描述
2)比较方法:为了证明我们提出的SCMVC的性能,我们将其与10种最先进的多视图聚类方法进行了比较:

浅层多视图聚类方法:CGD:通过跨视图图扩散的多视图聚类[47],LMVSC:大规模多视图子空间聚类[48],EOMSC:高效一次多视图子空间聚类[16]。

深度多视图聚类方法:DEMVC:具有协作训练的深度嵌入多视图聚类[49],CoMVC:对比多视图聚类 [11],CONAN:用于多视图聚类的对比融合网络[12],MFLVC:用于对比多视图聚类的多级特征学习[9],DSMVC:深度安全多视图聚类[24], GCFAggMVC:用于多视图聚类的全局和交叉视图特征聚合[27],以及DealMVC:用于多视图聚类的双对比校准[50]。其中,CoMVC、CONAN、MFLVC、GCFAggMVC和DealMVC采用多视图对比学习来实现一致性目标。

3)评估度量:应用三个广泛使用的度量来评估聚类性能,即聚类准确率(ACC)、归一化互信息(NMI)和纯度(PUR)。这些指标的值越高,聚类结果越好。报告了所有多视图聚类方法的10次运行的平均值。

4)实现细节:将所有数据集重塑为向量,并使用具有类似架构的全连接(Fc)自动编码器来提取低级特征 { Z v } v = 1 M \{\mathbf{Z}^v\}^M_{v=1} {Zv}v=1M。具体来说,对于每个视图,编码器的结构为:Input-FC500-FC500-FC2000-FC64,并且解码器与编码器不对称。之后,我们使用线性MLP(构造为输入(64)-Fc20)来提取视图一致性特征 { R v } v = 1 M \{\mathbf{R}^v\}^M_{v=1} {Rv}v=1M,以及另一个具有两层架构的非线性MLP,即输入(M × 64)-FC256-FC20,来学习全局特征H。以下设置对于所有实验数据集都是相同的。ReLU激活功能用于除输出层之外的所有层中。Adam被选为优化器,默认学习率为0.0003。实验在配备英特尔®酷睿™i5-9300H CPU@2.40 GHz、16.0 GB RAM和TITAN XGPU(12GB缓存)的Windows PC上进行。

B.比较结果分析

八个数据集的比较结果如表III和表IV所示。我们可以观察到,所提出的SCMVC比以前的MVC方法取得了最好的结果。特别地,我们有以下观察结果:(1)比较三种浅层多视图聚类方法(即GCD、LMVSC和EOMSC),我们可以发现这些方法试图从原始数据中学习数据子空间表示或图结构关系,而保留了许多无意义的私有信息。这些信息对学习潜在特征是有害的,甚至会导致模型崩溃。(2)比较两种传统的深度多视图聚类方法(即DEMVC和DSMVC),我们可以发现这些方法实现了自动编码器模型来从原始数据中学习显著表示,其中一致性和重建目标保留在相同的特征空间中。无意义的视图私有信息不断被重构,进而产生次优解。

在这里插入图片描述
表III所有方法在四个小数据集上的结果
在这里插入图片描述
表IV所有方法在四个大数据集上的结果

此外,我们的方法优于以前的对比多视图聚类方法(即CONAN、CoMVC、MFLVC、GCFAggMVC和DealMVC)。具体来说,我们发现:(3)在CoMVC和MFLVC中,它们通过对齐每个视图的表示来探索视图一致性,这具有负面影响,因为缺乏全局互补信息容易产生劣质解。以原核数据集为例,与MFLVC和CoMVC相比,我们提出的SCMVC分别将ACC提高了27.0%和31.8%。(4)在CONAN和GCFAggMVC中,它们通过对比融合的方式获得一致的特征表示。然而,它们平等地对待每个视图,其中低质量的视图可能主导整个特征融合过程,因此对聚类有害。以CCV数据集为例,与第二好的基线GCFAggMVC相比,我们提出的SCMVC将ACC提高了5.2%。总之,我们提出的SCMVC方法通过全局信息聚合增强了视图互补性,并强调了特征融合中的高质量视图,以更有效地学习全局特征。

为了进一步验证我们的SCMVC方法随着视图数量增加的鲁棒性,我们在Caltech数据集上测试了不同视图数量的性能。表V显示了与所选竞争对手的比较结果。我们可以观察到,与以前的MVC方法相比,我们提出的SCMVC更健壮。这是因为我们在(8)中提出的自加权方法可以自适应地加强有用的视图,并且可以减少不可靠的视图,这显著地减轻了全局特征丢弃有用的语义,从而表现出很强的鲁棒性。

在这里插入图片描述
表V Caltech数据上所有多视图聚类方法的结果

C.模型分析

1)聚类结果的可视化:为了可视化地研究所提出的SCMVC的有效性,应用t-SNE算法[51]来可视化不同级别的潜在嵌入的分布,即特征 Z \mathbf{Z} Z R \mathbf{R} R H \mathbf{H} H。如图5所示,全局特征的聚类比低级特征 Z \mathbf{Z} Z和视图一致特征 R \mathbf{R} R更清晰,表现出更密集的聚类结构。这些结果都证实了SCMVC的有效性。

在这里插入图片描述
图5。(A-D)BDGP数据集的可视化结果。(e-h)MNIST-USPS数据集上的可视化结果。具体地,特征 Z \mathbf{Z} Z R \mathbf{R} R H \mathbf{H} H分别表示低级特征、视图共识特征和全局特征。

2)收敛性分析:不难发现重构目标 L Z \mathcal{L}_Z LZ与一致性目标 L C L \mathcal{L}_{CL} LCL即((1),(7))都是凸函数。如图4所示,可以观察到损失值单调下降,直到达到收敛,而ACC和NMI的值表现出最初的逐渐增加,然后在狭窄的范围内波动。这些结果证实了SCMVC的收敛性。

在这里插入图片描述
图4。(A-C)分别在MNIST-USPS、Syntheic 3D和Caltech-5V上进行训练过程分析(即损失和性能变化)。

3)参数敏感性分析:由于我们精心设计的自加权对比融合框架,我们不需要大量的超参数来平衡不同的损失组成。具体来说,在本节中,我们探索(7)的超参数 τ τ τ的最佳设置。图8示出了当超参数 τ τ τ在{0.1、0.3、0.5、0.7、1}的范围内调谐时SCMVC的ACC、NMI和PUR。我们可以观察到:(1)当 τ τ τ处于较小值时,所提出的SCMVC的聚类性能下降。这可能是因为过度追求视图一致性可能导致固有特征空间不可分离。(2)当 τ τ τ值增大时,聚类性能逐渐恢复,在0.5~1范围内它们对 τ τ τ不敏感。根据经验,我们为CCV数据集设置 τ = 0.3 τ=0.3 τ=0.3,为所有Caltech数据集设置 τ = 0.5 τ=0.5 τ=0.5,为其他多视图数据集设置 τ = 1 τ=1 τ=1

在这里插入图片描述
图8。(a-c)五个多视图数据集的参数敏感性分析,包括MNIST-USPS、Fashion、BDGP、Synthetic3d和Prokaryotic。

4)视图加权分析:自加权方法是SCMVC中的关键组成部分之一,它自适应地增强特征融合中有用的视图,弱化不可靠的视图。在本节中,我们进一步探索自加权方法如何调整多视图对比学习。具体地,图6分别示出了Caltech-5V、Prokaryotic和CCV数据集上不同视图的权重随迭代的变化。我们可以发现:(1)最初,不同的权重被分配给不同的视图。高质量视图由更高的值加权,低质量视图被去加权。相应地,具有高质量视图的对比学习将得到加强,同时减轻由与低质量视图对齐引起的损失,如图7所示。(2)随着迭代次数的增加,不同视图的权重逐渐收敛。这是因为多视图对比学习能够快速缩小同视图之间的语义差距,其中视图共识特征 R v \mathbf{R}_v Rv和全局特征 H \mathbf{H} H之间的差异逐渐变得一致。

在这里插入图片描述
图6。分别查看Caltech-5 V、Synthetic3d和CCV数据集的加权分析。不同视图首先被赋予不同的权重,随着迭代次数的增加,不同视图的权重趋于收敛。

在这里插入图片描述
图7。不同质量视图的ACC变化分别与Caltech-5 V、Synthetic3d和CCV数据集上的对比学习迭代有关。全局特征可以从高质量视图中学习可靠的语义,同时减少低质量视图的影响。

以Caltech-5 V数据集为例,如图1(b)所示,我们可以观察到视图4是高质量视图,而视图1是低质量视图。相应地,我们的自加权方法为视图4给出了更高的权重,同时在图6(a)中对视图1进行了去加权。这样,全局特征可以更好地与高质量视图4对齐,而与低质量视图1的对比学习被自适应地削弱。如图7(a)所示,全局特征能够有效地保持与高质量视图的一致性,从而从可靠的视图中学习更多有用的语义。最后,随着迭代的增加,视图1和视图4的权重逐渐收敛到平均值,以实现一致性目标。值得注意的是,如图7(b)所示,受益于互补信息的全局特征倾向于实现优异的聚类性能。这些结果证明了我们提出的自加权多视图对比融合方法的有效性。

D.消融研究

1)损失组件:为了了解所提出的SCMVC组件的有效性,我们单独移除每个组件以观察性能的变化。具体来说,(a)MCL表示关于损失成分的多视图对比学习表VI消融研究,以实现一致性目标。(B)SEW表示自适应地对每个视图加权的自加权方法。(C)SCMVC表示我们方法的完整多视图对比融合。如表VI所示,MCL,即LCL,在SCMVC中起着至关重要的作用,如果没有它,模型性能显示CCV、Caltech-5 V和Prokaryotic数据集的ACC分别下降了10.9%、20.0%和14.3%。这是因为在没有LCL的情况下计算的全局特征 H \mathbf{H} H受到来自每个视图的固有不相关信息的干扰,这严重影响了聚类性能。此外,SEW可以进一步优化整个多视图对比融合框架,其中模型性能通过在CCV、Caltech-5 V和原核数据集上,ACC中分别为9.7%、5.6%和10.9%。这些结果证实了所提出的MCL和SEW的有效性。

在这里插入图片描述
2)分层特征融合框架:在我们的SCMVC中,我们引入了一个分层特征融合框架,其中不同的目标在不同的特征空间中进行。与以前的MCL框架如图1(a)相比,我们的框架通过特征融合进一步探索跨视图互补信息。同时,重新设计了视图一致特征和全局特征之间的一致性目标。为了进一步验证我们的架构的优越性,我们在不同级别的特征上执行k-means算法,如图9和10所示。特别是,对于多个视图的结果,我们选择它们最好的一个。结果表明,我们的分层特征融合框架可以使高级特征,即视图共识特征和全局特征,捕获更可靠的语义信息。同时,全局特征对于下游聚类任务表现出最佳性能。

在这里插入图片描述
图9。低级特征Z、视图共识特征R和全局特征H在三个小规模多视图数据集上的聚类性能。

在这里插入图片描述
图10。低级特征Z、视图共识特征R和全局特征H在三个大规模多视图数据集上的聚类性能。

5.结论

在本文中,我们提出了一种新的用于深度多视图聚类的自加权对比融合框架,其中一致性目标与重建目标有效分离。为了充分探索视图的一致性和互补性,我们最大化了全局特征和视图共识特征之间的共识表达,全局特征总结了每个视图的全局公共信息。特别地,引入了自加权方法来自适应地增强特征融合中的有用视图,弱化不可靠视图,显著缓解了表示退化问题。在九个公共数据集上的广泛实验结果表明,我们提出的方法优于最先进的多视图聚类方法。

相关文章:

【多视图学习】Self-Weighted Contrastive Fusion for Deep Multi-View Clustering

Self-Weighted Contrastive Fusion for Deep Multi-View Clustering 用于深度多视图聚类的自加权对比融合 TMM 2024 代码链接 论文链接 0.摘要 多视图聚类可以从多个视图中探索共识信息,在过去二十年中越来越受到关注。然而,现有的工作面临两个主要挑…...

ASK-HAR:多尺度特征提取的深度学习模型

一、探索多尺度特征提取方法 在近年来,随着智能家居智能系统和传感技术的快速发展,人类活动识别(HAR)技术已经成为一个备受瞩目的研究领域。HAR技术的核心在于通过各种跟踪设备和测量手段,如传感器和摄像头&#xff0…...

C语言:数据的存储

本文重点: 1. 数据类型详细介绍 2. 整形在内存中的存储:原码、反码、补码 3. 大小端字节序介绍及判断 4. 浮点型在内存中的存储解析 数据类型结构的介绍: 类型的基本归类: 整型家族 浮点家族 构造类型: 指针类型&…...

深入理解动态规划(dp)--(提前要对dfs有了解)

前言:对于动态规划:该算法思维是在dfs基础上演化发展来的,所以我不想讲的是看到一个题怎样直接用动态规划来解决,而是说先用dfs搜索,一步步优化,这个过程叫做动态规划。(该文章教你怎样一步步的…...

单片机基础模块学习——数码管(二)

一、数码管模块代码 这部分包括将数码管想要显示的字符转换成对应段码的函数,另外还包括数码管显示函数 值得注意的是对于小数点和不显示部分的处理方式 由于小数点没有单独占一位,所以这里用到了两个变量i,j用于跳过小数点导致的占据其他字符显示在数…...

【大数据】机器学习----------强化学习机器学习阶段尾声

一、强化学习的基本概念 注: 圈图与折线图引用知乎博主斜杠青年 1. 任务与奖赏 任务:强化学习的目标是让智能体(agent)在一个环境(environment)中采取一系列行动(actions)以完成一个…...

flink写parquet解决timestamp时间格式字段问题

背景 Apache Parquet 是一种开源的列式数据文件格式,旨在实现高效的数据存储和检索。它提供高性能压缩和编码方案(encoding schemes)来批量处理复杂数据,并且受到许多编程语言和分析工具的支持。 在我们通过flink写入parquet文件的时候,会遇到timestamp时间格式写入的问题。…...

redis实现lamp架构缓存

redis服务器环境下mysql实现lamp架构缓存 ip角色环境192.168.242.49缓存服务器Redis2.2.7192.168.242.50mysql服务器mysql192.168.242.51web端php ***默认已安装好redis,mysql 三台服务器时间同步(非常重要) # 下载ntpdate yum -y install…...

正则表达式中常见的贪婪词

1. * 含义:匹配前面的元素零次或者多次。示例:对于正则表达式 a*,在字符串 "aaaa" 中,它会匹配整个 "aaaa",因为它会尽可能多地匹配 a 字符。代码示例(Python)&#xff1a…...

CF 339A.Helpful Maths(Java实现)

题目分析 输入一串式子,输出从小到大排列的式子 思路分析 如上所说核心思路,但是我要使用笨方法,输入一串式子用split分割开,但是此时需要用到转义字符,即函数内参数不能直接使用“”,而是“\\”。分割开后…...

SQL 指南

SQL 指南 引言 SQL(Structured Query Language,结构化查询语言)是一种用于管理关系数据库系统的标准计算机语言。自1970年代问世以来,SQL已经成为了数据库管理和数据操作的事实标准。本文旨在为初学者和有经验的数据库用户提供一个全面的SQL指南,涵盖SQL的基础知识、高级…...

DDD架构实战第七讲总结:分层模型和代码组织

云架构师系列课程之DDD架构实战第七讲总结:分层模型和代码组织 一、引言 在前几讲中,我们介绍了领域驱动设计(DDD)的基本构造块和生命周期模型中的聚合。本讲将重点讨论如何将这些构造块和代码组织起来,探讨分层架构和六边形模型,以及如何组织代码结构。 二、工厂和资…...

Python “字典” 实战案例:5个项目开发实例

Python “字典” 实战案例:5个项目开发实例 内容摘要 本文包括 5 个使用 Python 字典的综合应用实例。具体是: 电影推荐系统配置文件解析器选票统计与排序电话黄页管理系统缓存系统(LRU 缓存) 以上每一个实例均有完整的程序代…...

(一)QT的简介与环境配置WIN11

目录 一、QT的概述 二、QT的下载 三、简单编程 常用快捷键 一、QT的概述 简介 Qt(发音:[kjuːt],类似“cute”)是一个跨平台的开发库,主要用于开发图形用户界面(GUI)应用程序,…...

在 Windows 系统上,将 Ubuntu 从 C 盘 迁移到 D 盘

在 Windows 系统上,如果你使用的是 WSL(Windows Subsystem for Linux)并安装了 Ubuntu,你可以将 Ubuntu 从 C 盘 迁移到 D 盘。迁移过程涉及导出当前的 Ubuntu 发行版,然后将其导入到 D 盘的目标目录。以下是详细的步骤…...

vue2的$el.querySelector在vue3中怎么写

这个也属于直接操作 dom 了,不建议在项目中这样操作,不过我是在vue2升级vue3的时候遇到的,是以前同事写的代码,也没办法 先来看一下对比 在vue2中获取实例是直接通过 this.$refs.xxx 获取绑定属性 refxxx 的实例,并且…...

GPSd定时检测保活TCP GPS源

为了在 TCP GPS 源丢失连接时自动重新连接,可以编写一个监控脚本,定期检查 gpspipe 输出中的 TCP 源数据是否存在。如果检测到丢失,则使用 gpsdctl 或直接命令重新添加 TCP 源。 1、工具 检查并安装必要工具,本例需要使用 gpspi…...

IDEA中Maven使用的踩坑与最佳实践

文章目录 IDEA中Maven使用的踩坑与最佳实践一、环境配置类问题1. Maven环境配置2. IDEA中Maven配置建议 二、常见问题与解决方案1. 依赖下载失败2. 依赖冲突解决3. 编译问题修复 三、效率提升技巧1. IDEA Maven Helper插件使用2. 常用Maven命令配置3. 多模块项目配置4. 资源文件…...

使用 Python 调用 OpenAI 的接口初识

使用 Python 调用 OpenAI 的接口非常简单,以下将结合实际代码示例和使用场景进行详细讲解,步骤如下: 文章目录 1. 安装 OpenAI 官方库2. 准备 API Key3. 基本使用示例:调用 ChatGPT**代码示例:****运行结果&#xff1a…...

2025 最新flutter面试总结

目录 1.Dart是值传递还是引用传递? 2.Flutter 是单引擎还是双引擎 3. StatelessWidget 和 StatefulWidget 在 Flutter 中有什么区别? 4.简述Dart语音特性 5. Navigator 是什么?在 Flutter 中 Routes 是什么? 6、Dart 是不是…...

【MQ】RabbitMq的可靠性保证

消息队列中的可靠性主要是分为三部分: 消息不丢失:确保消息从生产者发送到消费者消息不丢失消息不重复:确保消息不被重复消费消息顺序性:确保消费的顺序性 解决方案主要有以下几部分: 消息不丢失 生产者确认机制持久…...

STM32 GPIO配置 点亮LED灯

本次是基于STM32F407ZET6做一个GPIO配置,实现点灯实验。 新建文件 LED.c、LED.h文件,将其封装到Driver文件中。 双击Driver文件将LED.c添加进来 编写头文件,这里注意需要将Driver头文件声明一下。 在LED.c、main.c里面引入头文件LED.h LED初…...

Flink把kafa数据写入Doris的N种方法及对比。

用Flink+Doris来开发实时数仓,首要解决是如何接入kafka实时流,下面是参考Doris官方文档和代码,在自己项目开发的实践中总结,包括一些容易踩坑的细节。 目录 Routine Load方法 接入kafka实时数据 踩坑的问题细节 Flink Doris Connector方法 完整示例 Routine Load方法…...

Vue - 标签中 ref 属性的使用

在 Vue 3 中&#xff0c;ref 属性用于在模板中引用 DOM 元素或组件实例。通过 ref&#xff0c;可以直接访问这些元素或组件的实例&#xff0c;从而进行更复杂的操作&#xff0c;比如获取元素的尺寸、调用组件的方法等。 基本语法&#xff1a; <template><div ref&qu…...

leetcode-不同路径问题

一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff08;在下图中标记为 “Finish” &#xff09;。 问总共有多少条不同的路径&#xff1f; 看见题目…...

MongoDB 数据库备份和恢复全攻略

在当今数据驱动的时代&#xff0c;数据库的稳定运行和数据安全至关重要。MongoDB 作为一款流行的 NoSQL 数据库&#xff0c;以其灵活的文档模型和高扩展性备受青睐。然而&#xff0c;无论数据库多么强大&#xff0c;数据丢失的风险始终存在&#xff0c;因此掌握 MongoDB 的备份…...

CentOS7使用源码安装PHP8教程整理

CentOS7使用源码安装PHP8教程整理 下载安装包解压下载的php tar源码包安装所需的一些依赖扩展库安装前的配置修改配置文件1、进入php8的安装包 配置环境变量开机自启启动服务创建软连接常见问题1、checking for icu-uc > 50.1 icu-io icu-i18n... no2、configure: error: Pa…...

Baklib助力内容中台实施的最佳实践与成功案例探索

内容概要 在当今数字化发展的背景下&#xff0c;内容中台的概念逐渐受到重视。内容中台不仅仅是一个技术平台&#xff0c;更是企业在内容管理和运营效率提升方面的重要助力。它通过整合内部资源&#xff0c;实现信息的集中管理与高效利用&#xff0c;帮助企业应对日益复杂的市…...

rocketmq-product-send方法源码分析

先看有哪些send方法 首先说红圈的 有3个红圈。归类成3种发送方式。假设前提条件&#xff0c;发送的topic&#xff0c;有3个broker&#xff0c;每个broker总共4个write队列&#xff0c;总共有12个队列。 普通发送。负载均衡12个队列。指定超时时间指定MessageQueue,发送&#…...

python flask中使用or查询和and查询,还有同时使用or、and的情况

在 Flask 中处理数据库查询时&#xff0c;通常会结合使用 ORM 工具&#xff0c;例如 SQLAlchemy。以下是 or 查询、and 查询以及两者同时使用的示例。 文章目录 基础准备1. 使用 or_ 查询2. 使用 and_ 查询3. 同时使用 or_ 和 and_4. 更加复杂的嵌套查询 基础准备 假设有一个…...