当前位置：首页 > news >正文

Zero-Shot Relational Learning for Multimodal Knowledge Graphs

news 2025/7/5 3:10:30

摘要

关系学习是知识表示领域，特别是知识图补全（KGC）领域的一项重要任务。虽然传统单模态环境下的关系学习已经得到了广泛的研究，但在多模态KGC环境下探索关系学习提出了不同的挑战和机遇。其中一个主要挑战是在没有任何相关训练数据的情况下对新发现的关系进行推断。这种零机会关系学习场景对多模态KGC提出了独特的要求，即利用多模态来促进关系学习。然而，现有的工作不能支持多模式信息的杠杆作用，并没有探索这个问题。本文提出了一个由多模态学习器、结构整合器和关系嵌入生成器三部分组成的端到端框架，用于整合不同的多模态信息和知识图谱结构，实现零点关系学习。在两个多模态知识图上的评价结果证明了该方法的优越性。

1.介绍

知识图（Knowledge graphs, KGs）一直是组织从不同来源提取的知识，并以<头、关系、尾>的三元组形式展示实体之间关系的主流方式，在自然语言处理[1,34]和推荐系统[17]中得到了广泛应用。近年来，多模态知识图（MMKGs）[27]已经出现，它包含了丰富的多模态信息，如视觉、文本和结构元素，为许多任务展现了更复杂的能力，如命名实体识别[8]、语言建模[22]和问题回答[29]。

尽管mmkg得到了广泛的应用，但关系上的长尾分布仍然严重阻碍了其在实践中的应用，即少数关系密集地分布着正尾实体样本，而绝大多数关系具有稀疏甚至没有实体关联。由于缺乏足够的三元组，这些关系导致对表示的不准确学习。最近的研究[4,42,51]试图减轻单模态kg中长尾关系的影响，但每个关系仍然需要几个三元组，并且无法在没有三元组的情况下处理这些关系。在现实中，没有三元组的关系经常出现在MMKG的演化过程中，这些新发现的关系被添加到现有的MMKG中以扩大现有的MMKG，从而导致非平凡的零射击场景，其目的是在没有这些关系的任何训练样例的情况下推断MMKG中实体之间的关系。例如，在图1中，在𝑡0的MMKG中有两个分支，一个主要包含奥斯卡奖的获奖者，另一个主要包含传记类型的电影。

大多数现有的KGC作品[5,7,23,44,49]只能用一组正尾实体对来推断关系，不能对新发现的关系推断三元组。一些作品[14,31]专注于零射击场景，需要从Web中提取文本描述，但没有探索多模式信息。事实上，结合实体的多模态信息，特别是相关图像、文本描述和KGs的原始拓扑属性，可以极大地提高对新发现关系的表示学习。在图1中，关系的描述Custom designer是负责设计和创造电影中人物整体视觉美学和外观的专业人员，头部实体the Aviator和Michael Collins的多模态信息包含电影的共享语义，尾部实体Sandy Powell包含设计的语义。因此，新关系的描述与实体的多模态信息具有潜在的相关性，这种相关性可以作为推断新关系缺失三元组的指导。然而，由于实体和关系的不同形式，建模潜在相关性是非常重要的。一种直接的解决方案是使用VGG16[36]和Bert[10]等规范化预训练模型分别学习不同模态的表示，然后将这些嵌入进行整合，但这样会丢失细粒度的语义信息，难以捕获潜在的相关性。

为了利用多模态信息进行零次关系学习，我们提出了一个名为MRE的多模态关系外推框架来学习零次场景中新发现的关系的表示。具体来说，为了在细粒度层面整合多模态信息，我们提出了一个多模态学习器来编码多模态信息并对模态之间的潜在相关性进行建模。然后利用结构整合器将kg的结构信息整合到多模态融合过程中，进一步细化多模态的表示。最后，我们设计了一个关系嵌入生成器，根据生成对抗网络的原理，通过极大极小博弈来学习准确的关系表示[16]。经过训练后，当面对一个没有训练三元组的新关系时，可以使用优化后的关系嵌入生成器来学习关系表示。总的来说，我们在这项工作中的贡献包括：

我们是第一个在MMKGs中采用多模态信息来促进零射击设置下的关系学习的人
我们提出了一个新的端到端框架，用于集成不同的多模态信息和KG结构，以改善关系表示学习。
我们在两个真实世界的多模态知识图上进行了广泛的实验。实验结果表明，该方法的性能优于现有的方法，具有显著的提高。

2.相关工作

2.1知识图谱补全

传统的知识图谱补全侧重于利用知识图谱内部固有的结构信息。它的目标是学习实体和关系的有意义的表示，仅仅基于知识图的拓扑特征。通过利用结构信息，目标是准确地预测知识图中实体之间缺失的或潜在的联系。TransE[7]是一种典型的基于平移距离的嵌入方法，其变体TransD[23]和TransH[44]旨在最小化头部实体、关系和尾部实体之间的距离。类似地，DistMult[49]使用加权的逐元素点积来组合嵌入空间中的两个实体嵌入。近年来，基于图神经网络（graph neural network， GNN）[25]的方法显示出其对关系信息建模的优越能力。RGCN[33]、KBAT[30]利用gnn对知识图中的多跳邻域信息进行聚合，对实体特征进行编码。这些方法在捕获知识图的结构信息方面表现出色，这激励我们在多模态学习的背景下利用它们的见解。

为了对多模态知识图建模，IKRL[46]引入了一种融合方法，该方法使用类似transe的能量函数[7]集成实体图像和结构信息。随后,TransAE[43]扩展了融合方法，使用多模态编码器学习实体的视觉和文本知识。MKGformer[9]进一步提出了多级多模态特征的混合融合。MoSE[52]将每个多模态三元组视为紧密耦合关系，并分离模态来学习KG嵌入。与TuckER[5]类似，IMF[26]对每个模态采用TuckER分解来捕捉模态之间的相互作用。与这些方法相比，我们的方法在通过掩码和重建过程捕获细粒度多模态语义方面优于它们，并有效地解决了零射击设置中的新关系，而不需要特定于关系的训练三元组。

2.2 Relation Extrapolation

Few-shot和zero-shot学习已经成为数据高效任务的普遍范例，并在许多领域取得了巨大成功[38,45]。为了有效地处理知识库中的长尾关系，一些代表性的研究[35,47,48]将重点放在了链接预测任务中的少镜头关系学习上。Gmatching[47]研究关系的一次性场景，用实体对的局部图结构建模。FAAN[35]扩展到考虑实体动态特性的少镜头场景。FSRL[48]使用关系感知编码器对实体的邻居进行编码，并聚合多个实体对作为支持信息。这些方法主要围绕使用现有实体对来推断关系，但它们仍然依赖于事实三元组的可用性来准确地推断关系。此外，KGC中很少有作品[14,31,37]试图预测零射击场景中未见关系的缺失三元组。ZSGAN[31]采用生成对抗网络（generative adversarial network， GAN）[16]来推断关系，并基于关系的文本描述生成关系嵌入。OntoZSL[14]将本体模式作为先验知识来指导GAN[16]推断看不见的关系。TR-GCN[37]基于本体图和描述对不可见关系的语义表示进行建模。然而，与我们提出的模型（利用多模态编码器捕获实体对及其对应关系之间的潜在语义）相比，这些方法依赖于预训练的语言模型或定义良好的先验知识来编码描述。因此，它们不能充分利用实体、关系和底层知识图结构之间固有的潜在相关性。

3.预备知识

4.方法

4.1总体架构

MRE的总体框架如图2所示，主要包括三个模块：Multimodal Learner、Structure consolidation和Relational Embedding Generator。多模态学习者和结构巩固者统一为两阶段的模态融合策略。多模态学习器，包括一个联合编码器和解码器，融合视觉和文本模式，然后结合到基于图卷积网络[25]的结构整合器模块中，对知识图结构信息进行编码并与其他模式集成。然后，将关系嵌入生成器设计为投影器和鉴别器的结合，生成关系嵌入。投影器的目的是将关系描述的编码从联合编码器投影到关系嵌入。投影器和鉴别器进行极大极小博弈以获得精确的关系表示。

图2:MRE培训流水线。在多模态学习器中，图像和文本对实体首先通过重建过程进行屏蔽和对齐。然后对多模态信息对进行解掩，通过联合编码器的编码过程得到的cls令牌在GNN编码器中初始化，并在结构整合器中与KG拓扑融合。关系嵌入生成器根据关系描述编码并生成关系嵌入。

6.结论

在本文中，我们提出了一个名为MRE（多模态关系外推）的新模型，用于推断零射击场景中mmkg新发现关系的缺失三元组。具体来说，我们设计了一个多模态学习器，将视觉和文本模态映射到同一特征空间，并对两种模态之间的潜在相关性进行建模。在此基础上，提出了一种结构整合策略，将多模态学习器和结构整合器统一为两阶段的模态融合策略。然后，我们遵循生成对抗网络的原理，提出了一种关系嵌入生成器，根据新关系的描述学习新关系的精确表示。在两个图数据集上的实验结果证明了该模型在MMKGs零射击关系学习中的有效性，优于各种基线方法。但是，我们的工作还存在一定的局限性。原始MMKG中的某些实体包含多个相关图像。由于联合编码器中图像和文本输入对的限制，我们的模型只利用了其中的一张图像。在未来的工作中，我们将利用具有丰富视觉语义的多图像来促进多模态学习。近年来，多模态大型语言模型（mllm）在从不同的数据模态中提取丰富的语义特征方面取得了显著的进展。我们将在未来深入研究应用这些模型来增强我们模型的零射击学习能力。

摘要