Zero-Shot Relational Learning for Multimodal Knowledge Graphs
摘要
关系学习是知识表示领域,特别是知识图补全(KGC)领域的一项重要任务。虽然传统单模态环境下的关系学习已经得到了广泛的研究,但在多模态KGC环境下探索关系学习提出了不同的挑战和机遇。其中一个主要挑战是在没有任何相关训练数据的情况下对新发现的关系进行推断。这种零机会关系学习场景对多模态KGC提出了独特的要求,即利用多模态来促进关系学习。然而,现有的工作不能支持多模式信息的杠杆作用,并没有探索这个问题。本文提出了一个由多模态学习器、结构整合器和关系嵌入生成器三部分组成的端到端框架,用于整合不同的多模态信息和知识图谱结构,实现零点关系学习。在两个多模态知识图上的评价结果证明了该方法的优越性。
1.介绍
知识图(Knowledge graphs, KGs)一直是组织从不同来源提取的知识,并以<头、关系、尾>的三元组形式展示实体之间关系的主流方式,在自然语言处理[1,34]和推荐系统[17]中得到了广泛应用。近年来,多模态知识图(MMKGs)[27]已经出现,它包含了丰富的多模态信息,如视觉、文本和结构元素,为许多任务展现了更复杂的能力,如命名实体识别[8]、语言建模[22]和问题回答[29]。
尽管mmkg得到了广泛的应用,但关系上的长尾分布仍然严重阻碍了其在实践中的应用,即少数关系密集地分布着正尾实体样本,而绝大多数关系具有稀疏甚至没有实体关联。由于缺乏足够的三元组,这些关系导致对表示的不准确学习。最近的研究[4,42,51]试图减轻单模态kg中长尾关系的影响,但每个关系仍然需要几个三元组,并且无法在没有三元组的情况下处理这些关系。在现实中,没有三元组的关系经常出现在MMKG的演化过程中,这些新发现的关系被添加到现有的MMKG中以扩大现有的MMKG,从而导致非平凡的零射击场景,其目的是在没有这些关系的任何训练样例的情况下推断MMKG中实体之间的关系。例如,在图1中,在𝑡0的MMKG中有两个分支,一个主要包含奥斯卡奖的获奖者,另一个主要包含传记类型的电影。
大多数现有的KGC作品[5,7,23,44,49]只能用一组正尾实体对来推断关系,不能对新发现的关系推断三元组。一些作品[14,31]专注于零射击场景,需要从Web中提取文本描述,但没有探索多模式信息。事实上,结合实体的多模态信息,特别是相关图像、文本描述和KGs的原始拓扑属性,可以极大地提高对新发现关系的表示学习。在图1中,关系的描述Custom designer是负责设计和创造电影中人物整体视觉美学和外观的专业人员,头部实体the Aviator和Michael Collins的多模态信息包含电影的共享语义,尾部实体Sandy Powell包含设计的语义。因此,新关系的描述与实体的多模态信息具有潜在的相关性,这种相关性可以作为推断新关系缺失三元组的指导。然而,由于实体和关系的不同形式,建模潜在相关性是非常重要的。一种直接的解决方案是使用VGG16[36]和Bert[10]等规范化预训练模型分别学习不同模态的表示,然后将这些嵌入进行整合,但这样会丢失细粒度的语义信息,难以捕获潜在的相关性。
为了利用多模态信息进行零次关系学习,我们提出了一个名为MRE的多模态关系外推框架来学习零次场景中新发现的关系的表示。具体来说,为了在细粒度层面整合多模态信息,我们提出了一个多模态学习器来编码多模态信息并对模态之间的潜在相关性进行建模。然后利用结构整合器将kg的结构信息整合到多模态融合过程中,进一步细化多模态的表示。最后,我们设计了一个关系嵌入生成器,根据生成对抗网络的原理,通过极大极小博弈来学习准确的关系表示[16]。经过训练后,当面对一个没有训练三元组的新关系时,可以使用优化后的关系嵌入生成器来学习关系表示。总的来说,我们在这项工作中的贡献包括:
- 我们是第一个在MMKGs中采用多模态信息来促进零射击设置下的关系学习的人
- 我们提出了一个新的端到端框架,用于集成不同的多模态信息和KG结构,以改善关系表示学习。
- 我们在两个真实世界的多模态知识图上进行了广泛的实验。实验结果表明,该方法的性能优于现有的方法,具有显著的提高。
2.相关工作
2.1知识图谱补全
传统的知识图谱补全侧重于利用知识图谱内部固有的结构信息。它的目标是学习实体和关系的有意义的表示,仅仅基于知识图的拓扑特征。通过利用结构信息,目标是准确地预测知识图中实体之间缺失的或潜在的联系。TransE[7]是一种典型的基于平移距离的嵌入方法,其变体TransD[23]和TransH[44]旨在最小化头部实体、关系和尾部实体之间的距离。类似地,DistMult[49]使用加权的逐元素点积来组合嵌入空间中的两个实体嵌入。近年来,基于图神经网络(graph neural network, GNN)[25]的方法显示出其对关系信息建模的优越能力。RGCN[33]、KBAT[30]利用gnn对知识图中的多跳邻域信息进行聚合,对实体特征进行编码。这些方法在捕获知识图的结构信息方面表现出色,这激励我们在多模态学习的背景下利用它们的见解。
为了对多模态知识图建模,IKRL[46]引入了一种融合方法,该方法使用类似transe的能量函数[7]集成实体图像和结构信息。随后,TransAE[43]扩展了融合方法,使用多模态编码器学习实体的视觉和文本知识。MKGformer[9]进一步提出了多级多模态特征的混合融合。MoSE[52]将每个多模态三元组视为紧密耦合关系,并分离模态来学习KG嵌入。与TuckER[5]类似,IMF[26]对每个模态采用TuckER分解来捕捉模态之间的相互作用。与这些方法相比,我们的方法在通过掩码和重建过程捕获细粒度多模态语义方面优于它们,并有效地解决了零射击设置中的新关系,而不需要特定于关系的训练三元组。
2.2 Relation Extrapolation
Few-shot和zero-shot学习已经成为数据高效任务的普遍范例,并在许多领域取得了巨大成功[38,45]。为了有效地处理知识库中的长尾关系,一些代表性的研究[35,47,48]将重点放在了链接预测任务中的少镜头关系学习上。Gmatching[47]研究关系的一次性场景,用实体对的局部图结构建模。FAAN[35]扩展到考虑实体动态特性的少镜头场景。FSRL[48]使用关系感知编码器对实体的邻居进行编码,并聚合多个实体对作为支持信息。这些方法主要围绕使用现有实体对来推断关系,但它们仍然依赖于事实三元组的可用性来准确地推断关系。此外,KGC中很少有作品[14,31,37]试图预测零射击场景中未见关系的缺失三元组。ZSGAN[31]采用生成对抗网络(generative adversarial network, GAN)[16]来推断关系,并基于关系的文本描述生成关系嵌入。OntoZSL[14]将本体模式作为先验知识来指导GAN[16]推断看不见的关系。TR-GCN[37]基于本体图和描述对不可见关系的语义表示进行建模。然而,与我们提出的模型(利用多模态编码器捕获实体对及其对应关系之间的潜在语义)相比,这些方法依赖于预训练的语言模型或定义良好的先验知识来编码描述。因此,它们不能充分利用实体、关系和底层知识图结构之间固有的潜在相关性。
3.预备知识
4.方法
4.1总体架构
MRE的总体框架如图2所示,主要包括三个模块:Multimodal Learner、Structure consolidation和Relational Embedding Generator。多模态学习者和结构巩固者统一为两阶段的模态融合策略。多模态学习器,包括一个联合编码器和解码器,融合视觉和文本模式,然后结合到基于图卷积网络[25]的结构整合器模块中,对知识图结构信息进行编码并与其他模式集成。然后,将关系嵌入生成器设计为投影器和鉴别器的结合,生成关系嵌入。投影器的目的是将关系描述的编码从联合编码器投影到关系嵌入。投影器和鉴别器进行极大极小博弈以获得精确的关系表示。
图2:MRE培训流水线。在多模态学习器中,图像和文本对实体首先通过重建过程进行屏蔽和对齐。然后对多模态信息对进行解掩,通过联合编码器的编码过程得到的cls令牌在GNN编码器中初始化,并在结构整合器中与KG拓扑融合。关系嵌入生成器根据关系描述编码并生成关系嵌入。
6.结论
在本文中,我们提出了一个名为MRE(多模态关系外推)的新模型,用于推断零射击场景中mmkg新发现关系的缺失三元组。具体来说,我们设计了一个多模态学习器,将视觉和文本模态映射到同一特征空间,并对两种模态之间的潜在相关性进行建模。在此基础上,提出了一种结构整合策略,将多模态学习器和结构整合器统一为两阶段的模态融合策略。然后,我们遵循生成对抗网络的原理,提出了一种关系嵌入生成器,根据新关系的描述学习新关系的精确表示。在两个图数据集上的实验结果证明了该模型在MMKGs零射击关系学习中的有效性,优于各种基线方法。但是,我们的工作还存在一定的局限性。原始MMKG中的某些实体包含多个相关图像。由于联合编码器中图像和文本输入对的限制,我们的模型只利用了其中的一张图像。在未来的工作中,我们将利用具有丰富视觉语义的多图像来促进多模态学习。近年来,多模态大型语言模型(mllm)在从不同的数据模态中提取丰富的语义特征方面取得了显著的进展。我们将在未来深入研究应用这些模型来增强我们模型的零射击学习能力。
相关文章:

Zero-Shot Relational Learning for Multimodal Knowledge Graphs
摘要 关系学习是知识表示领域,特别是知识图补全(KGC)领域的一项重要任务。虽然传统单模态环境下的关系学习已经得到了广泛的研究,但在多模态KGC环境下探索关系学习提出了不同的挑战和机遇。其中一个主要挑战是在没有任何相关训练…...

AUTOSAR COM 模块的主要功能导读以及示例
AUTOSAR COM 模块的主要功能 AUTOSAR COM 模块在车载系统中用于管理通信的中间层,主要功能包括: 信号传输与接收: • 提供信号打包和解包功能,将信号数据打包成协议数据单元(I-PDU)以便传输,或从接收到的…...

VMware下Centos7虚拟机数据盘/data目录(非lvm)不停机热扩容实操
实操环境 VMware:7.0 虚拟机:Centos7 (TEST-K8S-Node01) 扩容目录:/data (20G>>30G) 前置操作 注意事项:如果有条件的话,建议先做个主机的全量备份(…...

易盾增强版滑块识别/易盾识别/滑块识别/增强版滑块识别/易盾滑块本地识别
易盾增强版滑块识别 计算思路如下: 滑动条拖动距离传入 restrict 算法处理得到 初次值 J J * 率值0.309375 得到滑块偏移量。 滑块的旋转角度滑块偏移量*attrs 所以滑块偏移量滑块的旋转角度/attrs 通过滑块偏移量 求出 滑动条拖动距离 # 应用高斯模糊warped_…...

DMRl-Former用于工业过程预测建模和关键样本分析的数据模式相关可解释Transformer网络
DMRl-Former用于工业过程预测建模和关键样本分析的数据模式相关可解释Transformer网络 Liu, Diju, et al. “Data mode related interpretable transformer network for predictive modeling and key sample analysis in industrial processes.” IEEE Transactions on Indust…...

向量模型Jina Embedding: 从v1到v3论文笔记
文章目录 Jina Embedding: 从v1到v3Jina Embedding v1数据集准备训练过程 Jina Embedding v2预训练修改版BERT在文本对上微调在Hard Negatives上微调 Jina Embedding v2 双语言预训练修改版BERT在文本对上微调用多任务目标微调 Jina Embedding v3预训练在文本对上微调训练任务相…...

Spring学习笔记(一)
一 、Spring概述 (一)Spring是什么 Spring是一个分层的Java SE/EE full-stack(一站式)轻量级开源框架,以 IoC(Inverse Of Control:反转控制)和 AOP(Aspect Oriented Programming:面…...

Java编程基础
Java是一种广泛使用的编程语言,以其跨平台兼容性、面向对象的特性和健壮的安全性而闻名。本篇文章将带你了解Java编程的基础知识。 Java简介 Java是由Sun Microsystems(现在是Oracle Corporation的一部分)在1995年发布的。它是一种静态类型…...

C++【string类,模拟实现string类】
🌟个人主页:落叶 🌟当前专栏: C专栏 目录 为什么学习string类 C语言中的字符串 标准库中的string类 auto和范围for auto关键字 迭代器 范围for string类的常用接口说明和使用 1. string类对象的常见构造 2.string类对象的容量操作 3…...

Jupyter lab 打开时默认使用 Notebook 而不是浏览器
Jupyter lab 打开时默认使用 Notebook 而不是浏览器 正文 正文 今天遇到了一个特别有意思的事情,这里我们以 Windows \textrm{Windows} Windows 系统举例。 我们知道通常我们需要使用如下代码在 Terminal \textrm{Terminal} Terminal 中打开 Jupyter lab \textr…...

【linux】ubunda repo是什么
Ubuntu repo(repository,简称repo)是一个软件仓库,它是存储和分发软件包的服务器或一组服务器。通俗地说,Ubuntu repo就像一个巨大的在线软件商店,用户可以从中下载和安装各种软件。 主要特点 软件集合&a…...

【MySQL】深层理解索引及特性(重点)--下(12)
索引(重点) 1. 索引的作用2. 索引操作2.1 主键索引2.1.1 主键索引的特点2.1.2 创建主键索引 2.2 唯一键索引2.2.1 唯一键索引的特点2.2.2 唯一索引的创建 2.3 普通索引2.3.1 普通索引的特点2.3.2 普通索引的创建 2.4 全文索引2.4.1 全文索引的作用2.4.2 …...

无人机声学侦测算法详解!
一、算法原理 无人机在飞行过程中,其电机工作、旋翼震动以及气流扰动等都会产生一定程度的噪声。这些噪声具有独特的声学特征,如频率范围、时域和频域特性等,可以用于无人机的检测与识别。声学侦测算法利用这些特征,通过一系列步…...

git 提交仓库
创建 git 仓库: mkdir pySoundImage cd pySoundImage git init touch README.md git add README.md git commit -m “first commit” git remote add origin https://gitee.com/hunan-co-changsha-branch/pytest.git git push -u origin master 已有仓库ÿ…...

基于大语言模型(LLM)自主Agent 智能体综述
近年来,LLM(Large Language Model)取得了显著成功,并显示出了达到人类智能的巨大潜力。基于这种能力,使用LLM作为中央控制器来构建自助Agent,以获得类人决策能力。 Autonomous agents 又被称为智能体、Agent。指能够通过感知周围环境、进行规划以及执行动作来完成既定任务。…...

使用命令行管理 Windows 环境变量
1. 使用命令提示符 (CMD) 1.1. 设置环境变量 添加或修改临时环境变量(当前会话有效) set MY_VARvalue添加或修改用户环境变量 setx MY_VAR "value"添加或修改系统环境变量(需要管理员权限): setx /M MY…...

AUTODL配置百度网盘数据传输
AUTODL使用 1.配置百度网盘开放平台 2.接入并创建应用 3.创建应用 4.添加授权...

LeetCode46. 全排列(2024秋季每日一题 57)
给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2],[3,2,1]] 示例 2: 输入:nums …...

SpringBoot新闻稿件管理系统:架构与实现
3系统分析 3.1可行性分析 通过对本新闻稿件管理系统实行的目的初步调查和分析,提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本新闻稿件管理系统采用SSM框架,JAVA作为开发语…...

MinIO讲解和java应用案例示范
一、MinIO 基本概念 1.1 什么是 MinIO? MinIO 是一个高性能的对象存储服务器,专为云原生应用设计。它支持 Amazon S3 API,因此可以与现有的 S3 客户端和工具集成。MinIO 主要用于存储非结构化数据,如图片、视频、备份文件和日志…...

区块链技术与应用 【全国职业院校技能大赛国赛题目解析】第1套 区块链系统设计与运维部分
模块一:区块链产品方案设计及系统运维(35分) 选手完成本模块的任务后,将任务中设计结果、运行代码、运行结果等截图粘贴至客户端桌面【区块链技术应用赛\重命名为工位号\模块一提交结果.docx】中对应的任务序号下。 前述: 我们收到答案后,将针对比赛的答案和样题进行解…...

yaml文件编写
Kubernetes 支持YAML和JSON格式管理资源 JSON 格式:主要用于 api 接口之间消息的传递 YAML 格式;用于配置和管理,YAML是一种简洁的非标记性语言,内容格式人性化容易读懂 一,yaml语法格式 1.1 基本语法规则 使用空格进行缩进(不使用制表符࿰…...

TOEIC 词汇专题:娱乐休闲篇
TOEIC 词汇专题:娱乐休闲篇 在娱乐和休闲活动中,我们会接触到许多特定的词汇。这些词汇涉及到活动入场、观众互动、评论等各个方面,帮助你在相关场景中更加自如。 1. 入场和观众 一些常用词汇帮助你轻松应对观众与入场管理相关的场景&#…...

驱动TFT-1.44寸屏(ST7735)显示器
目录 一、驱动芯片介绍 二、驱动方式 三、主函数main运行 四、完整代码下载 TFT1.44寸屏,搭配ST7735驱动芯片,是一种专为小型电子设备设计的彩色液晶显示解决方案。该屏幕采用薄膜晶体管(TFT)技术,能够实现高亮度、…...

鸿蒙HarmonyOS NEXT一多适配技术方案
鸿蒙一多是什么 HarmonyOS 系统面向多终端提供了“一次开发,多端部署”(后文中简称为“一多”)的能力,让开发者可以基于一种设计,高效构建多端可运行的应用。 一套代码工程,一次开发上架,多端按…...

golang 中map使用的一些坑
golang 中map使用的一些坑 1、使用map[string]interface{},类型断言[]int失败 接收下游的数据是用json转为map[string]any go a : "{\"a\":\"1\",\"b\":[123]}" var marshal map[string]any json.Unmarshal([]byte(a), &…...

cordova 离线打包Android -Linux
背景 已有 cordova 运行环境的docker镜像; 需要在离线环境下执行 cordova 从创建项目到构建安装包一系列命令,最终生成 apk 文件。 方案 先在有网环境(最好与离线环境的OS一致)走一遍 cordova 创建打包工程、添加插件、添加平…...

【python】OpenCV—findContours(4.3)
文章目录 1、功能描述2、代码实现3、完整代码4、结果展示5、涉及到的库函数5.1、cv2.Canny5.2 cv2.boxPoints 6、参考 1、功能描述 找出图片中的轮廓,拟合轮廓外接椭圆和外接矩阵 2、代码实现 导入必要的库,固定好随机种子 import cv2 as cv import …...

前端通过nginx部署一个本地服务的方法
前端通过nginx部署一个本地服务的方法: 1.下载ngnix nginx 下载完成后解压缩后运行nginx.exe文件 2.打包你的前端项目文件 yarn build 把生成的dist文件复制出来,替换到nginx的html文件下 3.配置conf目录的nginx.conf文件 主要配置server监听 ser…...

Linux:防火墙和selinux对服务的影响
1-1selinux 1-1 SELinux是对程序、文件等权限设置依据的一个内核模块。由于启动网络服务的也是程序,因此刚好也 是能够控制网络服务能否访问系统资源的一道关卡。 1-2 SELinux是通过MAC的方式来控制管理进程,它控制的主体是进程,而目标则是…...