当前位置: 首页 > article >正文

GreenKGC: A Lightweight Knowledge Graph Completion Method(论文笔记)

CCF等级:A

发布时间:2023年7月

代码位置

25年3月17日交

目录

一、简介

二、原理

1.整体

2.表示学习

3.特征修剪

4.决策学习

三、实验性能

1.主要结果

2.消融实验

四、结论和未来工作


一、简介

传统知识图谱补全方法中,嵌入维度的选择很关键,维度过低会导致高误差,而过高则易过拟合且计算成本大。GreenKGC通过降低维度来解决这些问题。它首先获得实体和关系的高维表示,然后通过计算保留最关键维度,减少过拟合并降低计算复杂度。这样,GreenKGC在低维度下也能保持良好性能,同时显著减小模型大小。


二、原理

1.整体

GreenKGC由三个模块组成:表示学习、特征修剪、决策学习。

首先使用现有的知识图谱嵌入方法获取实体和关系的高维表示。然后,在特征剪枝阶段,通过一种称为判别特征测试(DFT)的方法来评估每个维度的重要性。具体来说,通过每一个三元组(h,r,t),计算各维度对区分正样本和负样本的能力。

在这个过程中,对每一个三元组,通过线性变换将头实体h、关系r、尾实体t 的各维度组合成一个单一变量,并基于这些变换后的特征计算其对正负样本的判别能力(通过交叉熵)。根据计算出的权重(即判别能力),保留那些具有较高权重的维度,从而形成低维并且具有区分性的特征能力。这种方法有助于减少不必要的参数,提高模型效率,同时保持甚至提升性能。

2.表示学习

可以使用现有的模型例如TransE、RotatE等,这一块不是文章重点考虑的对象。

3.特征修剪

考虑到知识图谱中的关系不可能是完全无关的,因此首先将他们划分为不相交的关系组,魅族关系具有相似的属性,方便后续对每个关系组内进行特征修剪。文章使用k-Means对嵌入关系进行聚类。

使用不同的分类数k,会呈现不同的效果。交叉熵越小证明有效地识别正样本和负样本。

(文章中这一部分是在DFT以后写的,但在程序上是先进行特征分区再DFT,因此这块提前写。)

DFT可用于降低实体和关系嵌入的维数,同时保留它们在下游任务中的能力。

文章将DFT扩展到多个维度,通过SVD(奇异值分解,简单来说就是将一个矩阵分解为三个矩阵的的乘积)和PCA(主成分分析,简单来说就是确定权重以及找到权重大的维度)学习每个维度的线性变换。

但是由于PCA的线性变换是无监督的,难以将正负三元组区分开(后面需要使用)。因此使用最小化二元交叉熵损失的逻辑回归来实现。整体相当于DFT=SVD+PCA+最小化二元交叉熵。

\zeta = -y\log(\sigma (\omega_i[h_i,r_i,t_i]^{T}))-(1-y)\log(1-\sigma(\omega_i[h_i,r_i,t_i]^{T}))

将正三元组取y=1,负三元组取y=0。以此计算每个维度。DFT采用交叉熵(CE)评估每个维度的判别能力。因为CE是二值分类的损失函数,CE越低的维度意味着判别能力越强。因此保留最低CE的特征维度,并对剩余的特征进行修剪以获取低维特征。

4.决策学习

文章采用二元分类器作为解码器,性能比评分函数更强大,输入三元组的特征,输出三元组正确概率(0到1)。文章使用负样本进行训练非线性的二元分类器。将每一个特征带入公式计算得出一个二元分类器。y= 1是正样本,y=0是负样本。

l(y,\widehat{y})=-y\log(\widehat{y})-(1-y)\log(1-\widehat{y})

文章考虑两种负抽样。一种基于本体的负抽样,一种基于嵌入的负抽样。文章通过实验选择基于嵌入的负抽样。


三、实验性能

1.主要结果

表3证明以前的模型再加上GreenKGC后都有了大的性能提升。比另外几种模型性能高。

图四表示加入GreenKGC的模型在较低维度时就具有较高的正确率。

GreenKGC可以在模型尺寸缩小约5倍的情况下获得具有竞争力甚至更好的性能。在有限资源下
将GreenKGC应用于大规模KGs的性能优势。

2.消融实验

实验了不进行特征剪枝、随机剪枝、基于方差的剪枝、基于特征重要性的剪枝、基于交叉熵的剪枝。数据如下。


四、结论和未来工作

1.增强特征剪枝的灵活性

2.改进负抽样策略

3.与其他模型的融合(如GNN)

相关文章:

GreenKGC: A Lightweight Knowledge Graph Completion Method(论文笔记)

CCF等级:A 发布时间:2023年7月 代码位置 25年3月17日交 目录 一、简介 二、原理 1.整体 2.表示学习 3.特征修剪 4.决策学习 三、实验性能 1.主要结果 2.消融实验 四、结论和未来工作 一、简介 传统知识图谱补全方法中,嵌入维度…...

SSM基础专项复习5——Maven私服搭建(2)

系列文章 1、SSM基础专项复习1——SSM项目整合-CSDN博客 2、SSM基础专项复习2——Spring 框架(1)-CSDN博客 3、SSM基础专项复习3——Spring框架(2)-CSDN博客 4、SSM基础专项复习4——Maven项目管理工具(1&#xff…...

Linux中的epoll简单使用案例

I/O 多路复用允许一个进程或线程同时监控多个网络 sockets 的状态。它通过单个系统调用(select)来检查多个 sockets 是否有数据可读、可写或是否有异常。Linux 提供了多种 I/O 复用技术,包括上面提到的 select、以及 poll、epoll。 创建epol…...

ASP4644四通道降压稳压器的工业高效电源管理方案

ASP4644工业级型号(ASP4644I6B)是一款专为工业场景设计的四通道降压稳压器,支持-40C至85C工作温度。其核心特性包括: 宽输入电压范围:4V–14V,适配工业现场多变的电源环境。 高负载能力:单通道…...

kali破解Pdf/execl/word

一、准备工作 1.工具安装 Kali Linux 内置部分工具,需补充安装以下工具: sudo apt update sudo apt install pdfcrack hashcat john -y git clone https://github.com/magnumripper/JohnTheRipper # 更新版John 2.字典准备 常用字典:Kal…...

宇树科技纯技能要求总结

一、嵌入式开发与硬件设计 核心技能 嵌入式开发: 精通C/C,熟悉STM32、ARM开发熟悉Linux BSP开发及驱动框架(SPI/UART/USB/FLASH/Camera/GPS/LCD)掌握主流平台(英伟达、全志、瑞芯微等) 硬件设计&#xff1a…...

RabbitMq C++客户端的使用

1.RabbitMq介绍 RabbitMQ 是一款开源的消息队列中间件,基于 AMQP(高级消息队列协议)实现,支持多种编程语言和平台。以下是其核心特点和介绍: 核心特点 多语言支持 提供 Java、Python、C#、Go、JavaScript 等语言的客…...

用通义大模型写爬虫程序,汇总各科成绩

需求:根据各科网址,输入学号、姓名查询成绩。 中间反反复复很多次,本文只记下重点的几次和大模型的沟通历史。 输入界面 查询界面 round0(最初的问题) 请在windows下,使用python的selenium库&#xff0…...

电商项目Ts版本

文章目录 项目地址一、环境安装1.1 配置作为导入1.2 文件目录 二、路由2.1 publicRoutes 项目地址 教程作者:教程地址: 代码仓库地址: 所用到的框架和插件: dbt airflow一、环境安装 1.1 配置作为导入 vite.config.ts impor…...

HarmonyOS Next中的弹出框使用

HarmonyOS Next弹出框概述及分类 弹出框是一种模态窗口,通常用于在保持当前上下文环境的同时,临时展示用户需关注的信息或待处理的操作。用户需在模态弹出框内完成相关交互任务之后,才能退出模态模式。弹出框可以不与任何组件绑定&#xff0…...

C++实现的数据结构示例,涵盖链表、数组、树和图

使用C实现的数据结构示例&#xff0c;涵盖链表、数组、树和图的基本操作&#xff1a; 链表&#xff08;单向链表&#xff09; #include <iostream> using namespace std;struct Node {int data;Node* next;Node(int val) : data(val), next(nullptr) {} };class Linked…...

FPGA中级项目4——DDS实现

FPGA中级项目4——DDS实现 DDS简介 DDS&#xff08;直接数字频率合成器&#xff0c;Direct Digital Frequency Synthesis&#xff09;是一种基于数字信号处理技术的频率合成方法&#xff0c;广泛应用于通信、雷达、仪器仪表等领域。在 FPGA中实现 DDS 具有灵活性高、集成度强、…...

深度学习-149-langchain之如何不使用with_structured_output()从模型中返回结构化数据

文章目录 1 不使用with_structured_output()方法1.1 问题背景1.2 输出解析器1.3 远程deepseek大模型API2 基于提示词2.1 直接使用提示词2.2 少样本提示词3 直接提示和解析模型输出3.1 使用PydanticOutputParser3.1.1 构建解析器3.1.2 构建提示模板3.1.3 调用大模型3.1.4 调用链…...

STM32 DAC详解:从原理到实战输出正弦波

目录 一、DAC基础原理1.1 DAC的作用与特性1.2 DAC功能框图解析 二、DAC配置步骤2.1 硬件配置2.2 初始化结构体详解 三、DAC数据输出与波形生成3.1 数据格式与电压计算3.2 正弦波生成实战3.2.1 生成正弦波数组3.2.2 配置DMA传输3.2.3 定时器触发配置 四、常见问题与优化建议4.1 …...

深度学习框架PyTorch——从入门到精通(5)构建神经网络

构建神经网络 获取训练设备定义类模型层nn.Flattennn.Linearnn.ReLUnn.Sequentialnn.Softmax 模型参数补充说明argmax 神经网络是由一些层或者模块组成的&#xff0c;这些层和模块会对数据进行各种操作。 在 PyTorch 里&#xff0c;torch.nn 这个命名空间提供了你搭建自己神经网…...

基于PyQt5与Open3D的轻量化BIM工具开发指南(下)‌

‌基于PyQt5与Open3D的轻量化BIM工具开发指南&#xff08;下&#xff09;‌ ‌——参数化建模、数据导出与性能优化‌ 【跳转】基于PyQt5与Open3D的轻量化BIM工具开发指南&#xff08;上&#xff09;‌ ‌四、详细实现步骤&#xff08;Part 2&#xff09;‌ ‌3. 参数化建模…...

Pytest项目_day01(HTTP接口)

HTTP HTTP是一个协议&#xff08;服务器传输超文本到浏览器的传送协议&#xff09;&#xff0c;是基于TCP/IP通信协议来传输数据&#xff08;HTML文件&#xff0c;图片文件&#xff0c;查询结果等&#xff09;。 访问域名 例如www.baidu.com就是百度的域名&#xff0c;我们想…...

在vue项目中,使用Patch请求,实现根据id修改某张发票的日结状态

目录 前言 一.问题描述 二.后端实现 1.分析 2.检查后端拦截器&#xff0c;看看是否允许接收Patch类型的请求 3.编写Dto 4.编写controller层 5.编写service层 6.mapper层 7.使用apifox&#xff0c;测试后端接口的可用性 三.前端实现 1.封装api&#xff08;本质是ax…...

Android Zygote的进程机制

目录 ✅ Android Zygote 进程机制详解 &#x1f6a9; 一、Zygote 的作用 ⚙️ 二、Zygote 启动流程 ✅ 1. init 进程启动 Zygote ✅ 2. Zygote 初始化虚拟机与核心类库 ✅ 3. Zygote 监听 Socket ✅ 4. Zygote fork 创建应用进程 &#x1f525; 三、Zygote 与应用进程之…...

某快餐店用户市场数据挖掘与可视化

1、必要库的载入 import pandas as pd import matplotlib.pyplot as plt import seaborn as sns2、加载并清洗数据 # 2.1 加载数据 df pd.read_csv(/home/mw/input/survey6263/mcdonalds.csv)# 2.2 数据清洗 # 2.2.1 检查缺失值 print(缺失值情况&#xff1a;) print(df.isn…...

[C++面试] 标准容器面试点

一、入门 1、vector和list的区别 [C面试] vector 面试点总结 vector 是动态数组&#xff0c;它将元素存储在连续的内存空间中。支持随机访问&#xff0c;即可以通过下标快速访问任意位置的元素&#xff0c;时间复杂度为 O(1)&#xff0c;准确点是均摊O(1)。但在中间或开头插…...

单片机学完开发板,如何继续提升自己的技能?

很多人学完开发板后都会卡在一个尴尬的阶段&#xff1a;觉得自己会的东西不少&#xff0c;但又不知道下一步该干啥。会点C语言&#xff0c;能烧录程序&#xff0c;能点亮LED&#xff0c;玩转按键&#xff0c;搞定串口等等&#xff0c;能用开发板做点小玩意儿&#xff0c;但面对…...

luogu「EZEC-10」打分 --- Python3 解法

题目链接&#xff1a; 「EZEC-10」打分 import sysdef max_score(n, m, scores):scores.remove(min(scores)) # 最小值的选取&#xff0c;不影响中间部分的处理scores.sort()max_ scores[-1]sum_ sum(scores[:-1]) # 中间部分len_ len(scores)needed (len_ - 1) * max_ …...

MySQL事务介绍

一、一个典型的事务场景 步骤操作描述SQL 语句1开启事务&#xff0c;确保转账操作的原子性START TRANSACTION;2从用户 A 的账户中扣除 100 元UPDATE account SET balance balance - 100 WHERE user A;3向用户 B 的账户中添加 100 元UPDATE account SET balance balance 1…...

明基PD2700U显示器无法调节图像模式

现象&#xff1a;明基PD2700U显示器无法调节图像模式&#xff0c;如下图&#xff1a; 目前未找到根本原因&#xff0c;推测可能是下面的原因&#xff1a; 1、安装了远程桌面软件&#xff1a;向日葵、虚拟显示器 2、显卡插入了接口&#xff0c;但是没接显示器 解决办法&#xf…...

基于FPGA轨道交通6U机箱CPCI脉冲板板卡

板卡简介&#xff1a; 本板为脉冲板&#xff0c;脉冲板主要执行CPU下达的指令&#xff0c;通过实现各种控制算法来调节PWM&#xff0c;然后输出光纤PWM信号来驱动变频器功率模块以达到控制电机的目的。 性能规格&#xff1a; 电源&#xff1a;DC5V&#xff1b;15V FPGA&…...

SpringBoot-已添加并下载的依赖,reload和mvn clean 后还是提示找不到jar包问题

背景&#xff1a; 添加spring-jdbc依赖时&#xff0c;原来是指定版本的&#xff0c;担心版本冲突&#xff0c;就改成依赖托管&#xff0c;悲剧的是反复reload和mvn clean&#xff0c;import到类的该包一直标红&#xff0c;提示jar包找不到。。。 解决方案&#xff1a; Idea左上…...

如何通过 Airbyte 将数据摄取到 Elasticsearch

作者&#xff1a;来自 Elastic Andre Luiz Airbyte 是一个数据集成工具&#xff0c;可自动化并可扩展地将信息从各种来源传输到不同的目的地。它使你能够从 API、数据库和其他系统提取数据&#xff0c;并将其加载到 Elasticsearch 等平台&#xff0c;以实现高级搜索和高效分析。…...

配置 VSCode 的 C# 开发环境

1. 安装必要的依赖 1.1 VSCode 扩展 安装 C# 相关插件&#xff08;如 C#、C# Extensions 等&#xff09;。 1.2 .NET SDK 下载地址&#xff1a;.NET SDK 下载页面 1.3 安装检测 在命令行输入以下命令&#xff0c;如果正确返回了版本号&#xff0c;则表示 .NET SDK 安装成…...

如何用DeepSeek进行项目管理?AI重构项目全生命周期的实践指南

一、项目管理的核心工作范畴 现代项目管理包含六大核心模块&#xff0c;构成完整管理闭环&#xff1a; 1. 需求管理&#xff08;20%工作量&#xff09; 案例&#xff1a;某电商平台"双11"大促项目需整合23个部门的142项需求 关键动作&#xff1a;需求收集→优先级…...