创邻科技Galaxybase助力SPG推动知识图谱应用落地
1. 知识图谱实践应用:从理论到落地的全景视角
知识图谱,作为一种先进的数据模型和信息表示策略,极大地提升了信息检索与分析的能力。该模型利用图结构,将不同领域、层次和类别的信息有机整合,令复杂的数据关系变得清晰易懂。 在诸如人工智能、搜索引擎优化以及数据分析等多个重要领域中,知识图谱早已证明了其巨大的价值和潜力。通过对大量数据进行高效查询和推理,知识图谱不仅能提供更个性化、更准确的信息服务,也有助于提高企业和个人的决策效率。
随着大数据技术和数字经济的快速演进,知识图谱处理的数据量和复杂度也随之递增。这使得传统的三元组(subject-predicate-object)存储方案在性能和可扩展性上逐渐显得不足。因此,大多数工业应用现已转向更为高效的、基于属性图的图数据库解决方案。与三元组方法相比,这些原生图数据库针对图结构进行了优化,实现了免索引邻接(index-free adjacency),从而即便在大规模数据操作和复杂查询的环境下也能维持出色的性能。成熟的商业图数据库还进一步提供了数据安全、事务支持、水平扩展、实时容灾以及运维监控等关键功能,确保了数据的高可靠性和安全性,同时也增强了系统的可扩展性和可维护性,从而对知识图谱的商业化落地提供了强有力的支持。
2. 知识图谱应用的挑战:实践落地过程中的核心难题
在践行多个知识图谱应用项目的过程中,我们深刻感受到,长期维护和有效运用知识图谱涉及多方面的复杂挑战。这些挑战大致可以分为两个主要领域:一是静态的数据与动态的业务需求之间的张力,二是高易用性与强表达力的平衡。
2.1 静态的数据和动态的业务需求
-
选择图模式(Schema):弱类型与强类型的权衡
选择弱类型/弱Schema约束的图数据库可以赋予业务人员极大的灵活性,在数据查询和分析上能够快速上手。然而,随着数据量的逐渐膨胀和业务需求的复杂化,这种架构缺乏明确的规范和结构、容易带来数据不一致问题和数据质量问题,将导致后续的数据维护和性能优化面临巨大困境。因此,在生产环境中,我们会推荐使用强类型/强Schema约束,以确保长期的可维护性和查询性能。 -
复用基础图谱:一图多用的挑战
以企业股权穿透图谱为例,初步构建的图谱通常包含企业投资企业、个人投资企业等数据,可供业务人员探索实际控制关系、集团关系等企业关系的查询和推理。在引入交易数据后,业务人员可以从更多维度探索图谱,譬如挖掘企业间的关联交易关系。但此时如何高效地复用先前的基础图谱就会成为一个问题。若通过调用的方式复用原图谱,新业务对原图谱的修改将影响原业务的稳定;若将两个图谱融合形成完整的企业交易图谱,则如何保证两个图谱的企业数据更新的一致性又是新的挑战。 -
数据一致性:逻辑依赖导致的连锁反应
当底层数据发生变化,上层业务推理衍生出的关系或特征也必然要重新计算。仍以企业股权穿透图谱为例,企业实控人是由股权关系和规则计算推理出来的,若传导链路中的企业股权数据发生变化,那么整个连通图范围内的企业实控人都将重新计算。在大量数据更新时,进行这样全图的级联计算是相当耗费系统资源的。因此,如何确保数据一致性,同时减少系统压力,是我们需要持续解决的难题。 -
子图处理:标准化与实体对齐
子图处理是业务实践中一个普遍存在的问题。比如,在反欺诈、反洗钱等业务中,业务人员需要对一定范围内的子图进行详细分析,而子图的定义方式和在子图内进行筛选、剪枝等操作的方式并无统一标准。同样,涉及多个图的子图在融合时往往会产生歧义,导致数据无法有效对齐。 -
持续膨胀的Schema与数据
随着业务进展,新的业务形态与关系不断涌现、业务决策逻辑与依据不断调整迭代,这也意味着我们需要频繁地更新图谱Schema和数据。长时间下来,原始和衍生数据的混合使得数据维护与溯源变得复杂。
综合来看,原始数据本质上是较为单一和稳定的,然而业务需求却是不断变化和拓展的。这就需要我们能够在实际应用中灵活地构建和调整图模式,以满足多维度、全局视角的业务分析需求。
2.2 易用性与表达力的双重挑战
-
查询语言的学习门槛与推理能力
虽然Cypher/GQL等图查询语言相对直观,但要求业务人员具有将复杂推理逻辑转换为具体图查询的能力,这对非技术人员来说并不容易。 -
业务逻辑开发人员需要兼具查询性能优化的能力
通常情况下,查询语言的不同写法会导致生成不同的执行计划,从而影响查询性能。在一些对性能要求较高的场景中,开发人员需要通过自定义函数或过程的方式实现高效的查询。在开发过程中,需要深入了解业务逻辑、图Schema、推理过程,才能对查询进行优化,这无疑增加了项目落地的复杂性和时间成本。 -
初始图模式(Schema)的定义至关重要,否则后续修改的代价很高
图模式的选择会极大的影响产品性能和易用性,因此对数据分析师也有较高的要求。图模式是在知识图谱应用开发的早期就需要确定的,它会影响后续所有查询的写法以及性能。 -
对“事件”这样随时间演化的数据缺少标准处理机制
现有的属性图系统缺乏对“事件”这一动态数据类型的标准处理机制。一般情况下,我们会通过在点边上增加时间戳类型的属性来表示事件,但对事件在时间维度下怎样进行演化和关联缺乏标准的分析处理机制。这往往导致事件传导推理结论的可解释性不够直观,且不同系统的实现方式千差万别,缺乏统一管理的接口。在数据分析时如果涉及到数据过期、需要对数据进行时间切片等情况时,会进一步加大事件处理的复杂度。
总体而言,我们都希望产品具备高度的易用性和强大的表达能力,但这两者往往难以兼得。实现这一平衡,便是知识图谱应用落地过程中需要持续攻克的难题。
3.语义增强可编程知识图谱SPG:解决知识图谱应用落地难题的新篇章
面对知识图谱应用落地的复杂挑战,一种先进的解决方案应运而生——那就是新一代工业级知识语义表示框架SPG(Semantic-enhanced Programmable Graph,语义增强可编程知识图谱)。SPG不仅为“知识”提供了一种形式化和可编程的框架,让人可以直观的解读、让机器能够高效的处理,而且在知识层级间实现了兼容与递进。更令人振奋的是,该框架具备对非完备数据状态下的图谱构建和持续演化的强大支持。SPG框架更是顺畅地融合了大数据与AI技术,使得对海量数据的知识化转换成为可能,从而极大地提升了数据的应用价值。通过SPG框架,我们可以更加高效地构建和管理图谱数据,同时可以更好地支持业务需求与场景应用。
SPG系统由五大精心设计的模块组成,每个模块都充当着不可或缺的角色。
- SPG-Schema: 提供了包括主体、谓词、逻辑在内的核心语义管理功能。
- SPG-Controller: 这一模块负责任务分发、服务部署、数据转换、算子编译以及知识查询等多重任务。
- SPG-Engine: 负责Schema转换、知识写入和推理计算,同时还支持多引擎适配。
- SPG-Program: 一个高度可编程的SDK框架,让开发变得更为便捷。
- SPG-Interface: 一个基于大语言模型的用户交互界面,使得操作更为直观和友好。
这五大模块共同构成了一个高度分层、模块化且解耦合良好的系统,使得团队成员可以更加专注于自己擅长的领域。SPG的设计考虑到了不同专业背景的团队成员,实现了业务与技术之间的高效协作。业务人员只需使用具有语义推理能力的SPG语法,便可轻松完成图谱推理。与此同时,编程开发人员无需深入了解复杂的业务逻辑,只需专注于图查询和图计算的性能优化。通过实现对应的接口,他们便可以高效地应对各种实际应用场景。
总体而言,SPG不仅是一种技术框架,更是一种业务与技术和谐共生的全新范式。通过这一框架,我们不仅能更高效地构建和管理复杂的图谱数据,还能更全面地满足多样化的业务需求和应用场景。

4. 深入了解SPG引擎层:实现智能推理与计算的核心
作为SPG工作组的核心参与者,创邻科技承担了引领SPG-Engine模块设计和规范制定的重任。SPG-Engine层不仅是SPG理论到实际应用的关键转换点,更是连接SPG与第三方属性图系统(简称为LPG,Labeled Property Graph)的桥梁。这一层主要由三大子模块组成:SPG2LPG Translator、SPG2LPG Builder和SPG2LPG Executor。其详细的模块架构如下图所示:

-
SPG2LPG Translator: 负责SPG与属性图之间Schema的转换。考虑到SPG Schema涉及到丰富的语义表达,譬如概念类型、标准属性和事件对象,以及subClassOf这样的语义关系,这些在属性图Schema中都没有显式的表达,从而需要进行精细的映射和转换。
-
SPG2LPG Builder: 负责知识的格式转化。由于业务层的知识数据是按照SPG Schema进行组织的,因此在导入到属性图系统之前需要将这些数据转换为属性图兼容的格式,以实现知识的写入和更新。
-
SPG2LPG Executor: 负责查询和计算的核心模块,它主要执行来自SPG-Controller的、基于RDG(Resilient Distributed Graph,弹性分布式图,借鉴了弹性分布式数据集RDD的定义)算子构成的执行计划,以实现复杂的推理和计算过程。
SPG引擎的底层能力,包括图存储、图查询和图计算等,通常由第三方属性图系统提供。第三方属性系统是可以支持单机或分布式部署的独立服务进程,具备独立的集群安装、部署、运维、监控、管理方式,及Web用户界面。该图系统通过一组适配接口和SPG Controller所在进程进行交互。
为适应不同的第三方属性图系统能力,SPG-Engine存在两种实现策略:一是使用具备HTAP(混合事务/分析处理)能力的单一底层系统,二是使用分别具备TP(事务处理)和AP(分析处理)能力的组合系统。不论采用哪种实现方式,第三方属性图系统都需要满足SPG对其提出的不同等级的技术与功能要求,并按照SPG-Engine Core所描述的接口规范完成适配。

综上所述,SPG引擎层是一个多功能、高效且灵活的模块,不仅负责SPG系统和属性图系统之间的衔接转换,还具备与多种第三方属性图系统的高度互操作性,为复杂的知识图谱应用提供了坚实的基础。
5. 映照未来的SPG技术蓝图
按照SPG的技术规划,未来将首批适配蚂蚁TuGraph图数据库和创邻Galaxybase图数据库,以加速SPG技术从理论到实践的成熟转化。TuGraph和Galaxybase的卓越性能使其能够完美实现SPG-Engine的高级要求,这将显著提升SPG系统在实时推理方面的计算效率。
未来我们也将大力推动SPG技术在多行业领域的应用和实践,包括但不限于金融、能源、政务及互联网。我们相信,通过解决这些行业特有的复杂问题和挑战,Galaxybase和SPG技术将能够为企业和终端用户带来更为出色的使用体验和更高的价值回报。
此外,我们正积极推动建设一套统一的SPG能力评测体系,通过标准化的功能和性能指标来驱动SPG技术的不断创新和完善。这不仅有助于提升SPG技术自身的成熟度,还将促进整个知识图谱行业水平的提升。
创邻科技Galaxybase也将站在SPG技术发展的最前沿,从引擎优化到产业落地,全方位推进图技术的进步与普及,赋能企业加速释放数据资产价值。
创邻科技自主研发的图数据库Galaxybase,是分布式原生图数据库的杰出代表之一。 该产品采用了先进的分布式架构,对图数据的存储和处理进行了深度优化,实现了卓越的横向扩展性,完全满足了知识图谱对高效图数据存储和处理的要求。值得一提的是,Galaxybase的存储和计算内核完全由创邻科技自主研发,不依赖第三方开源方案,因此完全符合国产信创标准,适配各种国产CPU和操作系统。得益于其原生图存储和图处理的优势,Galaxybase已在金融、能源、政府、高等教育、互联网等多个行业中成功支持了知识图谱应用的实际部署。多家大型商业银行已经选择使用Galaxybase作为其企业级知识图谱应用平台的基础技术,成功实现了知识图谱建模、分析、挖掘、服务的全流程集成,构建了企业图谱、信贷风险图谱等多个领域知识图谱,应用于精准营销、风险防控、反洗钱、合规审计等业务领域。

相关文章:
创邻科技Galaxybase助力SPG推动知识图谱应用落地
1. 知识图谱实践应用:从理论到落地的全景视角 知识图谱,作为一种先进的数据模型和信息表示策略,极大地提升了信息检索与分析的能力。该模型利用图结构,将不同领域、层次和类别的信息有机整合,令复杂的数据关系变得清晰…...
《TCP/IP网络编程》阅读笔记--域名及网络地址
目录 1--域名系统 2--域名与 IP 地址的转换 2-1--利用域名来获取 IP 地址 2-2--利用 IP 地址获取域名 3--代码实例 3-1--gethostbyname() 3-2--gethostbyaddr() 1--域名系统 域名系统(Domain Name System,DNS)是对 IP 地址和域名进行相…...
我的C#基础
using System; namespace HelloWorldApplication }TOC 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。 为帮助您在CSDN创作的文章获得更多曝光和关注,我们为您提供了专属福利: 已注册且未在CSDN平台发布过…...
【UnityShaderLab实现“Billboard“始终面向相机_播放序列图的效果_案例分享(内附源码)】
"Billboard"始终面向相机 Shader "billboard" {Properties{_MainTex ("Main Tex", 2D) = "white" {}_Color (...
Ceph入门到精通-S3 基准测试工具warp使用入门
S3 基准测试工具。 下载 下载适用于各种平台的二进制版本。 配置 可以使用命令行参数或环境变量配置 Warp。 可以使用 、 在命令行上指定要使用的 S3 服务器,也可以选择指定 TLS 和自定义区域。--host--access-key--secret-key--tls--region 也可以使用 、、 和…...
Docker--未完结
一.Docker是干什么的 在没亲自使用过之前,再多的术语也仅仅是抽象,只有写的人或者使用过的人能看懂。 所以,作为新手来说,只要知道Docker是用于部署项目就够了,下面展示如何用Docker部署项目及Docker常用命令。 二、…...
string的使用和模拟实现
💓博主个人主页:不是笨小孩👀 ⏩专栏分类:数据结构与算法👀 C👀 刷题专栏👀 C语言👀 🚚代码仓库:笨小孩的代码库👀 ⏩社区:不是笨小孩👀 🌹欢迎大…...
基础算法---区间合并
直接上题目,不废话! 题目 给定 n 个区间 [l,r],要求合并所有有交集的区间。 注意如果在端点处相交,也算有交集。 输出合并完成后的区间个数。 例如:[1,3] 和 [2,6] 可以合并为一个区间 [1,6]。 输入格式 第一行包含整数 n。 接下来 n 行&am…...
C++(day4)
思维导图 封装Mystring #include <iostream> #include<cstring>using namespace std;class Mystring{ public://无参构造函数Mystring():size(10){strnew char[size];strcpy(str,"");cout<<"无参构造函数"<<endl;}//有参构造函数…...
docker 部署 node.js(express) 服务
1、在 express 项目根目录下新增 Dockerfile 文件,内容如下: 创建服务容器的方法,可以根据自己的情况选择: 1、以下示例为宿主机没有安装 node 环境的写法; 2、先在本地构建包含 node 和 express 的基础镜像࿰…...
商城系统开发,如何确保用户数据的安全性?
确保用户数据的安全性是商城系统开发中至关重要的一项任务。随着数字化时代的到来,用户的个人信息和交易数据已成为黑客和不法分子的重要目标,因此保护用户数据的安全性对于商城系统的成功运营至关重要。在开发商城系统时,以下几个方面是确保…...
黑客必备工具Kali Linux,安装与使用教程全包含,从入门到精通,全网最详细全面的Kali Linux教程
Kali Linux是一个高级渗透测试和安全审计Linux发行版,目前可以说是网络安全人员的专用系统。 Kali Linux功能非常强大,能够进行信息取证、渗透测试、攻击WPA / WPA2保护的无线网络、离线破解哈希密码、将android、Java、C编写的程序反编译成代码等等&am…...
2024滴滴校招面试真题汇总及其讲解(二)
4.【基础题】HashMap了解吗?介绍一下它对应的线程安全版本。 HashMap 是 Java 中一种键值对映射的集合,它使用哈希表来存储键值对。HashMap 具有插入和删除元素效率高的优势,但不是线程安全的。 ConcurrentHashMap 是 Java 中一种线程安全的 HashMap,它使用分段锁来保证线…...
嵌入式-C语言中的if语句
目录 一.if语句介绍 二.案例实操 2.1C语言运行模板代码 2.2运行方法 2.3案例 一.if语句介绍 if判断语句是一种用于根据条件来进行条件分支的控制流语句。通过判断一个条件的真假来决定执行不同的代码块。if语句的基本语法如下:if (条件表达式) {// 如果条件为…...
组合数 rust解法
组合数。 编写函数,参数是两个非负整数n和m,返回组合数 C n m C_n^m Cnm,其中m≤n≤25。 例如,n25,m12时答案为5200300。 解法: fn c(n: u32, m: u32)->u64 {let m if m > n-m {n-m}else{m};le…...
【SpringMVC】自定义注解与AOP结合使用
目录 一、SpringMVC之自定义注解 1.1 Java注解简介 1.2 为什么要用注解 1.3 注解的分类 ⭐ 1.3.1 JDK基本注解 1.3.2 JDK元注解 1.3.3 自定义注解 1.4 自定义注解三种使用案例 1.4.1 案例一(获取类与方法上的注解值) 1.4.2 案例二࿰…...
MyEclipse 用tomcat部署SSM项目后,项目名称和当前项目不一致
MyEclipse 用tomcat部署SSM项目后,项目成功启动,但是访问所有接口报404 从这里可以看到,部署的项目名为accurate_sugar_control_yc_api,但实际我们项目名字应该为accurate_sugar_control_otc_api 解决办法 在本地找到项目的根目…...
来喽!!炒鸡详细的“数据在内存中的存储”真的来喽!
目录 1. 整数在内存中的存储 1.1 ⼆进制介绍 1.1.1 2进制转10进制 1.1.2 10进制转2进制 1.1.3 2进制转8进制 1.1.4 2进制转16进制 1.2 原码、反码、补码 2. ⼤⼩端字节序和字节序判断 2.1 什么是⼤⼩端? 2.2 为什么有⼤⼩端? 2.3 练习 …...
【面试经典150 | 双指针】验证回文串
文章目录 写在前面Tag题目来源题目解读解题思路方法一:筛选判断方法二:原地判断 知识回顾回文串双指针字符串操作 写在最后 写在前面 本专栏专注于分析与讲解【面试经典150】算法,两到三天更新一篇文章,欢迎催更…… 专栏内容以分…...
sql存储引擎
-- 查询建表语句 --可以查看引擎 show create table account; -- 可以看到默认引擎 InnoDB ENGINEInnoDB -- 查看当前数据库支持得存储引擎 show engines ; # InnoDB 默认 存储引擎 # MyISAM sql早期默认 存储引擎 # MEMORY 存储在内存中 用来做临时表和缓存 存储引擎 …...
19c补丁后oracle属主变化,导致不能识别磁盘组
补丁后服务器重启,数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后,存在与用户组权限相关的问题。具体表现为,Oracle 实例的运行用户(oracle)和集…...
应用升级/灾备测试时使用guarantee 闪回点迅速回退
1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...
macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用
文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…...
在Ubuntu24上采用Wine打开SourceInsight
1. 安装wine sudo apt install wine 2. 安装32位库支持,SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库(解决显示问题) sudo apt install fonts-wqy…...
NXP S32K146 T-Box 携手 SD NAND(贴片式TF卡):驱动汽车智能革新的黄金组合
在汽车智能化的汹涌浪潮中,车辆不再仅仅是传统的交通工具,而是逐步演变为高度智能的移动终端。这一转变的核心支撑,来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒(T-Box)方案:NXP S32K146 与…...
A2A JS SDK 完整教程:快速入门指南
目录 什么是 A2A JS SDK?A2A JS 安装与设置A2A JS 核心概念创建你的第一个 A2A JS 代理A2A JS 服务端开发A2A JS 客户端使用A2A JS 高级特性A2A JS 最佳实践A2A JS 故障排除 什么是 A2A JS SDK? A2A JS SDK 是一个专为 JavaScript/TypeScript 开发者设计的强大库ÿ…...
【LeetCode】3309. 连接二进制表示可形成的最大数值(递归|回溯|位运算)
LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 题目描述解题思路Java代码 题目描述 题目链接:LeetCode 3309. 连接二进制表示可形成的最大数值(中等) 给你一个长度为 3 的整数数组 nums。 现以某种顺序 连接…...
Vue ③-生命周期 || 脚手架
生命周期 思考:什么时候可以发送初始化渲染请求?(越早越好) 什么时候可以开始操作dom?(至少dom得渲染出来) Vue生命周期: 一个Vue实例从 创建 到 销毁 的整个过程。 生命周期四个…...
从物理机到云原生:全面解析计算虚拟化技术的演进与应用
前言:我的虚拟化技术探索之旅 我最早接触"虚拟机"的概念是从Java开始的——JVM(Java Virtual Machine)让"一次编写,到处运行"成为可能。这个软件层面的虚拟化让我着迷,但直到后来接触VMware和Doc…...
规则与人性的天平——由高考迟到事件引发的思考
当那位身着校服的考生在考场关闭1分钟后狂奔而至,他涨红的脸上写满绝望。铁门内秒针划过的弧度,成为改变人生的残酷抛物线。家长声嘶力竭的哀求与考务人员机械的"这是规定",构成当代中国教育最尖锐的隐喻。 一、刚性规则的必要性 …...
