当前位置: 首页 > article >正文

本体论与知识图谱,从 1 亿条杂乱数据到 3400 万高质量节点:这篇论文重新定义知识图谱构建

介绍一篇关于知识图谱和本体论的工作。作者关注的问题很明确当人们把一个超大规模、开放编辑的知识库例如 Wikidata变成一个“可用的属性图typed property graph”时真正困难的不是把数据导出来而是结构决策——哪些实体应该成为节点、哪些属性应该成为可遍历的边、哪些信息应该作为节点字段保存以及这些决策背后能否有一套稳定、可复用的 schema模式/结构规范。作者提出的核心观点是schema 不应当是构图流程的副产物而应当从一开始就作为“第一等产物”被设计并且要面向本体层下游任务ontology-level tasks例如结构分析、实体消歧、领域子图定制以及进一步反向指导 LLM 抽取。1. 研究背景与痛点作者指出Wikidata 体量巨大上亿实体但由于开放编辑机制带来三类典型问题类型不受约束同类实体的类型表达可能很不一致。属性使用不统一同一属性在不同实体上出现方式不同甚至语义边界模糊。缺少强制关系 schema关系名与结构边界经常依赖“临时规则”或工程管道代码。作者认为现有两类常见路线都存在不足传统抽取/整理项目例如把 Wikidata 映射到某些本体框架往往把结构规则写死在管道代码里导致 schema 与构建流程强耦合难以迁移、难以复用。LLM 驱动的知识图谱构建虽然能从文本规模化抽取但容易得到临时类型、临时关系关系词表无约束、实体类型随场景漂移、缺少共享 schema最终很难用于严肃的本体分析或长期维护。因此作者提出应当构建一种“面向本体任务的知识图谱构建ontology-oriented KG construction”把 schema 作为可移植、可复用的中心工件。2. 核心思想内在—关系路由论文提出的核心机制叫intrinsic-relational routing内在—关系路由。它做了一件非常“工程但关键”的事把每一种属性明确划分为两类并路由到不同结构模块。2.1 两类属性决定两种存储形态内在属性intrinsic重点回答“实体是什么”。这类信息通常更适合作为节点字段标量/表格化属性便于检索与过滤。例子出生日期、化学式、员工数量等。关系属性relational重点回答“实体与谁相连”。这类信息更适合作为图的边可遍历连接用于路径查询与拓扑分析。例子雇主、隶属、成员、法律关系等。作者强调这不是简单的“属性分类”而是显式做出了边界决策edge boundary decision哪些属性该变成可遍历边哪些只作为字段存在。3. 方法框架声明式 schema 的“类别 模块”设计作者将 schema 设计为一组声明式配置文件YAML把分类规则与抽取结构写成“可读、可查、可复用”的规范而不是散落在代码分支里。3.1 类别Category互斥的粗粒度分区实体首先被分配到1 个类别互斥。类别通过“gate values门控类型集合”触发只要实体的类型断言如 instance-of / subclass-of命中某个 gate 集合就归入对应类别。多类别可能命中时作者采用固定优先级先匹配者胜出从而保证互斥。3.2 模块Module同一类别内的语义属性组在类别内部schema 进一步定义多个模块module每个模块描述一个语义主题或结构单元。一个实体可以命中多个模块。作者为每个模块定义三件事模块类型intrinsic 或 relational决定字段还是边指示器indicator用于判断实体是否属于该模块可以是“属性存在即触发”presence-based也可以是“属性值命中特定集合才触发”value-based抽取属性列表value properties命中模块后要抽取哪些属性intrinsic → 抽成节点字段relational 且值为实体 → 生成带类型的边用 Apple Inc. 的示例说明核心/内在属性更适合做字段关系属性更适合做边“未纳入”属性多为外部 ID 等本体意义较弱信息。4. 迭代式 schema 精炼先跑分类再修失败集作者认为 schema 不可能一次设计到位因此提出迭代流程先按当前 schema 分类得到两类失败集合未分类实体没有命中任何类别 gate无模块实体命中了类别但没有命中任何模块再优先挑选两类“最值得处理”的类型高频未分类类型能显著提升覆盖率高引用未分类枢纽类型可能不高频但被大量已分类实体引用决定图连通性迭代中涉及三类关键决策该类型应归入哪个类别类别 oracle该类型应归入哪个模块模块 oracle是否需要创建/合并/拆分模块精炼 oracle口头表达时可强调计算部分可确定且可并行真正“难”的是语义判断。5. Wikidata 案例从 1 亿实体到可用属性图作者在 2026 年 1 月的 Wikidata dump 上验证方法并给出端到端产物。5.1 先做清洗确定“图谱范围”作者指出Wikidata 中有大量自动批量导入与基础设施实体不适合进入“百科式核心图谱”。因此作者采用规则级联清洗最终得到约3460 万核心实体用于分类。5.2 最终 schema 与图规模作者报告最终 schema 与图谱产出大致如下8 个类别 94 个模块其中56 个 intrinsic 模块、38 个 relational 模块覆盖率指标核心实体中类别覆盖率约93.3%已分类实体中模块命中率约98.0%导出的属性图规模约3400 万节点、6120 万边、38 种关系类型包含一定数量的“stub nodes”用于保留边指向但不扩大核心集用二部图展示 8 个类别与跨类别关系模块的连接结构突出“跨域主题模块”如何把类别串联起来。6. Agentic LLM把 LLM 当成“schema 设计代理”作者强调LLM 在这篇论文里并不是主要负责“抽取三元组”而是扮演schema 设计代理负责调查未覆盖类型、提出类别/模块归属建议、修改 YAML并通过工具校验降低幻觉风险。作者给代理配备了若干“落地工具”例如标识符与标签的快速校验避免编造 QID/PID查询某类型的实例分布与样例辅助语义判断YAML 校验器结构正确性、gate—module 同步、互斥性等覆盖率分析与“未分类枢纽”发现指导下一轮迭代7. 五个应用证明 schema 可以脱离管道独立复用作者用五个应用证明“schema 是第一等工件”。7.1 本体结构分析与主题子图抽取关系模块形成一种天然的二层结构类别上层 跨域主题模块下层通过选择某些模块簇可以抽取自洽的主题子图展示 governancegovernment/legal/politics模块如何跨 People、Knowledge、Organizations、Events 形成治理子图。7.2 基准数据集标注审计benchmark auditing作者把 gate 分类器当作外部审计信号用于区分标注错误NER 标签错链接错误实体链接到错的 Wikidata QID边界差异任务定义不同导致的合理分歧展示三方一致/不一致的统计结构与解释。7.3 实体消歧模块化类型画像更“密集、可区分”作者在控制候选集合一致的条件下比较两种类型注释体系报告宏平均提升并指出在候选更多的难例中收益更明显。展示分桶准确率与宏平均对比结果。7.4 领域定制拆模块比改代码更轻schema 是 YAML 声明式因此领域专家可以选择类别/模块组合将宽泛模块拆为更细粒度面向facet加入领域 gate/indicator而无需改动分类与导出代码。展示 education 模块拆为 9 个面向及职业数量分布。展示某个面向的 YAML 定义示例。7.5 反向指导 LLM 抽取用 schema 生成提示词作者把8 类别 → 作为实体类型 taxonomy模块名 → 作为标签词表tag vocabulary直接生成系统提示词让 LLM 在文本中抽实体、分类型、打标签并更容易对齐图谱结构。展示 Mercury 段落的抽取结果示例。展示 schema-guided 抽取的系统提示词模板。总结作者的主要贡献可以概括为三点提出 ontology-oriented 的构图观把 schema 作为中心工件面向下游本体任务而设计。提出 intrinsic-relational routing用“内在/关系”明确边界决策把属性路由为字段或边并模块化组织。给出可复用的工程化产物与验证在大规模 Wikidata 上构建了可移植 schema 与属性图并用五个应用证明 schema 的独立复用价值。最后作者也指出未来挑战当图谱从外部文本或 LLM 抽取继续扩展时会出现难以对齐现有模块的新关系类型需要系统化的 schema 扩展与对齐此外如何利用内在—关系结构进一步优化检索与上下文选择也值得继续研究。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

本体论与知识图谱,从 1 亿条杂乱数据到 3400 万高质量节点:这篇论文重新定义知识图谱构建

介绍一篇关于知识图谱和本体论的工作。 作者关注的问题很明确:当人们把一个超大规模、开放编辑的知识库(例如 Wikidata)变成一个“可用的属性图(typed property graph)”时,真正困难的不是把数据导出来&am…...

如何彻底修复Windows更新故障:Reset Windows Update Tool完整使用指南

如何彻底修复Windows更新故障:Reset Windows Update Tool完整使用指南 【免费下载链接】Reset-Windows-Update-Tool Troubleshooting Tool with Windows Updates (Developed in Dev-C). 项目地址: https://gitcode.com/gh_mirrors/re/Reset-Windows-Update-Tool …...

Anthropic Harness工程入门基础教程(非常详细),收藏这一篇就够了!

用 ChatGPT 和用 Claude Code,是两种完全不同的体感。 前者就是聊天,后者是在聊天的基础上给用户干活。 像 Claude Code 这样的 Coding Agent 打开终端,需求丢进去,它开始读文件、搜索代码、执行命令、跑测试、提 PR&#xff0c…...

图图的嗨丝造相模型应用:在阿里云上打造你的专属风格图片生成服务

图图的嗨丝造相模型应用:在阿里云上打造你的专属风格图片生成服务 1. 项目概述与核心价值 想快速搭建一个能生成特定风格图片的AI服务吗?"图图的嗨丝造相-Z-Image-Turbo"是一个基于Z-Image-Turbo模型、专门针对特定服饰风格进行优化的LoRA版…...

企业级OpenClaw集中部署安全架构避坑全攻略

只需1小时全链路加固,让OpenClaw稳定上线、合规无忧 在一次大型制造业项目中,某金融客户耗时三个月完成OpenClaw功能对接,却因忽略安全配置,半天内被黑客扫光知识库、篡改AI流程,直接触发合规问责。你是否也担心“一装…...

BabelDOC企业级本地化部署实战:构建安全高效的文档翻译离线解决方案

BabelDOC企业级本地化部署实战:构建安全高效的文档翻译离线解决方案 【免费下载链接】BabelDOC Yet Another Document Translator 项目地址: https://gitcode.com/GitHub_Trending/ba/BabelDOC 在数据安全合规要求日益严格的今天,企业级文档翻译系…...

抖音热榜API实战:从签名生成到数据获取的完整Java指南

1. 抖音热榜API接入前的准备工作 第一次接触抖音热榜API时,我踩过不少坑。最头疼的就是签名生成那部分,明明照着文档做却总是报错。后来才发现是参数顺序搞错了。为了避免大家走弯路,我把完整的接入流程梳理出来。 首先需要注册开发者账号。打…...

Windows内核驱动手动映射终极指南:KDMapper实战深度解析

Windows内核驱动手动映射终极指南:KDMapper实战深度解析 【免费下载链接】kdmapper KDMapper is a simple tool that exploits iqvw64e.sys Intel driver to manually map non-signed drivers in memory 项目地址: https://gitcode.com/gh_mirrors/kd/kdmapper …...

如何用Python脚本让百度网盘下载速度提升10倍?终极免费解决方案

如何用Python脚本让百度网盘下载速度提升10倍?终极免费解决方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 还在为百度网盘几十KB的龟速下载而烦恼吗&#xff…...

小白也能懂!Agent如何“看见”并操作电脑?收藏这份操作指南

本文深入浅出地解析了Agent操作电脑的原理,核心在于将电脑界面转化为可观察的输入,通过点击、输入等工具执行“观察—决策—执行—再观察”的循环任务。文章拆解了Agent如何“看见”屏幕、将目标转化为具体动作、执行动作并判断结果等关键问题&#xff0…...

终极KKS-HF_Patch指南:三步骤解锁Koikatsu Sunshine完整游戏体验

终极KKS-HF_Patch指南:三步骤解锁Koikatsu Sunshine完整游戏体验 【免费下载链接】KKS-HF_Patch Automatically translate, uncensor and update Koikatsu Sunshine! 项目地址: https://gitcode.com/gh_mirrors/kk/KKS-HF_Patch 想要让你的Koikatsu Sunshine…...

信号完整性入门避坑:为什么你的PCB板总在‘振铃’?从阻抗不连续说起

信号完整性实战指南:从振铃现象到阻抗匹配的工程思维 实验室里,示波器屏幕上那道本该平滑的方波信号边缘,此刻却像被风吹皱的水面般上下起伏——这种被称为"振铃"的现象,是每位硬件工程师成长路上的必修课。当你的PCB设…...

用74LS160D和190D芯片搭建交通灯控制器:一个数电课设的完整实现与调试心得

74LS160D与190D芯片实战:从零构建交通灯控制器的深度解析 当数字电路课设遇上经典74系列芯片,一场关于时序逻辑与硬件调试的思维碰撞就此展开。交通灯控制系统作为数电课程的经典项目,看似简单的红绿灯交替背后,隐藏着计数器、译码…...

黑马商城项目—SpringCloud微服务架构实战—从零搭建到功能落地的全流程解析

1. 从零认识SpringCloud微服务架构 第一次接触SpringCloud微服务时,我完全被各种组件名词搞晕了。Nacos、OpenFeign、Gateway...这些到底是什么?直到真正用它们完成了黑马商城项目,才恍然大悟:原来微服务架构就像乐高积木&#x…...

新手也能懂!用沁恒CH579低功耗蓝牙芯片的TMOS系统点个灯(附完整代码)

从零玩转沁恒CH579:TMOS任务管理系统点亮LED全攻略 第一次拿到沁恒CH579开发板时,看着官方例程里那些TMOS相关的代码,我完全摸不着头脑——什么是TaskID?EventID又该怎么用?直到用最基础的"点灯"实验跑通了整…...

SITS2026首席架构师亲授:从代码提交率到AI协作熵值——用4类文化指标量化研发团队AI就绪度

第一章:SITS2026演讲:AI原生研发的文化变革 2026奇点智能技术大会(https://ml-summit.org) 在SITS2026主会场,来自全球17家头部科技企业的工程负责人共同指出:AI原生研发已不再仅是工具升级,而是一场覆盖协作范式、质…...

如何用Networx精准监控单个应用的网络流量?详细操作步骤解析

如何用Networx精准监控单个应用的网络流量?详细操作步骤解析 在数字化办公环境中,网络流量管理已成为提升效率的关键环节。想象一下这样的场景:团队协作时突然出现网络卡顿,却无法快速定位是哪个应用在占用带宽;或是需…...

【AI原生研发成本优化黄金法则】:20年架构师亲授7大可落地降本策略,93%团队未用过第5招?

第一章:AI原生研发成本优化的底层逻辑与认知重构 2026奇点智能技术大会(https://ml-summit.org) AI原生研发并非传统软件工程的简单延伸,其成本结构由模型训练、推理服务、数据闭环、可观测性及持续演进五大动态耦合要素共同决定。忽视这一系统性特征&…...

电解式除湿器费电吗?电解除湿器 与 半导体冷凝式和传统的压缩机式除湿方案,有什么不一样?

ROSAHL 电解式除湿器的功耗极低,其原理决定了它是一款节能环保的产品。以最大型号的功耗计算,即便 724 小时不间断运行,一年的耗电量通常也不到 50 度电,远低于半导体冷凝式和传统的压缩机式除湿方案。各型号性能差异对比ROSAHL 主…...

BepInEx完整指南:3分钟学会Unity游戏模组开发与插件注入

BepInEx完整指南:3分钟学会Unity游戏模组开发与插件注入 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx是Unity游戏模组开发的终极解决方案,作为一…...

AI原生研发ROI不达标?你可能漏算了这6个合规性折损因子(GDPR/《生成式AI服务管理暂行办法》双轨折价模型)

第一章:AI原生软件研发ROI计算方法详解 2026奇点智能技术大会(https://ml-summit.org) AI原生软件的研发投入产出比(ROI)不能沿用传统软件工程的静态人力-工时模型,而需构建融合模型训练成本、推理服务开销、数据飞轮收益与业务转…...

深入AUTOSAR CAN-TP状态机:从首帧(FF)、流控帧(FC)到连续帧(CF)的完整数据流拆解

深入AUTOSAR CAN-TP状态机:从首帧(FF)、流控帧(FC)到连续帧(CF)的完整数据流拆解 在汽车电子系统的开发中,诊断通信扮演着至关重要的角色。AUTOSAR CAN-TP(CAN Transport Protocol)作为UDS(Unified Diagnostic Service…...

AI治理窗口期只剩11个月?2026奇点大会倒计时预警:欧盟AI Act 2.0、中国《生成式AI服务安全评估指南》与NIST AI RMF 2.1三轨并行下的最后合规冲刺清单

第一章:2026奇点智能技术大会:AI原生安全治理 2026奇点智能技术大会(https://ml-summit.org) AI原生安全治理的核心范式转变 传统安全治理模型正面临根本性挑战:模型权重泄露、提示注入绕过、推理时侧信道攻击、训练数据残留隐私泄露等问题…...

前后端分离架构的实践指南:如何高效实现与优化

1. 前后端分离架构的核心价值 十年前我刚入行时,主流还是用JSP、PHP这类服务端渲染技术。记得有次修改登录页面的按钮颜色,我需要同时改动Java代码里的样式表和JSP模板文件,还要协调后端同事一起联调。这种开发体验让我深刻体会到前后端耦合的…...

RK3568 I2C设备驱动开发实战:以AP3216C传感器为例

1. RK3568 I2C控制器基础认知 RK3568作为一款高性能嵌入式处理器,内置了6个独立的I2C控制器接口(I2C0-I2C5)。在实际项目中,我经常遇到开发者对这些控制器的特性理解不够深入的问题。这里我结合实测经验,详细解析几个关…...

3分钟搞定Masa模组汉化:中文玩家的Minecraft模组全家桶使用指南

3分钟搞定Masa模组汉化:中文玩家的Minecraft模组全家桶使用指南 【免费下载链接】masa-mods-chinese 一个masa mods的汉化资源包 项目地址: https://gitcode.com/gh_mirrors/ma/masa-mods-chinese 还在为Masa Mods的英文界面而烦恼吗?每次打开那些…...

如何用飞牛云NAS低成本搭建个人博客?Docker+WordPress实战分享

飞牛云NASDockerWordPress:零基础打造高性价比个人博客全指南 在数字化表达日益重要的今天,拥有一个专属博客已成为个人品牌建设、知识分享甚至商业拓展的标配。但传统建站方案往往面临两大痛点:要么成本高昂(云服务器专业运维&am…...

解密高效网络监控:专业级开源测速工具实战指南

解密高效网络监控:专业级开源测速工具实战指南 【免费下载链接】Speed-Test SpeedTest by OpenSpeedTest™ is a Free and Open-Source HTML5 Network Performance Estimation Tool Written in Vanilla Javascript and only uses built-in Web APIs like XMLHttpReq…...

LVGL嵌入式图形界面开发实战:从环境搭建到控件应用

1. LVGL嵌入式开发环境搭建 第一次接触LVGL时,我踩了不少坑。当时最新版本已经是8.0,但网上能找到的教程基本都是7.11的,导致很多配置方法都不兼容。这里分享下我在Ubuntu 20.04 VSCode环境下搭建模拟器的完整过程。 首先需要安装SDL2依赖库…...

League Akari终极指南:5大核心功能彻底解放你的英雄联盟游戏体验

League Akari终极指南:5大核心功能彻底解放你的英雄联盟游戏体验 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 还在为错过匹配确…...