当前位置：首页 > news >正文

LLM - 使用 Neo4j 可视化 GraphRAG 构建的知识图谱(KG) 教程

news 2026/5/19 12:46:10

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/142938982

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Neo4j

Neo4j 是一个高性能的图形数据库，允许用户以图形的形式存储和检索数据，这种形式非常适合处理复杂的关系和网络结构，因其在数据关系处理方面的强大能力而广受欢迎，尤其是在社交网络、推荐系统、网络分析等领域。

构建 GraphRAG 的知识图谱，请参考：配置 GraphRAG + Ollama 服务构建中文知识图谱教程(踩坑记录)

Doc：https://neo4j.com/docs/apoc/current/

1. 配置 Neo4j 服务

准备 Docker，参考 Docker - Neo4j

docker pull neo4j:5.24.1

启动 Docker (直接启动，同时运行服务)：

docker run --network=host --gpus all --rm --name neo4j-apoc \
-e NEO4J_apoc_export_file_enabled=true \
-e NEO4J_apoc_import_file_enabled=true \
-e NEO4J_apoc_import_file_use__neo4j__config=true \
-e NEO4J_PLUGINS=\[\"apoc\"\] \
--volume=[your folder]:[your folder] \
neo4j:5.24.1

或者，进入 Docker，再启动服务：

docker run --network=host --gpus all -it --name neo4j-apoc -e NEO4J_apoc_export_file_enabled=true -e NEO4J_apoc_import_file_enabled=true -e NEO4J_apoc_import_file_use__neo4j__config=true -e NEO4J_PLUGINS=\[\"apoc\"\] --volume=[your folder]:[your folder] neo4j:5.24.1 /bin/bashbin/neo4j start

注意：使用 Neo4j + APOC 版本的 Docker。APOC(Awesome Procedures on Cypher) 是 Neo4j 图数据库的一个插件，提供一组强大的过程和函数，扩展 Cypher 查询语言的功能。参考：Neo4J and APOC

日志：

Installing Plugin 'apoc' from /var/lib/neo4j/labs/apoc-*-core.jar to /var/lib/neo4j/plugins/apoc.jar
Applying default values for plugin apoc to neo4j.conf
2024-10-15 01:40:54.429+0000 INFO  Logging config in use: File '/var/lib/neo4j/conf/user-logs.xml'
2024-10-15 01:40:54.443+0000 INFO  Starting...
2024-10-15 01:40:55.191+0000 INFO  This instance is ServerId{0350f51a} (0350f51a-ef80-414f-b82f-8e4b38fc369f)
2024-10-15 01:40:56.078+0000 INFO  ======== Neo4j 5.24.1 ========
2024-10-15 01:40:58.875+0000 INFO  Anonymous Usage Data is being sent to Neo4j, see https://neo4j.com/docs/usage-data/
2024-10-15 01:40:58.910+0000 INFO  Bolt enabled on 0.0.0.0:7687.
2024-10-15 01:40:59.325+0000 INFO  HTTP enabled on 0.0.0.0:7474.
2024-10-15 01:40:59.326+0000 INFO  Remote interface available at http://localhost:7474/
2024-10-15 01:40:59.328+0000 INFO  id: 3C118963730B6744966FCB5FC5D9D5795B11AD1F791A4DDC113D02D1F926441F
2024-10-15 01:40:59.329+0000 INFO  name: system
2024-10-15 01:40:59.329+0000 INFO  creationDate: 2024-10-15T01:40:57.342Z
2024-10-15 01:40:59.329+0000 INFO  Started.

启动服务：http://[your ip]:7474/browser/，默认账户和密码都是 neo4j，需要修改新密码 xxxxxx，建议 neo4j123 (自定义)。

启动页面，注意，实体和关系都空的，即：

Neo4j

2. 注入知识图谱数据

数据位于：/var/lib/neo4j/data/databases/neo4j，其中 neo4j 是数据库。

读取 GraphRAG 的知识图谱数据，如下：

import os
import pandas as pdrag_dir = "[your folder]/llm/graphrag/ragtest/output/"entities = pd.read_parquet(os.path.join(rag_dir, "create_final_entities.parquet"))
relationships = pd.read_parquet(os.path.join(rag_dir, "create_final_relationships.parquet"))
text_units = pd.read_parquet(os.path.join(rag_dir, "create_final_text_units.parquet"))
communities = pd.read_parquet(os.path.join(rag_dir, "create_final_communities.parquet"))
community_reports = pd.read_parquet(os.path.join(rag_dir, "create_final_community_reports.parquet"))

测试数据：

entities.head(2)
relationships.head(2)
text_units.head(2)
communities.head(2)
community_reports.head(2)

连接服务器：

NEO4J_URI = "neo4j://localhost:7687"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "xxxxxx"	# 之前修改的密码
NEO4J_DATABASE = "neo4j"  	# 默认
driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

注意：社区版本，不能创建新的 Database 只能使用默认的 neo4j，创建命令 CREATE DATABASE my-database，参考

数据导入函数：

def import_data(cypher, df, batch_size=1000):for i in range(0,len(df), batch_size):batch = df.iloc[i: min(i+batch_size, len(df))]result = driver.execute_query("UNWIND $rows AS value " + cypher, rows=batch.to_dict('records'),database_=NEO4J_DATABASE)print(result.summary.counters)return

导入 text_units 命令：

#导入text_units
cypher_text_units = """
MERGE (c:__Chunk__ {id:value.id})
SET c += value {.text, .n_tokens}
WITH c, value
UNWIND value.document_ids AS document
MATCH (d:__Document__ {id:document})
MERGE (c)-[:PART_OF]->(d)
"""import_data(cypher_text_units, text_units)

运行成功，日志：

{'_contains_updates': True, 'labels_added': 99, 'relationships_created': 235, 'nodes_created': 99, 'properties_set': 396}

导入 entities 数据的命令：

#导入entities
cypher_entities= """
MERGE (e:__Entity__ {id:value.id})
SET e += value {.human_readable_id, .description, name:replace(value.name,'"','')}
WITH e, value
CALL db.create.setNodeVectorProperty(e, "description_embedding", value.description_embedding)
CALL apoc.create.addLabels(e, case when coalesce(value.type,"") = "" then [] else [apoc.text.upperCamelCase(replace(value.type,'"',''))] end) yield node
UNWIND value.text_unit_ids AS text_unit
MATCH (c:__Chunk__ {id:text_unit})
MERGE (c)-[:HAS_ENTITY]->(e)
"""import_data(cypher_entities, entities)

导入 relationships 数据的命令：

#导入relationships
cypher_relationships = """MATCH (source:__Entity__ {name:replace(value.source,'"','')})MATCH (target:__Entity__ {name:replace(value.target,'"','')})// not necessary to merge on id as there is only one relationship per pairMERGE (source)-[rel:RELATED {id: value.id}]->(target)SET rel += value {.rank, .weight, .human_readable_id, .description, .text_unit_ids}RETURN count(*) as createdRels
"""import_data(cypher_relationships, relationships)

导入 communities 数据的命令：

#导入communities
cypher_communities = """
MERGE (c:__Community__ {community:value.id})
SET c += value {.level, .title}
/*
UNWIND value.text_unit_ids as text_unit_id
MATCH (t:__Chunk__ {id:text_unit_id})
MERGE (c)-[:HAS_CHUNK]->(t)
WITH distinct c, value
*/
WITH *
UNWIND value.relationship_ids as rel_id
MATCH (start:__Entity__)-[:RELATED {id:rel_id}]->(end:__Entity__)
MERGE (start)-[:IN_COMMUNITY]->(c)
MERGE (end)-[:IN_COMMUNITY]->(c)
RETURn count(distinct c) as createdCommunities
"""import_data(cypher_communities, communities)

导入 community_reports 数据的命令：

#导入community_reports
cypher_community_reports = """MATCH (c:__Community__ {community: value.community})
SET c += value {.level, .title, .rank, .rank_explanation, .full_content, .summary}
WITH c, value
UNWIND range(0, size(value.findings)-1) AS finding_idx
WITH c, value, finding_idx, value.findings[finding_idx] as finding
MERGE (c)-[:HAS_FINDING]->(f:Finding {id: finding_idx})
SET f += finding"""
import_data(cypher_community_reports, community_reports)

3. 测试效果

启动 Neo4j 页面，知识图谱可视化，包括 Node labels 和 Relationship types 等功能，即：

其他知识图谱元素的可视化，参考 Neo4j 的文档。

LLM - 使用 Neo4j 可视化 GraphRAG 构建的知识图谱(KG) 教程

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142938982 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 Neo4j …...

编程日记 2024/10/25 15:29:21

Linux 环境的搭建方式-＞远程登录-＞免密登录

个人主页：Jason_from_China-CSDN博客所属栏目：Linux系统性学习_Jason_from_China的博客-CSDN博客所属栏目：Linux知识点的补充_Jason_from_China的博客-CSDN博客 Linux 环境的搭建方式 Linux 环境的搭建主要有三种方式： 直接安…...

编程日记 2024/10/25 15:28:20

react18中的计算属性及useMemo的性能优化技巧

react18里面的计算属性和使用useMemo来提升组件性能的方法计算属性实现效果代码实现函数式组件极简洁的实现，就这样 import { useState } from "react"; function FullName() {const [firstName, setFirstName] useState("");const [la…...

编程日记 2024/10/25 15:27:19

Python 实现高效的 SM4 大文件加密解密实战指南20241024

Python 实现高效的 SM4 大文件加密解密实战指南引言在数据安全领域，使用对称加密算法如SM4进行数据保护非常常见。特别是当处理大文件时，合理的内存和块大小管理以及加密解密效率变得尤为重要。本文将分享如何使用Python进行大文件的SM4加密解密操作&…...

编程日记 2024/10/25 15:23:12

数据结构~红黑树

文章目录一、红黑树的概念二、红黑树的定义三、红黑树的插入四、红黑树的平衡五、红黑树的验证六、红黑树的删除七、完整代码八、总结一、红黑树的概念红黑树是一棵二叉搜索树，他的每个结点增加⼀个存储位来表示结点的颜色，可以是红色或者黑色。通过…...

编程日记 2024/10/25 15:21:09

【ROS GitHub使用】

提示：环境配置为Ubuntu20.04&ROS Noetic 文章目录前言一、创建工作空间目录二、尝试从GitHub上下载一个源码包，对它进行编译，运行这个源码包1.打开script文件夹，右键文件夹空白区域，选择在中端中打开；…...

编程日记 2024/10/25 15:20:08

批量处理文件权限：解决‘/usr/bin/chmod: Argument list too long’的有效方法

批量处理文件权限：解决‘/usr/bin/chmod: Argument list too long’的有效方法错误原因解决方案1. 分批处理2. 使用xargs3. 增加ARG_MAX限制4. 使用脚本结论在Linux系统中，有时你可能会遇到这样的错误消息：“/usr/bin/chmod: Argument lis…...

编程日记 2024/10/25 15:18:05

数据结构——树——二叉树——大小堆

目录 1>>导言 2>>树 2.1>>树的相关术语 2.2>>树的表示和应用场景 3>>二叉树 3.1>>完全二叉树 3.2>>大小根堆 4>>结语 1>>导言上篇小编将队列的内容给大家讲完了，这篇要步入新的篇章，请宝…...

编程日记 2024/10/25 15:14:01

Android Junit 单元测试 | 依赖配置和编译报错解决

问题为什么在依赖中添加了testImplement在build APK的时候还是会报错？是因为没有识别到test文件夹是test源代码路径吗？ 最常见的配置有: implementation - 所有源代码集(包括test源代码集)中都有该依赖库.testImplementation - 依赖关系仅在test源代码…...

编程日记 2024/10/25 15:13:00

ffmpeg视频滤镜: 裁剪-crop

滤镜简述 crop官网链接 > FFmpeg Filters Documentation crop滤镜可以对视频进行裁剪，并且这个滤镜可以接受一些变量比如时间和帧数，这样我们实现动态裁剪，从而实现一些特效。滤镜使用参数 out_w <string> ..…...

编程日记 2024/10/25 15:11:59

身份证归属地查询接口-在线身份证归属地查询-身份证归属地查询API

接口简介：输入身份证号码可查询到所属地区、出生年日月以及性别。接口地址：https://www.wapi.cn/api_detail/60/167.html 在线核验：https://www.wapi.cn/icard.html 网站地址：https://www.wapi.cn 返回格式：json,xml,…...

编程日记 2024/10/25 15:10:58

ESP32 S3 怎么开发基于ESP-RTC的音视频实时交互的应用，用语AI陪伴的领域

在ESP32-S3平台上开发基于ESP-RTC的音视频实时交互应用，尤其是在AI陪伴领域，涉及到音视频数据的采集、编码、传输和解码。ESP32-S3 具备较强的处理能力，且拥有丰富的接口和模块支持，可以用来实现这种功能。以下是一个完整的开发方…...

编程日记 2024/10/25 15:08:56

车载测试分享：UDS诊断、ECU刷写、CAN一致性测试、网络通讯测试、CANoe使用、报文解析、问题定位分析

FOTA模块中OTA的知识点：1.测试过程中发现哪几类问题？ 可能就是一个单键的ecu，比如升了一个门的ecu，他的升了之后就关不上，还有就是升级组合ecu的时候，c屏上不显示进度条。 2.在做ota测试的过程中&#xf…...

编程日记 2024/10/25 15:06:53

预算不够，怎么跟KOL砍价？（内附砍价模板）

在当今的数字营销时代，海外红人（KOL）的影响力不容小觑。他们的一篇帖子、一个视频，甚至是一张照片，都有可能为企业带来巨大的流量和销量。当企业满怀希望地找到一位粉丝众多、影响力强的KOL，准备洽谈合作…...

编程日记 2024/10/25 15:04:50

C#从零开始学习(GameObject实例)(unity Lab3)

这是书本中第三个unity Lab 在这次实验中,将学习如何使用C#编写代码用unity编写C#代码 GameObject实例本次将完成的工作将游戏资产配置在文件夹中创建材质把GameObject变成预制件脚本控制游戏防止球体重叠将游戏资产配置在文件夹中 Script放代码 Prefabs放预制件 MAteria…...

编程日记 2024/10/25 15:03:49

谷歌地图 | 与 Android 版导航 SDK 集成的最佳实践

谷歌最近宣布了导航 SDK，它可以让您将熟悉的 Google 地图逐向导航体验无缝集成到您的 Android 和 iOS 应用程序中。这篇博文概述了一些最佳实践，您可以使用这些实践为您的 Android 应用程序使用导航 SDK 构建流畅、一致且可靠的导航体验。与导航地图…...

编程日记 2024/10/25 15:02:48

什么是 VolTE 中的 Slient Redial？它和 CSFB 什么关系？

目录 1. 什么是 Silent Redial（安静的重拨号）？ 2. Silent Redial 信令流程概述 3. 总结 Silent Redial 和 CSFB 啥关系？博主wx：yuanlai45_csdn 博主qq：2777137742 想要深入学习 5GC IMS 等通信知识(加入 51学通信)，或者想要 cpp 方向修改简历，模拟面试，学习指导都…...

编程日记 2024/10/25 15:00:45

docker部署etcd $ docker run -d --name etcd-server -p 2379:2379 -p 2380:2380 quay.io/coreos/etcd:v3.5.0 /usr/local/bin/etcd -name my-etcd-1 -advertise-client-urls http://0.0.0.0:2379 -listen-client-urls http://0.0.0.0:2379 -initial-advertise-peer-urls http…...

编程日记 2024/10/25 14:58:42

LLM - 使用 Neo4j 可视化 GraphRAG 构建的知识图谱(KG) 教程

1. 配置 Neo4j 服务

2. 注入知识图谱数据

3. 测试效果

相关文章：

LLM - 使用 Neo4j 可视化 GraphRAG 构建的知识图谱(KG) 教程

Linux 环境的搭建方式-＞远程登录-＞免密登录

react18中的计算属性及useMemo的性能优化技巧

Python 实现高效的 SM4 大文件加密解密实战指南20241024

数据结构~红黑树

【ROS GitHub使用】

批量处理文件权限：解决‘/usr/bin/chmod: Argument list too long’的有效方法

数据结构——树——二叉树——大小堆

Android Junit 单元测试 | 依赖配置和编译报错解决

ffmpeg视频滤镜: 裁剪-crop

身份证归属地查询接口-在线身份证归属地查询-身份证归属地查询API

ESP32 S3 怎么开发基于ESP-RTC的音视频实时交互的应用，用语AI陪伴的领域

车载测试分享：UDS诊断、ECU刷写、CAN一致性测试、网络通讯测试、CANoe使用、报文解析、问题定位分析

预算不够，怎么跟KOL砍价？（内附砍价模板）

C#从零开始学习(GameObject实例)(unity Lab3)

谷歌地图 | 与 Android 版导航 SDK 集成的最佳实践

什么是 VolTE 中的 Slient Redial？它和 CSFB 什么关系？

docker 部署单节点的etcd以及常用使用命令

华为开放式耳机测评，南卡、华为、Cleer开放式耳机超深度横评

【Power Query】List.Select 筛选列表

英雄联盟个性化改造神器：3分钟打造专属游戏身份

学生用户画像-利用ETL零代码构建考勤主题标签

Linux Ext 调度器核心原理：BPF 驱动的自定义调度革命

ARMv9 CPYEN指令：内存拷贝优化技术详解

单传感器肌电假肢：DTW算法实现92%识别准确率

企业无线网络进阶：FreeRadius服务器配置与TLS证书实战

避坑指南：Tina Linux下MIPI DSI与LVDS屏调试的那些‘坑’（以V853/D1s为例）

更换背景图用什么工具？8个月来我测试过50+款产品，这是真实体验分享

告别仿真报错！手把手教你用Quartus II 21.1和ModelSim 2022.1创建Testbench（附完整代码）

修一个Bug，引入另一个Bug：从Tomcat高危漏洞看中间件安全修复的困境