当前位置：首页 > article >正文

使用 Spark NLP 实现中文实体抽取与关系提取

article 2026/4/12 22:58:20

在自然语言处理（NLP）领域，实体抽取和关系提取是两个重要的任务。实体抽取用于从文本中识别出具有特定意义的实体（如人名、地名、组织名等），而关系提取则用于识别实体之间的关系。本文将通过一个基于 Apache Spark 和 Spark NLP 的示例，展示如何实现中文文本的实体抽取和关系提取。

一、技术栈介绍

1. Apache Spark

Apache Spark 是一个分布式计算框架，广泛用于大规模数据处理和分析。Spark SQL 是 Spark 的模块之一，专门用于处理结构化数据。

2. Spark NLP

Spark NLP 是一个基于 Apache Spark 的自然语言处理库，提供了丰富的 NLP 功能，包括文本分类、情感分析、命名实体识别（NER）、依存句法分析等。它支持多种语言，包括中文。

二、项目依赖配置

在开始之前，我们需要配置项目的依赖。以下是基于 Maven 的依赖配置：

<dependencies><!-- Apache Spark --><dependency><groupId>org.apache.spark</groupId><artifactId>spark-sql_2.12</artifactId><version>3.2.0</version></dependency><dependency><groupId>org.apache.spark</groupId><artifactId>spark-core_2.12</artifactId><version>3.1.2</version></dependency><!-- Spark NLP --><dependency><groupId>com.johnsnowlabs.nlp</groupId><artifactId>spark-nlp_2.12</artifactId><version>3.4.0</version></dependency>
</dependencies>

三、代码实现

以下是实现中文实体抽取和关系提取的完整代码示例：


import org.apache.spark.sql.SparkSession;import com.johnsnowlabs.nlp.*;
import com.johnsnowlabs.nlp.annotator.*;
import com.johnsnowlabs.nlp.annotators.ner.*;
import com.johnsnowlabs.nlp.annotators.ner.dl.NerDLModel;
import com.johnsnowlabs.nlp.annotators.sda.*;
import com.johnsnowlabs.nlp.embeddings.WordEmbeddingsModel;
import com.johnsnowlabs.nlp.annotators.parser.dep.DependencyParserModel;
import com.johnsnowlabs.nlp.util.*;import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.types.*;
import java.util.Arrays;
import java.util.List;public class SparkExtractionExample {public static void main(String[] args) {// 初始化 SparkSessionSparkSession spark = SparkSession.builder()

使用 Spark NLP 实现中文实体抽取与关系提取

在自然语言处理（NLP）领域，实体抽取和关系提取是两个重要的任务。实体抽取用于从文本中识别出具有特定意义的实体（如人名、地名、组织名等），而关系提取则用于识别实体之间的关系。本文将通过一个基于 Apache Spark 和 Spark NLP 的示例，展示如何实现中文文本的实体抽取和…...

编程日记 2026/3/2 8:51:07

大数据治理之solr的体现

大数据治理之solr的体现一，大数据治理下Solr的作用在大数据治理的背景下，Solr作为一个高性能的搜索平台，发挥这重要的作用，下面是Solr在大数据治理中的几个关键作用和体现： 数据索引与检索： 高效检索&a…...

编程日记 2026/4/5 21:44:35

[笔记.AI]如何判断模型是否通过剪枝、量化、蒸馏生成？

以下摘自与DeepSeek-R1在线联网版的对话一、基础判断维度技术类型核心特征验证方法剪枝模型参数减少、结构稀疏化1. 检查模型参数量是否显著小于同类标准模型1 2. 分析权重矩阵稀疏性（如非零参数占比<30%）4量化权重/激活值精度降低、推理速度提升1…...

编程日记 2025/8/25 21:11:44

Uniapp 从入门到精通：基础篇 - 搭建开发环境

Uniapp 从入门到精通：基础篇 - 搭建开发环境前言一、Uniapp 简介1.1 什么是 Uniapp1.2 Uniapp 的优势二、搭建开发环境前的准备2.1 安装 Node.js2.2 安装 HBuilderX三、创建第一个 Uniapp 项目3.1 打开 HBuilderX 并创建项目3.2 项目结构介绍3.3 运行项目四、配置项目4.1 配置…...

编程日记 2026/2/26 18:02:47

CSDN文章质量分查询系统【赠python爬虫、提分攻略】

CSDN文章质量分查询系统 https://www.csdn.net/qc 点击链接-----> CSDN文章质量分查询系统 <------点击链接点击链接-----> https://www.csdn.net/qc <------点击链接点击链接-----> CSDN文章质量分查询系统 <------点击链接点击链…...

编程日记 2026/3/2 14:15:44

GPT-SoVITS更新V3 win整合包

GPT-SoVITS 是由社区开发者联合打造的开源语音生成框架，其创新性地融合了GPT语言模型与SoVITS（Singing Voice Inference and Timbre Synthesis）语音合成技术，实现了仅需5秒语音样本即可生成高保真目标音色的突破。该项目凭借其开箱…...

编程日记 2026/4/8 16:43:31

nginx ngx_http_module(8) 指令详解

nginx ngx_http_module(8) 指令详解 nginx 模块目录 nginx 全指令目录一、目录 1.1 模块简介 ngx_http_ssi_module：服务器端包含（SSI）模块，允许在HTML页面中插入其他内容或动态生成的内容。通过特殊的SSI指令（如 …...

编程日记 2025/8/11 20:53:12

CSS三大特性——继承、优先级与层叠

1. 层叠性概念：如果发生了样式冲突，那就会根据一定的规则（选择器优先级），进行样式的层叠（覆盖）。什么是样式冲突？ ——— 元素的同一个样式名，被设置了不同的值&…...

编程日记 2026/4/10 6:08:05

Java 中的方法参数传递与值传递

文章目录 Java 中的方法参数传递与值传递代码示例代码运行结果分析原因1. Java 中的参数传递机制2. 代码执行过程值传递的图示如何实现真正的交换？1. 使用数组2. 使用对象总结 Java 中的方法参数传递与值传递在 Java 编程中，理解方法参数传递的机制是…...

编程日记 2026/3/10 1:30:25

敏捷开发06：用户故事估算方法介绍

估算介绍在以前开发 IT 软件时，使用较多的衡量软件开发工作量的单位是：小时、人天或人月。它是预估开发时间。比如：这个功能张三一个人开发需要 3 天时间完成。这种 “人天” 估算只是 “理想人天” 的估算，有时与实际开发完…...

编程日记 2026/4/11 22:05:01

在原有基础上的Python正则表达式终极指南，新增高级用法、复杂案例和底层原理分析

以下是Python正则表达式终极指南，新增高级用法、复杂案例和底层原理分析： Python正则表达式终极指南一、正则表达式引擎原理 1. 回溯机制解析 NFA（非确定性有限自动机）工作原理回溯的产生场景及性能影响灾难性回溯案例：# 危险模式示例 re.match(r(a+)+b, aaaaaaaaac) …...

编程日记 2025/6/21 7:29:07

进制转换及C语言中进制转换方法

进制转换是计算机科学和数学中的基础操作，主要用于不同数制之间的数值表示转换。以下是常见进制（二进制、八进制、十进制、十六进制）的转换方法及示例： 一、其他进制 → 十进制方法：按权展开，逐位相加。 …...

编程日记 2025/12/30 0:37:49

node卸载与nvm安装 1. node卸载参考了这篇文章： https://blog.csdn.net/weixin_43801036/article/details/141487791 2. nvm安装参考了这两篇文章： https://www.cnblogs.com/rnny/p/17839190.html#tid-z7A3nR https://blog.csdn.net/weixin_45811…...

编程日记 2026/3/8 9:57:09

环境变量与本地变量

目录本地变量的创建环境变量VS本地变量认识完了环境变量我们来认识一下本地变量。本地变量的创建我们如果直接env是看不到本地变量的，因为本地变量和环境变量都具有独立性，环境变量是系统提供的具有全局属性的变量，都存在bash进程的…...

编程日记 2026/4/9 7:20:42

Docker安装Kafka（不依赖ZooKeeper）

创建docker-compose.yaml version: "3.9" #版本号 services:kafka:image: apache/kafka:3.9.0container_name: kafkahostname: kafkaports:- 9092:9092 # 容器内部之间使用的监听端口- 9094:9094 # 容器外部访问监听端口environment:KAFKA_NODE_ID: 1KAFKA_PROCES…...

编程日记 2026/4/2 6:57:57

Visual Studio中打开多个项目

1) 找到解决方案窗口 2) 右键添加→ 选择现有项目 3) 选择.vcxproj文件打开即可...

编程日记 2026/4/7 13:16:25

rust笔记7-生命周期显式标注

Rust 的生命周期（Lifetimes）是 Rust 内存安全模型的核心部分，用于确保引用始终有效，避免悬垂引用（Dangling References）。下面我们从生命周期的设计出发点、标注语法以及在不同上下文中的应用（函数、方法、结构体、trait 等）来详细介绍。 1. 生命周期设计的出发点 Rus…...

编程日记 2026/4/5 8:58:01

广西壮族自治区园区投促中心党委书记陶德文率团到访深兰科技

2月16日，广西壮族自治区园区投促中心党委书记、主任，自治区园区办党组成员陶德文率团来到深兰科技集团上海总部考察调研，并与深兰科技集团创始人、董事长陈海波等集团管理层座谈交流，双方围绕深兰科技人工智能项目落地广西的相关事…...

编程日记 2026/4/12 19:33:50

1005 K 次取反后最大化的数组和（贪心）

文章目录题目[](https://leetcode.cn/problems/maximize-sum-of-array-after-k-negations/)算法原理源码总结题目如上图，k是取反的次数，在数组【4，-1,3】中，当k 1，把-2取反为2，和为9；在数组…...

编程日记 2026/4/11 16:30:22

Softing线上研讨会 | 自研还是购买——用于自动化产品的工业以太网

| 线上研讨会时间：2025年1月27日 16:00~16:30 / 23:00~23:30 基于以太网的通信在工业自动化网络中的重要性日益增加。设备制造商正面临着一大挑战——如何快速、有效且经济地将工业以太网协议集成到其产品中。其中的关键问题包括：是否只需集成单一的工…...

编程日记 2026/4/3 20:56:25

SpringBoot整合Redis和Redision锁

参考文章 1.Redis 1.导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId></dependency><dependency><groupId>org.apache.c…...

编程日记 2026/4/5 17:43:17

【Pandas】pandas Series rename_axis

Pandas2.2 Series Computations descriptive stats 方法描述Series.align(other[, join, axis, level, …])用于将两个 Series 对齐，使其具有相同的索引Series.case_when(caselist)用于根据条件列表对 Series 中的元素进行条件判断并返回相应的值Series.drop([lab…...

编程日记 2026/4/3 21:11:04