当前位置：首页 > news >正文

4-知识图谱的抽取与构建-4_2实体识别与分类

news 2026/4/18 15:35:23

🌟 知识图谱的实体识别与分类🔥

🔍 什么是实体识别与分类？
实体识别（Entity Recognition）是从文本中提取出具体的事物，如人名、地名、组织名等。分类（Entity Classification）则是将这些实体归类到已知的类别中，比如“演员”可以分为“歌手”、“演员”、“运动员”等。它就像知识图谱的“骨架”，帮助我们更好地组织和理解信息。

💡 为什么重要？
1️⃣ 提升信息理解：通过识别和分类实体，我们能更清晰地理解文本内容，比如“苹果”可以是“水果”、“公司”或“产品”。
2️⃣ 知识图谱的基础：实体识别与分类是构建知识图谱的核心，帮助我们构建结构化的知识库。
3️⃣ 多领域应用：从医疗、教育到企业，实体识别与分类都能为实际场景提供支持。

🔥 如何实现？
1️⃣ 学习工具：云知豆豆、抽取王等知识图谱工具可以帮助你快速识别和分类实体。
2️⃣ 掌握技术：自然语言处理（NLP）技术如CRF、LSTM、BERT都能用来提升识别与分类的准确率。
3️⃣ 实践项目：尝试构建小型知识图谱，从简单的命名实体识别（NER）到复杂分类，一步步掌握技术。

💡 快速上手小技巧
1️⃣ 从基础开始：先掌握命名实体识别（NER），这是分类的基础。
2️⃣ 多实践：通过开源数据集（如CONLL2003）练习，积累经验。
3️⃣ 参考案例：学习医疗、教育领域的实际应用，了解不同场景的需求。

🌟 未来趋势
1️⃣ 智能化：深度学习将推动实体识别与分类更高效。
2️⃣ 个性化：根据用户需求定制分类结果。
3️⃣ 可视化：未来知识图谱将更加直观，用户能轻松理解结果。
4️⃣ 边缘计算：实体识别与分类将向边缘延伸，实时服务更 Close。

快来加入我们，一起探索知识图谱的奥秘！📚
#知识图谱 #实体识别 #分类 #自然语言处理 #深度学习 #学习指南

💡 你学会了吗？ 【没有】
快快告诉我，你对知识图谱的实体识别与分类有没有了然于胸？
快来评论区和我互动，分享你的学习心得吧！💪

在这里插入图片描述

4-知识图谱的抽取与构建-4_2实体识别与分类任务

1. 实体识别与分类的定义

实体识别（NER, Named Entity Recognition）：从非结构化文本中定位并提取具有特定意义的实体（如人名、地名、机构名等）。
实体分类（Entity Classification）：将识别出的实体划分到预定义的语义类别中（如“人物”、“地点”、“时间”）。

2. 核心要素

实体类型：

基础类型：PER（人物）、LOC（地点）、ORG（组织）、TIME（时间）、MONEY（货币）。
扩展类型：产品名（PRODUCT）、疾病名（DISEASE）、法律条款（LAW）等。

标注体系：

BIO：B-类别（实体开头）、I-类别（实体中间）、O（非实体）。
BIOES：B（开始）、I（中间）、E（结束）、S（单个实体）、O（非实体）。

技术方法

模板和规则方法

正则表达式、词典匹配（例如识别以“公司”结尾的机构名）。
在这里插入图片描述

基于序列标注的方法【机器学习算法】

序列标注的方法
在这里插入图片描述

1. 确定实体识别标签贴体系

在这里插入图片描述
标签体系越复杂，标注成本越高。人工标注
BIO,BIOS
###2. 模型【深度学习替代，但可以了解】

隐马尔可夫模型（HMM）

作用：实体识别：训练模型：目的：通过训练好的模型，自动给输入的句子打标签。了解这就行。算法搞不定。

在这里插入图片描述

天书【算法】

条件随机场（CRF）

在这里插入图片描述

深度学习

在这里插入图片描述

这里视频图搞错了，从下往上训练。

在这里插入图片描述

BiLSTM+CRF 神经网络

基于预训练的语言模型

Transformer（如BERT）、预训练语言模型。
在这里插入图片描述
预训练模型，更能挖掘出数据中隐藏的信息。

实体识别解码策略

在这里插入图片描述

1. MLP SOftmax

2. CRF

3. RNN

4. Pointer Network 指针网络【这是个啥】

小结

在这里插入图片描述

评价指标：

精确率（Precision）：正确识别的实体数 / 所有识别出的实体数。
召回率（Recall）：正确识别的实体数 / 所有真实存在的实体数。
F1值（F1-Score）：2 * (Precision * Recall) / (Precision + Recall)。

二、通俗易懂的语言指导

1. 比喻理解

实体识别与分类就像“抓娃娃机游戏”：

扫描句子 → 移动爪子（拆分句子为词语）。
锁定目标 → 瞄准娃娃（判断哪些词是实体）。
抓取分类 → 抓取后放进不同篮子（如“人名篮”、“地点篮”）。

2. 关键步骤

分词：把句子拆成“零件”，例如“马斯克在上海建工厂” → 【马斯克/在/上海/建/工厂】。
标注：给每个词贴标签，例如“马斯克→B-PER，上海→B-LOC”。
模型训练：教AI学会标注规则（如用BERT模型）。

三、通俗案例演示

任务：从句子中提取实体并分类

句子：
“2023年12月25日，苹果公司CEO蒂姆·库克宣布，将在加州投资5亿美元建设新总部。”

步骤分解：

分词与标注（BIO格式）：
- 2023年12月25日 → B-TIME
- 苹果公司 → B-ORG
- CEO → O
- 蒂姆·库克 → B-PER
- 加州 → B-LOC
- 5亿美元 → B-MONEY
分类结果：
- 时间：2023年12月25日
- 组织：苹果公司
- 人物：蒂姆·库克
- 地点：加州
- 货币：5亿美元

四、定制练习任务（巩固知识点）

任务1：BIO标注实战

句子：
“腾讯的创始人马化腾在深圳宣布，2024年将向元宇宙领域投入100亿元人民币。”
要求：
标注实体类别（PER, ORG, LOC, TIME, MONEY），使用BIO标签。

点击查看参考答案

腾讯 → B-ORG
创始人 → O
马化腾 → B-PER
深圳 → B-LOC
2024年 → B-TIME
100亿元人民币 → B-MONEY

任务2：模型调用与结果分析

安装工具：使用Hugging Face的transformers库。
```
pip install transformers
```

运行代码：

from transformers import pipelinener_model = pipeline("ner", model="dslim/bert-base-NER")
text = "Microsoft announced a new office in Tokyo on March 15, 2024."
results = ner_model(text)for entity in results:print(f"{entity['word']} → {entity['entity']}")

观察输出：
- 检查“Microsoft”是否被识别为组织（ORG），“Tokyo”是否为地点（LOC）。
- 思考：模型是否漏掉了“March 15, 2024”中的时间实体？

任务3：实际应用与错误分析

场景：你正在开发一个财经新闻分析工具，需提取公司名、人名、金额。
要求：

写一段包含歧义实体的句子，例如：
“苹果股价昨日上涨5%，库克表示将在苹果园区召开发布会。”
（注：“苹果”可能是公司名或水果，“库克”是人名，“苹果园区”是地点）
手动标注：尝试用BIO标签标注上述句子。
使用工具验证：
- 用spaCy或Hugging Face模型运行句子，观察工具是否准确分类“苹果”。
- 分析错误：为什么模型可能将“苹果园区”中的“苹果”误判为公司名？

五、总结

核心逻辑：拆分句子 → 判断实体 → 分类标签 → 模型自动化。
学习重点：
- 掌握BIO标注规则
- 熟悉工具（如spaCy、BERT）
- 理解上下文对分类的影响（如“苹果”在不同句子中的含义）
进阶方向：
- 尝试训练自定义NER模型（如用Hugging Face的Trainer）。
- 学习处理嵌套实体（如“北京大学第三医院”中的“北京大学”和“第三医院”）。

如果有代码报错或概念疑问，欢迎随时提问！ 🚀

4-知识图谱的抽取与构建-4_2实体识别与分类

🌟 知识图谱的实体识别与分类🔥 🔍 什么是实体识别与分类？ 实体识别（Entity Recognition）是从文本中提取出具体的事物，如人名、地名、组织名等。分类（Entity Classification&#x…...

编程日记 2025/2/25 22:46:15

腾讯云大模型知识引擎×DeepSeek赋能文旅

腾讯云大模型知识引擎DeepSeek赋能文旅 ——以合肥文旅为例的技术革新与实践路径一、技术底座：知识引擎与DeepSeek的融合逻辑腾讯云大模型知识引擎与DeepSeek模型的结合，本质上是**“知识库检索增强生成（RAG）实时联网能力”**…...

编程日记 2025/2/25 22:43:07

TMDS视频编解码算法

因为使用的是DDR进行传输，即双倍频率采样，故时钟只用是并行数据数据的5倍，而不是10倍。 TMDS算法流程： 视频编码TMDS算法流程实现： timescale 1 ps / 1ps //DVI编码通常用于视频传输，将并行数据转换为适合…...

编程日记 2025/2/25 22:42:06

C++程序员内功修炼——Linux C/C++编程技术汇总

在软件开发的宏大版图中，C 语言宛如一座巍峨的高山，吸引着无数开发者攀登探索。而 Linux 操作系统，以其开源、稳定、高效的特性，成为了众多开发者钟爱的开发平台。将 C 与 Linux 相结合，就如同为开发者配备了一把无坚不…...

编程日记 2025/2/25 22:40:36

【数据结构】链表中快指针和慢指针

目录一、找出并返回链表的中间结点二、输出链表中倒数第k个结点三、判断链表中是否有环四、两个单链表相交一、找出并返回链表的中间结点给你单链表的头结点 head ,请你找出并返回链表的中间结点。如果有两个中间结点,则返回第二个中间结点。要求：只遍历…...

编程日记 2025/2/25 22:39:21

6_zookeeper集群配置

配置一、配置myid文件 # 进入解压好的文件夹下面 touch myid vim myid # master节点写0，slave1节点写1，slave2节点写2二、配置zoo.cfg文件 1.在master节点编辑zookeeper配置文件 # 进入解压好的文件夹下面 cd conf/ cp zoo_sample.cfg zoo.cfg vim …...

编程日记 2025/2/25 22:37:09

Docker核心概念

容器介绍 Docker 是世界领先的软件容器平台，所以想要搞懂 Docker 的概念我们必须先从容器开始说起。什么是容器? 先来看看容器较为官方的解释一句话概括容器：容器就是将软件打包成标准化单元，以用于开发、交付和部署。容器镜像是轻量…...

编程日记 2025/2/25 22:31:57

LD_PRELOAD 绕过 disable_function 学习

借助这位师傅的文章来学习通过LD_PRELOAD来绕过disable_function的原理【PHP绕过】LD_PRELOAD bypass disable_functions_phpid绕过-CSDN博客感谢这位师傅的贡献介绍静态链接： （1）举个情景来帮助理解： 假设你要搬家&#x…...

编程日记 2025/2/25 22:22:38

如何用JAVA实现布隆过滤器？

目录引言布隆过滤器的原理 1. 核心思想 2. 优缺点布隆过滤器的使用场景 Java 实现布隆过滤器 1. 实现步骤 2. 代码实现 3. 代码说明 4. 测试结果布隆过滤器的优化总结引言布隆过滤器（Bloom Filter）是一种高效的概率数据结构&#xff0…...

编程日记 2025/2/25 22:20:28

游戏开发游戏开始界面

目录前言一游戏初始化界面的分析二游戏的大概框架三显示界面的开发四完整代码总结我们可以来看看游戏初始界面是什么样的勇士游戏样例前言这里是开发游戏的初始界面一游戏初始化界面的分析我们需要一个背景图，开始游戏图标&#xff0…...

编程日记 2025/2/25 22:18:25

Python解析 Flink Job 依赖的checkpoint 路径

引言 Apache Flink 是一个强大的分布式处理框架，广泛用于批处理和流处理任务。其 checkpoint 机制是确保容错的关键功能，允许在计算过程中保存状态，以便在故障时从最近的 checkpoint 恢复。本文详细探讨了一个 Python 脚本，该脚本…...

编程日记 2025/2/25 22:17:23

Javascript网页设计案例：通过PDFLib实现一款PDF分割工具，分割方式自定义-完整源代码，开箱即用

功能预览一、工具简介 PDF 分割工具支持以下核心功能：拖放或上传 PDF 文件：用户可以通过拖放或点击上传 PDF 文件。两种分割模式：指定范围：用户可以指定起始页和结束页，提取特定范围的内容。固定间距：用户可以设置间隔页数（例如每 5 页分割一次），工具会自动完成分…...

编程日记 2025/2/25 22:15:16

计算机视觉算法实战——产品分拣（主页有源码）

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 1. 领域简介✨✨ 产品分拣是工业自动化和物流领域的核心技术，旨在通过机器视觉系统对传送带上的物品进行快速识别、定位和分类&a…...

编程日记 2025/2/25 22:06:59

汽车软件︱AUTO TECH China 2025 广州国际汽车软件与安全技术展览会：开启汽车科技新时代

在汽车产业智能化与网联化飞速发展的当下，汽车软件与安全技术已然成为行业变革的核心驱动力。2025年11月20 - 22日，AUTO TECH China 2025 广州国际汽车软件与安全技术展览会将在广州保利世贸博览馆盛大开幕，这场展会将汇聚行业前沿成果&#…...

编程日记 2025/2/25 22:03:47

Visual Studio打开文件后，中文变乱码的解决方案

文件加载使用Unicode（UTF-8）编码加载文件 C:\WorkSpace\Assets\Scripts\UI\View\ExecuteComplateView.cs时，有些字节已用Unicode替换字符替换。保存该文件将不会保留原始文件内容。...

编程日记 2025/2/25 22:00:41

Python爬虫selenium验证-中文识别点选+图片验证码案例

1.获取图片 import re import time import ddddocr import requests from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome.service import Service from selenium.webdriver.support.wait import WebDriverWait from …...

编程日记 2025/2/25 21:58:29

4-知识图谱的抽取与构建-4_2实体识别与分类任务

1. 实体识别与分类的定义

2. 核心要素

实体类型：

标注体系：

技术方法

模板和规则方法

基于序列标注的方法【机器学习算法】

1. 确定实体识别标签贴体系

隐马尔可夫模型（HMM）

条件随机场（CRF）

深度学习

BiLSTM+CRF 神经网络

基于预训练的语言模型

实体识别解码策略

1. MLP SOftmax

2. CRF

3. RNN

4. Pointer Network 指针网络【这是个啥】

小结

评价指标：

二、通俗易懂的语言指导

1. 比喻理解

2. 关键步骤

三、通俗案例演示

任务：从句子中提取实体并分类

四、定制练习任务（巩固知识点）

任务1：BIO标注实战

任务2：模型调用与结果分析

任务3：实际应用与错误分析

五、总结

相关文章：