4-知识图谱的抽取与构建-4_2实体识别与分类
🌟 知识图谱的实体识别与分类🔥
🔍 什么是实体识别与分类?
实体识别(Entity Recognition)是从文本中提取出具体的事物,如人名、地名、组织名等。分类(Entity Classification)则是将这些实体归类到已知的类别中,比如“演员”可以分为“歌手”、“演员”、“运动员”等。它就像知识图谱的“骨架”,帮助我们更好地组织和理解信息。
💡 为什么重要?
1️⃣ 提升信息理解:通过识别和分类实体,我们能更清晰地理解文本内容,比如“苹果”可以是“水果”、“公司”或“产品”。
2️⃣ 知识图谱的基础:实体识别与分类是构建知识图谱的核心,帮助我们构建结构化的知识库。
3️⃣ 多领域应用:从医疗、教育到企业,实体识别与分类都能为实际场景提供支持。
🔥 如何实现?
1️⃣ 学习工具:云知豆豆、抽取王等知识图谱工具可以帮助你快速识别和分类实体。
2️⃣ 掌握技术:自然语言处理(NLP)技术如CRF、LSTM、BERT都能用来提升识别与分类的准确率。
3️⃣ 实践项目:尝试构建小型知识图谱,从简单的命名实体识别(NER)到复杂分类,一步步掌握技术。
💡 快速上手小技巧
1️⃣ 从基础开始:先掌握命名实体识别(NER),这是分类的基础。
2️⃣ 多实践:通过开源数据集(如CONLL2003)练习,积累经验。
3️⃣ 参考案例:学习医疗、教育领域的实际应用,了解不同场景的需求。
🌟 未来趋势
1️⃣ 智能化:深度学习将推动实体识别与分类更高效。
2️⃣ 个性化:根据用户需求定制分类结果。
3️⃣ 可视化:未来知识图谱将更加直观,用户能轻松理解结果。
4️⃣ 边缘计算:实体识别与分类将向边缘延伸,实时服务更 Close。
快来加入我们,一起探索知识图谱的奥秘!📚
#知识图谱 #实体识别 #分类 #自然语言处理 #深度学习 #学习指南
💡 你学会了吗? 【没有】
快快告诉我,你对知识图谱的实体识别与分类有没有了然于胸?
快来评论区和我互动,分享你的学习心得吧!💪

4-知识图谱的抽取与构建-4_2实体识别与分类任务
1. 实体识别与分类的定义
- 实体识别(NER, Named Entity Recognition):从非结构化文本中定位并提取具有特定意义的实体(如人名、地名、机构名等)。
- 实体分类(Entity Classification):将识别出的实体划分到预定义的语义类别中(如“人物”、“地点”、“时间”)。

2. 核心要素
实体类型:
- 基础类型:PER(人物)、LOC(地点)、ORG(组织)、TIME(时间)、MONEY(货币)。
- 扩展类型:产品名(PRODUCT)、疾病名(DISEASE)、法律条款(LAW)等。
标注体系:
- BIO:B-类别(实体开头)、I-类别(实体中间)、O(非实体)。
- BIOES:B(开始)、I(中间)、E(结束)、S(单个实体)、O(非实体)。
技术方法
模板和规则方法
正则表达式、词典匹配(例如识别以“公司”结尾的机构名)。

基于序列标注的方法【机器学习算法】
序列标注的方法

1. 确定实体识别标签贴体系

标签体系越复杂,标注成本越高。人工标注
BIO,BIOS
###2. 模型【深度学习替代,但可以了解】
隐马尔可夫模型(HMM)
作用:实体识别: 训练模型:目的: 通过训练好的模型,自动给输入的句子打标签。了解这就行。算法搞不定。





天书【算法】



条件随机场(CRF)


深度学习


这里视频图搞错了,从下往上训练。


BiLSTM+CRF 神经网络
基于预训练的语言模型
Transformer(如BERT)、预训练语言模型。

预训练模型,更能挖掘出数据中隐藏的信息。
实体识别解码策略

1. MLP SOftmax
2. CRF
3. RNN
4. Pointer Network 指针网络【这是个啥】
小结

评价指标:
- 精确率(Precision):正确识别的实体数 / 所有识别出的实体数。
- 召回率(Recall):正确识别的实体数 / 所有真实存在的实体数。
- F1值(F1-Score):2 * (Precision * Recall) / (Precision + Recall)。
二、通俗易懂的语言指导
1. 比喻理解
实体识别与分类就像“抓娃娃机游戏”:
- 扫描句子 → 移动爪子(拆分句子为词语)。
- 锁定目标 → 瞄准娃娃(判断哪些词是实体)。
- 抓取分类 → 抓取后放进不同篮子(如“人名篮”、“地点篮”)。
2. 关键步骤
- 分词:把句子拆成“零件”,例如“马斯克在上海建工厂” → 【马斯克/在/上海/建/工厂】。
- 标注:给每个词贴标签,例如“马斯克→B-PER,上海→B-LOC”。
- 模型训练:教AI学会标注规则(如用BERT模型)。
三、通俗案例演示
任务:从句子中提取实体并分类
句子:
“2023年12月25日,苹果公司CEO蒂姆·库克宣布,将在加州投资5亿美元建设新总部。”
步骤分解:
-
分词与标注(BIO格式):
- 2023年12月25日 → B-TIME
- 苹果公司 → B-ORG
- CEO → O
- 蒂姆·库克 → B-PER
- 加州 → B-LOC
- 5亿美元 → B-MONEY
-
分类结果:
- 时间:2023年12月25日
- 组织:苹果公司
- 人物:蒂姆·库克
- 地点:加州
- 货币:5亿美元
四、定制练习任务(巩固知识点)
任务1:BIO标注实战
句子:
“腾讯的创始人马化腾在深圳宣布,2024年将向元宇宙领域投入100亿元人民币。”
要求:
标注实体类别(PER, ORG, LOC, TIME, MONEY),使用BIO标签。
- 腾讯 → B-ORG
- 创始人 → O
- 马化腾 → B-PER
- 深圳 → B-LOC
- 2024年 → B-TIME
- 100亿元人民币 → B-MONEY
任务2:模型调用与结果分析
-
安装工具:使用Hugging Face的
transformers库。pip install transformers -
运行代码:
from transformers import pipelinener_model = pipeline("ner", model="dslim/bert-base-NER") text = "Microsoft announced a new office in Tokyo on March 15, 2024." results = ner_model(text)for entity in results:print(f"{entity['word']} → {entity['entity']}") -
观察输出:
- 检查“Microsoft”是否被识别为组织(ORG),“Tokyo”是否为地点(LOC)。
- 思考:模型是否漏掉了“March 15, 2024”中的时间实体?
任务3:实际应用与错误分析
场景:你正在开发一个财经新闻分析工具,需提取公司名、人名、金额。
要求:
-
写一段包含歧义实体的句子,例如:
“苹果股价昨日上涨5%,库克表示将在苹果园区召开发布会。”
(注:“苹果”可能是公司名或水果,“库克”是人名,“苹果园区”是地点) -
手动标注:尝试用BIO标签标注上述句子。
-
使用工具验证:
- 用
spaCy或Hugging Face模型运行句子,观察工具是否准确分类“苹果”。 - 分析错误:为什么模型可能将“苹果园区”中的“苹果”误判为公司名?
- 用
五、总结
- 核心逻辑:拆分句子 → 判断实体 → 分类标签 → 模型自动化。
- 学习重点:
- 掌握BIO标注规则
- 熟悉工具(如spaCy、BERT)
- 理解上下文对分类的影响(如“苹果”在不同句子中的含义)
- 进阶方向:
- 尝试训练自定义NER模型(如用Hugging Face的
Trainer)。 - 学习处理嵌套实体(如“北京大学第三医院”中的“北京大学”和“第三医院”)。
- 尝试训练自定义NER模型(如用Hugging Face的
如果有代码报错或概念疑问,欢迎随时提问! 🚀
相关文章:
4-知识图谱的抽取与构建-4_2实体识别与分类
🌟 知识图谱的实体识别与分类🔥 🔍 什么是实体识别与分类? 实体识别(Entity Recognition)是从文本中提取出具体的事物,如人名、地名、组织名等。分类(Entity Classification&#x…...
腾讯云大模型知识引擎×DeepSeek赋能文旅
腾讯云大模型知识引擎DeepSeek赋能文旅 ——以合肥文旅为例的技术革新与实践路径 一、技术底座:知识引擎与DeepSeek的融合逻辑 腾讯云大模型知识引擎与DeepSeek模型的结合,本质上是**“知识库检索增强生成(RAG)实时联网能力”**…...
TMDS视频编解码算法
因为使用的是DDR进行传输,即双倍频率采样,故时钟只用是并行数据数据的5倍,而不是10倍。 TMDS算法流程: 视频编码TMDS算法流程实现: timescale 1 ps / 1ps //DVI编码通常用于视频传输,将并行数据转换为适合…...
C++程序员内功修炼——Linux C/C++编程技术汇总
在软件开发的宏大版图中,C 语言宛如一座巍峨的高山,吸引着无数开发者攀登探索。而 Linux 操作系统,以其开源、稳定、高效的特性,成为了众多开发者钟爱的开发平台。将 C 与 Linux 相结合,就如同为开发者配备了一把无坚不…...
【数据结构】链表中快指针和慢指针
目录 一、找出并返回链表的中间结点 二、输出链表中倒数第k个结点 三、判断链表中是否有环 四、两个单链表相交 一、找出并返回链表的中间结点 给你单链表的头结点 head ,请你找出并返回链表的中间结点。如果有两个中间结点,则返回第二个中间结点。 要求:只遍历…...
6_zookeeper集群配置
配置 一、配置myid文件 # 进入解压好的文件夹下面 touch myid vim myid # master节点写0,slave1节点写1,slave2节点写2二、配置zoo.cfg文件 1.在master节点编辑zookeeper配置文件 # 进入解压好的文件夹下面 cd conf/ cp zoo_sample.cfg zoo.cfg vim …...
Docker核心概念
容器介绍 Docker 是世界领先的软件容器平台,所以想要搞懂 Docker 的概念我们必须先从容器开始说起。 什么是容器? 先来看看容器较为官方的解释 一句话概括容器:容器就是将软件打包成标准化单元,以用于开发、交付和部署。 容器镜像是轻量…...
LD_PRELOAD 绕过 disable_function 学习
借助这位师傅的文章来学习通过LD_PRELOAD来绕过disable_function的原理 【PHP绕过】LD_PRELOAD bypass disable_functions_phpid绕过-CSDN博客 感谢这位师傅的贡献 介绍 静态链接: (1)举个情景来帮助理解: 假设你要搬家&#x…...
如何用JAVA实现布隆过滤器?
目录 引言 布隆过滤器的原理 1. 核心思想 2. 优缺点 布隆过滤器的使用场景 Java 实现布隆过滤器 1. 实现步骤 2. 代码实现 3. 代码说明 4. 测试结果 布隆过滤器的优化 总结 引言 布隆过滤器(Bloom Filter)是一种高效的概率数据结构࿰…...
游戏开发 游戏开始界面
目录 前言 一 游戏初始化界面的分析 二 游戏的大概框架 三 显示界面的开发 四 完整代码 总结 我们可以来看看游戏初始界面是什么样的 勇士游戏样例 前言 这里是开发游戏的初始界面 一 游戏初始化界面的分析 我们需要一个背景图,开始游戏图标࿰…...
Python解析 Flink Job 依赖的checkpoint 路径
引言 Apache Flink 是一个强大的分布式处理框架,广泛用于批处理和流处理任务。其 checkpoint 机制是确保容错的关键功能,允许在计算过程中保存状态,以便在故障时从最近的 checkpoint 恢复。本文详细探讨了一个 Python 脚本,该脚本…...
Javascript网页设计案例:通过PDFLib实现一款PDF分割工具,分割方式自定义-完整源代码,开箱即用
功能预览 一、工具简介 PDF 分割工具支持以下核心功能: 拖放或上传 PDF 文件:用户可以通过拖放或点击上传 PDF 文件。两种分割模式: 指定范围:用户可以指定起始页和结束页,提取特定范围的内容。固定间距:用户可以设置间隔页数(例如每 5 页分割一次),工具会自动完成分…...
计算机视觉算法实战——产品分拣(主页有源码)
✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ 1. 领域简介✨✨ 产品分拣是工业自动化和物流领域的核心技术,旨在通过机器视觉系统对传送带上的物品进行快速识别、定位和分类&a…...
汽车软件︱AUTO TECH China 2025 广州国际汽车软件与安全技术展览会:开启汽车科技新时代
在汽车产业智能化与网联化飞速发展的当下,汽车软件与安全技术已然成为行业变革的核心驱动力。2025年11月20 - 22日,AUTO TECH China 2025 广州国际汽车软件与安全技术展览会将在广州保利世贸博览馆盛大开幕,这场展会将汇聚行业前沿成果&#…...
Visual Studio打开文件后,中文变乱码的解决方案
文件加载 使用Unicode(UTF-8)编码加载文件 C:\WorkSpace\Assets\Scripts\UI\View\ExecuteComplateView.cs时,有些字节已用Unicode替换字符替换。保存该文件将不会保留原始文件内容。...
Python爬虫selenium验证-中文识别点选+图片验证码案例
1.获取图片 import re import time import ddddocr import requests from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome.service import Service from selenium.webdriver.support.wait import WebDriverWait from …...
MySQL后端返回给前端的时间变了(时区问题)
问题:MySQL里的时间例如为2025-01-10 21:19:30,但是返回到前端就变成了2025-01-10 13:19:30,会出现小时不一样或日期变成隔日的问题 一般来说设计字段时会使用datetime字段类型,这是一种用于时间的字段类型,而这个类型…...
计算机毕业设计Hadoop+Spark+DeepSeek-R1大模型民宿推荐系统 hive民宿可视化 民宿爬虫 大数据毕业设计(源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
前端性能优化面试题及参考答案
目录 如何通过合并文件减少 HTTP 请求次数? 列举 CDN 加速的适用场景与实现原理。 如何利用 HTTP/2 的多路复用特性优化资源加载? 描述 DNS 预解析的实现方式及其对性能的影响。 异步加载脚本时,async 与 defer 属性的区别是什么? 如何优化 AJAX 请求的并发数与优先级…...
【NLP 37、激活函数 ③ relu激活函数】
—— 25.2.23 ReLU广泛应用于卷积神经网络(CNN)和全连接网络,尤其在图像分类(如ImageNet)、语音识别等领域表现优异。其高效性和非线性特性使其成为深度学习默认激活函数的首选 一、定义与数学表达式 ReLU࿰…...
使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式
一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明:假设每台服务器已…...
相机从app启动流程
一、流程框架图 二、具体流程分析 1、得到cameralist和对应的静态信息 目录如下: 重点代码分析: 启动相机前,先要通过getCameraIdList获取camera的个数以及id,然后可以通过getCameraCharacteristics获取对应id camera的capabilities(静态信息)进行一些openCamera前的…...
VTK如何让部分单位不可见
最近遇到一个需求,需要让一个vtkDataSet中的部分单元不可见,查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行,是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示,主要是最后一个参数,透明度…...
自然语言处理——Transformer
自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN,但是…...
【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪 宝可梦GO游戏自组网系统
目录 游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性 宝可梦玩法融合设计游戏构想要素1. 地图探索(基于物理空间 广播范围)2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法 安全性设计 技术选…...
IP如何挑?2025年海外专线IP如何购买?
你花了时间和预算买了IP,结果IP质量不佳,项目效率低下不说,还可能带来莫名的网络问题,是不是太闹心了?尤其是在面对海外专线IP时,到底怎么才能买到适合自己的呢?所以,挑IP绝对是个技…...
Selenium常用函数介绍
目录 一,元素定位 1.1 cssSeector 1.2 xpath 二,操作测试对象 三,窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口 四,弹窗 五,等待 六,导航 七,文件上传 …...
Ubuntu Cursor升级成v1.0
0. 当前版本低 使用当前 Cursor v0.50时 GitHub Copilot Chat 打不开,快捷键也不好用,当看到 Cursor 升级后,还是蛮高兴的 1. 下载 Cursor 下载地址:https://www.cursor.com/cn/downloads 点击下载 Linux (x64) ,…...
基于江科大stm32屏幕驱动,实现OLED多级菜单(动画效果),结构体链表实现(独创源码)
引言 在嵌入式系统中,用户界面的设计往往直接影响到用户体验。本文将以STM32微控制器和OLED显示屏为例,介绍如何实现一个多级菜单系统。该系统支持用户通过按键导航菜单,执行相应操作,并提供平滑的滚动动画效果。 本文设计了一个…...
OpenGL-什么是软OpenGL/软渲染/软光栅?
软OpenGL(Software OpenGL)或者软渲染指完全通过CPU模拟实现的OpenGL渲染方式(包括几何处理、光栅化、着色等),不依赖GPU硬件加速。这种模式通常性能较低,但兼容性极强,常用于不支持硬件加速…...
