基于 BERT 的自定义中文命名实体识别实现
基于 BERT 的自定义中文命名实体识别实现
在自然语言处理中,命名实体识别(Named Entity Recognition,NER)是一项重要的任务,旨在识别文本中的特定实体,如人名、地名、组织机构名等。本文将介绍如何使用 BERT 模型实现自定义中文命名实体识别,并提供详细的代码分析和解读。
一、项目背景
命名实体识别在许多领域都有广泛的应用,如信息提取、问答系统、机器翻译等。传统的命名实体识别方法通常基于规则或统计模型,但随着深度学习的发展,基于神经网络的方法已经成为主流。BERT(Bidirectional Encoder Representations from Transformers)是一种强大的预训练语言模型,它在许多自然语言处理任务中都取得了优异的成绩。
二、技术选型
- 框架选择:我们使用 PyTorch 作为深度学习框架,它具有灵活、高效的特点,并且提供了丰富的工具和库。
- 模型选择:选择 BERT 作为基础模型,BERT 是一种基于 Transformer 架构的预训练语言模型,它可以学习到丰富的语言表示,适用于各种自然语言处理任务。
- 标注方法:采用 BIO 标注方法,即将每个实体的第一个词标注为“B_实体类型”,其余词标注为“I_实体类型”,非实体词标注为“O”。
三、代码结构
dataset.py:定义了一个名为NERDataset的数据集类,用于加载和处理命名实体识别数据。该类接受文件路径、tokenizer和标签映射作为参数,并实现了__len__和__getitem__方法,以便在训练和评估过程中使用。data_processing.py:主要用于数据预处理,包括读取标签列表、创建标签映射、创建数据集对象并保存为.pt文件。train_model.py:实现了模型的训练过程,包括加载数据、定义模型、优化器,进行多个 epoch 的训练,并保存训练好的模型。evaluate_model.py:用于评估模型性能,通过计算验证集上的损失和准确率来评估模型的性能。predict.py:用于对新文本进行预测,提取其中的命名实体。
四、数据集准备和数据标注
train.txt:训练数据集。test.txt:测试训练集。- 数据标注,BIO数据标注法。

五、代码实现
1. dataset.py
import torch
from torch.utils.data import Dataset
from transformers import BertTokenizerclass NERDataset(Dataset):def __init__(self, file_path, tokenizer, label_map, max_len=128):self.tokenizer = tokenizerself.label_map = label_mapself.max_len = max_lenself.texts, self.labels = self._read_file(file_path)def _read_file(self, file_path):texts, labels = [], []with open(file_path, 'r', encoding='utf-8') as file:words, tags = [], []for line in file:if line.strip() == "":if words:texts.append(words)labels.append(tags)words, tags = [], []else:parts = line.strip().split()if len(parts) == 2:word, tag = partswords.append(word)tags.append(tag)else:print(f"Skipping line: {line.strip()}")if words:texts.append(words)labels.append(tags)return texts, labelsdef __len__(self):return len(self.texts)def __getitem__(self, idx):words = self.texts[idx]tags = self.labels[idx]inputs = self.tokenizer(words, is_split_into_words=True, truncation=True, padding='max_length', max_length=self.max_len, return_tensors="pt")labels = [self.label_map[tag] for tag in tags]labels += [self.label_map['O']] * (self.max_len - len(labels))inputs["labels"] = torch.tensor(labels相关文章:
基于 BERT 的自定义中文命名实体识别实现
基于 BERT 的自定义中文命名实体识别实现 在自然语言处理中,命名实体识别(Named Entity Recognition,NER)是一项重要的任务,旨在识别文本中的特定实体,如人名、地名、组织机构名等。本文将介绍如何使用 BERT 模型实现自定义中文命名实体识别,并提供详细的代码分析和解读…...
中秋节特别游戏:给玉兔投喂月饼
🖼️ 效果展示 📜 游戏背景 在中秋这个充满诗意的节日里,玉兔因为贪玩被赶下人间。在这个温柔的夜晚,我们希望通过一个小游戏,让玉兔感受到人间的温暖和关怀。🐰🌙 🎮 游戏设计 人…...
python pdf转word或excel
python pdf转word或excel 直接上源码 main import gradio as gr import pdf2docx as p2d import Pdf2Excel as p2e import utils.id.IdUtil as idUtildef convert_pdf_to(pdf_file, pdf_pwd, pdf_to_type):if pdf_to_type "docx":# Convert PDF to DOCXcv p2d.C…...
GNU链接器(LD):位置计数器(.)功能及实例解析
0 参考资料 GNU-LD-v2.30-中文手册.pdf GNU linker.pdf1 前言 一个完整的编译工具链应该包含以下4个部分: (1)编译器 (2)汇编器 (3)链接器 (4)lib库 在GNU工具链中&…...
学习记录:js算法(四十三):翻转二叉树
文章目录 翻转二叉树我的思路网上思路递归栈 总结 翻转二叉树 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点 图一: 图二: 示例 1:(如图一) 输入:root [4,2,7,1…...
关于 SQL 的 JOIN 操作
关于 SQL 的 JOIN 操作 在关系型数据库中,数据通常分布在多个表中。为了进行有效的数据检索,我们需要从不同的表中组合数据,这时就需要使用 JOIN 操作。本文将深入探讨 SQL 中不同类型的 JOIN 及其用法,以帮助你在数据库查询中更…...
聊聊AUTOSAR:基于Vector MICROSAR的TC8测试开发方案
技术背景 车载以太网技术作为汽车智能化和网联化的重要组成部分,正逐步成为现代汽车网络架构的核心,已广泛应用于汽车诊断(如OBD)、ECU软件更新、智能座舱系统、高清摄像头环视泊车系统等多个领域。 在这个过程中,ET…...
ES6中迭代器与生成器知识浅析
ES5及以下版本对JS几种集合,要存取数据一般需要用循环语句来遍历,就要初始化一个或多个变量来记录每一次循环在数据集合中的位置或数据值。这里容易出现超出边界问题,造成程序出错。另外,对于多次循环也需要跟踪理清各个变量关系及…...
unix中的vfork函数
一、前言 本文介绍unix中的vfork函数,vfork函数功能和fork函数类似,也是用于创建新的进程,只不过调用vfork函数创建的子进程将共享父进程的进程空间,且只有当子进程调用exec()或者exit()函数后,父进程才会继续运行。 …...
Android 用线程池实现一个简单的任务队列(Kotlin)
关于线程池,Kotlin和java的使用方式一样 在Android中,很多人喜欢用Handler的postDelayed() 去实现延时任务. 要使用postDelayed(),去实现延时任务队列,就不可避免要使用递归. 但是这样做,代码的简洁性,和书写的简易,就远不如使用线程池. 使用线程池的简单程度: private val…...
遨游信息技术的浩瀚宇宙:探索MySQL的深邃奥秘
遨游信息技术的浩瀚宇宙:探索MySQL的深邃奥秘 在信息技术的浩瀚宇宙中,MySQL犹如一颗璀璨的星辰,以其稳定、高效、灵活的特性,照亮了无数开发者与数据管理者的前行之路。作为关系型数据库管理系统的佼佼者,MySQL不仅承…...
【Bug解决】Nacos启动成功,但却无法访问(提示:无法访问此网站,192.168.10.88的响应时间过长)
项目场景: 在虚拟机上通过Docker创建Nacos容器,已经创建成功,查看Nacos启动日志也是成功。但通过端口号加8848/nacos(如:http://IP:8848/nacos)无法访问到Nacos管理页面。 愿意分析一: 先检查好…...
【AI创作组】工程方向的硕士研究生学习Matlab的路径
1. MATLAB软件概述 1.1 MATLAB发展历程 MATLAB自20世纪70年代诞生以来,已经经历了多次重要的版本更新和功能扩展。 初始版本:MATLAB的前身只是一个简单的交互式矩阵计算器,由Cleve B. Moler博士在1970年代初期开发,目的是为了方便学生和研究人员使用线性代数软件包LINPAC…...
Mac使用Nginx设置代理,并禁用自带Apache
Mac自带Apache服务,并占用80端口,如果需要使用Nginx,需要禁用Apache并自己安装Nginx 一、禁用自带Apache 1.关闭Apache sudo apachectl -k stop 如果出现如下报错:httpd: Could not reliably determine the server’s fully q…...
AlmaLinux 安裝JDK8
在 AlmaLinux 上安装 JDK 8 可以通过包管理器 dnf 来完成。AlmaLinux 是基于 RHEL 的一个开源发行版,因此其包管理系统和 RHEL 类似。以下是详细的步骤来安装 OpenJDK 8 1. 更新系统包列表 sudo dnf update -y 2. 安装 OpenJDK 8 使用 dnf 安装 OpenJDK 8。你可…...
Set 和 Map 的模拟实现
1、引言 在数据结构与算法的学习与实践中,关联容器(associative containers)是不可忽视的重要工具。作为高效管理数据的一类容器,C 标准库中的 set 和 map 在现代软件开发中扮演着关键角色。这两个容器通过平衡二叉搜索树&#x…...
深度学习自编码器 - 预测稀疏分解(PSD)篇
序言 在数据科学与机器学习的广阔领域中,深度学习作为一股不可忽视的力量,正引领着技术革新的浪潮。其中,自编码器( Autoencoder \text{Autoencoder} Autoencoder)作为一种特殊的神经网络结构,以其独特的自…...
如何检测出来这个ip是共享ip不安全
检测一个IP是否为共享IP以及其安全性可以通过以下几种方法和工具来进行分析。共享IP通常是指多个用户共享一个IP地址,常见于公共代理服务器、VPN服务或数据中心IP。如果你想评估一个IP是否为共享IP以及其安全性,以下方法和工具可以帮助你进行检测和分析。…...
TMStarget学习——T1 Segmentation数据处理及解bug
最新学习季公俊老师的神器 TMStarget 的第一个模块基于结构像的靶区计算T1 segmentation。下面上步骤: (1)在github 上下载 TMStarget https://github.com/jigongjun/Neuroimaging-and-Neuromodulation (2)按照要求下载依赖工具软件AFQ、vistasoft、SPM12 &#…...
锁策略, cas 和 synchronized 优化过程
1.1 常見的鎖策略 預測鎖衝突概率 樂觀鎖:加鎖的時候,假設出現鎖衝突的概率不大。圍繞加鎖做的工作會更少。 悲觀鎖:加鎖的時候,假設鎖出現衝突的概率很大。圍繞加鎖做的工作會更多。 synchronized “自適應” 初始是樂觀的。鎖…...
Claude Code助手对比:百川2-13B在代码生成与解释方面的能力展示
Claude Code助手对比:百川2-13B在代码生成与解释方面的能力展示 最近和几个做开发的朋友聊天,大家讨论最多的就是AI编程助手到底哪个更好用。Claude Code的名气确实很大,很多技术社区都在讨论它。不过,除了这些“明星”选手&…...
一天一个开源项目(第61篇):knowledge_graph - 把任意文本转成知识图谱
引言 “Convert any text to a graph of knowledge. Graph Retrieval Augmented Generation (GRAG) — a new and improved version of RAG.” 这是「一天一个开源项目」系列的第 61 篇文章。今天介绍的项目是 knowledge_graph(GitHub)。 想把文档、PDF…...
iOS 开发进阶,用 SniffMaster 实现 iPhone 抓包深度分析
在 iOS 开发中,抓到请求只是第一步,更实际其实是比如 想确认某个字段到底有没有发出去想复现线上问题想观察 App 在异常网络下的行为 这时候抓包就不只看有没有数据,而是抓出来的数据是否完整、是否可控、是否可复现场景一:接口参…...
palworld-host-save-fix:跨环境存档迁移的技术突破与实践指南
palworld-host-save-fix:跨环境存档迁移的技术突破与实践指南 【免费下载链接】palworld-host-save-fix 项目地址: https://gitcode.com/gh_mirrors/pa/palworld-host-save-fix 一、问题溯源:幻兽帕鲁存档迁移的核心挑战 核心价值:深…...
SAP-MM 公司间STO实战:从主数据到收货的完整配置与流程解析
1. 公司间STO的核心概念与业务场景 第一次接触公司间库存转储订单(STO)时,我误以为它和普通采购订单差不多。直到实际配置时才发现,这里面的门道可不少。简单来说,公司间STO就是集团内部不同法人公司之间的库存调拨业务,但会计上需…...
千万级日志清洗仅需11秒:Polars 2.0流式分块+并行UDF实战(附可复用清洗模板库)
第一章:千万级日志清洗仅需11秒:Polars 2.0流式分块并行UDF实战(附可复用清洗模板库)传统Pandas在处理千万级Nginx或Kafka日志时,常因内存暴涨与单线程瓶颈导致清洗耗时超3分钟。Polars 2.0引入的scan_csv()流式扫描 …...
收藏 | 传统程序员转型AI Agent工程师:未来最值钱的程序员是这类人
文章探讨了传统程序员在AI时代面临的转型问题,提出AI Agent工程师是未来趋势。文章指出,AI Agent工程师的核心能力并非模型本身,而是构建稳定自动化系统的系统工程能力,包括工具编排、状态管理、权限控制等。文章建议传统程序员通…...
Ostrakon-VL终端部署案例:单卡3090实现12路摄像头并发扫描
Ostrakon-VL终端部署案例:单卡3090实现12路摄像头并发扫描 1. 项目背景与核心价值 在零售与餐饮行业,传统的图像识别系统往往面临两个痛点:一是工业级UI操作复杂,员工培训成本高;二是多路摄像头并发处理需要昂贵的高…...
RAGFlow与Dify共存方案:同一台Win11机器如何用Docker隔离部署
RAGFlow与Dify共存方案:同一台Win11机器如何用Docker隔离部署 在AI应用开发领域,RAGFlow和Dify作为两款热门工具,分别擅长知识库构建和AI应用编排。许多开发者面临一个现实挑战:如何在本地开发环境中同时运行这两个系统࿱…...
利用快马平台与openclaw切换模型功能,快速构建待办事项应用原型
最近在尝试快速构建一个待办事项应用的原型时,发现InsCode(快马)平台的AI代码生成功能特别适合这种场景。通过平台内置的openclaw切换模型功能,可以快速比较不同AI模型生成的代码风格差异,大大缩短了原型开发周期。下面分享下我的实践过程&am…...
