当前位置：首页 > news >正文

基于 BERT 的自定义中文命名实体识别实现

news 2026/5/20 7:47:28

基于 BERT 的自定义中文命名实体识别实现

在自然语言处理中，命名实体识别（Named Entity Recognition，NER）是一项重要的任务，旨在识别文本中的特定实体，如人名、地名、组织机构名等。本文将介绍如何使用 BERT 模型实现自定义中文命名实体识别，并提供详细的代码分析和解读。

一、项目背景

命名实体识别在许多领域都有广泛的应用，如信息提取、问答系统、机器翻译等。传统的命名实体识别方法通常基于规则或统计模型，但随着深度学习的发展，基于神经网络的方法已经成为主流。BERT（Bidirectional Encoder Representations from Transformers）是一种强大的预训练语言模型，它在许多自然语言处理任务中都取得了优异的成绩。

二、技术选型

框架选择：我们使用 PyTorch 作为深度学习框架，它具有灵活、高效的特点，并且提供了丰富的工具和库。
模型选择：选择 BERT 作为基础模型，BERT 是一种基于 Transformer 架构的预训练语言模型，它可以学习到丰富的语言表示，适用于各种自然语言处理任务。
标注方法：采用 BIO 标注方法，即将每个实体的第一个词标注为“B_实体类型”，其余词标注为“I_实体类型”，非实体词标注为“O”。

三、代码结构

dataset.py：定义了一个名为NERDataset的数据集类，用于加载和处理命名实体识别数据。该类接受文件路径、tokenizer和标签映射作为参数，并实现了__len__和__getitem__方法，以便在训练和评估过程中使用。
data_processing.py：主要用于数据预处理，包括读取标签列表、创建标签映射、创建数据集对象并保存为.pt文件。
train_model.py：实现了模型的训练过程，包括加载数据、定义模型、优化器，进行多个 epoch 的训练，并保存训练好的模型。
evaluate_model.py：用于评估模型性能，通过计算验证集上的损失和准确率来评估模型的性能。
predict.py：用于对新文本进行预测，提取其中的命名实体。

四、数据集准备和数据标注

train.txt：训练数据集。
test.txt：测试训练集。
数据标注，BIO数据标注法。

五、代码实现

1. `dataset.py`


import torch
from torch.utils.data import Dataset
from transformers import BertTokenizerclass NERDataset(Dataset):def __init__(self, file_path, tokenizer, label_map, max_len=128):self.tokenizer = tokenizerself.label_map = label_mapself.max_len = max_lenself.texts, self.labels = self._read_file(file_path)def _read_file(self, file_path):texts, labels = [], []with open(file_path, 'r', encoding='utf-8') as file:words, tags = [], []for line in file:if line.strip() == "":if words:texts.append(words)labels.append(tags)words, tags = [], []else:parts = line.strip().split()if len(parts) == 2:word, tag = partswords.append(word)tags.append(tag)else:print(f"Skipping line: {line.strip()}")if words:texts.append(words)labels.append(tags)return texts, labelsdef __len__(self):return len(self.texts)def __getitem__(self, idx):words = self.texts[idx]tags = self.labels[idx]inputs = self.tokenizer(words, is_split_into_words=True, truncation=True, padding='max_length', max_length=self.max_len, return_tensors="pt")labels = [self.label_map[tag] for tag in tags]labels += [self.label_map['O']] * (self.max_len - len(labels))inputs["labels"] = torch.tensor(labels

基于 BERT 的自定义中文命名实体识别实现

基于 BERT 的自定义中文命名实体识别实现

一、项目背景

二、技术选型

三、代码结构

四、数据集准备和数据标注

五、代码实现

1. `dataset.py`

相关文章：

基于 BERT 的自定义中文命名实体识别实现

中秋节特别游戏：给玉兔投喂月饼

python pdf转word或excel

GNU链接器（LD）：位置计数器（.）功能及实例解析

学习记录：js算法（四十三）：翻转二叉树

关于 SQL 的 JOIN 操作

聊聊AUTOSAR：基于Vector MICROSAR的TC8测试开发方案

ES6中迭代器与生成器知识浅析

unix中的vfork函数

Android 用线程池实现一个简单的任务队列(Kotlin)

遨游信息技术的浩瀚宇宙：探索MySQL的深邃奥秘

【Bug解决】Nacos启动成功，但却无法访问（提示：无法访问此网站，192.168.10.88的响应时间过长）

【AI创作组】工程方向的硕士研究生学习Matlab的路径

Mac使用Nginx设置代理，并禁用自带Apache

AlmaLinux 安裝JDK8

Set 和 Map 的模拟实现

深度学习自编码器 - 预测稀疏分解（PSD）篇

如何检测出来这个ip是共享ip不安全

TMStarget学习——T1 Segmentation数据处理及解bug

锁策略, cas 和 synchronized 优化过程

Python实战：基于奇异谱分析(SSA)的时序数据分解与重构

从零到一：vue-print-nb插件在Vue项目中的实战打印方案

告别警告与强制刷新：Unity聊天对话框自适应布局的纯净实现方案

CANN/asc-devkit流水线屏障同步API

从Simulink到Tina：硬件工程师如何更“接地气”地获取电路传递函数？

【Java杂项】为什么 b += 1 可以，但 b = b + 1 会报错？类型提升与复合赋值详解

5分钟终极指南：用m4s-converter永久保存你的B站缓存视频

为什么很多人学不会渗透？因为一开始就没学HTTP

CVAT管理员必看：用户权限、任务分割与Datumaro数据导入导出全流程详解

收藏！小白程序员轻松入门大模型向量检索，一篇搞懂核心技术与调优

基于 BERT 的自定义中文命名实体识别实现

一、项目背景

二、技术选型

三、代码结构

四、数据集准备和数据标注

五、代码实现

1. dataset.py

相关文章：

1. `dataset.py`