当前位置：首页 > news >正文

自然语言文本分类模型代码

news 2025/7/7 22:22:55

以下是一个基于PyTorch的文本分类模型的示例代码，用于将给定的文本分为多个预定义类别：

import torch
import torch.nn as nn
import torch.nn.functional as Fclass TextClassifier(nn.Module):def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim, num_layers, bidirectional, dropout):super().__init__()self.embedding = nn.Embedding(vocab_size, embedding_dim)self.rnn = nn.LSTM(embedding_dim, hidden_dim, num_layers=num_layers, bidirectional=bidirectional, dropout=dropout)self.fc = nn.Linear(hidden_dim * 2 if bidirectional else hidden_dim, output_dim)self.dropout = nn.Dropout(dropout)def forward(self, text, text_lengths):embedded = self.dropout(self.embedding(text))packed_embedded = nn.utils.rnn.pack_padded_sequence(embedded, text_lengths.to('cpu'), enforce_sorted=False)packed_output, (hidden, cell) = self.rnn(packed_embedded)output, output_lengths = nn.utils.rnn.pad_packed_sequence(packed_output)hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1) if self.rnn.bidirectional else hidden[-1,:,:])return self.fc(hidden.squeeze(0))

该模型将输入的文本作为整数序列传递给嵌入层，然后通过多层LSTM层进行处理，最终输出每个类别的预测概率。

在训练模型之前，需要将文本序列转换为整数标记，通常使用分词器/标记器完成此任务。另外还需要定义优化器和损失函数来训练模型。

以下是一个完整的训练脚本的示例：

import torch.optim as optim
from torchtext.datasets import AG_NEWS
from torchtext.data.utils import get_tokenizer
from torchtext.vocab import build_vocab_from_iterator
from torch.utils.data import DataLoader
from torchtext.data.utils import ngrams_iterator
from torchtext.data.utils import get_tokenizer
from torch.utils.data.dataset import random_split
from collections import Counter# 获取数据集和分词器
train_iter = AG_NEWS(split='train')
tokenizer = get_tokenizer('basic_english')# 构建词汇表
counter = Counter()
for (label, line) in train_iter:counter.update(tokenizer(line))
vocab = build_vocab_from_iterator([counter])
vocab.set_default_index(vocab['<unk>'])# 定义标记化函数和文本处理函数
def yield_tokens(data_iter):for _, text in data_iter:yield tokenizer(text)def text_transform(tokenizer, vocab, data):"""将文本数据转换为张量数据"""data = [vocab[token] for token in tokenizer(data)]return torch.tensor(data)# 定义批次生成器
def collate_batch(batch):label_list, text_list, offsets = [], [], [0]for (_label, _text) in batch:label_list.append(_label-1)processed_text = torch.cat([text_transform(tokenizer, vocab, _text), torch.tensor([vocab['<eos>']])])text_list.append(processed_text)offsets.append(processed_text.size(0))label_list = torch.tensor(label_list)offsets = torch.tensor(offsets[:-1]).cumsum(dim=0)text_list = torch.cat(text_list)return label_list, text_list, offsets# 构建数据集和数据加载器
train_iter, test_iter = AG_NEWS()
train_iter = list(train_iter)
test_iter = list(test_iter)
train_dataset = list(map(lambda x: (x[0], x[1]), train_iter))
test_dataset = list(map(lambda x: (x[0], x[1]), test_iter))
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True, collate_fn=collate_batch)
test_loader = DataLoader(test_dataset, batch_size=64, shuffle=True, collate_fn=collate_batch)# 创建模型和优化器
model = TextClassifier(len(vocab), 64, 128, 4, 2, True, 0.5)
optimizer = optim.Adam(model.parameters())# 定义损失函数和训练函数
criterion = nn.CrossEntropyLoss()def train(model, iterator, optimizer, criterion):epoch_loss = 0model.train()for (label, text, offsets) in iterator:optimizer.zero_grad()predictions = model(text, offsets)loss = criterion(predictions, label)loss.backward()optimizer.step()epoch_loss += loss.item()return epoch_loss / len(iterator)# 训练模型
N_EPOCHS = 10
for epoch in range(N_EPOCHS):train_loss = train(model, train_loader, optimizer, criterion)print(f'Epoch: {epoch+1:02} | Train Loss: {train_loss:.3f}')

在训练过程结束后，可以使用该模型对新的文本进行分类。具体方法是将文本转换为整数标记序列，然后使用模型进行预测：

# 对新文本进行分类
def predict(model, sentence):model.eval()tokenized = torch.tensor([vocab[token] for token in tokenizer(sentence)])length = torch.tensor([len(tokenized)])prediction = model(tokenized, length)return F.softmax(prediction, dim=1).detach().numpy()[0]# 进行预测
test_sentence = "World markets are reacting to the news that the UK is set to leave the European Union."
pred_probs = predict(model, test_sentence)
print(pred_probs)

以上代码示例中使用了AG_NEWS数据集作为示例训练数据，可通过以下方式加载数据集：

from torchtext.datasets import AG_NEWS
train_iter = AG_NEWS(split='train')
test_iter = AG_NEWS(split='test')

该数据集包含四个类别的新闻数据，每个类别各有120,000个训练示例和7,600个测试示例。完整的训练脚本和数据集可以在PyTorch官方文档中找到。

自然语言文本分类模型代码

以下是一个基于PyTorch的文本分类模型的示例代码，用于将给定的文本分为多个预定义类别： import torch import torch.nn as nn import torch.nn.functional as Fclass TextClassifier(nn.Module):def __init__(self, vocab_size, embedding_dim, hidden_…...

编程日记 2023/8/3 14:00:43

Prometheus实现系统监控报警邮件

Prometheus实现系统监控报警邮件简介 Prometheus将数据采集和报警分成了两个模块。报警规则配置在Prometheus Servers上， 然后发送报警信息到AlertManger，然后我们的AlertManager就来管理这些报警信息，聚合报警信息过后通过email、PagerDu…...

编程日记 2023/8/3 13:59:42

could not import go.etcd.io/etcd/clientv3-go

问题描述今天在封装etcd的时候导包报错: could not import go.etcd.io/etcd/clientv3 (no required module provides package "go.etcd.io/etcd/clientv3") 问题解决: get:确保下载了client包 go get go.etcd.io/etcd/client tidy go mod tidy 本文由 mdnice 多平台…...

编程日记 2023/8/3 13:58:41

MySQL的行锁、表锁触发

MySQL的行锁、表锁触发 sql CREATE TABLE products ( product_id INT PRIMARY KEY, product_name VARCHAR(50), stock INT ); INSERT INTO products (product_id, product_name, stock) VALUES (1001, ‘商品A’, 50), (1002, ‘商品B’, 30), (1003, ‘商品C’, 20); 一、行锁…...

编程日记 2023/8/3 13:57:40

mysql-入门笔记-3

# ----------排序查询-------- # 语法 # select 字段列表 from 表名 order by 字段1 排序方式1 ,字段2 排序方式2 ; DESC 降序 ASC升序 # 1 根据年龄对公司的员工进行升序排序---默认升序-黄色提示代码冗余 select * from userTable order by age ASC ; # 2 根据入职时间,对员…...

编程日记 2023/8/3 13:56:39

3分钟创建超实用的中小学新生录取查询系统，现在可以实现了

在新学期开始之际，作为招生负责人，您是否已经做好准备来迎接新学年的招生工作呢？录取新生所需的任务包括录入成绩信息、核对招生要求以及公布新生录取信息等，这些工作繁重而具有挑战性，给负责招生的老师带来了巨大的压…...

编程日记 2023/8/3 13:55:38

Redis 变慢了解决方案

一、Redis为什么变慢了 1.Redis真的变慢了吗？ 对 Redis 进行基准性能测试例如，我的机器配置比较低，当延迟为 2ms 时，我就认为 Redis 变慢了，但是如果你的硬件配置比较高，那么在你的运行环境下&#xff…...

编程日记 2023/8/3 13:54:37

远程仓库的操作

一、远程仓库的操作命令 git remote # 查看当前项目关联的远程库我事先关联了一个GitHub的远程仓库，关于如何关联远程仓库，可以看这篇文章远程仓库GitHub和Gitee_林涧泣的博客-CSDN博客 git remote add [仓库服务器名] [远程仓库地址] # 关联远程仓库…...

编程日记 2023/8/3 13:53:34

一个监控系统的典型架构

监控系统的典型架构图，从左往右看，采集器是负责采集监控数据的，采集到数据之后传输给服务端，通常是直接写入时序库。然后就是对时序库的数据进行分析和可视化，分析部分最典型的就是告警规则判断，即图上的告…...

编程日记 2023/8/3 13:52:31

让GPT人工智能变身常用工具-中

...

编程日记 2023/8/3 13:51:30

HCIP中期实验

1、该拓扑为公司网络，其中包括公司总部、公司分部以及公司骨干网，不包含运营商公网部分。 2、设备名称均使用拓扑上名称改名，并且区分大小写。 3、整张拓扑均使用私网地址进行配置。 4、整张网络中，运行OSPF协议或者BGP协议的设备…...

编程日记 2023/8/3 13:50:28

《向量数据库指南》——向量数据库Milvus Cloud、Pinecone、Vespa、Weaviate、Vald、GSI 、 Qdrant选哪个？

1、Milvus Cloud（https://milvuscloud.com） Milvus是一个开源的向量数据库，支持高效的向量搜索和相似度匹配。它针对大规模向量数据集的性能进行了优化，并提供了Python、Java、Go和C++等多种语言的客户端接口。Milvus在图像、音频、文本和推荐等领域都有广泛的应用。 2…...

编程日记 2023/8/3 13:49:26

python与深度学习(十一):CNN和猫狗大战

目录 1. 说明2. 猫狗大战2.1 导入相关库2.2 建立模型2.3 模型编译2.4 数据生成器2.5 模型训练2.6 模型保存2.7 模型训练结果的可视化 3. 猫狗大战的CNN模型可视化结果图4. 完整代码5. 猫狗大战的迁移学习 1. 说明本篇文章是CNN的另外一个例子，猫狗大战&#xff0c…...

编程日记 2023/8/3 13:48:24

经典CNN(三）：DenseNet算法实战与解析

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊|接辅导、项目定制 1 前言在计算机视觉领域，卷积神经网络（CNN）已经成为最主流的方法，比如GoogleNet，…...

编程日记 2023/8/3 13:47:23

学习笔记——压力测试案例,监控平台

测试案例 # 最简单的部署方式直接单机启动 nohup java -jar lesson-one-0.0.1-SNAPSHOT.jar > ./server.log 2>&1 &然后配置执行计划： 新建一个执行计划配置请求路径配置断言配置响应持续时间断言然后配置一些查看结果的统计报表或者图形然后我…...

编程日记 2023/8/3 13:46:22

sqlite 踩坑

内存数据库强制SQLite数据库单纯的存在于内存中的常用方法是使用特殊文件名“ ：memory： ” db QSqlDatabase::addDatabase("QSQLITE", "MEMORY"); db.setDatabaseName(":memory:"); 调用此接口完成后，不…...

编程日记 2023/8/3 13:45:20

【论文笔记】神经网络压缩调研

神经网络压缩调研背景现有的深度模型压缩方法NetWork Prunning 网络剪枝设计结构化矩阵知识蒸馏权值共享Parameter Quantization（参数量化）量化和二进制化伪量化Architecture Design（Depth Separable Convolution）分解卷积背景 …...

编程日记 2023/8/3 13:44:19

红外NEC通信协议

一、NEC简介红外(Infrared，IR)遥控是一种无线、非接触控制技术，常用于遥控器、无线键盘、鼠标等设备之间的通信。IR协议的工作原理是，发送方通过红外线发送一个特定的编码，接收方通过识别该编码来执行相应的操作。 IR协议是指红外…...

编程日记 2023/8/3 13:43:17

数据分析DAY1

数据分析引言这一周：学习了python的numpy和matplotlib以及在飞桨paddle上面做了几个小项目发现numpy和matplotlib里面有很多api，要全部记住是不可能的，也是不可能全部学完的，所以我们要知道并且熟悉一些常用的api&#xff0…...

编程日记 2023/8/3 13:42:16

算法通关村—迭代实现二叉树的前序，中序，后序遍历

1. 前序中序后序递归写法前序 public void preorder(TreeNode root, List<Integer> res) {if (root null) {return;}res.add(root.val);preorder(root.left, res);preorder(root.right, res);}后序 public static void postOrderRecur(TreeNode head) {if (head nu…...

编程日记 2023/8/3 13:41:14

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2025/7/5 10:32:33

使用分级同态加密防御梯度泄漏

抽象联邦学习 （FL） 支持跨分布式客户端进行协作模型训练，而无需共享原始数据，这使其成为在互联和自动驾驶汽车 （CAV） 等领域保护隐私的机器学习的一种很有前途的方法。然而，最近的研究表明&…...

编程新知 2025/7/2 12:22:47

学校时钟系统，标准考场时钟系统，AI亮相2025高考，赛思时钟系统为教育公平筑起“精准防线”

2025年#高考将在近日拉开帷幕，#AI 监考一度冲上热搜。当AI深度融入高考，#时间同步不再是辅助功能，而是决定AI监考系统成败的“生命线”。 AI亮相2025高考，40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕，江西、…...

编程新知 2025/7/6 20:57:18

深度学习水论文：mamba＋图像增强

🧀当前视觉领域对高效长序列建模需求激增，对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模，以及动态计算优势，在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内，就有不…...

编程新知 2025/7/6 1:03:44

云原生周刊：k0s 成为 CNCF 沙箱项目

开源项目推荐 HAMi HAMi（原名 k8s‑vGPU‑scheduler）是一款 CNCF Sandbox 级别的开源 K8s 中间件，通过虚拟化 GPU/NPU 等异构设备并支持内存、计算核心时间片隔离及共享调度，为容器提供统一接口，实现细粒度资源配额…...

编程新知 2025/7/6 4:00:51

Android屏幕刷新率与FPS(Frames Per Second) 120hz

Android屏幕刷新率与FPS(Frames Per Second) 120hz 屏幕刷新率是屏幕每秒钟刷新显示内容的次数，单位是赫兹（Hz）。 60Hz 屏幕：每秒刷新 60 次，每次刷新间隔约 16.67ms 90Hz 屏幕：每秒刷新 90 次，…...

编程新知 2025/7/5 15:01:34

【记录坑点问题】IDEA运行：maven-resources-production:XX: OOM: Java heap space

问题：IDEA出现maven-resources-production:operation-service: java.lang.OutOfMemoryError: Java heap space 解决方案：将编译的堆内存增加一点位置：设置setting-》构建菜单build-》编译器Complier...

编程新知 2025/7/7 17:40:03

云原生时代的系统设计：架构转型的战略支点

📝个人主页🌹：一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、云原生的崛起：技术趋势与现实需求的交汇随着企业业务的互联网化、全球化、智能化持续加深，传统的 I…...

编程新知 2025/7/7 9:43:15

Docker环境下安装 Elasticsearch + IK 分词器 + Pinyin插件 + Kibana（适配7.10.1）

做RAG自己打算使用esmilvus自己开发一个，安装时好像网上没有比较新的安装方法，然后找了个旧的方法对应试试： 🚀 本文将手把手教你在 Docker 环境中部署 Elasticsearch 7.10.1 IK分词器拼音插件 Kibana，适配中文搜索…...

编程新知 2025/7/6 13:01:59

DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model

一、研究背景与创新点（一）现有方法的局限性当前智驾系统面临两大核心挑战：一是长尾问题，即系统在遇到新场景时可能失效，例如突发交通状况或非常规道路环境；二是可解释性问题，传统方法无法解释智驾系统的决策过程，用户难以理解车辆行为的依据。传统语言模型（如 BERT…...

编程新知 2025/6/25 14:35:55

相关文章：