当前位置：首页 > news >正文

NLP_情感分类_预训练加微调方案

news 2026/5/12 16:26:42

文章目录

项目背景
代码
- 导包
- 一些模型以及训练的参数设置
- 定义dataset
- 定义模型
- 读取数据
- 声明训练及测试数据集
- 将定义模型实例化
- 打印模型结构
- 模型训练
- 测试集效果
同类型项目

项目背景

项目的目的，是为了对情感评论数据集进行预测打标。在训练之前，需要对数据进行数据清洗环节，前面已对数据进行清洗，详情可移步至NLP_情感分类_数据清洗
前面用机器学习方案解决，详情可移步至NLP_情感分类_机器学习方案

下面对已清洗的数据集，用预训练加微调方案进行处理

代码

导包

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm
import pickle
import numpy as np
import gc
import os
from sklearn.metrics import accuracy_score,f1_score,recall_score,precision_score
from transformers import AutoTokenizer, AutoModelForMaskedLM, AutoModel
import torch
import torch.nn as nn
from torch.utils.data import Dataset
import torch.utils.data as D
from tqdm import tqdm
from sklearn.model_selection import train_test_split
import warningswarnings.filterwarnings('ignore')

一些模型以及训练的参数设置

batch_size = 128
max_seq = 128
Epoch = 2
lr = 2e-5
debug_mode = False                #若开启此模式，则只读入很小的一部分数据，可以用来快速调试整个流程
num_workers = 0                    #多线程读取数据的worker的个数，由于win对多线程支持有bug，这里只能设置为0
seed = 4399
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
MODEL_PATH =  'pre_model/' #'juliensimon/reviews-sentiment-analysis'  #预训练权重的目录 or 远程地址
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)

定义dataset

class TextDataSet(Dataset):def __init__(self, df, tokenizer, max_seq=128, debug_mode = False):self.max_seq = max_seqself.df = dfself.tokenizer = tokenizerself.debug_mode = debug_modeif self.debug_mode:self.df = self.df[:100]def __len__(self):return len(self.df)def __getitem__(self,item):sent = self.df['text'].iloc[item]enc_code = self.tokenizer.encode_plus(sent,max_length=self.max_seq,pad_to_max_length=True,truncation=True)input_ids = enc_code['input_ids']input_mask = enc_code['attention_mask']label = self.df['label'].iloc[item]return (torch.LongTensor(input_ids), torch.LongTensor(input_mask), int(label))

定义模型

class Model(nn.Module):def __init__(self,MODEL_PATH =None):super(Model, self).__init__()self.model = AutoModel.from_pretrained(MODEL_PATH)self.fc = nn.Linear(768, 2)def forward(self, input_ids, input_mask):sentence_emb = self.model(input_ids, attention_mask = input_mask).last_hidden_state # [batch,seq_len,emb_dim]sentence_emb = torch.mean(sentence_emb,dim=1)out = self.fc(sentence_emb)return out

读取数据

df = pd.read_csv('data/sentiment_analysis_clean.csv')
df = df.dropna()

声明训练及测试数据集

train_df, test_df = train_test_split(df,test_size=0.2,random_state=2024)#声明数据集
train_dataset = TextDataSet(train_df,tokenizer,debug_mode=debug_mode)
test_dataset = TextDataSet(test_df,tokenizer,debug_mode=debug_mode)#注意这里的num_workers参数，由于在win环境下对多线程支持不到位，所以这里只能设置为0，若使用服务器则可以设置其他的
train_loader = D.DataLoader(train_dataset, batch_size=batch_size, shuffle=True, num_workers=num_workers)test_loader = D.DataLoader(test_dataset, batch_size=batch_size, shuffle=False, num_workers=num_workers)

将定义模型实例化

model = Model(MODEL_PATH)

打印模型结构

model

在这里插入图片描述

模型训练

criterion = nn.CrossEntropyLoss()
model = model.to(device)
optimizer = torch.optim.AdamW(model.parameters(), lr=lr, betas=(0.5, 0.999))
scaler = torch.cuda.amp.GradScaler()
#*****************************************************train*********************************************
for epoch in range(Epoch):model.train()correct = 0total = 0for i, batch_data in enumerate(train_loader):(input_ids, input_mask, label) = batch_datainput_ids = input_ids.to(device)input_mask = input_mask.to(device)label = label.to(device)optimizer.zero_grad()with torch.cuda.amp.autocast():logit = model(input_ids, input_mask)loss = criterion(logit, label)scaler.scale(loss).backward()scaler.step(optimizer)scaler.update()_, predicted = torch.max(logit.data, 1)total += label.size(0)correct += (predicted == label).sum().item()if i % 10 == 0:acc = 100 * correct / totalprint(f'Epoch [{epoch+1}/{Epoch}], Step [{i+1}/{len(train_loader)}], Loss: {loss.item():.4f}, Accuracy: {acc:.2f}%')

在这里插入图片描述

测试集效果

#*****************************************************Test*********************************************
correct = 0
total = 0
with torch.no_grad():model.eval()for batch_data in test_loader:(input_ids, input_mask, label) = batch_datainput_ids = input_ids.to(device)input_mask = input_mask.to(device)label = label.to(device)outputs = model(input_ids, input_mask)_, predicted = torch.max(outputs.data, 1)total += label.size(0)correct += (predicted == label).sum().item()print('#'*30+'Test Accuracy:{:7.3f} '.format(100 * correct / total)+'#'*30)print()

在这里插入图片描述

NLP_情感分类_预训练加微调方案

文章目录项目背景代码导包一些模型以及训练的参数设置定义dataset定义模型读取数据声明训练及测试数据集将定义模型实例化打印模型结构模型训练测试集效果同类型项目项目背景项目的目的，是为了对情感评论数据集进行预测打标。在训练之前，需要对数据…...

编程日记 2024/8/14 8:19:05

全网最适合入门的面向对象编程教程：36 Python的内置数据类型-字典

全网最适合入门的面向对象编程教程：36 Python 的内置数据类型-字典摘要： 字典是非常好用的容器，它可以用来直接将一个对象映射到另一个对象。一个拥有属性的空对象在某种程度上说就是一个字典，属性名映射到属性值。在内部&#…...

编程日记 2024/8/14 8:18:04

DataWind看板绘制案例

摘要： 1. 在不清楚DataWind看板怎么画的情况，可以先把表格给实现了，然后找几个有价值的数据进行看板实现 2. 还是不知道怎么画的情况，就去模仿其他人的案例； 3. 多看看DataWind提供的函数用法，就可以把表达式的使用运用起来了；飞书官方文档：https://www.volcen…...

编程日记 2024/8/14 8:17:03

Golang | Leetcode Golang题解之第335题路径交叉

题目： 题解： func isSelfCrossing(distance []int) bool {n : len(distance)// 处理第 1 种情况i : 0for i < n && (i < 2 || distance[i] > distance[i-2]) {i}if i n {return false}// 处理第 j 次移动的情况if i 3 && di…...

编程日记 2024/8/14 8:16:02

C# 在Word中插入或删除分节符

在Word中，分节符是一种强大的工具，用于将文档分成不同的部分，每个部分可以有独立的页面设置，如页边距、纸张方向、页眉和页脚等。正确使用分节符可以极大地提升文档的组织性和专业性，特别是在长文档中，需要…...

编程日记 2024/8/14 8:13:59

基于STM32+Qt设计的无人超市收银系统(206)

文章目录一、前言1.1 项目介绍【1】项目功能介绍【2】设计实现的功能【3】项目硬件模块组成1.2 设计思路【1】整体设计思路【2】上位机设计思路1.3 项目开发背景【1】选题的意义【2】可行性分析【3】参考文献【4】摘要【5】国内外技术发展现状1.4 开发工具的选择【1】设备端开…...

编程日记 2024/8/14 8:10:56

开源免费的表单收集系统TDuck

TDuck（填鸭表单）是一款开源免费的表单收集系统，它基于Apache 2.0协议开源，用户可以随时下载源码，自由修改和定制，也可以参与到项目的贡献和反馈中。TDuck表单系统不仅支持私有化部署，还提供了丰…...

编程日记 2024/8/14 8:05:50

Python 生成器、迭代器、可迭代对象以及应用场景

Python 生成器（Generators） 生成器是一种特殊的迭代器，它使用 yield 语句来逐次产生数据，而不是一次性在内存中生成数据。这意呀着生成器提供了一种懒加载（lazy evaluation）的方式，非常适合处理…...

编程日记 2024/8/14 8:04:48

马斯克对欧盟的反应

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…...

编程日记 2024/8/14 8:01:46

uniapp + 安卓APP + H5 + 微信小程序实现PDF文件的预览和下载

文章目录 uniapp 安卓APP H5 微信小程序实现PDF文件的预览和下载1、用到的技术及插件2、简述操作：下载预览 3、上代码：(主要是写后端，前端不大熟，我感觉写的还凑活，不对的请指正嘻嘻)4、注意的问题 uniapp 安卓APP…...

编程日记 2024/8/14 7:58:43

Elasticsearch 8 RAG 技术分享

作者：来自 Elastic 中国区首席架构师 Jerry 本文由 Elastic 中国区首席架构师 Jerry Zhu 在【AI 搜索 TechDay】上的分享整理而成。【AI 搜索 TechDay】是 Elastic 和阿里云联合主办的 AI 技术 Meetup 系列，聚焦企业级 AI 搜索应用和开发者动手实践&am…...

编程日记 2024/8/14 7:57:41

根据字典值回显，有颜色的

背景本项目以若依前端vue2版本为例，项目中有根据字典值回显文本的函数selectDictLabel，但是有时候我们需要带颜色的回显，大概这样的用法 <template v-slotscope><dict-label :options"dangerLevelOptions" :value&qu…...

编程日记 2024/8/14 7:55:39

多台PC网络ADB连接同一台RK3399 Android7.1.2设备

在RK3399 Android7.1.2上面，进行网络ADB调试时，如果多台电脑连接同一台Android设备，第一台连接上的能正常操作，之后连接的看到设备状态为OFFLINE，分析了下ADBD相关代码，发现在ACCEPT Client的时候没有区分别…...

编程日记 2024/8/14 7:54:38

前端黑科技：使用 JavaScript 实现网页扫码功能

在数字化时代，二维码已经渗透到我们生活的方方面面。从移动支付到产品溯源，二维码凭借其便捷性和高效性，成为了信息传递的重要载体。而随着前端技术的不断发展，我们甚至可以使用 JavaScript 在网页端实现二维码扫描功能&#xff0…...

编程日记 2024/8/14 7:53:37

【人工智能】全景解析：【机器学习】【深度学习】从基础理论到应用前景的【深度探索】

目录 1. 人工智能的基本概念 1.1 人工智能的定义与发展 1.1.1 人工智能的定义 1.1.2 人工智能的发展历史 1.2 人工智能的分类 1.2.1 弱人工智能 1.2.2 强人工智能 1.2.3 超人工智能 1.3 人工智能的关键组成部分 1.3.1 数据 1.3.2 算法 1.3.3 计算能力 2. 机器学习…...

编程日记 2024/8/14 7:51:35

MySQL与PostgreSQL语法区别

1. 数据类型差异 a. 整型 ● MySQL中的text数据类型最大存储容量为64KB，PostgreSQL中的text类型没有此限制。 ● MySQL中使用tinyint、mediumint和int表示不同大小的整数，PostgreSQL使用smallint、int和bigint。 b. 浮点数类型 ● MySQL提供了float和…...

编程日记 2024/8/14 7:50:33

vue2+OpenLayers 天地图上凸显出当前地理位置区域（4）

凸显出当前区域需要当前地方的json数据这个可以在阿里的这个阿里看下效果图遮盖层的逃命都是可以调的引入下面一段代码 import sx from "/views/json/sx1.json"; // 下载的json import GeoJSON from "ol/format/GeoJSON"; // ol的一些方法 imp…...

编程日记 2024/8/14 7:49:33

基于Python、Django开发Web计算器

1、创建项目创建Django项目参照https://blog.csdn.net/qq_42148307/article/details/140798249，其中项目名为compute，并在该项目下创建一个名为app的应用，并且进行基本的配置。 2、导入Bootstrap前端框架 Bootstrap的使用参照https://blo…...

编程日记 2024/8/14 7:48:31

高性能并行计算面试-核心概念-问题理解

目录 1.什么是并行计算？高性能从哪些方面体现？ 2.CPU常见的并行技术 3.GPU并行 4.并发与并行 5.常见的并行计算模型 6.如何评估并行程序的性能？ 7.描述Am达尔定律和Gustafson定律，并解释它们对并行计算性能的影响 8.并行计…...

编程日记 2024/8/14 7:47:30

java-activiti笔记

版本：activiti7 <dependency><groupId>org.activiti</groupId><artifactId>activiti-json-converter</artifactId><version>7.0.0.Beta2</version><exclusions><exclusion><groupId>org.mybatis</g…...

编程日记 2024/8/14 7:45:27

网盘直链下载助手：解锁九大网盘下载速度的终极方案

网盘直链下载助手：解锁九大网盘下载速度的终极方案【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...

编程新知 2026/5/12 16:26:14

内容创作团队如何通过多模型选型提升文案生成质量与效率

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度内容创作团队如何通过多模型选型提升文案生成质量与效率对于新媒体运营和内容营销团队而言，持续产出高质量、风格多样…...

编程新知 2026/5/12 16:09:13

FPGA LVDS输入作为模拟比较器的原理、设计与工程实践

1. 项目概述：当LVDS输入遇上模拟电压最近几年，各大FPGA厂商都在力推自家的“模拟-数字转换器（ADC）IP核”，宣传其如何集成便利、性能优越。这让我这个老工程师不禁琢磨，这些IP核的底层原理究竟是什么&#…...

编程新知 2026/5/12 15:35:29

第七部分-容器安全与监控——33. 镜像安全

33. 镜像安全 1. 镜像安全概述镜像是容器的基石，镜像安全问题直接影响容器运行时安全。镜像安全涵盖基础镜像选择、镜像构建过程、镜像存储和分发等环节。 ┌─────────────────────────────────────────────────…...

编程新知 2026/5/12 14:51:47

前端实战：用HTML/CSS/JS打造交互式生日蛋糕网页应用

1. 项目概述：一个用代码烘焙的生日惊喜最近给朋友准备生日礼物，不想再走寻常路，琢磨着送点特别的。作为一个整天和代码打交道的人，我决定用最熟悉的工具——HTML、CSS和JavaScript——亲手“烘焙”一个数字生日蛋糕。这个项目“Re…...

编程新知 2026/5/12 13:54:40

Vivado里配置RFSoC数据转换器IP，这10个参数新手最容易搞错（附PG269避坑指南）

Vivado中RFSoC数据转换器IP配置的10个关键参数解析与实战避坑指南第一次在Vivado中配置RFSoC的数据转换器IP核时，面对密密麻麻的参数选项，即使是经验丰富的FPGA工程师也可能感到无从下手。RFSoC作为集成了高速数据转换器的异构计算平台，其配…...

编程新知 2026/5/12 11:53:42

从零手搓CLAHE算法：用Python实现图像去雾，并与OpenCV的cv2.createCLAHE()掰掰手腕

从零实现CLAHE算法：Python实战图像去雾与OpenCV性能对决当一张雾霾笼罩的风景照出现在眼前时，我们往往会感到遗憾——那些本应清晰的细节被一层灰蒙蒙的雾气所掩盖。传统直方图均衡化虽然能提升对比度，但往往会过度放大噪声，让图…...

编程新知 2026/5/12 10:58:06

UE Viewer技术深度解析：如何逆向工程实现跨版本虚幻引擎资源查看

UE Viewer技术深度解析：如何逆向工程实现跨版本虚幻引擎资源查看【免费下载链接】UEViewer Viewer and exporter for Unreal Engine 1-4 assets (UE Viewer). 项目地址: https://gitcode.com/gh_mirrors/ue/UEViewer UE Viewer（又称Umodel&#…...

编程新知 2026/5/12 10:51:05

MTKClient终极指南：免费解锁联发科设备的完整刷机解决方案

MTKClient终极指南：免费解锁联发科设备的完整刷机解决方案【免费下载链接】mtkclient MTK reverse engineering and flash tool 项目地址: https://gitcode.com/gh_mirrors/mt/mtkclient MTKClient是一款专为联发科（MediaTek）芯片设备…...

编程新知 2026/5/12 10:11:54

便民服务渠道智慧整合融通方案

便民服务渠道智慧整合融通方案目录第1章项目概述 7 1.1项目背景 7 1.2项目建设目标 7 1.2.1总体目标 8 1.2.2具体目标 8 1.3项目建设范围 9 1.3.1渠道整合范围 9 1.3.2业务覆盖范围 10 1.3.3系统建设范围 10 1.4项目建设意义 11 1.4.1对群众的意义 11 1.4.2对政府的意义 11 …...

编程新知 2026/5/12 10:04:24

文章目录

项目背景

代码

导包

一些模型以及训练的参数设置

定义dataset

定义模型

读取数据

声明训练及测试数据集

将定义模型实例化

打印模型结构

模型训练

测试集效果

同类型项目

相关文章：