当前位置：首页 > news >正文

使用 Bert 做文本分类，利用 Trainer 框架实现二分类，事半功倍

news 2026/4/8 0:31:26

简介

使用 AutoModelForSequenceClassification 导入Bert 模型。
很多教程都会自定义损失函数，然后手动实现参数更新。
但本文不想手动微调，故使用 transformers 的 Trainer 自动微调。
人生苦短，我用框架，不仅可保证微调出的模型的效果，而且还省时间。

导包

import evaluate
import numpy as np
from datasets import load_dataset
from transformers import (AutoTokenizer,AutoModelForSequenceClassification,
)import torch
from torch import nnimport os
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'# AG_News 英文分类数据集
# ds = load_dataset("fancyzhx/ag_news")## 中文分类数据集
ds = load_dataset("lansinuote/ChnSentiCorp")

数据集的详情如下：

DatasetDict({train: Dataset({features: ['text', 'label'],num_rows: 9600})validation: Dataset({features: ['text', 'label'],num_rows: 1200})test: Dataset({features: ['text', 'label'],num_rows: 1200})
})

ds["train"][0]

{'text': '选择珠江花园的原因就是方便，有电动扶梯直接到达海边，周围餐馆、食廊、商场、超市、摊位一应俱全。酒店装修一般，但还算整洁。 泳池在大堂的屋顶，因此很小，不过女儿倒是喜欢。 包的早餐是西式的，还算丰富。 服务吗，一般','label': 1}

加载 Bert 模型

model_name = "bert-base-chinese"tokenizer = AutoTokenizer.from_pretrained(model_name,trust_remote_code=True,
)bert = AutoModelForSequenceClassification.from_pretrained(model_name,trust_remote_code=True,num_labels=2,
)

如果你无法联网的话，使用本地huggingface模型：

bert = AutoModelForSequenceClassification.from_pretrained(model_name,trust_remote_code=True,revision="c30a6ed22ab4564dc1e3b2ecbf6e766b0611a33f",local_files_only=True,num_labels=2,
)

查看 bert 分类模型的网络结构：

bert

在这里插入图片描述

如上图所示，Bert 的分类模型：在原生的 Bert 模型后，加了一个Linear。

下述是数据集转换函数：

def tokenize_func(item):global tokenizertokenized_inputs = tokenizer(item["text"],max_length=512,truncation=True,)return tokenized_inputs

tokenized_datasets = ds.map(tokenize_func,batched=True,
)

tokenized_datasets 的详情如下所示：

DatasetDict({train: Dataset({features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],num_rows: 9600})validation: Dataset({features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],num_rows: 1200})test: Dataset({features: ['text', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],num_rows: 1200})
})

Train

from transformers import TrainingArgumentsargs = TrainingArguments("ChnSentiCorp_text_cls",eval_steps=8,evaluation_strategy="steps",save_strategy="epoch",save_total_limit=3,learning_rate=2e-5,num_train_epochs=3,weight_decay=0.01,per_device_train_batch_size=32,per_device_eval_batch_size=16,logging_steps=8,save_safetensors=True,overwrite_output_dir=True,# load_best_model_at_end=True,
)

TrainingArguments 的参数解释点击查看下述文章：
LLM大模型之Trainer以及训练参数

from transformers import DataCollatorWithPaddingdata_collator = DataCollatorWithPadding(tokenizer=tokenizer)

from transformers import Trainertrainer = Trainer(model=bert,args=args,train_dataset=tokenized_datasets["train"],eval_dataset=tokenized_datasets["validation"],data_collator=data_collator,# compute_metrics=compute_metrics,tokenizer=tokenizer,
)
trainer.train()

训练过程，在终端可以看见，训练和验证的损失值变化。
在这里插入图片描述

如果安装了 wandb，并且在系统环境变量中，进行了设置。

训练过程和评估过程的记录会自动上传到wandb中。

wandb

若你想使用 wandb，自行进行安装；个人强烈推荐，一劳永逸，这样就无需自己绘图展示模型的训练过程了。

在模型训练的过程，进入 wandb https://wandb.ai/home 看看模型的现在的训练的过程。
在这里插入图片描述

在这里插入图片描述

上图是在 wandb 网站看到的图，横轴是 epoch ，纵轴是 loss。
蓝色折线是在验证集上的损失，橙色折线是在训练集上的损失。

可以很直观的看到，在训练集上的loss 小于在验证集上的 loss。

predict

训练完成的模型，使用 predict 方法，在测试集上预测。

predictions = trainer.predict(tokenized_datasets["test"])
preds = np.argmax(predictions.predictions, axis=-1)
preds

输出结果：

array([1, 0, 0, ..., 1, 1, 0])

预测结果评估

def eval_data(data):predictions = trainer.predict(data)preds = np.argmax(predictions.predictions, axis=-1)metric = evaluate.load("glue", "mrpc")return metric.compute(predictions=preds, references=predictions.label_ids)

eval_data(tokenized_datasets["test"])

输出结果：

{'accuracy': 0.9475, 'f1': 0.9478908188585607}

总结

总体上看，本文做了一下数据集的处理，大模型的微调过程、模型权重报错、日志记录，这些过程全部由 transformers 的 Trainer 自动进行。

用好框架，事半功倍。当然前提是已经掌握了基础的手动参数微调。

参考资料

huggingface 使用 Trainer API 微调模型

使用 Bert 做文本分类，利用 Trainer 框架实现二分类，事半功倍

简介使用 AutoModelForSequenceClassification 导入Bert 模型。很多教程都会自定义损失函数，然后手动实现参数更新。但本文不想手动微调，故使用 transformers 的 Trainer 自动微调。人生苦短，我用框架，不仅可保证微调出的模…...

编程日记 2024/9/6 20:24:19

Obsidian git sync error / Obsidian git 同步失敗

Issue: commit due to empty commit message Solution 添加commit資訊，確保不留空白我的設置：auto-backup: {{hostname}}/{{date}}/...

编程日记 2024/9/6 20:22:10

谷歌英文SEO外链如何做？

做英文SEO外链涉及多种策略和技巧，目标是提升目标网站的排名和流量，Google的搜索算法在不断演变，但外链一直是搜索引擎优化中重要的一环。有效的外链建设能够显著提升网站的SEO数据效果。关键在于创建一个多元化且自然的外链结构。不能仅仅依…...

编程日记 2024/9/6 20:21:00

安装插件 npm install xlsx xlsx-style file-saver npm install node-polyfill-webpack-plugin (如果不安装的话后面使用会报错) 添加相关配置在vue.config.js文件 const NodePolyfillPlugin require("node-polyfill-webpack-plugin") module.exports defineCon…...

编程日记 2024/9/6 20:19:59

Linux环境变量本地变量命令行参数

并行和并发并行多个进程在多个 CPU 下分别，同时进行运行。并发多个进程在一个 CPU 采用进程切换的方式，在一段时间内，让多个进程都得以推进，称之为并发。 CPU 中的寄存器扮演什么角色? 寄存器:cpu 内的寄存器里面保存的是进程…...

编程日记 2024/9/6 20:18:55

向量数据库Faiss的搭建与使用

1. 什么是Faiss？ Faiss是由Facebook AI Research团队开发的一个库，旨在高效地进行大规模向量相似性搜索。它不仅支持CPU，还能利用GPU进行加速，非常适合处理大量高维数据。Faiss提供了多种索引类型，以适应不同的需求&a…...

编程日记 2024/9/6 20:16:11

微信小程序接入客服功能

前言用户可使用小程序客服消息功能，与小程序的客服人员进行沟通。客服功能主要用于在小程序内用户与客服直接沟通用，本篇介绍客服功能的基础开发以及进阶功能的使用，另外介绍多种客服的对接方式。更多介绍请查看客服消息使用指南客服视…...

编程日记 2024/9/6 20:15:10

mysql开启远程访问

个人建议mysql可以用宝塔自动下载安装。远程访问， 1.关闭防火墙，确保ip能ping通 2.ping端口确定数据库能ping通 3.本地先连上去命令行修改远程访问权限。 mysql -u root -p use mysql; select user,host from user; select host from user where u…...

编程日记 2024/9/6 20:14:05

【NLP自然语言处理】文本处理的基本方法

目录 🍔什么是分词 🍔中文分词工具jieba 2.1 jieba的基本特点 2.2 jieba的功能 2.3 jieba的安装及使用 🍔什么是命名实体识别 🍔什么是词性标注 🍔小结学习目标 🍀 了解什么是分词, 词性标注, 命名…...

编程日记 2024/9/6 20:13:04

uniapp使用defineExpose暴露和onMounted访问

defineExpose作用暴露方法和数据允许从模板或其他组件访问当前组件内部的方法和数据。明确指定哪些方法和数据可以被外部访问，从而避免不必要的暴露。增强安全性通过显式声明哪些方法和数据可以被外部访问，防止意外修改内部状态。提高组件的安全性&a…...

编程日记 2024/9/6 20:12:00

怎么使用matplotlib绘制一个从-2π到2π的sin(x)的折线图-学习篇

首先：如果你的环境中没有安装matplotlib，使用以下命令可以直接安装 pip install matplotlib如何画一个这样的折线图呢？往下看想要画一个简单的sin(x)在-2π到2π的折线图，我们要拆分成以下步骤： 先导入相关的库文…...

编程日记 2024/9/6 20:08:53

【Java毕业设计】基于SpringBoot+Vue+uniapp的农产品商城系统

文章目录一、系统架构1、后端：SpringBoot、Mybatis2、前端：Vue、ElementUI4、小程序：uniapp3、数据库：MySQL 二、系统功能三、系统展示1、小程序2、后台管理系统一、系统架构 1、后端：SpringBoot、Mybatis 2、前端…...

编程日记 2024/9/6 20:06:48

C++ | Leetcode C++题解之第390题消除游戏

题目： 题解： class Solution { public:int lastRemaining(int n) {int a1 1;int k 0, cnt n, step 1;while (cnt > 1) {if (k % 2 0) { // 正向a1 a1 step;} else { // 反向a1 (cnt % 2 0) ? a1 : a1 step;}k;cnt cnt >> 1;step …...

编程日记 2024/9/6 20:02:33

echarts进度

echarts图表集 const data[{ value: 10.09,name:制梁进度, color: #86C58C,state: }, { value: 66.00,name:架梁进, color: #C6A381 ,state:正常}, { value: 33.07,name:下部进度, color: #669BDA,state:正常 }, ];// const textStyle { "color": "#CED6C8&…...

编程日记 2024/9/6 20:00:05

PostgreSQL16.4搭建一主一从集群

PostgreSQL搭建一主一从集群的过程主要涉及到基础环境准备、PostgreSQL安装、主从节点配置以及同步验证等步骤。以下是一个详细的搭建过程： 一、基础环境准备创建虚拟机： 准备两台虚拟机，分别作为主节点和从节点。为每台虚拟机分配独立的IP…...

编程日记 2024/9/6 19:57:53

Spring01——Spring简介、Spring Framework架构、Spring核心概念、IOC入门案例、DI入门案例

为什么要学 spring技术是JavaEE开发必备技能，企业开发技术选型命中率>90%专业角度简化开发：降低企业开发的复杂度框架整合：高效整合其他技术，提高开发与运行效率学什么简化开发 IOCAOP 事务处理框架整合 MyBatis 怎…...

编程日记 2024/9/6 19:55:51

深度学习｜模型推理：端到端任务处理

引言深度学习的崛起推动了人工智能领域的诸多技术突破，尤其是在处理复杂数据与任务的能力方面。模型推理作为深度学习的核心环节，决定了模型在真实应用场景中的表现。而端到端任务处理（End-to-End Task Processing）作为深度学习的一种重要范式，通过从输入到输出的直接映…...

编程日记 2024/9/6 19:53:45

【深度学习 Pytorch】2024年最新版本PyTorch学习指南

引言 2024年，深度学习技术在各个领域取得了显著的进展，而PyTorch作为深度学习领域的主流框架之一，凭借其易用性、灵活性和强大的社区支持，受到了广大研究者和开发者的喜爱。本文将为您带来一份2024年最新版本的PyTorch学习指南&a…...

编程日记 2024/9/6 19:52:20

第 1 章：原生 AJAX

原生AJAX 1. AJAX 简介 AJAX 全称为 Asynchronous JavaScript And XML，就是异步的 JS 和 XML。通过 AJAX 可以在浏览器中向服务器发送异步请求，最大的优势：无刷新获取数据。AJAX 不是新的编程语言，而是一种将现有的标准组合在一…...

编程日记 2024/9/6 19:50:57

【代码随想录|贪心part04以后——重叠区间】

代代码随想录|贪心part04以后——重叠区间一、part041、452.用最少数量的箭引爆气球2、435. 无重叠区间2、763.划分字母区间3、56. 合并区间4、738.单调递增的数字总结python 一、part04 1、452.用最少数量的箭引爆气球 452. 用最少数量的箭引爆气球 class Solution:def f…...

编程日记 2024/9/6 19:48:54

Linux/Android文件系统架构深度剖析

文章目录一、preface1、资料快车2、概述3、专业术语二、Linux文件系统架构1、文件系统框架图2、文件系统之块设备字符设备框架3、内核如何读取文件？4、文件系统类型1）持久文件系统1、本地文件系统2、网络文件系统2）运行时文件系统3&#xff0…...

编程新知 2026/4/7 23:51:01

C++ 与异步流调度：在 C++ AI 框架中利用多个 CUDA Stream 重叠计算与数据传输的掩盖性能分析

C 与异步流调度：在 C AI 框架中利用多个 CUDA Stream 重叠计算与数据传输的掩盖性能分析引言在现代人工智能领域，尤其是深度学习的应用中，GPU 已成为不可或缺的计算引擎。然而，即使拥有强大的 GPU 算力，系统整体性能也…...

编程新知 2026/4/7 21:30:52

前端日常快速开发必备工具库

一、通用工具库（任何项目都能用） lodash 最常用 JS 工具库：防抖、节流、深拷贝、数组/对象处理、判空等。dayjs 轻量时间格式化，替代 moment，体积小、API 一样。axios 请求封装、拦截器、取消请求、统一错误处理。qs 对…...

编程新知 2026/4/7 20:29:53

STM32CubeMX配置RT-Thread Nano：从零构建到任务与内存管理实战

1. 环境准备与基础工程搭建第一次接触STM32CubeMX和RT-Thread Nano时，我完全按照官方文档操作却踩了不少坑。这里分享一个经过实战验证的配置流程，适用于STM32H7系列（其他型号也类似）。你需要准备： STM32CubeMX 6.12.…...

编程新知 2026/4/7 19:53:16

3步终结磁盘焦虑：Windows Cleaner让系统性能提升200%的实战指南

3步终结磁盘焦虑：Windows Cleaner让系统性能提升200%的实战指南【免费下载链接】WindowsCleaner Windows Cleaner——专治C盘爆红及各种不服！ 项目地址: https://gitcode.com/gh_mirrors/wi/WindowsCleaner 现象诊断：当C盘爆红成为工…...

编程新知 2026/4/7 19:45:04

穿透式监管是什么？终于有人把穿透式监管落地讲明白了！

最近，各位老板有没有发现各种审计、检查多起来了？国资委、集团总部的发文一个接一个，问题也越来越细致。最近大家都被穿透式监管这个词弄得有点紧张，害怕自己的企业那天也被点名。其实，穿透式监管对企业来说&#xff0…...

编程新知 2026/4/7 18:07:36

猫抓浏览器扩展：网页资源嗅探的终极解决方案与完整实施指南

猫抓浏览器扩展：网页资源嗅探的终极解决方案与完整实施指南【免费下载链接】cat-catch 猫抓浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在数字内容爆炸的时代&…...

编程新知 2026/4/7 15:19:06

开源工具MediaCreationTool.bat一站式解决Windows系统安装全流程攻略

开源工具MediaCreationTool.bat一站式解决Windows系统安装全流程攻略【免费下载链接】MediaCreationTool.bat Universal MCT wrapper script for all Windows 10/11 versions from 1507 to 21H2! 项目地址: https://gitcode.com/gh_mirrors/me/MediaCreationTool.bat 系…...

编程新知 2026/4/7 15:13:03

KK-HF_Patch技术解析：游戏增强补丁的架构设计与实践方法

KK-HF_Patch技术解析：游戏增强补丁的架构设计与实践方法【免费下载链接】KK-HF_Patch Automatically translate, uncensor and update Koikatu! and Koikatsu Party! 项目地址: https://gitcode.com/gh_mirrors/kk/KK-HF_Patch 核心价值：重新定义…...

编程新知 2026/4/7 14:23:58

收藏！只会CRUD也能学大模型，程序员3个月上手实战指南（小白必看）

最近刷CSDN和技术交流群，经常看到很多程序员朋友在纠结两个问题，尤其刚入门或只做过基础开发的小白，问得最多： “我只会写CRUD，没接触过AI，现在学大模型还来得及吗？” “从现在开始学&#xff0…...

编程新知 2026/4/7 12:48:27

简介

导包