当前位置：首页 > news >正文

bert-base-chinese模型的完整训练、推理和一些思考

news 2026/2/10 12:47:57

前言

使用google-bert/bert-base-chinese模型进行中文文本分类任务，使用THUCNews中文数据集进行训练，训练完成后，可以导出模型，进行预测。

项目详细介绍和数据下载

数据集下载地址

Github完整代码

现记录训练过程中的一些感悟

1、训练时遇到的两个核心参数`warmup_steps`和`weight_decay`

代码片段如下
在这里插入图片描述

需要弄明白一些基础概念

epoch：指模型在训练过程中遍历完整个训练数据集一次。

step：指模型在训练过程中处理完一个batch的数据并完成一次梯度更新。

batch_size：指在一次step中模型用于训练的数据量。

假设训练数据集有 n 个样本，每个epoch的step计算方式
$\frac{n}{batch\_size}$
训练过程的总步数为
$\times num\_train\_epochs$

warmup_steps：主要目的是为了平稳地提升学习率，让模型在训练初期不会因为太高的学习率而跳过或远离全局最优解。

常见做法是将其设置为总训练步数的5%到10%的值。

此训练过程中warmup steps下限的计算方式如下，训练数据18w
$warmup\_steps = \frac{180000}{32} \times 5 \times 5\% = 1406$

减少 warmup_steps 可能会导致模型更快地达到较高的学习率，从而错过或远离全局最优解。

weight_decay：是用于正则化模型权重的，实际上是 L2 正则化的一种形式

weight_decay的作用是在损失函数中添加一个惩罚项，该惩罚项与权重的平方成正比，这有助于抑制权重的大小，从而防止模型过拟合

weight_decay设置得过低，可能不足以防止过拟合；设置得过高，则可能导致模型欠拟合，即模型过于简单，无法很好地捕捉数据中的模式

2、通过`tensorboard --logdir=./logs`可视化训练过程

训练过程截图如下：

2.1、训练阶段

可以明显的看到训练时的学习率先逐渐上升之后在下降，这是我们想要的趋势。训练的损失值逐步下降，这也是我们希望的。但是当我们在分析评估数据数据集的损失时，我们会发现此时模型应该是过拟合了。

在这里插入图片描述

2.2、推理阶段

随着训练过程的增加，模型在评估数据集上的损失也是逐步减少，当在step=11250时，评估数据集上的损失开始逐渐增加，而训练数据的损失还在减少，那么可以肯定模型已经过拟合了。

模型已经充分的挖掘训练数据集中的语义特征，过分的学习到数据中的一些细枝末节。从而在新数据集上的表现越来越差。这种在训练数据集上表现优秀，在评估或测试数据集上表现较差现象，即模型出现了过拟合。

在这里插入图片描述

3、模型混淆矩阵的分析

混淆矩阵结果如下
在这里插入图片描述
指标如下

Accuracy	0.9434
Precision	0.9438
Recall	0.9434

具体多分类任务指标和混淆矩阵分析参考这里非常详细。

4、如何解决模型过拟合的现象

【待更新】疯狂参数调节优化中…

bert-base-chinese模型的完整训练、推理和一些思考

前言使用google-bert/bert-base-chinese模型进行中文文本分类任务，使用THUCNews中文数据集进行训练，训练完成后，可以导出模型，进行预测。项目详细介绍和数据下载数据集下载地址 Github完整代码现记录训练过程中的一些感悟…...

编程日记 2024/8/14 7:18:59

JS基础5（JS的作用域和JS预解析）

JS的作用域 1. 全局作用域全局作用域是在代码的任何地方都能访问到的最外层作用域。在浏览器环境下，全局作用域就是window对象，因此所有在全局作用域中声明的变量和函数都会成为window对象的属性和方法。 var globalVar "I am global"; …...

编程日记 2024/8/14 7:17:58

Doris 夺命 30 连问！(中)

导言抱歉，作为从 S2 开始的骨灰级玩家看到 EDGUZI 官宣首发上线，兴奋之余忘了写文档 - -||，还望各位看官老爷见谅，这次错了，下次还敢 ^_^ 这是继上次的 30 问上篇的中篇，也是 10 个问题，有些…...

编程日记 2024/8/14 7:13:52

书生.浦江大模型实战训练营——（四）书生·浦语大模型全链路开源开放体系

最近在学习书生.浦江大模型实战训练营，所有课程都免费，以关卡的形式学习，也比较有意思，提供免费的算力实战，真的很不错（无广）！欢迎大家一起学习，打开LLM探索大门&#xf…...

编程日记 2024/8/14 7:12:51

SpringBoot 整合 RabbitMQ 实现延迟消息

一、业务场景说明用于解决用户下单以后，订单超时如何取消订单的问题。用户进行下单操作（会有锁定商品库存、使用优惠券、积分一系列的操作）；生成订单，获取订单的id；获取到设置的订单超时时间&#xff0…...

编程日记 2024/8/14 7:10:49

Cilium：基于开源 eBPF 的网络、安全性和可观察性

基于 eBPF 的网络、安全性和可观察性 Cilium 是一种开源的云原生解决方案，它利用 Linux 内核中的 eBPF 技术来提供、保护和监控工作负载之间的网络连接。什么是 eBPF？ eBPF 是一项源自 Linux 内核的技术，允许沙盒程序在特权上下文&#x…...

编程日记 2024/8/14 7:06:44

Axios 详解与使用指南

Axios 详解与使用指南 1. Axios 简介 Axios 是一个基于 Promise 的 HTTP 客户端，能够在浏览器和 Node.js 环境中运行。它提供了一种简便的方式来执行 HTTP 请求，并支持多种请求方法，如 GET、POST、PUT、DELETE 等。Axios 的配置灵活&#x…...

编程日记 2024/8/14 7:04:42

深度学习 —— 个人学习笔记20（转置卷积、全卷积网络）

声明本文章为个人学习使用，版面观感若有不适请谅解，文中知识仅代表个人观点，若出现错误，欢迎各位批评指正。三十九、转置卷积 import torch from torch import nndef trans_conv(X, K):h, w K.shapeY torch.zeros((X.shape[…...

编程日记 2024/8/14 7:01:38

解决Mac系统Python3.12版本pip安装报错error: externally-managed-environment的问题

遇到的问题在Mac安装了Python3.12.x版本（3.12.3、3.12.4）后，当尝试pip3 install xxx的时候，总是报错：error: externally-managed-environment error: externally-managed-environment This environment is external…...

编程日记 2024/8/14 6:57:34

lvm知识终结

、什么是 LVM LVM 是 Linux 下对磁盘分区进行管理的一种工具，适合管理大存储设备，并允许用户动态调整文件系统的大小 lvm 常用的命令功能 PV 管理命令 VG 管理命令 LV 管理命令 scan 扫描 pvscan vgscan lvscan create 创建 pvcreate v…...

编程日记 2024/8/14 6:55:31

ESP32S3 IDF 对 16路输入输出芯片MCP23017做了个简单的测试

这次还是使用了idf老版本4.4.7，上次用了5.3，感觉不好用，官方的MCP23017芯片是英文版，真的很难读明白，可能是我英语水平不够吧。先看看每个寄存器的功能： IODIRA 和 IODIRB: 输入/输出方向寄存器 IPOLA 和 I…...

编程日记 2024/8/14 6:50:25

【技术前沿】Flux.1部署教程入门--Stable Diffusion团队最前沿、免费的开源AI图像生成器

项目简介 FLUX.1 是一种新的开源图像生成模型。它由 Stable Diffusion 背后的团队 Black Forest Labs 开发。官网中有以下功能开源供大家参考： FLUX.1 擅长在图像中准确再现文字，因此非常适合需要清晰文字或短语的设计。无论是标牌、书籍封面还是品牌…...

编程日记 2024/8/14 6:49:24

Redis 的 STREAM 和 RocketMQ 是两种不同的消息队列和流处理解决方案，它们在设计理念、功能和用途上有显著区别。以下是它们的主要区别：

20240813 Redis 的 STREAM 和 RocketMQ 是两种不同的消息队列和流处理解决方案，它们在设计理念、功能和用途上有显著区别。以下是它们的主要区别：1. 使用 Redis 的 Sorted Set 数据结构连接到 Redis示例用法添加事件获取滑动窗口内的事件移除过期事件连接…...

编程日记 2024/8/14 6:46:19

Visual Studio Code安装与C/C++语言运行（上）

Visual Studio Code（VS Code）作为微软开发的一款轻量级但功能强大的源代码编辑器，广泛应用于各种编程语言的开发，包括C/C。以下将详细介绍VS Code的安装过程以及与C/C语言运行环境的配置。一、Visual Studio Code的安装 1. 准备…...

编程日记 2024/8/14 6:44:15

探索数据可视化，数据看板在各行业中的应用

数据可视化是一种通过图形化手段将数据呈现出来的技术，它将复杂的数据和信息转化为易于理解的图表、地图、仪表盘等视觉元素，使得数据的模式、趋势和关系更加直观地展现出来。通过数据可视化，用户可以快速识别重要信息、发现潜在问题&#xf…...

编程日记 2024/8/14 6:33:59

haralyzer 半自动，一次性少量数据采集快捷方法

使用场景：半自动，一次性少量数据采集需求在工作中还是不少遇到的，无论使用模拟的方式，或者破解都不太划算。其实这种需求，使用半自动爬虫是最简单的。不需要考虑网站反爬虫的问题，因为你使用的就是真实的浏…...

编程日记 2024/8/14 6:32:57

mall-admin-web-master前端项目下载依赖失败解决

碰壁后的总结 pythone 环境 2.XX版本，切记不要3.0以上的。node 16.x不能太高错误案例 npm ERR! code 1 npm ERR! path D:\workspace\springBootMall\mall-admin-web-master\node_modules\node-sass npm ERR! command failed npm ERR! command C:\windows\system…...

编程日记 2024/8/14 6:31:55

【07】JVM是怎么实现invokedynamic的

在Java中，方法调用会被编译为invokeStatic，invokeSpecial，invokVirtual以及invokeInterface四种指令。这些指令与包含目标方法类名、方法名以及方法描述符的符号引用捆绑，在实际运行之前，JVM根据这个符号引用链接到具体…...

编程日记 2024/8/14 6:30:53

使用API有效率地管理Dynadot域名，查看参与的拍卖列表

前言 Dynadot是通过ICANN认证的域名注册商，自2002年成立以来，服务于全球108个国家和地区的客户，为数以万计的客户提供简洁，优惠，安全的域名注册以及管理服务。 Dynadot平台操作教程索引（包括域名邮箱&…...

编程日记 2024/8/14 6:29:51

Linux 基本指令讲解

linux 基本指令 clear 清屏 Alt Enter 全屏/退出全屏 pwd 显示当前用户所处路径 cd 改变目录 cd /root/mikecd … 返回上级目录cd - 返回最近所处的路径cd ~ 直接返回当前用户自己的家目 roor 中：/root普通用户中：/home/mike mkdir 创建一个文件夹(d) …...

编程日记 2024/8/14 6:28:50

MPNet：旋转机械轻量化故障诊断模型详解python代码复现

目录一、问题背景与挑战二、MPNet核心架构 2.1 多分支特征融合模块（MBFM） 2.2 残差注意力金字塔模块（RAPM） 2.2.1 空间金字塔注意力（SPA） 2.2.2 金字塔残差块（PRBlock） 2.3 分类器设计三、关键技术突破 3.1 多尺度特征融合 3.2 轻量化设计策略 3.3 抗噪声…...

编程新知 2026/2/7 5:16:28

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2026/2/8 20:42:53

【JavaEE】-- HTTP

1. HTTP是什么？ HTTP（全称为"超文本传输协议"）是一种应用非常广泛的应用层协议，HTTP是基于TCP协议的一种应用层协议。应用层协议：是计算机网络协议栈中最高层的协议，它定义了运行在不同主机上…...

编程新知 2026/2/8 22:56:45

UE5 学习系列（三）创建和移动物体

这篇博客是该系列的第三篇，是在之前两篇博客的基础上展开，主要介绍如何在操作界面中创建和拖动物体，这篇博客跟随的视频链接如下： B 站视频：s03-创建和移动物体如果你不打算开之前的博客并且对UE5 比较熟的话按照以…...

编程新知 2026/1/24 10:00:31

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

一、多模态商品数据接口的技术架构 （一）多模态数据融合引擎跨模态语义对齐通过Transformer架构实现图像、语音、文字的语义关联。例如，当用户上传一张“蓝色连衣裙”的图片时，接口可自动提取图像中的颜色（RGB值&…...

编程新知 2025/7/23 3:55:49

MVC 数据库

MVC 数据库引言在软件开发领域，Model-View-Controller（MVC）是一种流行的软件架构模式，它将应用程序分为三个核心组件：模型（Model）、视图（View）和控制器（Controller）。这种模式有助于提高代码的可维护性和可扩展性。本文将深入探讨MVC架构与数据库之间的关系，以…...

编程新知 2025/10/30 4:58:11

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

文章目录现象：mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时，可能是因为以下几个原因：1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...

编程新知 2026/2/4 16:17:25

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决

Spring Cloud Gateway 中自定义验证码接口返回 404 的排查与解决问题背景在一个基于 Spring Cloud Gateway WebFlux 构建的微服务项目中，新增了一个本地验证码接口 /code，使用函数式路由（RouterFunction）和 Hutool 的 Circle…...

编程新知 2026/2/9 4:25:05

力扣热题100 k个一组反转链表题解

题目: 代码: func reverseKGroup(head *ListNode, k int) *ListNode {cur : headfor i : 0; i < k; i {if cur nil {return head}cur cur.Next}newHead : reverse(head, cur)head.Next reverseKGroup(cur, k)return newHead }func reverse(start, end *ListNode) *ListN…...

编程新知 2026/1/31 8:25:07

Spring Security 认证流程——补充

一、认证流程概述 Spring Security 的认证流程基于过滤器链（Filter Chain），核心组件包括 UsernamePasswordAuthenticationFilter、AuthenticationManager、UserDetailsService 等。整个流程可分为以下步骤： 用户提交登录请求拦…...

编程新知 2026/2/4 17:50:55

前言

项目详细介绍和数据下载

现记录训练过程中的一些感悟

1、训练时遇到的两个核心参数warmup_steps和weight_decay

2、通过tensorboard --logdir=./logs可视化训练过程

3、模型混淆矩阵的分析

4、如何解决模型过拟合的现象

相关文章：

1、训练时遇到的两个核心参数`warmup_steps`和`weight_decay`

2、通过`tensorboard --logdir=./logs`可视化训练过程