当前位置：首页 > news >正文

从零构建属于自己的GPT系列1：数据预处理（文本数据预处理、文本数据tokenizer、逐行代码解读）

news 2025/12/21 18:43:17

🚩🚩🚩Hugging Face 实战系列总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在PyCharm中进行
本篇文章配套的代码资源已经上传

从零构建属于自己的GPT系列1：文本数据预处理
从零构建属于自己的GPT系列2：语言模型训练

0 任务基本流程

拿到txt文本数据，本文以15本金庸小说为例
CpmTokenizer预训练模型将所有文本处理成.pkl的token文件
配置训练参数
token数据转化为索引
导入GPT2LMHeadModel预训练中文模型，训练文本数据
训练结束得到个人文本数据特征的新模型
搭载简易网页界面，部署本地模型
text-to-text专属GPT搭建完成
获取新数据，模型更加个性化
优化模型，一次性读取更长文本，生成更长的结果

1 训练数据

在本任务的训练数据中，我选择了金庸的15本小说，全部都是txt文件
在这里插入图片描述
数据打开后的样子

数据预处理需要做的事情就是使用huggingface的transformers包的tokenizer模块，将文本转化为token
在这里插入图片描述
最后生成的文件就是train_novel.pkl文件，就不用在训练的时候读txt文件了

数据预处理：preprocess.py

2 设置参数

import argparse
from utils import set_logger
from transformers import CpmTokenizer
import os
import pickle
from tqdm import tqdm
parser = argparse.ArgumentParser()
parser.add_argument('--vocab_file', default='vocab/chinese_vocab.model', type=str, required=False,help='词表路径')
parser.add_argument('--log_path', default='log/preprocess.log', type=str, required=False, help='日志存放位置')
parser.add_argument('--data_path', default='data/novel', type=str, required=False, help='数据集存放位置')
parser.add_argument('--save_path', default='data/train.pkl', type=str, required=False,help='对训练数据集进行tokenize之后的数据存放位置')
parser.add_argument('--win_size', default=200, type=int, required=False,help='滑动窗口的大小，相当于每条数据的最大长度')
parser.add_argument('--step', default=200, type=int, required=False, help='滑动窗口的滑动步幅')
args = parser.parse_args()

参数包
本项目utils.py中初始化参数函数
chinese pre-trained model Tokenizer包
系统包
pickle包，用于将 python 对象序列化（serialization）为字节流，或者将字节流反序列化为 Python 对象
进度条包
创建一个用于解析命令行参数的 ArgumentParser 对象
处理中文文本的变成token的预训练模型的模型文件存放位置
运行日志文件存放位置
数据集存放位置
对训练数据集进行tokenize之后的数据存放位置
滑动窗口的大小，相当于每条数据的最大长度
滑动窗口的滑动步幅

3 初始化日志对象

logger = set_logger(args.log_path)
def set_logger(log_path):logger = logging.getLogger(__name__)logger.setLevel(logging.INFO)formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')file_handler = logging.FileHandler(filename=log_path)file_handler.setFormatter(formatter)file_handler.setLevel(logging.INFO)logger.addHandler(file_handler)console = logging.StreamHandler()console.setLevel(logging.DEBUG)console.setFormatter(formatter)logger.addHandler(console)return logger

选择日志路径，调用日志函数
创建 logger 对象
设置日志级别为’logging.INFO’
创建格式化器 formatter
创建文件处理器file_handler并指定了日志文件的路径为log_path
设置处理器的日志级别为 logging.INFO
添加文件处理器 file_handler 到创建的 logger 对象中
创建控制台处理器 console，用 logging.StreamHandler() 创建一个将日志输出到控制台的处理器
设置其日志级别为 logging.DEBUG
将格式化器 formatter 应用到这个控制台处理器上
控制台处理器 console 添加到 logger 对象中
返回了这个配置好的 logger 对象

4 初始化

logger = set_logger(args.log_path)
tokenizer = CpmTokenizer(vocab_file="vocab/chinese_vocab.model")  # pip install jieba
eod_id = tokenizer.convert_tokens_to_ids("<eod>")  # 文档结束符
sep_id = tokenizer.sep_token_id
train_list = []
logger.info("start tokenizing data")

初始化日志
创建CPMTokenizer 对象，用于分词和处理中文文本
tokenizer 将特殊标记转换为其对应的 ID
获取分词器中分隔符的 ID
最后处理的数据
打印

5 处理数据

for file in tqdm(os.listdir(args.data_path)):file = os.path.join(args.data_path, file)with open(file, "r", encoding="utf8") as reader:lines = reader.readlines()for i in range(len(lines)):if lines[i].isspace() != True and lines[i] != '\n':token_ids = tokenizer.encode(lines[i].strip(), add_special_tokens=False) + [eod_id]if i % 1000 == 0:print('cur_step', i, lines[i].strip())else:continuewin_size = args.win_sizestep = args.stepstart_index = 0end_index = win_sizedata = token_ids[start_index:end_index]train_list.append(data)start_index += stepend_index += stepwhile end_index + 50 < len(token_ids):  # 剩下的数据长度，大于或等于50，才加入训练数据集data = token_ids[start_index:end_index]train_list.append(data)start_index += stepend_index += step# 序列化训练数据
with open(args.save_path, "wb") as f:pickle.dump(train_list, f)

os.listdir(args.data_path)：得到该路径下所有文件的文件名字符串并返回一个字符串数组，for file in tqdm的for循环会打印读取进度的进度条
获得当前文件的完整路径
按照file路径、utf-8编码格式、只读模式打开文件
按行来读取文件，line在这里是一个list，list每个数据都对于文件的一行数据
按照行数遍历读取文件数据
判断当前行是否为空行，或者这行只有换行
使用tokenizer进行encode，加入结束索引
每1000行进行一次打印操作
每1000行进行一次打印操作
空行不处理
空行不处理
滑动窗口长度
滑动次数
第一个文件的第i行的第一条数据的开始索引
第一个文件的第i行的第一条数据的结束索引
第一个文件的第i行的第一条数据
添加第一条数据到总数据中
while循环取数据，最后一条数据不足50时就不要了，逐个取数据直到换行，注意这里一行数据可能是一段哦，不一定有逗号或者句号就会换行
第一个文件的第i行的第k条数据
添加第k条数据到总数据中
按照滑动次数更新开始索引
按照滑动次数更新结束索引
最后所有的数据都保存在了train_list中
保存为pickle文件

6 运行过程

在这里插入图片描述
结束后，生成.pkl文件，这个文件作为训练数据进行训练

从零构建属于自己的GPT系列1：文本数据预处理
从零构建属于自己的GPT系列2：语言模型训练

从零构建属于自己的GPT系列1：数据预处理（文本数据预处理、文本数据tokenizer、逐行代码解读）

🚩🚩🚩Hugging Face 实战系列总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在PyCharm中进行本篇文章配套的代码资源已经上传从零构建属于自己的GPT系列1：文本数据预处理从零构建属于自己的GPT系列2：语…...

编程日记 2023/12/4 1:53:06

c++中函数的引用

函数中的引用引用可以作为函数的形参不能返回局部变量的引用 #include<iostream> #include<stdlib.h> using namespace std; //形参是引用 void swap(int *x, int *y)//*x *y表示对x y取地址 { int tmp *x; *x *y; *y tmp; } void test01() { …...

编程日记 2023/12/4 1:51:04

IDA常用操作、快捷键总结以及使用技巧

先贴一张官方的图，然后我再总结一下，用的频率比较高的会做一些简单标注快捷键 F系列【主要是调试状态的处理】 F2 添加/删除断点F4 运行到光标所在位置F5 反汇编F7 单步步入F8 单步跳过F9 持续运行直到输入/断点/结束 shift系列【主要是调出对应的页…...

编程日记 2023/12/4 1:48:01

Kibana使用指南

使用介绍主要特点应用场景数据可视化还有哪些类型安装步骤安装配置参数Elasticsearch配置参数注意事项使用介绍 Kibana是一个开源的分析与可视化平台，设计出来用于和Elasticsearch一起使用的。可以用Kibana搜索、查看、交互存放在Elasticsearch索引里的数据&#…...

编程日记 2023/12/4 1:47:00

wvp如果确认音频udp端口开放成功

用到工具在服务器上开启端口监听选中udp server，点击创建按钮设置服务器监听端口在客户端连接服务器端口选中udp客户端，点击创建输入服务器地址远程端口和本地端口，本地端口只要没被占用都可以使用 ，点击确认发送数据 …...

编程日记 2023/12/4 1:43:57

C#文件夹基本操作（判断文件夹是否存在、创建文件夹、移动文件夹、删除文件夹以及遍历文件夹中的文件）

目录一、判断文件夹是否存在 1.Directory类的Exists()方法 2. DirectoryInfo类的Exists属性二、创建文件夹 1. Directory类的CreateDirectory()方法 2.DirectoryInfo类的Create()方法三、移动文件夹 1. Directory类的Move()方法 2.DirectoryInfo类的MoveT…...

编程日记 2023/12/4 1:40:54

python 交互模式和命令行模式的问题

python 模式的冲突 unexpected character after line continuation character 理论上 ide里，输入 python 文件路径\文件.py 就可以执行但是有时候却报错 unexpected character after line continuation character 出现上述错误的原因是没有退出解释器&#x…...

编程日记 2023/12/4 1:38:52

计算机网络——数据链路层

目录一、数据链路层的基本概念 （一）数据链路层的概念 （二）帧 （三）数据链路层分为哪两个部分 （1）LLC（逻辑控制访问） （2）MAC&…...

编程日记 2023/12/4 1:34:49

【限时免费】20天拿下华为OD笔试之【哈希集合】2023B-明明的随机数【欧弟算法】全网注释最详细分类最全的华为OD真题题解

文章目录题目描述与示例题目描述输入描述输出描述：示例 1输入输出说明解题思路代码PythonJavaC时空复杂度华为OD算法/大厂面试高频题算法练习冲刺训练题目描述与示例题目描述明明生成了N 个 1 至 500 之间的随机整数。请你删去其中重复的数字，即…...

编程日记 2023/12/4 1:31:46

播放器开发(五)：视频帧处理并用SDL渲染播放

目录学习课题：逐步构建开发播放器【QT5 FFmpeg6 SDL2】步骤 VideoOutPut模块 1、初始化【分配缓存、读取信息】 2、开始线程工作【从队列读帧->缩放->发送渲染信号到窗口】 VideoWidget自定义Widget类 1、定义内部变量 2、如果使用SDL，需要进…...

编程日记 2023/12/4 1:30:45

Spring MVC数据绑定的几种方法（一）

这篇文章包含spring mvc的默认数据类型绑定和简单数据类型绑定。内容来自实验。准备： （1）在IDEA环境中从archetye创建webapp类型的maven项目exp6。 （2）在src\main目录下创建并标注java源代码文件夹和resources资源文…...

编程日记 2023/12/4 1:28:44

CSP-坐标变换（其二）

问题描述对于平面直角坐标系上的坐标 (x,y)，小 P 定义了如下两种操作： 拉伸 k 倍：横坐标 x 变为 kx，纵坐标 y 变为 ky； 旋转 θ：将坐标 (x,y) 绕坐标原点 (0,0) 逆时针旋转 θ 弧度（0≤θ<…...

编程日记 2023/12/4 1:25:40

docker 安装jekins

echo Asia/Shanghai >/etc/timezone，容器中操作报错：docker容器中 Permission denied 使用该-u选项时，可以使用root用户(ID 0)，而不是用默认用户登录docker容器 docker exec -u 0 -it f8a2b3d91455 /bin/bash 或者&#xff…...

编程日记 2023/12/4 1:21:37

ChatGPT 问世一周年之际，开源大模型能否迎头赶上？

就在11月30日，ChatGPT 迎来了它的问世一周年，这个来自 OpenAI 的强大AI在过去一年里取得了巨大的发展，迅速吸引各个领域的用户群体。我们首先回忆一下 OpenAI和ChatGPT这一年的大事记（表格由ChatGPT辅助生成）&#x…...

编程日记 2023/12/4 1:20:36

数据结构和算法-哈夫曼树以相关代码实现

文章目录总览带权路径长度哈夫曼树的定义哈夫曼树的构造法1法2 哈夫曼编码英文字母频次总结实验内容： 哈夫曼树一、上机实验的问题和要求（需求分析）：二、程序设计的基本思想，原理和算法描述：三、调试和运行…...

编程日记 2023/12/4 1:19:35

Kafka 的起源和背景

Apache Kafka 是一个分布式流处理平台，被广泛用于构建实时数据流应用程序和大数据处理系统。本文将深入探讨 Kafka 的起源、设计原则以及它在大数据领域中的重要作用。大数据和实时数据处理背景在大数据时代，处理海量数据和实时数据成为了一项关键挑…...

编程日记 2023/12/4 1:15:31

三极管在数字电路中的应用

一、认识三极管三极管拥有3个引脚，分别对应3个级：基极(Base)、发射极（Emitter）、集电极(Collector)，如下图所示；下图横向左侧的是基极，带箭头的那个引脚就是发射极，另一个就是集电…...

编程日记 2023/12/4 1:13:29

java后端自学错误总结

java后端自学错误总结 MessageSource国际化接口总结 MessageSource国际化接口今天第一次使用MessageSource接口,比较意外遇到了一些坑 messageSource是spring中的转换消息接口，提供了国际化信息的能力。MessageSource用于解析消息，并支持消息的参数化…...

编程日记 2023/12/4 1:11:26

CLion安装与配置教程

目录一、下载并安装CLion1、下载1、官网：2、注意： 2、安装1、下载完成后，直接点击安装包安装，即可。2、开始安装，然后下一步3、可以在此处自定义地址，然后下一步4、根据系统版本选择，然后下一步…...

编程日记 2023/12/4 1:10:26

初识主力投资者

在股票市场中，真正赚钱的散户并不多。“七亏二平一赚”似乎已经成为了大家公认的一个股市定律。为什么散户炒股赚的人少呢？原因很简单，就是因为市场上除了散户之外，还存在着一个重要的投资主体——主力。股市交易的过程&#xff…...

编程日记 2023/12/4 1:09:24

MySQL 隔离级别：脏读、幻读及不可重复读的原理与示例

一、MySQL 隔离级别 MySQL 提供了四种隔离级别，用于控制事务之间的并发访问以及数据的可见性，不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式，具体如下：隔离级别脏读不可重复读幻读性能特点及锁机制读未提交（READ UNCOMMITTED）允许出现允许…...

编程新知 2025/9/16 21:01:58

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2025/11/9 11:32:13

Keil 中设置 STM32 Flash 和 RAM 地址详解

文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面（Target 选项卡）1. IROM1（用于配置 Flash）2. IRAM1（用于配置 RAM）二、链接器设置界面（Linker 选项卡）1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数（如果没有勾选上面…...

编程新知 2025/12/14 22:06:49

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2025/6/16 23:36:50

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

目录游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性宝可梦玩法融合设计游戏构想要素1. 地图探索（基于物理空间广播范围）2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法安全性设计技术选…...

编程新知 2025/12/12 6:01:17

面向无人机海岸带生态系统监测的语义分割基准数据集

描述：海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而，目前该领域仍面临一个挑战，即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

编程新知 2025/12/17 16:25:28

逻辑回归暴力训练预测金融欺诈

简述「使用逻辑回归暴力预测金融欺诈，并不断增加特征维度持续测试」的做法，体现了一种逐步建模与迭代验证的实验思路，在金融欺诈检测中非常有价值，本文作为一篇回顾性记录了早年间公司给某行做反欺诈预测用到的技术和思路。百度…...

编程新知 2025/12/14 0:59:25

比较数据迁移后MySQL数据库和OceanBase数据仓库中的表

设计一个MySQL数据库和OceanBase数据仓库的表数据比较的详细程序流程，两张表是相同的结构，都有整型主键id字段，需要每次从数据库分批取得2000条数据，用于比较，比较操作的同时可以再取2000条数据，等上一次比较完成之后，开始比较，直到比较完所有的数据。比较操作需要比较…...

编程新知 2025/9/14 5:35:46

手机平板能效生态设计指令EU 2023/1670标准解读

手机平板能效生态设计指令EU 2023/1670标准解读以下是针对欧盟《手机和平板电脑生态设计法规》(EU) 2023/1670 的核心解读，综合法规核心要求、最新修正及企业合规要点： 一、法规背景与目标生效与强制时间发布于2023年8月31日（OJ公报&…...

编程新知 2025/12/21 1:21:49

spring Security对RBAC及其ABAC的支持使用

RBAC (基于角色的访问控制) RBAC (Role-Based Access Control) 是 Spring Security 中最常用的权限模型，它将权限分配给角色，再将角色分配给用户。 RBAC 核心实现 1. 数据库设计 users roles permissions ------- ------…...

编程新知 2025/12/16 19:56:29