当前位置：首页 > news >正文

训练自己的GPT2-Chinese模型

news 2026/2/8 21:30:57

文章目录

- 效果抢先看
- 准备工作
- 环境搭建
- 创建虚拟环境
- 训练&预测
- - 项目结构
  - 模型预测续写
- 训练模型
- 遇到的问题及解决办法
- - 显存不足
  - 生成的内容一样
- 文末

效果抢先看

通用中文模型1
通用中文模型2
通用中文模型3
通用中文模型4

准备工作

从GitHub上拉去项目到本地，准备已训练好的模型百度网盘：提取码【9dvu】。

gpt2对联训练模型
gpt2古诗词训练模型
gpt2通用中文模型
gpt2通用中文小模型
gpt2文学散文训练模型
gpt2中文歌词模型

环境搭建

配置好GPU的pytorch环境
a. 安装Anaconda环境
b. NIVIDA配置流程
桌面右键鼠标，找到NVIDIA控制面板，在左边找到开发者下管理GPU性能计数器，导航栏点击桌面选择启用开发者设置，弹出的系统信息中找到组件，找到产品名前缀为NVIDIA CUDA的那一条，记住其后面的版本号。
c. 进入NVIDIA官网下载CUDA，找到上一步记录的NVIDIA CUDA后的版本号相对应的链接。如版本信息为11.4就选择11.4

d. 下载完点击安装就行了
e. 安装cuDNN，选择相应的版本。这个地方要登录账号，没有账号可以注册，也可以选择QQ或微信登录，选择刚才的CUDA版本，下载压缩包

f. 下载完成后解压缩，并修改根目录名为cudnn

g. 将整个文件复制到xxx\NVIDIA GPU Computing Toolkit\CUDA\v11.4目录下

h. 设置变量环境，添加两个环境变量路径，根据自己的实际情况目录修改

在这里插入图片描述

pytorch配置
a. 去pytorch官网找到相应的gpu版本或cpu版本，找到后安装命令会出现在command栏

找不到自己的版本点击previous version链接

b. 使用管理员身份执行cmd，否则会安装失败

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

安装完成之后执行命令conda list查看是否安装成功

打开终端输入python，使用以下代码查看torch显示GPU不可用状态
```
>>>import torch
>>>torch.cuda.is_available()
False
```
c. 标准查看torch版本
```
>>>import torch
>>>torch.__version__
1.10.2 
```
pytorch轮子配置
a. whl轮子配置，根据CUDA版本选择相应的版本。其中cu表示GPU版本，cpu表示CPU版本

b. 下载完成之后本地使用pip install 安装
```
pip install .\torchvision-0.13.1+cpu-cp39-cp39-win_amd64.whl
pip install .\torch-1.10.2+cu113-cp39-cp39-win_amd64.whl
```
c. 安装完成之后验证torch
```
>>>import torch
>>>torch.cuda.is_available()
True
```

创建虚拟环境

为了能够顺利使用环境，推荐使用python3.7.1版本
```
conda create -n venv_name python=3.7.1
```
激活虚拟环境
```
conda activate venv_name
```

pip安装所需库

pip install transformers==2.1.1
pip install tensorflow==2.0.0 
pip install numpy
pip install tqdm
pip install sklearn
pip install keras
pip install tb-nightly
pip install future
pip install thulac
pip install setuptools==59.5.0pip install torch==1.10.2+cu113 torchvision==0.3.0 --extra-index-url

训练&预测

项目结构

config: 存放模型的配置文件
data: 存放训练数据
model: 存放模型
cache: 用于模型训练之前的数据预处理
sample: 用于存放生成样本的目录
generate.py: 生成代码
train.py: 训练多文本启动代码
train_single.py: 训练但文本启动代码
tokenizations: 用于文本数据转换tokenizations的脚本

模型预测续写

参数说明：

length: 生成的最长长度
prefix: 文章开头
fast_pattern: 快速生成模式
save_samples: 保存生成文本结果的位置

temperature: 越小越遵循训练样本，续写的内容的思维越发散

# 通用模型预测文本
python ./generate.py --length=100 --nsamples=4 --prefix=天津是一座美丽的城市。 --fast_pattern --save_samples ----model_path=model/use_model --model_config=config/model_config_small.json --topk=8 --temperature=0.8 --batch_size=2# 制定模型输出
python ./generate.py --length=300 --nsamples=4 --prefix=萧炎，斗之力。 --fast_pattern --save_samples --model_path=model/model_epoch18 --model_config=model/model_epoch18/config.json --topk=8 --temperature=1 --batch_size=1

其他参数参考：
在这里插入图片描述

训练模型

将训练语料以train.json的格式放入data目录中

如果文件格式为train.json格式，那么将train.py文件中的读取方式为：lines = json.load(f)
如果文件格式为train.txt格式，即数据格式为[”正文1“, ”正文2“, ”正文3“]，那么将train.py文件中的读取方式为：lines = f.readlines()

运行train.py文件并设定--raw参数，会自动预处理数据，预处理完成之后，会自动执行训练。

python train.py --raw

遇到的问题及解决办法

显存不足

语料太大：在config文件中选择小一点的json文件
batch_size过大：默认训练是8，可以改成4或者6尝试

生成的内容一样

修改generate.py中的batch_size=1

文末

此训练结果生成比较简单的文章还可以，但是需要达到理想的效果，还需要更大的数据体系和语料以及长期的模型训练，基于原有的算法二次开发，门槛也比较高，而且这种业务比较吃硬件资源。

训练自己的GPT2-Chinese模型

文章目录效果抢先看准备工作环境搭建创建虚拟环境训练&预测项目结构模型预测续写训练模型遇到的问题及解决办法显存不足生成的内容一样文末效果抢先看准备工作从GitHub上拉去项目到本地，准备已训练好的模型百度网盘：提取码【9dvu】。 gpt2对联训…...

编程日记 2023/3/10 2:45:57

springcloud3 fegin服务超时的配置和日志级别的配置2

一 fegin的概述 1.1 fegin的默认超时时间默认fegin客户端只等待1秒钟，超过1秒钟，直接会返回错误。 1.2 架构图 1.2.1 说明 1.2.2 启动操作 1.先启动9001,9002 eureka 2.启动9003 服务提供者 3.启动9006消费者 1.3 情况验证 1.3.1 正常默认情…...

编程日记 2023/3/10 2:44:52

华为机试 HJ48 从单向链表中删除指定值的节点

题目链接描述输入一个单向链表和一个节点的值，从单向链表中删除等于该值的节点，删除后如果链表中无节点则返回空指针。链表的值不能重复。构造过程，例如输入一行数据为: 6 2 1 2 3 2 5 1 4 5 7 2 2 则第一个参数6表示输入总共6个节点&a…...

编程日记 2023/3/10 2:43:50

华为机试 HJ1 字符串最后一个单词的长度

华为机试 HJ1 字符串最后一个单词的长度文章目录华为机试 HJ1 字符串最后一个单词的长度一、题目描述二、方法一 Java lastIndexOf() 方法三、方法二 Java split()方法使用Java的lastIndexOf()和split()解决求取方法字符串最后一个单词的长度的问题一、题目描述计算字符串最…...

编程日记 2023/3/10 2:42:48

从入门到精通MongoDB数据库系列之二：深入了解MongoDB基本概念文档、集合、数据库、数据类型、MongoDB shell

从入门到精通MongoDB数据库系列之二：深入了解MongoDB基本概念文档、集合、数据库、数据类型、MongoDB shell 一、MongoDB基本概念二、文档三、集合1.动态模式2.命名四、数据库五、MongoDB shell1.运行shell2.连接远程MongoDB数据库3.shell中的基本操作六、数据类型1.基本数据类…...

编程日记 2023/3/10 2:41:46

前端实用技巧，JS压缩、美化、JS混淆加密

作为一名前端开发者，关注JavaScript代码的安全性和隐私性，或者需要对JavaScript代码进行美化、格式化、压缩等操作，帮助你提高开发效率和代码质量，利用一个好的工具非常重要。如果不想让自己的代码被恶意篡改和盗用，作…...

编程日记 2023/3/10 2:40:43

synchronized轻量级锁优化

synchronized优化轻量级锁使用场景如果一个对象虽然有多个线程访问，但多线程访问时间是错开的，也就是没有竞争，那么可以使用轻量级锁优化； 原理 1、每个线程的栈帧中有锁记录包括：记录锁对象的地址Object refer…...

编程日记 2023/3/10 2:39:40

python中时间日期格式化符号： import datetime # Fri, 24 Feb 2023 22:23:18 0000 ret datetime.datetime.strptime("Fri, 24 Feb 2023 22:23:18 0000", "%a, %d %b %Y %H:%M:%S %z").strftime("%Y-%m-%d %H:%M:%S") print(ret)%y …...

编程日记 2023/3/10 2:38:35

使用sm4js进行加密和国密sm4的总结

最近在开发过程中，用到了sm4国密加密，因为之前没有用过，所以就想总结一下。先说一下怎么安装使用（vue项目） 1、先安装sm4js npm i sm4js在package.json中显示sm4js的版本如下： "dependencies&quo…...

编程日记 2023/3/10 2:37:31

c语言面试题目整理

1、static有什么用途？ 在C语言中，static主要定义全局静态变量，定义局部静态变量，定义静态函数限制变量的作用域，设置变量的存储域。 static 关键字主要有两种作用： 第一，为某特定数据类型或对…...

编程日记 2023/3/10 2:36:27

【嵌入式Bluetooth应用开发笔记】第三篇：初探BLUE ALSA应用开发

概述 BlueALSA（Bluetooth Audio ALSA）是一种将蓝牙音频设备连接到 ALSA 音频系统的桥接程序。它提供了一个蓝牙音频设备的 ALSA 插件，允许使用 ALSA API 直接从蓝牙音频设备读取和写入音频数据，从而使得蓝牙音频设备能够以与其他 ALSA 兼容设备相同的方式工作。 BlueALSA …...

编程日记 2023/3/10 2:35:22

C++基础了解-21-C++ 继承

C 继承一、C 继承面向对象程序设计中最重要的一个概念是继承。继承允许我们依据另一个类来定义一个类，这使得创建和维护一个应用程序变得更容易。这样做，也达到了重用代码功能和提高执行效率的效果。当创建一个类时，不需要重新编写新的…...

编程日记 2023/3/10 2:34:18

To_Heart—游记——NOI 春季测试

快点投降吧！ Day 1 考试了。 10min T1 ,20min 打了 T2 的暴力，发现不会就跑了、看到 T3 一眼计算几何，不会，去看 T4。看数据范围，感觉是网络流。大概这个时候已经 1hour 了。然后挣扎。觉得不能最大流&#xf…...

编程日记 2023/3/10 2:33:17

Laya小游戏开发，laya3D美术篇——1——关于laya自带的几个shader的基础运用讲解。

最近三年，基本上做的都是laya小游戏项目。也就是微信小程序，很多业内同行都觉得laya做小游戏不好用，去用了其他平台，甚至还有些做app游戏的，都不来趟laya这个坑。原因有那么以下几点。laya对于unity的辅助开发&#xf…...

编程日记 2023/3/10 2:32:15

brew 的安装与使用（Apple Silicon CPU的Mac机型完成适配）

准备 ARM版Homebrew需要安装在/opt/homebrew路径下，早期的时候需要手动创建目录执行命令，目前使用最新脚本不需要手动操作。 /bin/bash -c "$(curl -fsSL https://gitee.com/ineo6/homebrew-install/raw/master/install.sh)"然后还需设置环境…...

编程日记 2023/3/10 2:31:12

传输线的物理基础（四）：传输线的特性阻抗

特性阻抗和控制阻抗对于一条均匀的线，无论我们选择看哪里，我们都会看到沿线传播时相同的瞬时阻抗。有一个表征传输线的瞬时阻抗，我们给它起了一个特殊的名字：特性阻抗。有一个瞬时阻抗是均匀传输线的特征。我们将这种恒定的瞬时阻…...

编程日记 2023/3/10 2:30:07

（六十九）以MySQL单表查询来举例，看看执行计划包含哪些内容（2）？

今天我们继续来说执行计划里包含的数据访问方式，上次说了const和ref，以及ref_or_null，想必大家都理解了，今天来说说其他的数据访问方式先说说range这个东西，这个东西顾名思义，其实就是你SQL里有范围查询的…...

编程日记 2023/3/10 2:29:04

Linux发行版的backport

遇到一个问题，简要记录如下: base on ubuntu18.06 4.15内核，这版内核不支持一款intel的集成网卡，追踪内核代码的提交历史才发现，这款网卡是从linux-4.20才开始支持的,系统自带的这个Kernel版本不支持。如果不允许升级内核，面对这种问题，社区的做法是把新内核的特性cher…...

编程日记 2023/3/10 2:27:58

GitLab 存储型XSS漏洞（CVE-2023-0050）

漏洞描述 GitLab 是由GitLab公司开发的、基于Git的集成软件开发平台。kroki是一款集成在GitLab的基于文本的图表描述自动转为图片的开源工具，在GitLab 13.7引入。由于Kroki中lib/banzai/filter/kroki_filter.rb对接收的image_src过滤不严，具有AsciiDo…...

编程日记 2023/3/10 2:26:55

HTTPS加密流程

什么是HTTPSHTTPS是加密后的HTTP,相当于:HTTPS HTTP SSL/TLSHTTPS是基于"密钥"来实现的,客户端将发送的数据用密钥进行加密,服务器将收到的数据用密钥解密.对称加密和非对称加密对称加密是指:交互双方共同使用同一个密钥进行加密或解密.如下(图中的客户端和服务器…...

编程日记 2023/3/10 2:25:54

网络编程（Modbus进阶）

思维导图 Modbus RTU（先学一点理论） 概念 Modbus RTU 是工业自动化领域最广泛应用的串行通信协议，由 Modicon 公司（现施耐德电气）于 1979 年推出。它以高效率、强健性、易实现的特点成为工业控制系统的通信标准。包…...

编程新知 2026/2/7 23:18:34

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器直接处理静态资源（HTML/CSS/图片等），响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器隐藏后端服务器IP地址，提高安全性 3.负载均衡服务器支持多种策略分发流量…...

编程新知 2026/2/8 20:42:56

简易版抽奖活动的设计技术方案

1.前言本技术方案旨在设计一套完整且可靠的抽奖活动逻辑，确保抽奖活动能够公平、公正、公开地进行，同时满足高并发访问、数据安全存储与高效处理等需求，为用户提供流畅的抽奖体验，助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...

编程新知 2026/2/7 17:41:40

【数据分析】R版IntelliGenes用于生物标志物发现的可解释机器学习

禁止商业或二改转载，仅供自学使用，侵权必究，如需截取部分内容请后台联系作者! 文章目录介绍流程步骤1. 输入数据2. 特征选择3. 模型训练4. I-Genes 评分计算5. 输出结果 IntelliGenesR 安装包1. 特征选择2. 模型训练和评估3. I-Genes 评分计…...

编程新知 2026/2/6 11:41:39

PAN/FPN

import torch import torch.nn as nn import torch.nn.functional as F import mathclass LowResQueryHighResKVAttention(nn.Module):"""方案 1: 低分辨率特征 (Query) 查询高分辨率特征 (Key, Value).输出分辨率与低分辨率输入相同。"""def __…...

编程新知 2025/10/20 4:39:36

Go 语言并发编程基础：无缓冲与有缓冲通道

在上一章节中，我们了解了 Channel 的基本用法。本章将重点分析 Go 中通道的两种类型 —— 无缓冲通道与有缓冲通道，它们在并发编程中各具特点和应用场景。一、通道的基本分类类型定义形式特点无缓冲通道make(chan T)发送和接收都必须准备好&#xff0…...

编程新知 2026/1/29 3:25:02

第7篇：中间件全链路监控与 SQL 性能分析实践

7.1 章节导读在构建数据库中间件的过程中，可观测性和性能分析是保障系统稳定性与可维护性的核心能力。特别是在复杂分布式场景中，必须做到： 🔍 追踪每一条 SQL 的生命周期（从入口到数据库执行）&#…...

编程新知 2025/12/11 0:27:15

基于Java+VUE+MariaDB实现（Web）仿小米商城

仿小米商城环境安装 nodejs maven JDK11 运行 mvn clean install -DskipTestscd adminmvn spring-boot:runcd ../webmvn spring-boot:runcd ../xiaomi-store-admin-vuenpm installnpm run servecd ../xiaomi-store-vuenpm installnpm run serve 注意：运行前…...

编程新知 2026/1/31 4:37:40

django blank 与 null的区别

1.blank blank控制表单验证时是否允许字段为空 2.null null控制数据库层面是否为空但是，要注意以下几点： Django的表单验证与null无关：null参数控制的是数据库层面字段是否可以为NULL，而blank参数控制的是Django表单验证时字…...

编程新知 2025/7/7 3:34:13

【Linux】自动化构建-Make/Makefile

前言上文我们讲到了Linux中的编译器gcc/g 【Linux】编译器gcc/g及其库的详细介绍-CSDN博客本来我们将一个对于编译来说很重要的工具：make/makfile 1.背景在一个工程中源文件不计其数，其按类型、功能、模块分别放在若干个目录中，mak…...

编程新知 2026/2/4 16:04:21