当前位置：首页 > news >正文

训练自己的GPT2

news 2025/11/1 9:01:39

训练自己的GPT2

1.预训练与微调
2.准备工作
2.在自己的数据上进行微调

1.预训练与微调

所谓的预训练，就是在海量的通用数据上训练大模型。比如，我把全世界所有的网页上的文本内容都整理出来，把全人类所有的书籍、论文都整理出来，然后进行训练。这个训练过程代价很大，首先模型很大，同时数据量又很大，比如GPT3参数量达到了175B，训练数据达到了45TB，训练一次就话费上千万美元。如此大代价学出来的是一个通用知识的模型，他确实很强，但是这样一个模型，可能无法在一些专业性很强的领域上取得比较好的表现，因为他没有针对这个领域的数据进行训练过。

因此，大模型火了之后，很多人都开始把大模型用在自己的领域。通常也就是把自己领域的一些数据，比如专业书、论文等等整理出来，使用预训练好的大模型在新的数据集上进行微调。微调的成本相比于预训练就要小得多了。

2.准备工作

首先需要安装第三方库transformers，transformers是一个用于自然语言处理（NLP）的Python第三方库，实现Bert、GPT-2和XLNET等比较新的模型，支持TensorFlow和PyTorch。以及下载预训练好的模型权重。

pip install transformers

安装完成之后，我们可以直接使用下面的代码，来构造一个预训练的GPT2

from transformers import GPT2Tokenizer, GPT2LMHeadModeltokenizer = GPT2Tokenizer.from_pretrained("gpt2")
model = GPT2LMHeadModel.from_pretrained("gpt2")

当运行的时候，代码会自动从hugging face上下载模型。但是由于hugging face是国外网站，可能下载起来很慢或者无法下载，因此我们也可以自己手动下载之后在本地读取。

打开hugging face的网站，搜索GPT2。或者直接进入GPT2的页面。

下载上图中的几个文件到本地，假设下载到./gpt2文件夹

然后就可以使用下面的代码来尝试预训练的模型直接生成文本你的效果。

from transformers import GPT2Tokenizer, GPT2LMHeadModeltokenizer = GPT2Tokenizer.from_pretrained("./gpt2")
model = GPT2LMHeadModel.from_pretrained("./gpt2")q = "tell me a fairy story"ids = tokenizer.encode(q, return_tensors='pt')
final_outputs = model.generate(ids,do_sample=True,max_length=100,pad_token_id=model.config.eos_token_id,top_k=50,top_p=0.95,
)print(tokenizer.decode(final_outputs[0], skip_special_tokens=True))

回答如下：

2.在自己的数据上进行微调

首先把我们的数据，也就是文本，全部整理到一起。比如可以把所有文本拼接到一起。

假设所有的文本数据都存到一个文件中。那么可以直接使用下面的代码进行训练。

import torch
from torch.utils.data import Dataset, DataLoader
from transformers import GPT2Tokenizer, GPT2ForSequenceClassification, AdamW, GPT2LMHeadModel
from transformers import DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments, TextDatasetdef load_data_collator(tokenizer, mlm = False):data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=mlm,)return data_collatordef load_dataset(file_path, tokenizer, block_size = 128):dataset = TextDataset(tokenizer = tokenizer,file_path = file_path,block_size = block_size,)return datasetdef train(train_file_path, model_name,output_dir,overwrite_output_dir,per_device_train_batch_size,num_train_epochs,save_steps):tokenizer = GPT2Tokenizer.from_pretrained(model_name)train_dataset = load_dataset(train_file_path, tokenizer)data_collator = load_data_collator(tokenizer)tokenizer.save_pretrained(output_dir)model = GPT2LMHeadModel.from_pretrained(model_name)model.save_pretrained(output_dir)training_args = TrainingArguments(output_dir=output_dir,overwrite_output_dir=overwrite_output_dir,per_device_train_batch_size=per_device_train_batch_size,num_train_epochs=num_train_epochs,)trainer = Trainer(model=model,args=training_args,data_collator=data_collator,train_dataset=train_dataset,)trainer.train()trainer.save_model()train_file_path = "./train.txt"   # 你自己的训练文本
model_name = './gpt2'  # 预训练的模型路径
output_dir = './custom_data'  # 你自己设定的模型保存路径
overwrite_output_dir = False
per_device_train_batch_size = 96  # 每一台机器上的batch size。
num_train_epochs = 50   
save_steps = 50000# Train
train(train_file_path=train_file_path,model_name=model_name,output_dir=output_dir,overwrite_output_dir=overwrite_output_dir,per_device_train_batch_size=per_device_train_batch_size,num_train_epochs=num_train_epochs,save_steps=save_steps
)

训练完成之后，推理的话，直接使用第二节里的代码，将预训练模型路径换成自己训练的模型路径就行了

训练自己的GPT2

训练自己的GPT2 1.预训练与微调2.准备工作2.在自己的数据上进行微调 1.预训练与微调所谓的预训练，就是在海量的通用数据上训练大模型。比如，我把全世界所有的网页上的文本内容都整理出来，把全人类所有的书籍、论文都整理出来，然…...

编程日记 2024/1/10 21:30:34

etcd储存安装

目录 etcd介绍: etcd工作原理选举复制日志安全性 etcd工作场景服务发现 etcd基本术语 etcd安装(centos) 设置：etcd后台运行 etcd 是云原生架构中重要的基础组件，由 CNCF 孵化托管。etcd 在微服务和 Kubernates 集群中不仅可以作为服务注册…...

编程日记 2024/1/10 21:28:32

如何彻底卸载Microsoft Edge浏览器

一、引语随着微软推出全新的Edge浏览器，许多用户可能想要尝试或完全切换到其他浏览器。在这篇文章中，我们将向您介绍如何彻底卸载Microsoft Edge浏览器，以确保您的系统干净整洁。二、通过系统设置卸载 1、首先，右键单击桌面上…...

编程日记 2024/1/10 21:25:29

Transformers 2023年度回顾：从BERT到GPT4

人工智能已成为近年来最受关注的话题之一，由于神经网络的发展，曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成，人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得…...

编程日记 2024/1/10 21:24:29

判断两个对象某些字段的值是否相同

1、借助mybatis plus的方法 import com.baomidou.mybatisplus.core.toolkit.LambdaUtils; import com.baomidou.mybatisplus.core.toolkit.support.SFunction; import com.baomidou.mybatisplus.core.toolkit.support.SerializedLambda; import lombok.SneakyThrows; import o…...

编程日记 2024/1/10 21:20:26

TYPE-C接口取电芯片介绍和应用场景

随着科技的发展，USB PDTYPE-C已经成为越来越多设备的充电接口。而在这一领域中，LDR6328Q PD取电芯片作为设备端协议IC芯片，扮演着至关重要的角色。本文将详细介绍LDR6328Q PD取电芯片的工作原理、应用场景以及选型要点。一、工作原理 LDR63…...

编程日记 2024/1/10 21:17:23

基于TI TPSXX系列 Buck电路应用计算-外围器件详细计算过程

TPS54202 Buck电路应用计算 1、电气特性2、内部框图3、典型应用电路4、设计需求5、计算EN引脚电阻6、FB引脚电阻估算7、查看反馈电压电压基准8、输入电容计算10、FB引脚反馈电阻计算11、功率电感计算12、输出电容计算13、前馈电容计算15、Layout布局TPS54202-中文版 1、电气特…...

编程日记 2024/1/10 21:16:22

NOIP2012提高组day1-T3：开车旅行

题目链接 [NOIP2012 提高组] 开车旅行题目描述小 A \text{A} A 和小 B \text{B} B 决定利用假期外出旅行，他们将想去的城市从 1 1 1 到 n n n 编号，且编号较小的城市在编号较大的城市的西边，已知各个城市的海拔高度互不相同&#xf…...

编程日记 2024/1/10 21:14:21

Golang Web框架性能对比

Golang Web框架性能对比 github star排名依次: Gin Beego Iris Echo Revel Buffalo 性能上gin、iris、echo网上是给的数据都是五星，beego三星，revel两星 beego是国产，有中文文档,文档齐全根据star数，性能，易用程度…...

编程日记 2024/1/10 21:13:20

【OCR】 - Tesseract OCR在mac系统中安装

Tesseract OCR 在Mac环境下安装Tesseract OCR（Optical Character Recognition）通常可以通过Homebrew包管理器进行。以下是安装步骤： 安装Homebrew 如果你还没有安装Homebrew，请访问 https://brew.sh/ 并按照页面上的说明安装。…...

编程日记 2024/1/10 21:12:19

了解不同方式导入导出的速度之快

目录一、用工具导出导入 Navicat（速度慢） 1.1、导入： 共耗时： 1.2、导出表共耗时： 二、用命令语句导出导入 2.1、mysqldump速度快导出表数据和表结构共耗时： 只导出表结构导入共耗时&…...

编程日记 2024/1/10 21:11:18

2024年第九届计算机与通信系统国际会议（ICCCS2024） ,邀您相约西安！

会议官网: ICCCS2024 | Xian China 时间: 2024年4月19-22日地点: 中国西安会议简介： 近年来，信息通信在不断发展，为计算机网络的进步与发展提供了先进可靠的技术支持。随着计算机网络与通信技术的深入发展，计算机通信技术、数…...

编程日记 2024/1/10 21:10:17

获取直播间的最新评论 - python 取两个list的差集

python 取两个list的差集作用：比如我要获取评论区列表，先获取了一遍，这个时候有人评论了几条，我再获取一遍后，找出多的那几条使用set数据类型来取两个列表的差集。差集表示仅包含在第一个列表中而不在第二个列表中…...

编程日记 2024/1/10 21:05:13

2023年度总结：但行前路，不负韶华

🦁作者简介：一名喜欢分享和记录学习的在校大学生 🐯个人主页：妄北y 🐧个人QQ：2061314755 🐻个人邮箱：2061314755qq.com 🦉个人WeChat：Vir2021GKBS &#x…...

编程日记 2024/1/10 21:03:11

智数融合|低代码入局,推动工业数字化转型走＂深＂向＂实＂

当下，“数字化、智能化”已经不再是新鲜词汇。事实上，早在几年前，就有企业开始大力推动数字化转型，并持续进行了一段时间。一些业内人士甚至认为，“如今的企业数字化已经走过了成熟期，进入了深水区。” 但事…...

编程日记 2024/1/10 21:01:09

初学者的基本 Python 面试问题和答案

文章目录专栏导读1、什么是Python？列出 Python 在技术领域的一些流行应用。2、在目前场景下使用Python语言作为工具有什么好处？3、Python是编译型语言还是解释型语言？4、Python 中的“#”符号有什么作用？5、可变数据类型和不可变…...

编程日记 2024/1/10 21:00:08

支持向量机（Support Vector Machines，SVM）

什么是机器学习支持向量机（Support Vector Machines，SVM）是一种强大的机器学习算法，可用于解决分类和回归问题。SVM的目标是找到一个最优的超平面，以在特征空间中有效地划分不同类别的样本。基本原理超平面在二…...

编程日记 2024/1/10 20:56:05

golang一个轻量级基于内存的kv存储或缓存

golang一个轻量级基于内存的kv存储或缓存 go-cache是一个轻量级的基于内存的key:value 储存组件，类似于memcached，适用于在单机上运行的应用程序。它的主要优点是，本质上是一个具有过期时间的线程安全map[string]interface{}。interface的结…...

编程日记 2024/1/10 20:54:03

henauOJ 1103: 统计元音

题目描述统计每个元音字母在字符串中出现的次数。输入输入数据首先包括一个整数n，表示测试实例的个数，然后是n行长度不超过100的字符串。输出对于每个测试实例输出5行，格式如下： a:num1 e:num2 i:num3 o:num4 u:num5 多…...

编程日记 2024/1/10 20:53:02

虚幻引擎：开创视觉与创意的新纪元

先看看据说虚幻5做出来的东西吧： 虚幻引擎5！！！4K画质PS5实机演示！ 好了，用文字认识一下吧： 虚幻引擎5.3对UE5的核心工具集作了进一步优化，涉及渲染、世界构建、程序化内容生成&…...

编程日记 2024/1/10 20:52:01

XML Group端口详解

在XML数据映射过程中，经常需要对数据进行分组聚合操作。例如，当处理包含多个物料明细的XML文件时，可能需要将相同物料号的明细归为一组，或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码，增加了开…...

编程新知 2025/10/29 21:53:39

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...

编程新知 2025/11/1 4:39:47

学校招生小程序源码介绍

基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码，专为学校招生场景量身打造，功能实用且操作便捷。从技术架构来看，ThinkPHP提供稳定可靠的后台服务，FastAdmin加速开发流程，UniApp则保障小程序在多端有良好的兼…...

编程新知 2025/10/19 10:09:01

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2025/10/21 0:37:39

select、poll、epoll 与 Reactor 模式

在高并发网络编程领域，高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表，以及基于它们实现的 Reactor 模式，为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。一、I…...

编程新知 2025/10/31 12:29:40

【Oracle】分区表

个人主页：Guiat 归属专栏：Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

编程新知 2025/10/28 16:17:02

【VLNs篇】07：NavRL—在动态环境中学习安全飞行

项目内容论文标题NavRL: 在动态环境中学习安全飞行 (NavRL: Learning Safe Flight in Dynamic Environments)核心问题解决无人机在包含静态和动态障碍物的复杂环境中进行安全、高效自主导航的挑战，克服传统方法和现有强化学习方法的局限性。核心算法基于近端策略优化…...

编程新知 2025/10/27 2:11:27

【JVM面试篇】高频八股汇总——类加载和类加载器

目录 1. 讲一下类加载过程？ 2. Java创建对象的过程？ 3. 对象的生命周期？ 4. 类加载器有哪些？ 5. 双亲委派模型的作用（好处）？ 6. 讲一下类的加载和双亲委派原则？ 7. 双亲委派模…...

编程新知 2025/10/29 0:22:26

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

市场化：从政策驱动到多元盈利政策全面赋能 2025年4月，国家发改委、能源局发布《关于加快推进虚拟电厂发展的指导意见》，首次明确虚拟电厂为“独立市场主体”，提出硬性目标：2027年全国调节能力≥2000万千瓦&#xff0…...

编程新知 2025/8/3 1:06:36

给网站添加live2d看板娘

给网站添加live2d看板娘参考文献： stevenjoezhang/live2d-widget: 把萌萌哒的看板娘抱回家 (ノ≧∇≦)ノ | Live2D widget for web platformEikanya/Live2d-model: Live2d model collectionzenghongtu/live2d-model-assets 前言网站环境如下，文章也主…...

编程新知 2025/10/29 8:11:07

训练自己的GPT2

1.预训练与微调

2.准备工作

2.在自己的数据上进行微调

相关文章：