当前位置：首页 > news >正文

GPT系列详解：初代GPT

news 2026/2/10 16:55:21

本文详细解读了OpenAI公司在2018年6月发布的论文《Improving Language Understanding by Generative Pre-Training》，它其中介绍的算法也就是后来人们说的GPT。本文借鉴了李沐的这个视频，感兴趣的同学可以移步观看大神的讲解。

引言

在Transformer方法推出的1年后，OpenAI公司发布了GPT系列的第一篇论文，采用生成-判别模型架构，在多个自然语言处理（NLP）任务上实现了较高的精度。
总体而言，GPT方法在很大程度上解决了数据量不足给NLP任务带来的局限；也避免了在不同NLP子任务的解决上，需要不断调整模型的麻烦。

GPT方法

GPT的基本思路是：在有标注的数据集下训练得到一个初始模型，随后在有标注的子任务数据集下，精调得到用于各任务的子模型。在微调时，GPT使用了两个优化的目标函数。

无监督预训练

给定一个语言序列 $U={u1,…,un}\mathcal U=\left\{u_1, \dots, u_n\right\}$ ，GPT采用标准的语言模型，即最大化如下的目标函数：
$L1(U)=∑ilogP(ui∣ui−k,…,ui−1;Θ)L_1(\mathcal U)=\sum_i\text{log}P\left( u_i\vert u_{i-k},\dots,u_{i-1};\Theta\right)$
其中 $k$ 是上下文窗口的尺寸，条件概率 $P$ 是通过参数为 $Θ\Theta$ 的神经网络建模得到的。

简单来说，上面描述的条件概率，是在给定描述模型和位置 $i$ 之前的 $k$ 个词后，第 $i$ 个位置出现词 $u_i$ 的概率。将所有概率加起来，就得到了目标函数。这里的窗口尺寸 $k$ 其实可以理解为模型接受的输入序列的长度。当 $k$ 越大时，模型可以消化更多的信息，但是模型也更加复杂。因此，如果希望模型能力很强，这里的 $k$ 可能要取到几十、几百，甚至上千。

注：目标函数中采用的是所有 $logPi\text{log} P_i$ 的和，但是联合概率应该是所有概率的积。这里是相加的原因是，公式中采用了log变换，那么log结果的和也就是所有幂的乘积。不清楚具体变换的同学可以移步这个视频。

具体上，GPT中采用的模型（ $Θ\Theta$ ）是Transforer的解码器。Transformer包含两个结构：编码器和解码器。其中，编码器可以看到整个序列中的所有信息；但由于掩码的存在，解码器只能看到非掩码遮盖部分的信息，被遮盖的位置则都是0。由于在语言处理中，模型是只能看到当前词之前的信息的，因此GPT只能采用解码器部分，而不能采用编码器。

更多关于Transformer的介绍，可以移步这篇文章（还在写，挖个坑）详细了解。

有监督微调

精调模型是在有标号的数据集上进行的。具体来说，就是给定一段输入序列和对应的标号，将前面预训练好的模型的最后一层的输出拿出来，经过一个输出层，得到序列最后位置处的估计概率。数学上，这个概率可以表示为：
$P(y∣x1,…,xm)=softmax(hlmWy)P\left(y\vert x^1,\dots,x^m\right) = \text{softmax}\left(h_l^mW_y\right)$
其中， $x1,…,xmx^1,\dots,x^m$ 是输入， $y$ 是标签， $h_l^m$ 是预训练模型最后一层对位置 $m$ 处的预测结果。

此时，目标函数就是：
$L2(C)=∑x,ylogP(y∣x1,…,xm)L_2\left(\mathcal C\right)=\sum_{x,y}\text{log} P\left(y\vert x^1,\dots,x^m\right)$
GPT作者发现，在精调过程中引入预训练的目标函数，同样可以增加模型的精度。因此，微调过程最终的目标函数是两个目标函数的加权求和：
$Lc(C)=L2(C)+λ×L1(C)L_c\left(\mathcal C\right)=L_2\left(\mathcal C \right) + \lambda\times L_1\left(\mathcal C\right)$

子任务的描述

在知道了目标函数之后，剩下的问题就是如何将NLP中的各种任务，表示成序列对应的标号。在GPT中，这种表示逻辑可以由下图进行表示。
在这里插入图片描述
图中给出了4个常见的NLP子任务和其对应的标注方法。从图中可以看出无论是对什么任务，其输入可能被分割成1个、2个甚至多个字段，后面的输出层的结构也可能随任务发生变化，但是其中的transformer部分，一旦训练好了就不需要改变了。这也是GPT与其他NLP方法的一个核心区别。

实验

论文的实验部分本文简要带过，感兴趣的同学请移步论文原文。
这里只提醒大家注意以下几点：

GPT是在BooksCorpus数据集上训练得到的。这个数据集包含了7000余本未发表的各领域书籍。
GPT使用了12层的Transformer解码器，每一维是768。

参考文献

李沐. GPT，GPT-2，GPT-3 论文精读【论文精读】
The Math Sorcerer. How to Combine Two Logarithms into a Single Logarithm using Properties of Logs

GPT系列详解：初代GPT

目录

引言

GPT方法

无监督预训练

有监督微调

子任务的描述

实验

参考文献

相关文章：

GPT系列详解：初代GPT

为什么要使用数据库

【单目标优化算法】海鸥优化算法（Matlab代码实现）

筑基六层 —— 整型提升及实用调式技巧

后端前端文件传输2中传出模式

【ZOJ 1067】Color Me Less 题解（vector+开方）

凌恩生物经典文章：孟德尔诞辰200周年，Nature Genetics礼献豌豆高质量精细图谱

进程间通信（二）/共享内存

电路模型和电路定律——“电路分析”

软件工程 | 第一章：软件工程学概述

前端开发页面HEAD作用

CSS开发技巧——行为技巧

PX4之代码结构

【C++11】可变参数模板(函数模板、类模板)

centos安装高版本cmake

重温一下C#的时间类型，并简单写一个定时器功能

MYSQL查询语句执行顺序

总结：电容在电路35个基本常识

Kroger EDI 855 采购订单确认报文详解

HANA SDA-远程数据源访问

java_网络服务相关_gateway_nacos_feign区别联系

DockerHub与私有镜像仓库在容器化中的应用与管理

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

多模态商品数据接口：融合图像、语音与文字的下一代商品详情体验

MVC 数据库

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张（Windows/Linux）

C# SqlSugar：依赖注入与仓储模式实践

Spring数据访问模块设计

LINUX 69 FTP 客服管理系统 man 5 /etc/vsftpd/vsftpd.conf

python爬虫——气象数据爬取