当前位置：首页 > news >正文

【李沐精读系列】GPT、GPT-2和GPT-3论文精读

news 2026/4/1 8:09:34

论文：

GPT：Improving Language Understanding by Generative Pre-Training

GTP-2：Language Models are Unsupervised Multitask Learners

GPT-3：Language Models are Few-Shot Learners

参考：GPT、GPT-2、GPT-3论文精读、论文小结：GPT1、李宏毅版GPT、

GPT-1/GPT-2/GPT-3/GPT-3.5 语言模型详细介绍、GPT系列：GPT, GPT-2, GPT-3精简总结

关于Transformer、BERT和GPT的时间轴，如下：

三个模型的对比

一、GPT

GPT的训练过程采用了预训练和微调的二段式训练策略。在预训练阶段，GPT模型基于大规模的语料进行无监督预训练，得到文本的语义向量。具体来说，GPT采用了标准语言模型，即通过上文预测当前的词。

GPT提出的一种半监督方案：

非监督式预训练：利用大规模无标记语料，构建预训练单向语言模型。
监督式微调：用预训练的结果作为下游任务的初始化参数，增加一个线性层，匹配下游任务
- 具体是DecoderTransformer参数用预训练的结果初始化，和词向量相比，直接对句子序列建模。
- 采用的Transormer Decoder, 和原始的Transformer相比，因为不是seq2seq模型，将对应部份的模块去除。

1.1 模型结构

GPT只使用了Transformer 的Decoder结构，而且只是用了Mask Multi-Head Attention。Transformer 结构提出是用于机器翻译任务，机器翻译是一个序列到序列的任务，因此 Transformer 设计了Encoder 用于提取源端语言的语义特征，而用 Decoder 提取目标端语言的语义特征，并生成相对应的译文。GPT目标是服务于单序列文本的生成式任务，所以舍弃了关于 Encoder部分以及包括 Decoder 的 Encoder-Dcoder Attention 层（也就是 Decoder中的 Multi-Head Atteion）。

GPT保留了Decoder的Masked Multi-Attention 层和Feed Forward层，并扩大了网络的规模。将层数扩展到12层，GPT还将Attention 的维数扩大到768（原来为512），将 Attention 的头数增加到12层（原来为8层），将 Feed Forward 层的隐层维数增加到3072（原来为2048），总参数达到1.5亿。

BERT与GPT的区别

BERT是用了Transformer中的Encoder部分，它更类似完形填空，根据上下文来确定中间词（在预测词的时候既能看到前面的也能看后面的）
GPT用了Transformer中Decoder部分，它是标准的语言模型。通过给出的上文预测下一个词，类似预测未来。

对于位置编码的部分，实际上GPT和普通的Transformer的区别还是很大的，普通的Transformer的位置编码，是由余弦+正弦的方式学习出来的，而GPT中，采用与词向量相似的随机初始化，并在训练中进行更新，即是把每一个位置当做一个要学习的embedding来做。

1.2 预训练+微调

GPT属于自监督预训练 (语言模型)+微调的范式。

1.2.1 预训练

预训练：用的是标准的语言模型的目标函数，即似然函数，根据前k个词预测下一个词的概率。

假设有一个没有标号的文本 $\upsilon =\left \{ u_{1},...,u_{n} \right \}$ ，GPT使用一个标准语言模型的目标函数来最大化下面的似然函数：

$L_{1}( \upsilon )=\sum_{i}logP(u_i|u_{i-k},...,u_{i-1};\Theta )$

其中， $k$ 是上下文窗口大小。

$h_0=UW_e+W_p$

$h_l=transformer_block(h_{l-1})\forall i\in [1,n]$

$P(u)=softmax(h_nW_e^T)$

其中 $U=(u_{-k},...,u_{-i})$ ，第一步： $UW_e$ 是对词嵌入进行投影， $W_p$ 代表位置信息的编码，两者相加得到第一层输出 $h_0$ 。第二步：n层第一部的transformer块，每一层把上一层的输出作为输入经过计算得到输出，因为Transformer不会影响输入输出的形状。第三步：拿到最后的输出做一个投影利用softmax就会得到概率分布。

1.2.2 微调

微调：用的是完整的输入序列+标签。目标函数=有监督的目标函数+λ*无监督的目标函数。

在微调任务里是有标号的数据集。具体来说，每次输入一个长为m的词序列 $x^1,...x^m$ ，序列的标号为 $y$ 。通过输入的序列去预测标号 $y$ 。

$P(y|x^1,...,x^m)=softmax(h_l^mW_y)$

把训练好的序列给GPT模型，拿到transformer快的最后一层输出 $h_l^m$ ，乘以输出层 $W_y$ ，得到的结果做一个softmax就得到所需要的概率了。

把所有带有标号的序列对输入后，通过计算真实的标号概率 $P$ ，最后进行最大化。

$L_2(C)=\sum_{x,y}lopP(y|x^1,...,x^m)$

如果把有监督的分类和之前的无监督语言模型放在一起，效果会更好。

$L_3(C)=L_2(C)+\lambda *L_1(C)$

1.3 不同下游任务的输入转换

GPT的Decoder运作例子

二、GPT-2

GPT-2与GPT的区别：
GPT-2和GPT的区别在于GPT-2使用了更多的网络参数和更大的数据集，以此来训练一个泛化能力更强的词向量模型。GPT-2相比于GPT有如下几点区别：

主推zero-shot，而GPT-1为pre-train+fine-tuning；
模型更大，参数量达到了15亿个，而GPT-1只有1.17亿个；
数据集更大，WebText数据集包含了40GB的文本数据，而GPT-1只有5GB；
训练参数变化，batch_size 从 64 增加到 512，上文窗口大小从 512 增加到 1024；

所以GPT-2的核心思想就是，当模型的容量非常大且数据量足够丰富时，仅仅靠语言模型的学习便可以完成其他有监督学习的任务，不需要在下游任务微调。

2.1 模型结构

在模型结构方面，整个GPT-2的模型框架与GPT相同，只是做了几个地方的调整，这些调整更多的是被当作训练时的trick，而不作为GPT-2的创新，具体为以下几点：

后置层归一化（ post-norm ）改为前置层归一化（ pre-norm ）;
在模型最后一个自注意力层之后，额外增加一个层归一化;
调整参数的初始化方式，按残差层个数进行缩放，缩放比例为;
输入序列的最大长度从 512 扩充到 1024;

GPT-2 进行上述模型调整的主要原因在于，随着模型层数不断增加，梯度消失和梯度爆炸的风险越来越大，这些调整能够减少预训练过程中各层之间的方差变化，使梯度更加稳定。最终 GPT-2 提供了四种规模的模型。

2.2 预训练+zero-shot

预训练和GPT基本没什么区别，但是对下游任务用了zero-shot。

GPT-2可以在zero-shot设定下实现下游任务，即不需要用有标签的数据再微调训练。
为实现zero-shot，下游任务的输入就不能像GPT那样在构造输入时加入开始、中间和结束的特殊字符，这些是模型在预训练时没有见过的，而是应该和预训练模型看到的文本一样，更像一个自然语言。
可以通过做prompt的方式来zero-shot。例如机器翻译和阅读理解，可以把输入构造成，“请将下面的一段英语翻译成法语，英语，法语”。
为何zero-shot这种方式是有效的呢？从一个尽可能大且多样化的数据集中一定能收集到不同领域不同任务相关的自然语言描述示例，数据集里就存在展示了这些prompt示例，所以训练出来就自然而然有一定zero-shot的能力了。

2.2.1 zero-shot

        在GPT中，模型预训练完成之后会在下游任务上微调，在构造不同任务的对应输入时，我们会引入开始符（Start）、分隔符（Delim）、结束符（Extract）。虽然模型在预训练阶段从未见过这些特殊符号，但是毕竟有微调阶段的参数调整，模型会学着慢慢理解这些符号的意思。

       在GPT-2中，要做的是zero-shot，也就是没有任何调整的过程了。这时我们在构造输入时就不能用那些在预训练时没有出现过的特殊符号了。所幸自然语言处理的灵活性很强，我们只要把想要模型做的任务 “告诉” 模型即可，如果有足够量预训练文本支撑，模型想必是能理解我们的要求的。

        举个机器翻译的例子，要用GPT-2做zero-shot的机器翻译，只要将输入给模型的文本构造成translate english to chinese, [englist text], [chinese text] 就好了。比如：translate english to chinese, [machine learning], [机器学习] 。这种做法就是日后鼎鼎大名的prompt。

下面还有其他任务的zero-shot形式：

        问答：question answering prompt+文档+问题+答案: answer the question, document, question, answer。

        文档总结：summarization prompt+文档+总结：summarize the document, document, summarization。

zero-shot例子（这就可以看到ChatGPT雏形了）：

三、GPT-3

GPT-2虽然提出zero-shot，比bert有新意，但是有效性方面不佳。GPT-3考虑few-shot，用少量文本提升有效性。

GPT-3希望训练出的模型能一定程度上理解语句本身的意思，所以对于下游问题，不更新原训练出模型的参数（不用计算梯度），而是通过改变下游问题的格式，给出提示，让模型能够理解下游任务并做出回答。

3.1 模型结构

GPT基于transformer的decoder结构。
GPT-3模型和GPT-2一样，但GPT-3应用了Sparse Transformer中的attention结构。

sparse attention与传统self-attention（称为 dense attention）的区别在于：

dense attention：每个token之间两两计算attention，复杂度 O(n²)
sparse attention：每个token只与其他token的一个子集计算attention，复杂度 O(n*logn)

具体来说，sparse attention 除了相对距离不超过 k 以及相对距离为 k，2k，3k，... 的 token，其他所有 token 的注意力都设为 0，如下图所示：

实际途中sparse attention部分的第二行就是涉及到的attention的token内容，可以看出首先关注了附近四个token，其次是2k，3k距离的token。

使用sparse attention的好处主要有以下两点：

减少注意力层的计算复杂度，节约显存和耗时，从而能够处理更长的输入序列；
具有“局部紧密相关和远程稀疏相关”的特性，对于距离较近的上下文关注更多，对于距离较远的上下文关注较少；

3.2 预训练+few-shot

3.2.1 few-shot

论文尝试了如下下游任务的评估方法：few-shot learning（10-100个小样本）；one-shot learning（1个样本）；zero-shot（0个样本）；其中few-shot效果最佳。

fine-tuning：预训练 + 训练样本计算loss更新梯度，然后预测。会更新模型参数
zero-shot：预训练 + task description + prompt，直接预测。不更新模型参数
one-shot：预训练 + task description + example + prompt，预测。不更新模型参数
few-shot（又称为in-context learning）：预训练 + task description + examples + prompt，预测。不更新模型参数

zero-shot、one-shot和few-shot的区别：

其中 Few-shot 也被称为in-context learning，虽然它与fine-tuning一样都需要一些有监督标注数据，但是两者的区别是：

fine-tuning基于标注数据对模型参数进行更新，而 in-context learning 使用标注数据时不做任何的梯度回传，模型参数不更新；
in-context learning 依赖的数据量(10～100)远远小于fine-tuning一般的数据量；

3.3 GPT-3与GPT-2的区别

模型结构上来看，在GPT-2的基础上，将attention改为了sparse attention。
效果上远超GPT-2，生成的内容更为真实。
GPT-3主推few-shot，而GPT-2主推zero-shot。
数据量远大于GPT-2：GPT-3(45T，清洗后570G)，GPT-2(40G)。
GPT-3最大模型参数为1750亿，GPT-2最大为15亿。

3.4 GPT-3的局限性

数据量和参数量的骤增并没有带来智能的体感。从参数量上看，从GPT2 1.5B到GPT3 175B约116倍参数量的增加，从数据量上看，GPT2 40G到GPT3 570G近15倍训练数据增加，带来的“更”智能，或者简单点说“更few/zero-shot”的能力。
GPT-3的训练数据是从互联网上爬取的，因此可能存在一些错误或不准确的数据。
GPT-3在处理某些任务时可能会出现错误或不准确的结果，以及不合理或不合逻辑的结果。
文本生成方面；结构和算法上的局限性（采用的是decoder，不像BERT可以向前向后看）。
样本有效性不够。
语言模型是很均匀的训练下一个词，没有权重。

【李沐精读系列】GPT、GPT-2和GPT-3论文精读

论文： GPT：Improving Language Understanding by Generative Pre-Training GTP-2：Language Models are Unsupervised Multitask Learners GPT-3：Language Models are Few-Shot Learners 参考：GPT、GPT-2、GPT-3论文精读…...

编程日记 2024/3/8 17:11:31

Libevent的使用及reactor模型

Libevent 是一个用C语言编写的、轻量级的开源高性能事件通知库，主要有以下几个亮点：事件驱动（ event-driven），高性能;轻量级，专注于网络，不如 ACE 那么臃肿庞大；源代码相当精炼、易读…...

编程日记 2024/3/8 17:10:30

查看Linux服务器配置

# chkconfig --list # 列出所有系统服务 # chkconfig --list | grep on # 列出所有启动的系统服务 # ifconfig # 查看所有网络接口的属性 # iptables -L # 查看防火墙设置 # route -n # 查看路由表 # netstat -lntp # 查看所有监听端口 # netstat -antp # 查看所有已经建立的连…...

编程日记 2024/3/8 17:09:29

【机器学习】包裹式特征选择之递归特征添加法

🎈个人主页：豌豆射手^ 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏：机器学习 🤝希望本文对您有所裨益，如有不足之处，欢迎在评论区提出指正，让我们共同学习、交流进…...

编程日记 2024/3/8 17:07:27

解决cs不能生成Linux木马的问题

要解决的问题：众所周知，msf上面的shell或者是其他的shell想反弹给cs默认情况下是只支持windows的，因为cs的监听模块默认没有linux的，但是有些主机就是用linux搭建的，这可怎么办呢。就要用到一个插件CrossC2。下载插件…...

编程日记 2024/3/8 17:06:26

vue3组件通信方式

不管是vue2还是vue3,组件通信方式很重要,不管是项目还是面试都是经常用到的知识点。 vue2组件通信方式 props:可以实现父子组件、子父组件、甚至兄弟组件通信自定义事件:可以实现子父组件通信全局事件总线$bus:可以实现任意组件通信 pubsub:发布订阅模式实现任意组件通信…...

编程日记 2024/3/8 17:04:24

前端实现生成图片并批量下载，下载成果物是zip包

简介项目上有个需求，需要根据表单填写一些信息，来生成定制的二维码图片，并且支持批量下载二维码图片。之前的实现方式是直接后端生成二维码图片，点击下载时后端直接返回一个zip包即可。但是项目经理说后端实现方式每次改个东西…...

编程日记 2024/3/8 17:02:22

android 快速实现圆角矩形控件及圆形控件

1.自定义RoundImageView package com.examle.widget;import android.content.Context; import android.content.res.TypedArray; import android.graphics.Bitmap; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; import an…...

编程日记 2024/3/8 17:01:21

【Python】外网远程登录访问jupyter notebook+pycharm使用ipython

第一步：创建python虚拟环境 conda create -n py3610 python3.6.10第二步：安装ipython pip install ipython pip install ipython notebook第三步：创建 IPython Notebook 服务器配置文件 # 进入python交互shell，设置密码 >&…...

编程日记 2024/3/8 17:00:19

error:0308010C:digital envelope routines::unsupported

error:0308010C:digital envelope routines::unsupported 报错原因解决方案方案一：降低node版本在17以下指定node版本 mac node版本降级 mac切换node版本方案二：启用legacy OpenSSL provider方案三：配置package.json文件拓展：pac…...

编程日记 2024/3/8 16:59:18

Vue前端的工作需求

加油，新时代打工人！ 需求： 实现带树形结构的表格，父数据显示新增下级，和父子都显示编辑。技术： Vue3 Element Plus <template><div><el-table:data"tableData"style"width…...

编程日记 2024/3/8 16:58:17

97. 常用的HTTP服务压测工具

文章目录导言一、ab二、wrk三、go-wrk 导言在项目正式上线之前，我们通常需要通过压测来评估当前系统能够支撑的请求量、排查可能存在的隐藏bug，同时了解了程序的实际处理能力能够帮我们更好的匹配项目的实际需求(服务器实例个数，如需要部署…...

编程日记 2024/3/8 16:56:15

活动预告｜听云猿生数据创始人 CEO 曹伟分享云数据库行业十余年经验总结

3月16日，KubeBlocks 将携手 OceanBase 开源社区、AutoMQ 带来《LLMs 时代下的企业数据管理与降本增效之路》主题 meetup，扫描下方二维码，即刻报名👇。云猿生数据创始人 & CEO 曹伟将带来《KubeBlocks：把所有数据…...

编程日记 2024/3/8 16:55:13

数仓实战——京东数据指标体系的构建与实践

目录一、如何理解指标体系 1.1 指标和指标体系的基本含义 1.2 指标和和标签的区别 1.3 指标体系在数据链路中的位置和作用 1.4 流量指标体系 1.5 指标体系如何向上支撑业务应用 1.6 指标体系背后的数据加工逻辑二、如何搭建和应用指标体系 2.1 指标体系建设方法—OS…...

编程日记 2024/3/8 16:53:11

Alias许可配置

在数字化时代，软件已成为企业竞争的核心要素。然而，随着软件市场的日益复杂，如何合理配置和使用软件许可，已成为企业亟待解决的问题。Alias许可配置服务，凭借其卓越的功能和性能，帮助企业优化软件使用&…...

编程日记 2024/3/8 16:50:08

【读书笔记】针对ICS的ATTCK矩阵详解（一）

Techniques - ICS | MITRE ATT&CKhttps://attack.mitre.org/techniques/ics/ 一、初始访问（Initial Access） 该阶段：攻击者正在尝试进入ICS环境。初始访问包括攻击者可能用作入口向量，从而可以在 ICS 环境中获得初始立足点的…...

编程日记 2024/3/8 16:48:05

Rust多线程访问数据，推荐使用mutex还是channel？

在Rust中，选择使用互斥锁（mutex）还是通道（channel）来进行多线程间的数据访问，主要取决于你的具体需求和数据共享的模式。互斥锁（Mutex） 互斥锁是一种同步原语，用于保护…...

编程日记 2024/3/8 16:47:04

基于pytorch的手写体识别

一、环境搭建链接: python与深度学习——基础环境搭建二、数据集准备本次实验用的是MINIST数据集，利用MINIST数据集进行卷积神经网络的学习，就类似于学习单片机的点灯实验，学习一门机器语言输出hello world。MINIST数据集，可以…...

编程日记 2024/3/8 16:45:02

Leetcode 56. 合并区间

题目描述：以数组 intervals 表示若干个区间的集合，其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间，并返回一个不重叠的区间数组，该数组需恰好覆盖输入中的所有区间。示例 1： 输入&#xf…...

编程日记 2024/3/8 16:44:01

C++：List的使用和模拟实现

创作不易，感谢三连！！ 一、List的介绍 list的文档介绍 1. list是可以在常数范围内在任意位置进行插入和删除的序列式容器，并且该容器可以前后双向迭代。 2. list的底层是双向链表结构，双向链表中每个元素存储在互不…...

编程日记 2024/3/8 16:42:59

CCC数字钥匙Release 3实战：如何用BLE/UWB实现无钥匙进入（附避坑指南）

CCC数字钥匙Release 3实战：BLE/UWB无钥匙进入系统开发全解析当你的手机靠近车辆时，车门自动解锁——这种科幻般的体验正通过CCC数字钥匙Release 3标准变为现实。作为汽车电子工程师，我曾用nRF5340开发板搭配UWB模块完整实现了这套系统&#…...

编程新知 2026/4/1 6:37:56

伯克利Octo机器人框架实战：5步搞定跨平台任务迁移（附代码）

伯克利Octo机器人框架实战：5步搞定跨平台任务迁移（附代码） 在机器人开发领域，硬件平台的多样性一直是阻碍算法快速部署的主要瓶颈。想象一下，你花费数月为WidowX机械臂开发的抓取算法，当实验室新购入UR5工业…...

编程新知 2026/4/1 5:39:02

保姆级教程：在Ubuntu 22.04上从Anaconda到PyTorch，一步步搞定GPU环境（含CUDA 11.7避坑指南）

保姆级教程：在Ubuntu 22.04上从Anaconda到PyTorch，一步步搞定GPU环境（含CUDA 11.7避坑指南） 刚接触深度学习的开发者们，最头疼的往往不是模型设计本身，而是环境搭建这个"拦路虎"。本文将手把手带…...

编程新知 2026/4/1 3:33:12

如何自学使用关键字排名软件_关键字排名软件与SEO有什么关系

如何自学使用关键字排名软件_关键字排名软件与SEO有什么关系在当今数字化时代，SEO（搜索引擎优化）已成为每一个网站运营者必不可少的技能。其中，关键字排名软件扮演了极其重要的角色。如何自学使用关键字排名软件呢？关…...

编程新知 2026/4/1 2:52:26

[具身智能-189]：ROS2的Node通信机制，为硬件的仿真平台与模型算法的分离以及他们之间标准化的通信提供了保障，在嵌入式系统，特别是具身智能开发中，解决“软硬耦合”这一顽疾。

ROS 2 的节点通信机制，本质上就是为了解决“软硬耦合”这一顽疾而生的。它通过去中心化的架构和标准化的中间件（DDS），让仿真平台（如 Gazebo、Isaac Sim）和模型算法（如导航、感知）能…...

编程新知 2026/4/1 2:38:20

MelonLoader终极指南：Unity游戏Mod加载器从入门到精通

MelonLoader终极指南：Unity游戏Mod加载器从入门到精通【免费下载链接】MelonLoader The Worlds First Universal Mod Loader for Unity Games compatible with both Il2Cpp and Mono 项目地址: https://gitcode.com/gh_mirrors/me/MelonLoader 还在为Unity游…...

编程新知 2026/4/1 2:18:02