当前位置：首页 > news >正文

大语言模型-GPT-Generative Pre-Training

news 2026/5/15 4:18:41

一、背景信息：

GPT是2018 年 6 月由OpenAI 提出的预训练语言模型。
GPT可以应用于复杂的NLP任务中，例如文章生成，代码生成，机器翻译，问答对话等。
GPT也采用两阶段的训练过程，第一阶段是无监督的方式来预训练生成式的语言模型，第二阶段根据特定任务进行微调。
GPT的网络架构使用的是多层Transformer Decoder改的结构。

二、整体结构：

GPT 使用Transformer的 Decoder 结构，并进行了一些改动，GPT 中的Decoder只保留了原Decoder中的第一个Attention模块Mask Multi-Head Attention。

GPT堆叠了12个Transformer的Decoder模块作为解码器，然后通过全连接得到输出的概率分布。
GPT中采用的是单向的语言模型，即通过上文预测当前的词，而Decoder中的Masked Multi Self-Attention可以起到遮掩待预测的下文内容的效果。

GPT 处理不同任务时的输入变换

GPT模型由输入嵌入层、多层Transformer Decoder以及输出层这三个部分组成。
其中
1、输入嵌入层： 将输入的文本序列转换为词向量、位置向量并将二者相加得到输入向量。
2、多层Transformer Decode： 其中每一层由以残差和的方式做LayerNorm的掩码多头自注意力机层与以残差和的方式做LayerNorm的双层前馈神经网络组成。
$\begin{matrix} \\X_{output}=X_{ouput-ori }\otimes X_{Mask} \\X = LayderNorm(X_{output} + MaskMultiHeadAttention(X_{ouput})) \\X = FeedForword(X) = max(0, XW_{1} + b_{1})W_{2} + b_{2}\begin{matrix}\end{matrix} \end{matrix}$
3、输出层： GPT模型的输出层通常为一个全连接层，将多层解码器的输出转换为对应的单词概率分布。

分类任务(Classification)：将起始和终止token加入到原始序列两端，输入transformer中得到特征向量，最后经过一个全连接得到预测的概率分布。
自然语言推理(Entailment)：将前提(premise)和假设(hypothesis)通过分隔符(Delimiter)隔开，两端加上起始和终止token。再依次通过Transformer多层Decoder和全连接得到预测结果。
语义相似度(Similarity)：输入的两个句子，正向和反向各拼接一次，然后分别输入给Transformer多层Decoder，得到的特征向量拼接后再送给全连接得到预测结果；
多项选择(MutipleChoice)：将n个选项的问题抽象化为n个二分类问题，即每个选项分别和内容进行拼接，然后各送入Transformer多层Decode和全连接中，最后选择置信度最高的作为预测结果。

三、GPT训练

GPT的训练包含无监督预训练和有监督fine-tune两个阶段。

GPT的无监督预训练:

假设未标注的词汇集合为 $\left \{ {{u_{1},u_{2},...u_{n}}}\right \}$ ，GPT模型的优化目标是对参数进行最大似然估计：
$L_{1}(U) = \sum_{i}^{} log P(u_{i}|u_{1},...,u_{k-1};\Theta )$
其中，k是滑动窗口的大小, P 为条件概率, $\Theta$ 为条件概率的参数, 参数更新采用随机梯度下降(SGD)方法。
下面是整个过程的公式示例：
$\left\{\begin{matrix}h_{0} = UW_{e} + W{p} \\h_{l} = TransformerDecoderBlock(h_{l-q}) \\P(u) = softmax(h_{n}W_{e}^{T} ) \end{matrix}\right.$

输入嵌入层： $W_{e}$ 是token的词向量Embedding矩阵， $W_{p}$ 是位置编码的Embedding矩阵，二者求和得到输入向量矩阵 $h_{0}$
多层Transformer Decode：TransformerDecoderBlock指多层Decoder模块
输出层：通过Softmax函数将输出的词向量转换为对应的单词概率分布

GPT的有监督fine-tune：

预训练后，需要针对特定任务进行有监督Fine-Tuning。
这里以一个文本分类任务举例，展示GPT在某一任务有监督微调的过程。
假设带标注的数据集C中的输入序列X为 $x^{1},..., x^{m}]$ ；模型的输出y是一个分类标签； $h_{l}^{m}$ 代表Decoder层最后的输出； $W_{y}$ 代表输出层的Softmax参数。 $L_{2}(C)$ 是分类任务的最大似然函数， $L_{3}(C)$ 是整体的最大似然函数；GPT 在微调的时候需要同时考虑预训练的损失函数，因此微调的训练目标是最大化似然函数 $L_{3}(C)$ .
$\left\{\begin{matrix}P(y|x^{1},..., x^{m}) = softmax(h_{l}^{m}W_{y}) \\L_{2}(C) = \sum_{x,y}^{} log P(y|x^{1},..., x^{m}) \\L_{3}(C) = L_{2}(C) + \lambda \times L_{1}(C) \end{matrix}\right.$

Reference

1.Attention Is All You Need
2.BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
3.Improving Language Understanding by Generative Pre-Training

大语言模型-GPT-Generative Pre-Training

一、背景信息：

二、整体结构：

GPT 处理不同任务时的输入变换

三、GPT训练

GPT的无监督预训练:

GPT的有监督fine-tune：

Reference

相关文章：

大语言模型-GPT-Generative Pre-Training

mybatis批量插入、mybatis-plus批量插入、mybatis实现insertList、mybatis自定义实现批量插入

Springboot项目的行为验证码AJ-Captcha（源码解读）

【初阶数据结构篇】时间（空间）复杂度

C# 设计模式分类

前端模块化CommonJS、AMD、CMD、ES6

论文阅读：（DETR）End-to-End Object Detection with Transformers

react中路由跳转以及路由传参

C++ STL set_symmetric_difference

postman请求响应加解密

数据集，批量更新分类数值OR批量删除分类行数据

一款功能强大的视频编辑软件会声会影2023

政安晨【零基础玩转各类开源AI项目】基于Ubuntu系统部署LivePortrait ：通过缝合和重定向控制实现高效的肖像动画制作

在Spring项目中使用Maven和BCrypt来实现修改密码功能

RedHat8安装Oracle19C

React系列面试题

C#:通用方法总结—第6集

Spark实时（一）：StructuredStreaming 介绍

LangChain4j-RAG基础

git--本地仓库修改同步到远程仓库

Go语言ARP工具包：从协议原理到网络诊断实战

VRLog×框架：隐私保护记录链接与验证注册的创新融合

DeepSeek Ansible剧本调试黑洞破解：1行debug命令+4个隐藏日志开关，5分钟定位playbook卡死根源

Win11 一键安装 OpenClaw 从下载到使用完整版

免费获取A股行情数据的终极解决方案：Python通达信接口实战指南

亲测分享！优豆云免费资源助力我的小站起飞，还有惊喜优惠

Android定位模拟技术全解析：Xposed Hook实现位置伪造的完整指南

Mysql JOIN 的物理执行流程

研一新生必看!文献管理软件到底要不要用?Scholaread vs Zotero新手友好度对比

别只看版本号！思科show version命令里这5个隐藏信息，排错时超有用