当前位置：首页 > news >正文

大语言模型系列-GPT-2

news 2025/7/13 15:01:40

文章目录

前言
一、GPT-2做的改进
二、GPT-2的表现
总结

前言

《Language Models are Unsupervised Multitask Learners，2019》

前文提到，GPT-1利用不同的模型结构微调初步解决了多任务学习的问题，但是仍然是预训练+微调的形式，GPT-1在未经微调的任务上有一定效果（zero-shot ），但是其泛化能力远远低于经过微调的有监督任务，GPT-2主要基于该点进行了改进。

ps：GPT1：发现预训练模型具有 zero-shot 的能力，并且能随着预训练的进行不断增强。为了进一步验证 zero-shot 的能力，OpenAI 在 GPT-1 提出一年后，推出了 GPT-2。

GPT-2的目标旨在训练一个泛化能力更强的词向量模型，它并没有对GPT-1的网络进行过多的结构的创新与设计，只是使用了更多的网络参数（1.5B）和更大的数据集。

GPT-2 的核心思想就是，当模型的容量非常大且数据量足够丰富时，仅仅靠语言模型的学习便可以完成其他有监督学习的任务，不需要在下游任务微调。即为多任务学习，和T5类似。

也就是说所有的有监督学习都是无监督语言模型的一个子集。例如当模型训练完“Micheal Jordan is the best basketball player in the history”语料的语言模型之后，便也学会了(question：“who is the best basketball player in the history ?”，answer:“Micheal Jordan”)的Q&A任务。

few-shot：在模型做预测的时候，给模型少量标注后的优质样本来作为条件。（如GPT-3）
one-shot：和few-shot类似，但是只允许看到一个样本。
zero-shot：和one-shot类似，但是不允许看到任何样本。直接做预测。（如GPT-2）

ps：few-shot、one-shot、zero-shot均在推理输入阶段起作用，不会更新梯度，举例如下：

few-shot：“这个任务要求将中文翻译为英文。你好->hello，再见->goodbye，购买->purchase，销售->”
one-shot：“这个任务要求将中文翻译为英文。你好->hello，销售->”
zero-shot：“这个任务要求将中文翻译为英文。销售->”

一、GPT-2做的改进

去掉了fine-tuning层： 不再针对不同任务分别进行微调建模，即不定义这个模型应该做什么任务，模型自动识别需要做什么任务。就像T5的text to text。
Larger Dataset： WebText，GPT-2收集了更加广泛、数量更多的语料组成数据集。该数据集包含800万个网页，大小为40G
Larger Model： GPT-2将Transformer堆叠的层数从12层增加到48层，隐层的维度为1600，参数量达到了15亿（Bert的参数量3亿、T5参数量110 亿）。
Larger dictionary，larger sequnece length and larger batch size。 GPT-2将词汇表数量增加到50257个；最大的上下文大小 (context size) 从GPT的512提升到了1024 tokens；batchsize增加到512。
调整LN层：将layer normalization放到每个sub-block之前，并在最后一个Self-attention后再增加一个layer normalization。
初始化：修改初始化的残差层权重，维缩放为原来的 $\sqrt N$ ，其中N是残差层的数量。

二、GPT-2的表现

在8个语言模型任务中，仅仅通过zero-shot学习，GPT-2就有7个超过了state-of-the-art的方法；
在“Children’s Book Test”数据集上的命名实体识别任务中，GPT-2超过了state-of-the-art的方法约7%；
“LAMBADA”是测试模型捕捉长期依赖的能力的数据集，GPT-2将困惑度从99.8降到了8.6；
在阅读理解数据中，GPT-2超过了4个baseline模型中的三个；
在法译英任务中，GPT-2在zero-shot学习的基础上，超过了大多数的无监督方法，但是比有监督的state-of-the-art模型要差；
GPT-2在文本总结的表现不理想，但是它的效果也和有监督的模型非常接近。

总结

先看一下GTP2在不同数据集上的精度：
在这里插入图片描述

ps：模型精度指标：

PPL（Perplexity，困惑度）：在自然语言处理中，语言模型的任务是对给定的文本序列进行概率估计，即根据先前的单词预测下一个单词的概率。困惑度提供了一个衡量语言模型对给定文本序列预测的不确定性程度的度量。
具体来说，困惑度是对模型在给定数据集上的概率分布进行评估的指标。在一个给定的文本序列上，困惑度是一个标量值，表示模型对该序列的预测的平均困惑程度，即模型认为该序列所对应的概率的逆数。困惑度越低，表示模型在给定的序列上的预测越准确，模型对数据集的拟合程度越好。

即， $PPL=2^{H(P,Q)}$ ， $H(P,Q)=-\sum_xP(x)logQ(x)$ ，预测序列Q和真实序列P
ACC（Accuracy，准确率）：衡量模型在指定任务上（完形填空任务、文本分类任务等）的准确率。

BPC（Bits Per Character，每字符比特数）：BPC 是一种衡量模型性能的指标，用于评估模型生成文本的效率和质量。BPC 衡量了模型生成的文本与真实文本之间的差异，其计算方式通常是使用交叉熵损失（Cross Entropy Loss）除以每个字符的比特数。这个值越低，表示模型生成的文本越接近真实文本，模型的性能越好。

ps：数据集解释：

LAMBADA：LAMBADA是一个用于语言模型评估的数据集，其中包含了来自小说文本的句子。任务是给定前文并要求模型预测下一个单词，但这些句子在结尾处被截断，要求模型在没有上下文线索的情况下进行预测。即英文完形填空模式：

CBT-CN 和 CBT-NE：CBT（Children’s Book Test）是一个用于测试机器阅读理解的数据集，由Facebook于2016年提出。任务是从一本儿童读物中选出21个连续的句子。然后，将前20个句子视为上下文，然后推断第21个句子中缺少的单词。CBT-CN（Children’s Book Test-Chinese）和CBT-NE（Children’s Book Test-Natural Language Explanation）是CBT的中文版本和自然语言解释版本。
WikiText2 和 WikiText103：WikiText是从维基百科收集的用于语言模型预训练和评估的数据集。WikiText2是包含较小语料库的版本，而WikiText103是包含较大语料库的版本。（其中的文本被用来训练模型以预测下一个单词或字符，即在给定先前的文本序列后预测下一个单词或字符的概率。）
PTB（Penn Treebank）：PTB是一个常用的用于语言建模和序列预测任务的数据集，包含了华尔街日报的文章。
enwik8 和 text8：这是两个常用的用于字符级别语言建模任务的数据集。enwik8是维基百科的一个子集，而text8是enwik8的一个更小的子集，用于快速训练和评估模型。
1BW：1BW是一个用于预训练语言模型的数据集，包含来自互联网的多语言文本，总计约10亿字节。

大语言模型系列-GPT-2

文章目录前言一、GPT-2做的改进二、GPT-2的表现总结前言《Language Models are Unsupervised Multitask Learners，2019》前文提到，GPT-1利用不同的模型结构微调初步解决了多任务学习的问题，但是仍然是预训练微调的形式，GPT-…...

编程日记 2024/3/7 10:26:32

30m二级分类土地利用数据Arcgis预处理及获取

本篇以武汉市为例，主要介绍将土地利用数据转换成武汉市内各区土地利用详情的过程以及分区统计每个区内各地类面积情况，后面还有制作过程中遇到的面积制表后数据过小的解决方法以及一些相关的知识点： 示例数据下载链接：数据下载链…...

编程日记 2024/3/7 10:25:30

LeetCode-22题：括号生成（原创）

【题目描述】数字 n 代表生成括号的对数，请你设计一个函数，用于能够生成所有可能的并且有效的括号组合。【题目链接】. - 力扣（LeetCode） 【解题代码】 package dp;import java.util.ArrayList; import java.util.Arrays; im…...

编程日记 2024/3/7 10:22:27

如何应对IT服务交付中的问题？看了本文DevOps就懂了

👨‍🎓博主简介 🏅云计算领域优质创作者 🏅华为云开发者社区专家博主 🏅阿里云开发者社区专家博主 💊交流社区：运维交流社区欢迎大家的加入！ 🐋 希望大家多多支…...

编程日记 2024/3/7 10:21:26

Ubuntu23.10禁用Wayland

禁用前编辑custom.conf文件 sudo vim /etc/gdm3/custom.conf 去掉WaylandEnablefalse前的#号保存退出重启系统生效: 成功转换为X11...

编程日记 2024/3/7 10:19:24

Sora: 大型视觉模型背景、技术、局限性和机遇的综述

论文链接：https://arxiv.org/pdf/2402.17177.pdf 背景在分析 Sora 之前，研究者首先盘点了视觉内容生成技术的沿袭。在深度学习革命之前，传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动…...

编程日记 2024/3/7 10:18:23

比较 2 名无人机驾驶员：借助分析飞得更高

近年来，越来越多的政府和执法机构使用无人机从空中鸟瞰。为了高效执行任务，无人机必须能够快速机动到预定目标。快速机动使它们能够在复杂的环境中航行，并高效地完成任务。成为认证的无人机驾驶员的要求因国家/地区而异，但都要求您…...

编程日记 2024/3/7 10:17:22

Vue开发实例（六）实现左侧菜单导航

左侧菜单导航一、一级菜单二、二级菜单三、三级菜单1、加入相关事件四、菜单点击跳转1. 创建新页面2. 配置路由3. 菜单中加入路由配置4、处理默认的Main窗口为空的情况五、动态左侧菜单导航1、动态实现一级菜单2、动态实现二级菜单一、一级菜单在之前的Aside.vue中去实现…...

编程日记 2024/3/7 10:16:20

[嵌入式系统-37]：龙芯1B 开发学习套件 -6-协处理器CP0之CPU异常处理与外部中断控制器的中断处理

目录一、CP0概述 1.1 CP0概述 1.2 龙芯异常exception与中断interrupt的区别二、CPU协处理器的异常处理三、外部中断与外部中断控制器 3.1 外部中断源 3.2 如何配置外部中断源 3.3 外部中断的中断向量表 3.2.1 软件中断向量表结构定义：ls1b_irq.c 3.2.2…...

编程日记 2024/3/7 10:10:14

前端实现一个绕圆心转动的功能

前言： 今天遇到了一个有意思的需求，如何实现一个元素绕某一个点来进行圆周运动，用到了一些初高中的数学知识，实现起来还是挺有趣的，特来分享🎁。一. 效果展示我们先展示效果，如下图所示&…...

编程日记 2024/3/7 10:09:13

【vue.js】文档解读【day 2】 | 响应式基础

如果阅读有疑问的话，欢迎评论或私信！！ 本人会很热心的阐述自己的想法！谢谢！！！ 文章目录响应式基础声明响应式状态(属性)响应式代理 vs 原始值声明方法深层响应性DOM 更新时机有状态方法响应式…...

编程日记 2024/3/7 10:08:11

element-ui radio 组件源码分享

今日简单分享 radio 组件的实现原理，主要从以下三个方面来分享： 1、radio 页面结构 2、radio 组件属性 3、radio 组件方法一、radio 页面结构 1.1 页面结构如下： 二、radio 属性 2.1 value / v-model 属性，类型为 string / …...

编程日记 2024/3/7 10:05:08

rabbitmq官网： https://www.rabbitmq.com/docs/download 本机环境：mac，使用orbstack提供的docker 使用docker部署rabbitmq docker run -it --rm --name rabbitmq -p 5672:5672 -p 15672:15672 rabbitmq:3.13-management 然后报错&#xf…...

编程日记 2024/3/7 10:04:07

C/C++编程-理论学习-通信协议理论

通信协议理论 protobuf简述 protobuf 简述作用： 1. 将结构化数据序列化进行信息通信、存储。意为，数据结构化管理；意为，对结构化的数据进行序列化，便于发送、存储。可类比XML、JSON。弊端： 1. buffe…...

编程日记 2024/3/7 10:02:04

【Apache Camel】基础知识

【Apache Camel】基础知识 Apache Camel是什么Apache Camel基本概念和术语CamelContextEndpointsRoutesRouteBuilderComponentsMessageExchangeProcessorsDomain Specific Language（DSL） Apache Camel 应用执行步骤Apache Camel 示意图参考 Apache Camel…...

编程日记 2024/3/7 9:56:59

Python之访问集合的迭代器

对迭代器的理解对于我们访问数据量大是有很大的帮助，将介绍它。一、概念迭代：是访问集合元素的一种方式，按照某种顺序逐个访问集合中的每一项。可迭代对象：能够被迭代的对象，称为可迭代对象判定依据：能…...

编程日记 2024/3/7 9:53:56

【Spring连载】使用Spring Data访问 MongoDB----对象映射之基于类型的转换器

【Spring连载】使用Spring Data访问 MongoDB----对象映射之基于类型的转换器一、自定义转换二、转换器消歧(Disambiguation)三、基于类型的转换器3.1 写转换3.2 读转换3.3 注册转换器一、自定义转换下面的Spring Converter实现示例将String对象转换为自定义Email值对象: R…...

编程日记 2024/3/7 9:50:52

在ubuntu上安装hadoop完分布式

准备工作 Xshell安装包 Xftp7安装包虚拟机安装包 Ubuntu镜像源文件 Hadoop包 Java包一、安装虚拟机创建ubuntu系统完成之后会弹出一个新的窗口跑完之后会重启一下按住首先用ctrlaltf3进入命令界面，输入root，密码登录管理员账号按Esc 然后输入 …...

编程日记 2024/3/7 9:46:48

Python 语句（二）【循环语句】

循环语句允许执行一个语句或语句组多次，其程序流程图如下： 在python中有三种循环方式： while 循环当判断条件为 true 时执行循环体，否则退出循环体。for 循环重复执行语句嵌套循环 （在while循环体中嵌套for循环&…...

编程日记 2024/3/7 9:39:41

（3）(3.3) MAVLink高延迟协议

文章目录前言 1 配置 2 说明 3 消息说明前言 ArduPilot 支持 MAVLink 高延迟协议(MAVLink High Latency)。该协议专为卫星或 LoRA 等低带宽或高成本链路而设计。在此协议中，每 5s 只发送一次 HIGH_LATENCY2 MAVLink 信息。对 MAVLink 命令或请求&#xff08…...

编程日记 2024/3/7 9:37:39

＜6＞-MySQL表的增删查改

目录一，create（创建表） 二，retrieve（查询表） 1，select列 2，where条件三，update（更新表） 四，delete（删除表&#xf…...

编程新知 2025/7/9 22:44:11

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2025/7/12 18:17:50

linux 下常用变更-8

1、删除普通用户查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行，YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID： YW3…...

编程新知 2025/7/5 18:42:22

从零实现STL哈希容器：unordered_map/unordered_set封装详解

本篇文章是对C学习的STL哈希容器自主实现部分的学习分享希望也能为你带来些帮助~ 那咱们废话不多说，直接开始吧！ 一、源码结构分析 1. SGISTL30实现剖析 // hash_set核心结构 template <class Value, class HashFcn, ...> class hash_set {ty…...

编程新知 2025/7/12 14:34:28

leetcodeSQL解题：3564. 季节性销售分析

leetcodeSQL解题：3564. 季节性销售分析题目： 表：sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

编程新知 2025/6/20 12:42:23

Python如何给视频添加音频和字幕

在Python中，给视频添加音频和字幕可以使用电影文件处理库MoviePy和字幕处理库Subtitles。下面将详细介绍如何使用这些库来实现视频的音频和字幕添加，包括必要的代码示例和详细解释。环境准备在开始之前，需要安装以下Python库：…...

编程新知 2025/6/20 22:43:59

初探Service服务发现机制

1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。主要功能：服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源&#xf…...

编程新知 2025/7/8 10:41:04

uniapp手机号一键登录保姆级教程（包含前端和后端）

目录前置条件创建uniapp项目并关联uniClound云空间开启一键登录模块并开通一键登录服务编写云函数并上传部署获取手机号流程(第一种) 前端直接调用云函数获取手机号（第三种）后台调用云函数获取手机号错误码常见问题前置条件手机安装有sim卡手机开启…...

编程新知 2025/7/12 1:32:30

iview框架主题色的应用

1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题，无需引入，直接可…...

编程新知 2025/7/11 6:34:55

人工智能--安全大模型训练计划：基于Fine-tuning + LLM Agent

安全大模型训练计划：基于Fine-tuning LLM Agent 1. 构建高质量安全数据集目标：为安全大模型创建高质量、去偏、符合伦理的训练数据集，涵盖安全相关任务（如有害内容检测、隐私保护、道德推理等）。 1.1 数据收集描…...

编程新知 2025/7/9 21:44:14

大语言模型系列-GPT-2

文章目录

前言

一、GPT-2做的改进

二、GPT-2的表现

总结

相关文章：

大语言模型系列-GPT-2

30m二级分类土地利用数据Arcgis预处理及获取

LeetCode-22题：括号生成（原创）

如何应对IT服务交付中的问题？看了本文DevOps就懂了

Ubuntu23.10禁用Wayland

Sora: 大型视觉模型背景、技术、局限性和机遇的综述

比较 2 名无人机驾驶员：借助分析飞得更高

Vue开发实例（六）实现左侧菜单导航

[嵌入式系统-37]：龙芯1B 开发学习套件 -6-协处理器CP0之CPU异常处理与外部中断控制器的中断处理

前端实现一个绕圆心转动的功能

【vue.js】文档解读【day 2】 | 响应式基础

element-ui radio 组件源码分享

1-安装rabbitmq

C/C++编程-理论学习-通信协议理论

【Apache Camel】基础知识

Python之访问集合的迭代器

【Spring连载】使用Spring Data访问 MongoDB----对象映射之基于类型的转换器

在ubuntu上安装hadoop完分布式

Python 语句（二）【循环语句】

（3）(3.3) MAVLink高延迟协议

＜6＞-MySQL表的增删查改

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

linux 下常用变更-8

从零实现STL哈希容器：unordered_map/unordered_set封装详解

leetcodeSQL解题：3564. 季节性销售分析

Python如何给视频添加音频和字幕

初探Service服务发现机制

uniapp手机号一键登录保姆级教程（包含前端和后端）

iview框架主题色的应用

人工智能--安全大模型训练计划：基于Fine-tuning + LLM Agent