当前位置：首页 > news >正文

【深度学习】GPT系列模型：语言理解能力的革新

news 2026/2/9 6:16:09

GPT-1🏡

自然语言理解包括一系列不同的任务，例如文本蕴涵、问答、语义相似度评估和文档分类。尽管大量的未标记文本语料库很充足，但用于学习这些特定任务的标记数据却很稀缺，使得判别式训练模型难以达到良好的表现。我们证明，在多样化的未标记文本语料库上进行生成式预训练语言模型，然后在每个具体任务上进行判别式微调，可以实现这些任务的大幅提升。与以往方法相比，我们在微调过程中利用了任务感知型输入转换，从而实现了有效的迁移学习，而对模型架构的改变也是最小化的。我们在自然语言理解的广泛基准测试上展示了我们方法的有效性。

Framework🏣

我们的训练过程包括两个阶段。第一阶段是在大量文本语料库上学习高容量的语言模型。接下来是微调阶段，我们使用带标签的数据将模型适应于不同的任务。

GPT（Generative Pre-trained Transformer）使用的模型是Transformer的Decoder，我们知道BERT使用的模型是Transformer的Encoder。在GPT模型中，start、delim、extract是一些特殊的token，它们分别代表以下含义：

start：表示生成文本的开始，通常在文本生成任务中，我们需要给定一个开始的文本片段，然后让模型继续生成后续的文本内容。在GPT中，start就是这个开始的标记，可以用于标记生成文本的开始。
delim：表示文本片段之间的分隔符，通常用于在文本生成任务中，将生成的文本分成多个片段，每个片段之间用delim进行分隔。
extract：表示从生成的文本中抽取出有意义的部分。在一些文本生成任务中，我们需要将生成的文本中的某些部分提取出来，例如答案、关键词等等。在GPT中，可以用extract标记生成的文本中需要抽取的部分。
上图主要包括两个部分。左侧显示了Transformer的架构和在该工作中使用的训练目标，它们是语言模型预训练和针对不同任务的微调。右侧显示了针对不同任务进行微调时的输入转换方式，这些结构化输入都被转换成由预训练模型处理的令牌序列，然后通过线性+softmax层进行处理。

GPT-2🏪

GPT-2（Generative Pre-trained Transformer 2）相对于GPT-1做了以下几方面的改进：

更大规模的模型：GPT-2使用了更多的参数，达到了1.5亿个参数，比GPT-1的1.17亿个参数更多，从而提高了模型的能力。

更多的训练数据：GPT-2使用了更多、更广泛的文本数据来预训练模型，包括了包括维基百科、网页文本、书籍、新闻、社交媒体等多个来源。

更长的上下文：GPT-2在输入时使用了更长的上下文，即前面的文本内容，这使得模型能够更好地理解文本语境。

更好的遮盖策略：GPT-2采用了更好的遮盖策略来避免模型在预测时泄露后面文本的信息，从而提高了模型的准确性。

更好的生成策略：GPT-2引入了一些新的技术来改进文本生成的策略，包括无偏采样、重复惩罚等，使得生成的文本更加准确和自然。

综上所述，GPT-2相比于GPT-1在模型规模、训练数据、上下文长度、遮盖策略和生成策略等方面都做出了改进，使得其在自然语言处理任务上的表现更加出色。

Zero-Shot💒

GPT-2的zero-shot功能是其最引人注目的特点之一。这意味着，即使在没有进行任何特定任务的监督训练的情况下，GPT-2模型也能够自然地生成与特定任务相关的文本输出。这使得GPT-2模型可以在许多不同的NLP任务上表现出色，而无需进行大量的监督训练。此外，GPT-2还具有非常大的参数容量和表现力，使其成为自然语言处理领域的前沿技术。

GPT-3🏤

GPT-3是GPT模型系列中最新的一款模型，相比于之前的版本有以下改进和新特点：

模型规模更大：GPT-3的模型规模比GPT-2大了数倍，达到了175亿个参数，这使得它能够处理更长、更复杂的文本，并且能够解决一些之前的GPT模型难以处理的任务。

更广泛的语言能力：GPT-3在多种语言的自然语言处理任务上都有出色的表现，包括英语、西班牙语、法语、德语、意大利语、荷兰语、葡萄牙语、俄语、阿拉伯语和中文等多种语言。

支持更多的任务和应用场景：GPT-3不仅可以处理自然语言生成任务，还能够处理一些其他的任务，比如翻译、问答、推理、代码生成等。此外，GPT-3还能够处理一些比较特殊的应用场景，比如情感分析、文本摘要、机器写作等。

Zero-shot 和 Few-shot 能力更强：GPT-3可以通过阅读只有几个例子的新任务来学习如何完成该任务，这使得GPT-3具有更强的Zero-shot 和 Few-shot 能力，能够快速适应新任务并表现出色。

更加灵活的模型结构：GPT-3采用了一种新的模型结构，即可重复模块（可重用模块），使得模型更加灵活和高效。此外，GPT-3还采用了一种新的模型架构，即分层模型架构，使得模型能够自适应不同的任务和输入。

总之，GPT-3是目前自然语言处理领域中最先进的模型之一，具有更广泛的语言能力和更强的任务适应性，可以应用于各种自然语言处理任务和场景中。

Few-Shot🏯

GPT-3 (Generative Pre-trained Transformer 3)是OpenAI于2020年发布的最新版本的语言模型。除了具有GPT-2的zero-shot学习能力外，GPT-3还具备了few-shot学习的能力，这是它的一个显著特点和优势。
Few-shot learning是一种机器学习方法，它可以使模型在仅有少量标注数据的情况下学会新任务。与传统的机器学习方法需要大量标注数据不同，few-shot学习使用少量数据进行训练，能够显著减少数据收集和标注的成本。
在GPT-3中，few-shot学习是通过在预训练的语言模型之上引入一个新的递归神经网络（Meta-learner）来实现的。这个递归神经网络可以根据输入的few-shot任务和数据快速学习出一个新的模型，然后将这个新的模型用于实际的任务中。这个过程称为元学习（Meta-learning）。
在few-shot学习中，GPT-3使用了所谓的prompt技术。Prompt是指在输入中添加一个特定的文本片段，以提示模型执行特定的任务。在GPT-3中，prompt不仅限于简单的问题和答案，还可以是一系列的指令、约束和条件，从而使模型能够执行更加复杂的任务。
GPT-3的few-shot学习使得这个模型可以在许多不同的任务上进行快速的适应和学习，并且在很多情况下，它的表现甚至可以超过一些专门为这些任务设计的模型。这使得GPT-3成为了一个强大的通用语言模型，可以应用于许多自然语言处理任务中。

在相同参数量的情况下，Few-Shot的结果更好。

in-context learning🏭

GPT-3的in-context learning是指在进行自然语言处理任务时，将上下文信息引入到模型中以更好地理解和生成文本。传统的自然语言处理模型通常是针对特定任务进行训练的，而且需要大量的标注数据，而GPT-3的in-context learning则允许模型在不需要显式的任务指导和大量标注数据的情况下进行学习。

具体来说，in-context learning可以通过以下两种方式实现：

Prompt-based learning: 在进行自然语言处理任务时，模型会根据给定的提示信息生成相应的文本，这些提示信息可以是文本、问题、任务描述等等。模型在生成文本的同时，可以同时理解上下文信息，从而更好地完成任务。

Generative pre-training: 在in-context learning的训练过程中，模型会预先进行大量的语言模型训练，学习各种类型的文本和语言结构，从而能够更好地理解和生成各种类型的文本。在进行特定任务时，模型可以通过微调来适应该任务，同时也可以通过in-context learning引入上下文信息，从而更好地完成任务。

总之，GPT-3的in-context learning允许模型在不需要显式的任务指导和大量标注数据的情况下进行学习，并且能够通过引入上下文信息来更好地理解和生成文本。这一特点在自然语言处理领域中具有重要的意义，为实现更加智能和人性化的自然语言处理系统提供了新的思路和方法。与传统的fine-tuning方法不同，GPT-3在所有任务上都没有进行任何梯度更新或微调，拿来即用。

Summary🏩

在本文中，我们探讨了GPT系列模型的语言理解能力革新。GPT模型的核心是基于Transformer的自回归语言模型，通过无监督学习大规模文本数据，学习到了丰富的语言知识，具备了强大的语言理解能力。GPT-2和GPT-3相比于GPT-1，在模型规模、训练数据和fine-tuning等方面都有了进一步的提升，尤其是GPT-3通过大规模参数和few-shot学习，在NLP任务上取得了极具竞争力的结果。通过GPT系列模型的研究和探索，我们可以看到自然语言处理的发展方向，同时也为我们提供了构建更强大、更智能的语言处理系统的启示。
本文大部分内容由chatGPT翻译和生成。

【深度学习】GPT系列模型：语言理解能力的革新

GPT-1🏡 自然语言理解包括一系列不同的任务，例如文本蕴涵、问答、语义相似度评估和文档分类。尽管大量的未标记文本语料库很充足，但用于学习这些特定任务的标记数据却很稀缺，使得判别式训练模型难以达到良好的表现。我们证明&…...

编程日记 2023/3/12 20:33:04

【Vue.js】全局状态管理模式插件vuex

文章目录全局状态管理模式Vuexvuex是什么？什么是“状态管理模式”？vuex的应用场景Vuex安装开始核心概念一、State1、单一状态树2、在 Vue 组件中获得 Vuex 状态3、mapState辅助函数二、Getter三、Mutation1、提交载荷（Payload）2、…...

编程日记 2023/3/12 20:28:02

JPA 之 Hibernate EntityManager 使用指南

Hibernate EntityManager 专题参考： JPA – EntityManager常用API详解EntityManager基本概念基本概念及获得 EntityManager 对象基本概念在使用持久化工具的时候，一般都有一个对象来操作数据库，在原生的Hibernate中叫做Session&…...

编程日记 2023/3/12 20:23:01

英语作文提示（持续更新）

星期（介词on）Monday星期一Tuesday星期二Wednesday星期三Thursday星期四Friday星期五Saturday星期六Sunday星期日月份（介词in）lunar calendar农历on the second day of the second lunar农历初二January1月February2月March3月Apri…...

编程日记 2023/3/12 20:18:00

【计算机组成原理】计算机的性能指标、数据的表示和运算、BCD码和余3码

计算机组成原理(二) 计算机的性能指标: 存储器的性能指标： 存储器中，MAR为存储单元的个数 MDR为机械字长也就是存储单元的长度存储器的大小MAR*MDR n为二进制位能表示出几种不同的状态呢？ 2的n次方种不同的状态 CPU的性能指标&#xf…...

编程日记 2023/3/12 20:12:57

三天吃透MySQL八股文（2023最新整理）

本文已经收录到Github仓库，该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点，欢迎star~ Github地址：https://github.com/…...

编程日记 2023/3/12 20:07:54

队列_23约瑟夫问题+_24猫狗收容所

约瑟夫问题 n 个小孩围坐成一圈，并按顺时针编号为1,2,…,n，从编号为 p 的小孩顺时针依次报数，由1报到m ，当报到 m 时，该小孩从圈中出去，然后下一个再从1报数，当报到 m 时再出去。如此反复&#…...

编程日记 2023/3/12 20:02:53

gradle

Gradle环境介绍OpenJDK 17.0.5Gradle 7.6示例代码 fly-gradleGradle 项目下文件介绍如果你的电脑安装了 gradle，可以使用 gradle init 去初始化一个新的 gradle 工程，然后使用电脑安装的 gradle 去执行构建命令。但是每个开发电脑上的 gradle 版本不一样…...

编程日记 2023/3/12 20:01:14

[牛客]链表中倒数第k个结点

使用快慢指针法:两种思路:1.fast先向后走k-1次,slow再向后走1次,然后fast和slow同时向后走,当fast走到最后一个结点时,slow刚好在倒数第k个位置上;2.fast先向后走k次,slow再向后走1次,然后fast和slow同时向后走,当fast走到最后一个结点的后面时(此时为NULL),slow刚好在倒数第k个…...

编程日记 2023/3/12 9:22:57

English Learning - L2 语音作业打卡双元音 [eɪ] [aɪ] Day14 2023.3.6 周一

English Learning - L2 语音作业打卡双元音 [eɪ] [aɪ] Day14 2023.3.6 周一💌发音小贴士：💌当日目标音发音规则/技巧:🍭 Part 1【热身练习】🍭 Part2【练习内容】🍭【练习感受】🍓元音 /eɪ/…...

编程日记 2023/3/12 9:21:50

C++ this 指针与静态成员

文章目录参考描述实例成员与静态成员实例成员静态成员静态成员属性隐式形参 this 指针冲突this 指针静态成员函数this 指针与静态成员函数参考项目精通C （第九版）托尼加迪斯、朱迪沃尔特斯、戈德弗雷穆甘达 （著） / 黄刚等 &…...

编程日记 2023/3/12 9:20:46

REDIS16_LRU算法概述、查看默认内存、默认是如何删除数据、缓存淘汰策略

文章目录①. LRU算法概述②. 查看默认内存③. 如何删除数据④. 缓存淘汰策略①. LRU算法概述 ①. LRU是Least Recently Used的缩写,即最近最少使用,是一种常用的页面置换算法,选择最近最久未使用的数据给予淘汰 (leetcode-cn.com/problems/lru-cache) ②. LRU算法题来源 ③.…...

编程日记 2023/3/12 9:19:42

ClassMix: Segmentation-Based Data Augmentation for Semi-Supervised Learning学习笔记

ClassMix相关介绍主要思想方法Mean-Teacher损失函数交叉熵损失标签污染实验实验反思参考资料相关介绍从DAFormer溯源到这篇文章，ClassMix主要是集合了伪标签和一致性正则化，思想来源于CutMix那条研究路线，但是优化了CutMix中的标签污染的情…...

编程日记 2023/3/12 9:18:41

CSDN竞赛第35期题解

CSDN竞赛第35期题解 1、题目名称：交换后的or 给定两组长度为n的二进制串，请问有多少种方法在第一个串中交换两个不同位置上的数字，使得这两个二进制串“或”的结果发生改变？ int n;cin>>n; string a,b;cin>>a>…...

编程日记 2023/3/12 9:17:36

Java应用服务系统安全性，签名和验签浅析

1 前言随着互联网的普及，分布式服务部署越来越流行，服务之间通信的安全性也是越来越值得关注。这里，笔者把应用与服务之间通信时，进行的的安全性相关，加签与验签，进行了一个简单的记录。 2 安全性痛点 …...

编程日记 2023/3/12 9:16:30

spring中bean的实例化

构造方法实现实例化无参构造器实例化我们之前用的就一直是无参构造器实现实例化，虽然没有在类中写构造器，但是每个类都会有一个默认的无参构造器有参构造器实例化相比于无参构造器，我们只需要传入参数就可以了我们可以通过construc…...

编程日记 2023/3/12 9:15:24

磨皮插件portraiture2023最新中文版

Portraiture滤镜是一款 Photoshop，Lightroom 和 Aperture 插件，DobeLighttroom 的 Portraiture 消除了选择性掩蔽和逐像素处理的繁琐的手工劳动，以帮助您在肖像修整方面取得卓越的效果。它是一个强大的，但用户友好的插件照明.这是…...

编程日记 2023/3/12 9:14:21

记录每日LeetCode 2269.找到一个数组的K美丽值 Java实现

题目描述： 一个整数 num 的 k 美丽值定义为 num 中符合以下条件的子字符串数目： 子字符串长度为 k 。子字符串能整除 num 。给你整数 num 和 k ，请你返回 num 的 k 美丽值。注意： 允许有前缀 0 。 0 不能整除任何…...

编程日记 2023/3/12 9:13:15

代码管理--svnadmin工具介绍

1、简介 SVNAdmin2 是一款通过图形界面管理服务端SVN的web程序。正常情况下配置SVN仓库的人员权限需要登录到服务器手动修改 authz 和 passwd 两个文件，当仓库结构和人员权限上了规模后，手动管理就变的非常容易出错，本系统能够识别人员和权限…...

编程日记 2023/4/11 22:16:26

Git的基本使用以及上传到GitHub

GIT的基本使用一、安装并配置GIT二、Git的基本操作三、使用GIT上传至GitHub四、Git分支一、安装并配置GIT 1.安装GIT连接 GIT安装包链接 2.打开GIT 鼠标右键点击Git Bash Here 安装完 Git 之后，第一件事就是设置自己的用户名和邮件地址。因为通过 Git 对项目进行…...

编程日记 2023/3/12 9:10:00

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性，不同版本的Docker对内核版本有不同要求。例如，Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本，Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

编程新知 2026/2/7 6:10:30

[2025CVPR]DeepVideo-R1：基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈，在多个视频基准上实现SOTA性能一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战安全措施依赖问题 GRPO使用min和clip函数限制策略更新幅度，导致：梯度抑制：当新旧策略差异过大时梯度消失收敛困难：策略无法充分优化# 传统GRPO的梯…...

编程新知 2025/8/19 23:46:57

Linux 文件类型，目录与路径，文件与目录管理

文件类型后面的字符表示文件类型标志普通文件：-（纯文本文件，二进制文件，数据格式文件） 如文本文件、图片、程序文件等。目录文件：d（directory） 用来存放其他文件或子目录。设备…...

编程新知 2026/2/8 20:42:46

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

第一章引言：语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进在人工智能领域，文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量，支撑着搜索引擎、推荐系统、…...

编程新知 2025/11/6 8:47:31

高等数学（下）题型笔记（八）空间解析几何与向量代数

目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

编程新知 2026/1/28 9:04:29

从零开始打造 OpenSTLinux 6.6 Yocto 系统（基于STM32CubeMX）（九）

设备树移植和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下源码修改及编译修改arch/arm/boot/dts/st/Makefile，新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...

编程新知 2026/2/5 12:11:18

Python爬虫（一）：爬虫伪装

一、网站防爬机制概述在当今互联网环境中，具有一定规模或盈利性质的网站几乎都实施了各种防爬措施。这些措施主要分为两大类： 身份验证机制：直接将未经授权的爬虫阻挡在外反爬技术体系：通过各种技术手段增加爬虫获取数据的难度…...

编程新知 2026/1/30 20:42:46

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

6月5日，2025全球数字经济大会数字安全主论坛暨北京网络安全大会在国家会议中心隆重开幕。百度副总裁陈洋受邀出席，并作《智能体在安全领域的应用实践》主题演讲，分享了在智能体在安全领域的突破性实践。他指出，百度通过将安全能力…...

编程新知 2026/2/1 11:33:19

06 Deep learning神经网络编程基础激活函数 --吴恩达

深度学习激活函数详解一、核心作用引入非线性：使神经网络可学习复杂模式控制输出范围：如Sigmoid将输出限制在(0,1)梯度传递：影响反向传播的稳定性二、常见类型及数学表达 Sigmoid σ ( x ) = 1 1 +...

编程新知 2025/11/17 21:48:26

React---day11

14.4 react-redux第三方库提供connect、thunk之类的函数以获取一个banner数据为例子 store： 我们在使用异步的时候理应是要使用中间件的，但是configureStore 已经自动集成了 redux-thunk，注意action里面要返回函数 import { configureS…...

编程新知 2026/1/19 2:13:24