当前位置: 首页 > news >正文

Re45:读论文 GPT-1 Improving Language Understanding by Generative Pre-Training

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:Improving Language Understanding by Generative Pre-Training
论文下载地址:https://www.mikecaptain.com/resources/pdf/GPT-1.pdf

本文是2018年OpenAI的工作,是初代GPT的原始论文。

先用无监督数据预训练语言模型(Transformer decoder),再在有监督数据上微调(加一层prediction head,同时优化语言模型和有监督任务的损失函数)
在这里插入图片描述

文章目录

  • 1. 简介
  • 2. GPT-1
    • 1. 无监督预训练语言模型
    • 2. 微调
  • 3. 实验
    • 1. 数据集
    • 2. 下游任务指标
    • 3. 模型分析

1. 简介

NLU任务包括textual entailment, question answering, semantic similarity assessment, and document classification等子任务,本文测试了NLI、QA、语义相似度和文本分类4个任务。
有监督数据稀少,本文的解决方案是在语言模型上用海量无标签数据上进行generative pre-training,然后再在特定子任务上discriminative fine-tuning。
(算半监督学习)

普遍的使用无监督方法来学习语言学知识的方法,是构建预训练词嵌入来提升NLP任务的效果,这种做法有两个问题:1. 在学习文本表征中使用什么优化目标对迁移最有效,不知道。至今没有绝对优秀的方法。2. 如何利用文本表征最有效,不知道。

2. GPT-1

1. 无监督预训练语言模型

标准语言模型目标,最大化文本的似然:
在这里插入图片描述

k k k是上下文窗口尺寸,条件概率 P P P,神经网络的参数 Θ \Theta Θ

本文用多层Transofmer decoder1(多头自注意力机制+position-wise前馈神经网络生成target token上的输出分布):
在这里插入图片描述
U U U是token, n n n是层数, W e W_e We是token嵌入矩阵, W p W_p Wp是position embedding矩阵

Transformer相比LSTM的优势体验在对长文本的处理上

2. 微调

通过输入(每个任务被转变成不同形式的输入,见figure 1)得到表征,喂进线性输出层来预测 y y y
在这里插入图片描述

新的优化目标:
在这里插入图片描述

事实上是将两个优化目标加起来:
在这里插入图片描述

3. 实验

1. 数据集

  1. 上游预训练数据:BooksCorpus和1B Word Benchmark
  2. 下游微调数据
    在这里插入图片描述

2. 下游任务指标

  1. NLI任务的实验结果在这里插入图片描述
  2. QA和常识推理的实验结果在这里插入图片描述
  3. 语义相似度和文本分类的实验结果在这里插入图片描述

3. 模型分析

  1. 层数对微调结果的影响(答案是越多越好)和预训练更新次数对zero-shot表现的影响在这里插入图片描述
    (数值是经规范化后得到的)
  2. ablation study
    在这里插入图片描述

  1. Generating Wikipedia by Summarizing Long Sequences ↩︎

相关文章:

Re45:读论文 GPT-1 Improving Language Understanding by Generative Pre-Training

诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文全名:Improving Language Understanding by Generative Pre-Training 论文下载地址:https://www.mikecaptain.com/resources/pdf/GPT-1.pdf 本文是2018年OpenAI的工作&#xff0c…...

VB.NET 如何将某个Excel的工作表中复制到另一个的Excel中的工作表中https://bbs.csdn.net/topics/392861034

参考http://share.freesion.com/306372/可以实现直接拷贝指定表 Private Sub Excel复制工作簿()Dim myExcelApp As New Microsoft.Office.Interop.Excel.ApplicationmyExcelApp.Workbooks.Open(System.Environment.CurrentDirectory "\\测试用例.xlsx", Type.Missin…...

深入解析Kotlin类与对象:构造、伴生、单例全面剖析

前言 本篇文章将带您了解Kotlin编程中的重要概念:类及构造函数、访问修饰符、伴生对象和单例模式。就像搭积木一样,我们会逐步揭开这些概念的面纱,让您轻松理解它们的作用和用法。无论您是编程新手还是有经验的开发者,本文都将为…...

JavaScript构造函数

1、构造函数: 是一个函数,是通过new运算符进行调用,生成一个特殊的对象并返回。 function 函数名([参数]){ this.属性名 ‘属性值’ ... this.属性名 function([参数]){ 函数体语句 } } 通常情况下,建议构造函数的首字母大写 …...

手写嵌入式操作系统(基于stm8单片机)

#include <stc8h.h> #include <intrins.h> #define MAX_TASKS 2 //简化方面,我们当前操作系统只有2个task #define MAX_TASK_DEP 32unsigned char idata task_sp[MAX_TASKS]; // 任务的堆栈指针 unsigned char idata task_stack[MAX_TASKS][MAX_TASK_DEP];// 每个…...

vue3.3 ~

defineModel 原本&#xff1a; // 1 defineProps({modelValue: {type: Number,required: true,default: 0} })defineProps([modelValue]) // 2 const emit defineEmits([update:modelValue])现在&#xff1a; const value defineModel<number>({ default: 0 })defin…...

滑动窗口实例4(将x减到0的最小操作数)

题目&#xff1a; 给你一个整数数组 nums 和一个整数 x 。每一次操作时&#xff0c;你应当移除数组 nums 最左边或最右边的元素&#xff0c;然后从 x 中减去该元素的值。请注意&#xff0c;需要 修改 数组以供接下来的操作使用。 如果可以将 x 恰好 减到 0 &#xff0c;返回 …...

数据库原理及应用(MySQL)

建议大屏观看&#xff0c;避免格式错误&#xff0c;影响观感 目录 第一章 数据库系统概述 1.数据库系统概述 1.1.信息 1.2.数据 1.3.信息和数据之间的联系 1.4.数据库&#xff08;DB&#xff09; 1.5.数据库管理系统&#xff08;DBMS&#xff09; 1.6.数据库管理系统的…...

初识Maven(一)命令行操作和idea创建maven工程

Maven 是 Apache 软件基金会组织维护的一款专门为 Java 项目提供**构建**和**依赖**管理支持的工具。 构建过程包含的主要的环节&#xff1a;- 清理&#xff1a;删除上一次构建的结果&#xff0c;为下一次构建做好准备 - 编译&#xff1a;Java 源程序编译成 *.class 字节码文件…...

MHA高可用配置及故障切换

1&#xff0e;什么是 MHA MHA&#xff08;MasterHigh Availability&#xff09;是一套优秀的MySQL高可用环境下故障切换和主从复制的软件。 MHA 的出现就是解决MySQL 单点的问题。 MySQL故障切换过程中&#xff0c;MHA能做到0-30秒内自动完成故障切换操作。 MHA能在故障切换的过…...

FPGA/IC秋招面试题 1(解析版)

分享个人觉得遇到还不错的题&#xff0c;后续有会继续补充。。。 以下题目均来自网络平台&#xff0c;用于学习交流如有侵权立马删除!!! 1. Verilog语言中&#xff0c;下面哪些语句不可被综合() A. #delay语句 B. initial语句 C. always语句 D. 用gen…...

华为云 异构数据迁移

数据库和应用迁移 UGO&#xff08;Database and Application Migration UGO&#xff0c;以下简称为UGO&#xff09;是专注于异构数据库结构迁移的专业服务。可将源数据库中的DDL、DML和DCL一键自动转换为华为云GaussDB/RDS的SQL语法&#xff0c;通过数据库评估、对象迁移两大核…...

wininet,winhttp,xmlhttprequest,各版本区别 《转》

一、标准API接口WinINet(Microsoft Windows Internet)和WinHTTP(Microsoft Windows HTTP) 实现Http访问&#xff0c;微软提供了二套API&#xff1a;WinINet, WinHTTP&#xff08;分别封装于system32目录下的wininet.dll和winhttp.dll内&#xff09; 二者主要区别在于后者更为安…...

朴素,word,任何参考文献导入endnote

朴素&#xff0c;word&#xff0c;任何参考文献导入endnote 注意&#xff1a;对于以下这几种不做阐述&#xff0c;看其他帖子都有讲述&#xff1a; 这里的参考文献指的是类似于&#xff1a; [1]. Li Y, Lu Y, Huo X, et al. Bandgap tuning strategy by cations and halide io…...

数学建模--三维图像绘制的Python实现

目录 1.绘制三维坐标轴的方法 2.绘制三维函数的样例1 3.绘制三维函数的样例2 4.绘制三维函数的样例3 5.绘制三维函数的样例4 6.绘制三维函数的样例5 1.绘制三维坐标轴的方法 #%% #1.绘制三维坐标轴的方法 from matplotlib import pyplot as plt from mpl_toolkits.mplot3…...

Spring Cloud Alibaba-Feign整合Sentinel

第1步: 引入sentinel的依赖 <!--sentinel客户端--> <dependency><groupId>com.alibaba.cloud</groupId><artifactId>spring-cloud-starter-alibaba-sentinel</artifactId> </dependency> 第2步: 在配置文件中开启Feign对Sentinel的…...

zabbix配置钉钉告警、和故障自愈

钉钉告警python脚本 cat python20 #!/usr/bin/python3 #coding:utf-8 import requests,json,sys,os,datetime # 机器人的Webhook地址 webhook"钉钉" usersys.argv[1] textsys.argv[3] data{"msgtype": "text","text": {"conten…...

Web安全测试(五):XSS攻击—存储式XSS漏洞

一、前言 结合内部资料,与安全渗透部门同事合力整理的安全测试相关资料教程,全方位涵盖电商、支付、金融、网络、数据库等领域的安全测试,覆盖Web、APP、中间件、内外网、Linux、Windows多个平台。学完后一定能成为安全大佬! 全部文章请访问专栏:《全栈安全测试教程(0基…...

本地PC机通过SSH方式远程Jetson

1. 检测电脑是否安装openSSH 以管理员身份运行powershell终端输入以下命令&#xff1a; Get-WindowsCapability -Online | ? Name -like OpenSSH*若没有安装OpenSSH&#xff0c;会出现如下图提示&#xff1a; 输入Add-WindowsCapability -Online -Name OpenSSH.Client~~~~0.…...

面向对象 学习黑马视频(03)

1.内存分区模型 /* 面向对象编程** 内存分区模型* 1.代码区&#xff1a;存放函数体的二进制代码&#xff0c;由操作系统进行管理的* 2.全局区&#xff1a;存放全局变量和静态变量以及常量* 3.栈区&#xff1a;由编译器自动分配释放&#xff0c;存放函数的参数值…...

ImportError: cannot import name ‘model_from_config‘ from ‘tensorflow.keras.models‘ 的解决方案

不慌&#xff0c;这是因为我们使用的 keras-rl2 库试图从 TensorFlow/Keras 中导入一个名为 model_from_config 的函数&#xff0c;但这个函数在新版本的 TensorFlow&#xff08;通常是 2.16.0 及以上&#xff09;中已经被移除或移动了。 在你的默认路径找到"C:\Users\HP…...

告别EEPROM!用FRAM FM25W256给你的GD32F303项目做个不掉电的‘记事本’(附SPI配置避坑指南)

告别EEPROM&#xff01;用FRAM FM25W256给你的GD32F303项目做个不掉电的‘记事本’&#xff08;附SPI配置避坑指南&#xff09; 在嵌入式系统开发中&#xff0c;数据存储一直是个让人头疼的问题。想象一下&#xff0c;你花了几个月调试的工业控制器&#xff0c;因为一次意外断电…...

FanControl中ADLXWrapper初始化失败解决方案

FanControl中ADLXWrapper初始化失败解决方案 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/fa/FanControl.Releases…...

WorkshopDL:跨平台Steam创意工坊下载解决方案技术解析

WorkshopDL&#xff1a;跨平台Steam创意工坊下载解决方案技术解析 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 功能价值&#xff1a;跨平台模组管理的核心优势 WorkshopDL作…...

DCDC电源设计实战:用公式推导+实测数据搞定输入电容动态纹波

DCDC电源输入电容设计&#xff1a;从理论推导到实测验证的完整指南 在开关电源设计中&#xff0c;输入电容的选择往往被工程师视为"黑箱操作"——要么照搬参考设计&#xff0c;要么凭经验估算。这种做法的风险在于&#xff0c;当系统遇到极端工况时&#xff0c;输入…...

如何利用Gumbo-parser提升自动化测试效率:终极指南 [特殊字符]

如何利用Gumbo-parser提升自动化测试效率&#xff1a;终极指南 &#x1f680; 【免费下载链接】gumbo-parser An HTML5 parsing library in pure C99 项目地址: https://gitcode.com/gh_mirrors/gu/gumbo-parser Gumbo-parser是一个纯C99语言编写的HTML5解析库&#xff…...

三星固件管理工具Bifrost:跨平台固件获取与处理的技术伙伴

三星固件管理工具Bifrost&#xff1a;跨平台固件获取与处理的技术伙伴 【免费下载链接】SamloaderKotlin 项目地址: https://gitcode.com/gh_mirrors/sa/SamloaderKotlin 在三星设备维护与开发工作中&#xff0c;获取和处理官方固件往往是一项复杂且耗时的任务。传统方…...

数字波束形成中的导向矢量与FFT方法:原理对比与场景应用

1. 数字波束形成的基本概念 数字波束形成是现代雷达和通信系统中的核心技术之一。简单来说&#xff0c;它就像给天线装上了"智能方向盘"&#xff0c;能够根据需要灵活调整信号接收或发射的方向。想象一下&#xff0c;你在一间嘈杂的餐厅里&#xff0c;想要听清某个人…...

3步实现微信关系检测,让社交管理效率提升80%

3步实现微信关系检测&#xff0c;让社交管理效率提升80% 【免费下载链接】WechatRealFriends 微信好友关系一键检测&#xff0c;基于微信ipad协议&#xff0c;看看有没有朋友偷偷删掉或者拉黑你 项目地址: https://gitcode.com/gh_mirrors/we/WechatRealFriends 在数字社…...

JAVA红娘交友小程序实现原理及开源uniapp代码片段

JAVA红娘交友小程序实现原理后端架构设计基于Spring Boot框架搭建RESTful API服务&#xff0c;采用Maven进行依赖管理。核心模块包括用户认证模块、匹配算法模块、即时通讯模块和数据持久化模块。数据库设计使用MySQL关系型数据库&#xff0c;主要表结构包括&#xff1a;用户表…...