GPT、GPT-2、GPT-3论文精读笔记
视频:GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili
MAE论文:把bert用回计算机视觉领域
CLIP论文:打通文本和图像
GPT
论文:Improving Language Understanding by Generative Pre-Training
半监督学习:使用没有标号的文本进行预训练一个语言模型,用有标号的数据训练一个微调模型
Bert是Transformer的encoder(既能用前面 也能用后面特征),GPT是Transformer的decoder部分(带掩码的注意力机制,因为任务是预测下一个词,只能用来自前面的特征)
Bert是带掩码的语言模型,完形填空(挖掉中间的词 用上下文来预测该词)
无标号数据上做预训练
目标函数1:

给定 k 个词 预测下一个词,如何预测:

和Bert的区别不只是编码器解码器,更主要的区别是目标函数的选取,GPT的目标函数更难
有标号数据上做微调
标准的分类目标函数2:

将语言模型作为微调的辅助,得到的目标函数:

接下来考虑怎么把NLP中很多不一样的子任务表示成序列+标号的形式,调整数据而不调整模型,预训练好Transformer模型后 在做下游任务时候不需要改变模型结构(GPT跟以往相比的特点)
实验部分
12层Transformer的decoder 每层维度768(跟bert-base一样)
在预训练语言模型时是在自然文本上训练,但在下游任务时对其输入进行了构造(开始 结束 分隔符)
GPT-2
论文:Language Models are Unsupervised Multitask Learners
改进对每一个下游任务都需要微调(在每一个任务上还要提供部分样本用于训练)的缺点,好处是训练一个模型 在任何地方都能用
zero-shot
做到下游任务时,不需要任何标注信息,也不需要训练模型,使用 prompt
采样策略
预测出下一个词的概率,不一定选择概率最大的 可能希望具有多样性
参数 Temperature、Top k、Top p
Temperature = 1:不变,softmax 选出概率最大的数
Temperature越大,越多样
Top k:采样前k个词
Top p:累加概率 达到该概率就停止采样,一般95%
GPT-3
论文:Language Models are Few-Shot Learners
在做下游任务时不做任何梯度更新
核心的下游任务方式:
- Zero-shot
- One-shot:给出一个参考的问题和回答,要GPT根据给出的参考回答一个新问题
- Few-shot
相关文章:
GPT、GPT-2、GPT-3论文精读笔记
视频:GPT,GPT-2,GPT-3 论文精读【论文精读】_哔哩哔哩_bilibili MAE论文:把bert用回计算机视觉领域 CLIP论文:打通文本和图像 GPT 论文:Improving Language Understanding by Generative Pre-Training …...
深度学习八股文:混合精度训练过程出nan怎么办
其实如果是FP32的训练,基本的调试方法还是差不多,这里就讲一下混合精度训练过程中的nan。 混合精度训练使用较低的数值精度(通常是半精度浮点数,例如FP16)来加速模型训练,但在一些情况下,可能会…...
竞赛选题 题目:基于卷积神经网络的手写字符识别 - 深度学习
文章目录 0 前言1 简介2 LeNet-5 模型的介绍2.1 结构解析2.2 C1层2.3 S2层S2层和C3层连接 2.4 F6与C5层 3 写数字识别算法模型的构建3.1 输入层设计3.2 激活函数的选取3.3 卷积层设计3.4 降采样层3.5 输出层设计 4 网络模型的总体结构5 部分实现代码6 在线手写识别7 最后 0 前言…...
Cesium-terrain-builder编译入坑详解
本以为编译cesium-terrian-tools编译应该没那么难,不想问题重重,不想后人重蹈覆辙,也记录下点点滴滴。 目前网上存在的cesium代码版本主要有两个分支: 原始网站【不能生成layer文件,且经久不更新,使用gdal…...
3.1 CPU内部结构与时钟与指令
CPU内部结构 总线一些自定义部件总线图内存指令执行流程:取指令,译码,执行pc做的事内存地址寄存器内存缓存寄存器指令寄存器,译码第一步指令寄存器传递地址到内存地址寄存器指令MOV_A的过程(译码第二步)第一条指令执行完毕第三条指令的执行第四条指令第四条指令不同的执行流程…...
电机应用-直流有刷电机多环控制实现
目录 直流有刷电机多环控制实现 硬件设计 直流电机三环(速度环、电流环、位置环)串级PID控制-位置式PID 编程要点 配置ADC可读取电流值 配置基本定时器6产生定时中断读取当前电路中驱动电机的电流值并执行PID运算 配置定时器1输出PWM控制电机 配…...
Java常量池理论篇:Class常量池、运行时常量池、String常量池、基本类型常量池,intern方法1.6、1.7的区别
文章目录 Class常量池运行时常量池String常量池基本类型常量池Integer 常量池Long 常量池 加餐部分 Class常量池 每个Class字节码文件中包含类常量池用来存放字面量以及符号引用等信息。 运行时常量池 java文件被编译成class文件之后,也就是会生成我上面所说的 …...
module java.base does not “opens java.io“ to unnamed module
环境 如上图所示, Runtime version的版本是JAVA 17 项目所需要JDK版本为JAVA 8 解决...
鸿蒙原生应用/元服务开发-AGC分发如何配置签名信息
使用制作的私钥(.p12)文件、在AGC申请的证书文件和Profile(.p7b)文件,在DevEco Studio配置工程的签名信息,以构建携带发布签名信息的APP。 1.打开DevEco Studio,菜单选择“File > Project S…...
【HTML5-webscoket实时通信(web)】
websocket是什么? 就是用来创建网络聊天室,实时通信websocket的方法有哪些? https://developer.mozilla.org/zh-CN/docs/Web/API/WebSockets如何实现:(以下实现流程) 前端: // 直播中// 聊天web…...
如何在Android平板上远程连接Ubuntu服务器code-server进行代码开发?
文章目录 1.ubuntu本地安装code-server2. 安装cpolar内网穿透3. 创建隧道映射本地端口4. 安卓平板测试访问5.固定域名公网地址6.结语 1.ubuntu本地安装code-server 准备一台虚拟机,Ubuntu或者centos都可以,这里以VMwhere ubuntu系统为例 下载code serve…...
SAP Smartforms打印报错Error in spool C call : spool overflow
处理方式: SAP打印时提示: Error in spool C call : spool overflow (假脱机请求溢出,通俗一点打印池已满) 解决办法: SE38 首先运行程序RSPO1041 再运行RSPO1043,话不多说上图。...
SQL 中的运算符与别名:使用示例和语法详解
SQL中的IN运算符 IN运算符允许您在WHERE子句中指定多个值,它是多个OR条件的简写。 示例:获取您自己的SQL Server 返回所有来自’Germany’、France’或’UK’的客户: SELECT * FROM Customers WHERE Country IN (Germany, France, UK);语…...
3.2 CPU的自动化
CPU的自动化 改造1-使用2进制导线改造2根据整体流程开始改造指令分析指令MOV_A的开关2进制表格手动时钟gif自动时钟gif 根据之前的CPU内部结构改造,制造一个cpu控制单元 改造一 之前的CPU全由手动开关自己控制,极度繁琐,而开关能跟二进制一一对应, 开:1, 关:0图1是之前的, …...
深入理解@Resource与@Autowired:用法与区别解析
Resource: Resource 是Java EE提供的注解,也可以在Spring中使用。它是按照名称进行注入的,默认通过属性名(通常是类名的小驼峰命名方式)或者name属性来匹配。如果找不到符合名称的bean,则会抛出异常。在使…...
高级驾驶辅助系统 (ADAS)介绍
随着汽车技术持续快速发展,推动更安全、更智能、更高效的驾驶体验一直是汽车创新的前沿。高级驾驶辅助系统( ADAS ) 是这场技术革命的关键参与者,是 指集成到现代车辆中的一组技术和功能,用于增强驾驶员安全、改善驾驶体验并协助完成各种驾驶任务。它使用传感器、摄像头、雷…...
2 使用React构造前端应用
文章目录 简单了解React和Node搭建开发环境React框架JavaScript客户端ChallengeComponent组件的主要结构渲染与应用程序集成 第一次运行前端调试将CORS配置添加到Spring Boot应用使用应用程序部署React应用程序小结 前端代码可从这里下载: 前端示例 后端使用这里介…...
[计算机网络]运输层概述
虽然我自己也不知道写在前面和前言有什么区别..... 这个系列其实是针对<深入浅出计算机网络>的简单总结,加入了一点个人的理解和浅薄见识,如果您有一些更好的意见和见解,欢迎随时协助我改正,感激不尽啦. 最近心态平和了不少, 和过去也完全做了个割舍吧,既然痛苦和压力的…...
【分布式】分布式事务及其解决方案
目录 一、分布式事务二、分布式事务的解决方案1. 全局事务(1)DTP模型(2) 两阶段提交协议(2PC)原理二阶段提交的缺点 (3)三阶段提交协议(3PC)原理 2. 基于可靠…...
【文末送书】机器学习高级实践
2023年初是人工智能爆发的里程碑式的重要阶段,以OpenAI研发的GPT为代表的大模型大行其道,NLP领域的ChatGPT模型火爆一时,引发了全民热议。而最新更新的GPT-4更是实现了大型多模态模型的飞跃式提升,它能够同时接受图像和文本的输入…...
AI生成代码的「可信边界」在哪里?2026奇点大会联合MIT、CNCF发布《AI代码生产安全基线V1.0》:含17项静态检测阈值、3类不可自动化修复缺陷清单
第一章:AI生成代码的「可信边界」本质探源 2026奇点智能技术大会(https://ml-summit.org) 「可信边界」并非指模型输出是否语法正确,而是其行为在真实工程语境中是否可预测、可验证、可归责。这一边界根植于训练数据的隐式契约、推理过程的不可观测性&…...
专用镗床主轴箱设计(有cad图+文献翻译+ppt)
专用镗床主轴箱是机械加工领域的核心部件,其设计水平直接影响加工精度与设备稳定性。主轴箱通过精准传递动力并控制主轴运动,为镗削、钻孔等工序提供稳定支撑,尤其在复杂曲面加工中,其结构刚性直接决定了工件表面质量。传统主轴箱…...
mysql如何配置插件以提升查询性能_安装启用memcached插件
MySQL 8.0.29起已彻底移除daemon_memcached插件,因其与InnoDB缓存重叠、维护成本高且功能受限;推荐改用Redis应用层缓存或优化InnoDB配置与SQL索引。memcached插件在 MySQL 8.0 已被移除,无法安装MySQL 官方从 8.0.29 版本起彻底删除了 libme…...
IF=10.5!广东省中医院学者研究证实,加用【中药麻杏藿翘颗粒】治疗肺炎,疗效更佳
分享中医药研究进展点击名片,关注我们源自风暴统计网:一键统计分析与绘图的AI网站近期,广东省中医院潘胡丹教授团队开展了一项临床试验,试验成果发表在《Pharmacological Research》期刊(医学一区,IF 10.5…...
【技术底稿 17】DevOps 监控告警实战踩坑复盘 —— 企微机器人告警 + Milvus 向量库监控全流程验证
一、前言 本次实战围绕 DevOps 基础设施监控体系完善展开,基于现有 Docker 单机 Linux 环境、PrometheusAlertmanager 原生监控架构,开展两项核心工作: 验证 Alertmanager 对接企业微信群机器人 Webhook 移动端告警方案,提升告警…...
web ui自动化测试
AI提示词1.自动生成测试用例【截图】博客系统登录⻚⾯ 根据图⽚提供的登陆界⾯设计UI⾃动化测试⽤例,⻚⾯包含标题、导航栏和登陆表单模块要求: 1)⽤例包含登陆功能(正常、异常)、导航栏的跳转、标题的验证 2ÿ…...
普冉001休眠配置
/********************************************************* PY001休眠函数详解 *********************************************************/ /********************************************************* * 函数名: MCU_Sleep * 说 明: 休眠函数 * 输 入: 无 …...
树莓派4B网络启动后,如何用NFS挂载实现多台Pi共享一个系统镜像?
树莓派4B网络启动进阶:NFS共享系统镜像的多设备部署方案 当实验室里摆放着二十台树莓派,每台都需要相同的开发环境时,传统SD卡烧录方式立刻暴露出效率短板。想象一下:系统升级需要逐台插拔卡片,配置变更要重复操作二十…...
Keil调试复旦微芯片失败?手把手教你更新JLinkDevices.xml文件(附最新设备包下载)
Keil调试复旦微芯片失败?手把手教你更新JLinkDevices.xml文件(附最新设备包下载) 最近在调试复旦微的FM33系列芯片时,遇到了一个典型问题:Keil MDK环境下J-Link无法识别设备,SWD接口显示空白。这其实是很多…...
别再混淆了!FPGA开发中SRAM、RegFile和Block RAM到底该怎么选?
FPGA开发中SRAM、RegFile与Block RAM的黄金选择法则 在FPGA设计的世界里,存储资源的选择往往决定了整个系统的性能上限。当项目从仿真阶段转入实际硬件实现时,许多工程师会突然发现:那些在RTL代码中运行良好的存储结构,一旦映射到…...
