当前位置：首页 > news >正文

冻结Prompt微调LM： T5 PET （a）

news 2025/7/10 2:27:12

T5

paper: 2019.10 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Task: Everything

Prompt: 前缀式人工prompt

Model: Encoder-Decoder

Take Away: 加入前缀Prompt，所有NLP任务都可以转化为文本生成任务

T5论文的初衷如标题所言，是为了全面公平的对比不同预训练和迁移策略的贡献和效果，避免在A模型上效果不好的预训练目标在B上可能效果更优的情况，对比项包括

预训练目标：语言模型，乱序还原，MLM(不同的掩码率)，Span掩码, etc
预训练数据：构建C4数据集，从C4抽取不同领域语料来训练
模型架构: Encoder-Decoder，Decoder Only，Encoder Only
迁移策略：逐步解冻，全量微调，局部微调
其他：多任务预训练，模型大小

说句题外话，再看论文结果发现Encoder-Decoder的模型结果+SpanMLM损失函数效果最好。不知道这是否是谷歌押注T5，而没有像OpenAI一样选择Deocder结构的原因。

具体对比结果这里不细说，本文只关注T5为了公平对比以上差异，提出的Text2Text的通用建模框架：用相同的模型，相同的预训练，相同的损失函数和解码方式，把文本分类，摘要，翻译，QA都转化成了生成任务，而转化的方式就是通过加入前缀prompt。

针对不同的下游微调任务，我们看下T5提出的Text2Text是如何构建prompt模板的

WMT英语到德语的翻译任务，输入是'translate English to German:'+input, 输出是翻译结果
CNN Mail摘要任务: 文本摘要任务，输入是‘Summarize:'+input，输出是摘要
MNLI任务：输入是'mnli hypothesis:'+假设+'premise:'+叙述，输出是contradiction, entailment，neutral
STS文本相似任务：输入是'stsb sentence1:'+input1+‘sentence2：’+input2, 输出是1~5的打分（离散化）
问答SQuAD任务：输入是'question:'+提问+ 'context:'+上下文，输出是答案

不难发现在T5的时代，prompt模板的构建还比较粗糙，更多是单纯的任务名称+任务类型来区分不同的NLP任务，只是让模型在解码时多一层条件概率，既给定不同prompt前缀在解码时采用不同的条件概率（attention）。并没有太多从语义和上下文关联的角度去进行prompt模板的构建，我猜这是T5在论文中提到他们尝试了不同的prompt模板发现效果影响有限的原因（哈哈因为都不太好所以没啥差异），不不能否定T5在通用LM上做出的贡献~

PET-TC(a)

paper a: 2020.1 Exploiting Cloze Questions for Few Shot Text Classification and Natural

prompt: 单字完形填空式人工Prompt

Task： Text Classification

Model: Roberta-large, XLM-R

Take Away: 加入完形填空式Prompt把文本分类任务转化成单字MLM

和第一章的LAMA相似，PET-TC也是把输入映射成完形填空式的prompt模板，对掩码词进行预测作为分类标签。不过PET没有直接使用prompt，而是用了半监督的方案。用多个prompt模板微调模型后，对大规模无监督数据进行预测，然后在伪标签上进行常规的模型微调，哈哈绕了一个圈最后还是输出的常规微调的模型。我大胆猜测作者很看好prompt范式在微调时引入的前置语义信息，以及无额外参数的设定，但是对不同prompt和answer模板带来的不稳定性感到头疼，于是搞出这么个折中的方法~

prompt & Answer Engineer

PET针对每个数据集人工设计了prompt模板和Answer词对标签的映射。针对单双文本输入分别举两个例子，以下a，b为原始输入文本，'_'位置为MASK词

单输入：Yelp评论1~5星打分，标签词分别为terrible, bad，okay，good，great

双输入：AG's News新闻四分类问题, 标签词分别为分类名称Worlds，Sports, Business, Science/Tech,

可以看出作者构建prompt模板的思路是尽可能还原文本所在的上下文场景，Answer词的选取是一对一的构建模式，每个label只选取一个词来表示。

固定prompt微调LM

完形填空式的prompt模板在微调时的优势，我认为主要有以下三点

没有额外参数的引入，常规微调需要引入hidden_size * label_size的额外参数（classify head）作为每个标签对应的空间表征，这部分需要针对下游任务重头学习。而完形填空的token是在原始vocab中的，于是只需要调整标签词的预训练表征让它在label上线性可分即可
前置语义信息的引入，因为标签词的选取本身符合label的原始语义，例如以上YELP评论打分中的5个形容词本身就是隐含了评论质量信息的，所以会引入部分前置信息，避免重头学习，这一点和MRC有些相似
预训练和微调的一致性高，都是解决完形填空问题，学习目标一致

微调的损失函数是交叉熵，作者没有引入额外参数，而是把MASK位置上模型的预估logits在label上归一化来得到分类预测。例如上面的AG新闻分类任务，先得到MASK位置worlds，sports，business，science这四个词的预测logits，然后归一化得到预估概率，再和分类标签计算交叉熵。

为了避免灾难遗忘作者在下游任务微调时加入了预训练的MLM任务，于是微调的损失函数如下

半监督+蒸馏

这部分的设计可以和prompt的部分分开来看，是一个半监督方案。以上每个任务对应的多个prompt模板，分别固定prompt微调LM得到一版模型，然后在大量的未标注样本上进行预测，再对多个模型的预测值进行加权得到伪标签。

最终在为标签上使用常规的微调方案（加classifier head），训练模型作为输出，这一步类比知识蒸馏。所以PET最后输出的还是常规的监督微调模型，Prompt只是被当做了一种半监督方案。效果上在小样本的设定上比直接使用监督微调都有一定的效果提升。

作者还做了iPET对以上过程通过迭代逐步扩大数据集，提高伪标签准确率的方案，不过这么麻烦的实现一点都不适合我这种懒人，哈哈就不细说了~

针对PET有几点疑问

完形填空类的prompt，在微调过程中可能的灾难遗忘，是否因为对label词的微调偏离了词在原始文本中语义表征，以及和其他词的相对位置
prompt模板差异带来的效果差异尚未解决，人工构建的prompt模板不一定是最优的
Answer词单token，以及和label一一对应的设定，限制性较强。这部分在后面的续作里作者做了改良

后面介绍的几个模型，大多是基于PET上述问题的改良~

冻结Prompt微调LM： T5 PET （a）

T5 paper: 2019.10 Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Task: Everything Prompt: 前缀式人工prompt Model: Encoder-Decoder Take Away: 加入前缀Prompt，所有NLP任务都可以转化为文本生成任务 T5论文的初衷如…...

编程日记 2024/1/19 17:16:08

119 BFS和DFS解二叉树的所有路径

问题描述：给定一个二叉树，返回所有从根节点到叶子节点的路径。说明：叶子节点是指没有子节点的节点。 DFS求解：定义一个全局的链表，用来装所有的结果，通过DFS遍历，一旦遍历到当前节点没有子节点…...

编程日记 2024/1/19 17:14:06

SpringBoot缓存相关注解的使用

CacheConfig：主要用于配置该类中会用到的一些共用的缓存配置 Cacheable：主要方法的返回值将被加入缓存。在查询时，会先从缓存中获取，若不存在才再发起对数据库的访问 CachePut：主要用于数据新增和修改操作 CacheEvi…...

编程日记 2024/1/19 17:13:05

SpiderFlow爬虫平台漏洞利用分析（CVE-2024-0195）

1. 漏洞介绍 SpiderFlow爬虫平台项目中spider-flow-web\src\main\java\org\spiderflow\controller\FunctionController.java文件的FunctionService.saveFunction函数调用了saveFunction函数，该调用了自定义函数validScript，该函数中用户能够控制 functi…...

编程日记 2024/1/19 17:12:04

计算机网络-甘晴void学习笔记

计算机网络计科210X 甘晴void 202108010XXX 文章目录计算机网络期中复习1计算机网络和因特网1.1 因特网1.2 网络边缘1.3 网络核心1.4 分组交换的时延/丢包和吞吐量1.5 协议层次与服务模型 2 应用层原理2.1 应用层协议原理2.2 Web和Http2.3 因特网中的电子邮件2.4 DNS&#x…...

编程日记 2024/1/19 17:06:59

vue中使用echarts实现省市地图绘制，根据数据在地图上显示柱状图信息，增加涟漪特效动画效果

文章目录一、实现效果二、实现方法1、安装echarts插件2、获取省市json数据3、本例中data 数据4、吉林省地图的绘制5、柱状图样式6、设置柱状底部涟漪特效样式7、数据处理三、示例代码已上传，去顶部可下载四、效果展示一、实现效果使用echarts实现省市地图绘制&…...

编程日记 2024/1/19 17:03:55

Android aar包集成与报错

Android Studio引用AAR的方式，分为gradle7.0之前与7.0之后一、集成步骤方法一： 1.将对应的xxx.aar包复制到项目的libs目录下（xxx代表需要引入的aar包名称） 2.然后在模块的build.gradle文件中配置implementation files(libs/lib…...

编程日记 2024/1/19 16:56:47

CentOS 7.9 安装图解

特特特别的说明 CentOS发行版已经不再适合应用于生产环境，客观条件不得不用的话，优选7.9版本，8.5版本次之，最次6.10版本（比如说Oracle 11GR2就建议在6版本上部署）！ 引导和开始安装选择倒计时结…...

编程日记 2024/1/19 16:52:43

Gitea Webhook报错 webhook.ALLOWED_HOST_LIST setting

Gitea Webhook报错 webhook.ALLOWED_HOST_LIST setting 登录到Gitea中，编辑app.ini vi /data/gitea/conf/app.ini [webhook] ALLOWED_HOST_LIST 你的IP地址示例 [webhook] ALLOWED_HOST_LIST 192.168.3.98...

编程日记 2024/1/19 16:50:40

SQL 最大连续合格次数最大连胜记录次数最大连败记录次数

有这样一个问题，工厂中要统计某个供应商送货检验的情况，依照其连续合格次数，决定是否免检，不使用游标或者循环，如何写这个sql。此情景也可以用于统计连胜记录等先要学习一下窗函数LAG，指的是按分组和排…...

编程日记 2024/1/19 16:47:37

着色器语言GLSL学习

1 初步尝试 import { Scene, WebGLRenderer, OrthographicCamera, PlaneGeometry, ShaderMateria } from three.jsconst scene new Scene() const camera new OrthographicCamera(-1,1,1,-1,0.1, 10)const renderer new WebGLRenderer() renderer.setSize(window.innerWidt…...

编程日记 2024/1/19 16:42:32

C#： form 窗体的各种操作

说明：记录 C# form 窗体的各种操作 1. C# form 窗体居中显示 // 获取屏幕的宽度和高度 int screenWidth Screen.PrimaryScreen.Bounds.Width; int screenHeight Screen.PrimaryScreen.Bounds.Height;// 设置窗体的位置 this.StartPosition FormStartPosition.M…...

编程日记 2024/1/19 16:41:30

“尔滨”宠粉再升级！百亿像素VR冰雪盛宴

1月10日，由哈尔滨市委网信办、哈尔滨日报社主办，冰城客户端、哈尔滨新闻网承办的“激情迎亚冬，冰雪暖世界——2024年哈尔滨冰雪乐园”VR沉浸式体验产品正式上线。如果你还没去过最近爆火出圈的“尔滨” ❄️这份哈尔滨冰雪景点VR❄️ 为你…...

编程日记 2024/1/19 16:39:28

redis原理（四）redis命令

目录一、字符串命令： 二、列表命令： 三、集合命令： 四、散列命令： 五、有序集合命令： 六、redis发布与订阅命令： 七、事务命令八、其他命令 1、排序：SORT 2、键的过期时间&#xff…...

编程日记 2024/1/19 16:38:27

FairGuard游戏安全2023年度报告

导读：2023年，游戏行业摆脱了疫情带来诸多负面影响，国内游戏市场收入与用户规模双双实现突破，迎来了历史新高点。但游戏黑灰产规模也在迅速扩大，不少游戏饱受其侵扰，游戏厂商愈发重视游戏安全问题。为帮助…...

编程日记 2024/1/19 16:37:26

进阶Docker4：网桥模式、主机模式与自定义网络

目录网络相关子网掩码网关规则 docke网络配置 bridge模式 host模式创建自定义网络(自定义IP) 网络相关 IP 子网掩码网关 DNS 端口号子网掩码互联网是由许多小型网络构成的，每个网络上都有许多主机，这样便构成了一个有层次的结构。 IP 地…...

编程日记 2024/1/19 16:36:25

Qt 状态机框架:The State Machine Framework (二)

传送门: Qt 状态机框架:The State Machine Framework (一) Qt 状态机框架:The State Machine Framework (二) 1、利用并行态避免态的组合爆炸假设您想在单个状态机中对汽车的一组互斥属性进行建模。假设我们感兴趣的属性是干净与肮脏，以及移动与不移动。需要四个相互排斥的…...

编程日记 2024/1/19 16:35:24

【Redis】更改redis中的value值

今天继续进步一点点~~ 背景：今天有个前端的同事问我，能不能在Redis中他本人登录公众号的 sessionID 加上一列openID 于是我上网查了一堆在Redis里面的命令，以及不同的客户端怎么输入命令，但是后来问了下同事，他就给我…...

编程日记 2024/1/19 16:34:23

数据结构Java版（2）——栈Stack

一、概念栈也是一种线性数据结构，最主要的特点是入栈顺序和出栈顺序是相反的，操作时只能从栈顶进行操作，在Java中给我们提供了一个泛型栈——Stack，其中最常用的方法有： void push(E):进栈E pop():退栈E peek():查看…...

编程日记 2024/1/19 16:32:20

tcpdump 用法

tcpdump 是一个用于捕获和分析网络数据包的命令行工具。它可以在网络上截取数据包，并以可读的格式输出，方便进行网络故障排除和协议分析 tcpdump -i interface # 指定网络接口： tcpdump host target_host # 过滤特定主机的流量 tcpdump port…...

编程日记 2024/1/19 16:30:18

C++：std::is_convertible

C++标志库中提供is_convertible，可以测试一种类型是否可以转换为另一只类型： template <class From, class To> struct is_convertible; 使用举例： #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...

编程新知 2025/6/11 15:23:57

Appium+python自动化（十六）- ADB命令

简介 Android 调试桥(adb)是多种用途的工具，该工具可以帮助你你管理设备或模拟器的状态。 adb ( Android Debug Bridge)是一个通用命令行工具，其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利，如安装和调试…...

编程新知 2025/7/9 12:59:44

Day131 | 灵神 | 回溯算法 | 子集型子集

Day131 | 灵神 | 回溯算法 | 子集型子集 78.子集 78. 子集 - 力扣（LeetCode） 思路： 笔者写过很多次这道题了，不想写题解了，大家看灵神讲解吧回溯算法套路①子集型回溯【基础算法精讲 14】_哔哩哔哩_bilibili 完…...

编程新知 2025/7/9 3:55:01

mongodb源码分析session执行handleRequest命令find过程

mongo/transport/service_state_machine.cpp已经分析startSession创建ASIOSession过程，并且验证connection是否超过限制ASIOSession和connection是循环接受客户端命令，把数据流转换成Message，状态转变流程是：State::Created 》 St…...

编程新知 2025/7/9 2:51:26

测试markdown--肇兴

day1： 1、去程：7:04 --11:32高铁高铁右转上售票大厅2楼，穿过候车厅下一楼，上大巴车 ￥10/人 **2、到达：**12点多到达寨子，买门票，美团/抖音：￥78人 3、中饭&a…...

编程新知 2025/7/7 1:17:02

基于matlab策略迭代和值迭代法的动态规划

经典的基于策略迭代和值迭代法的动态规划matlab代码，实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...

编程新知 2025/7/8 1:59:59