P-Tuning v2:一种普遍有效的提示调整方法
人工智能咨询培训老师叶梓 转载标明出处
预训练语言模型通过微调(fine-tuning)来适应特定任务虽然效果显著,但存在训练成本高、参数存储量大等问题。为了解决这些问题,清华大学的研究者们提出了一种名为P-Tuning v2的提示调整(prompt tuning)方法,该方法在不同规模的模型和多种自然语言理解(NLU)任务中表现出与微调相媲美的性能,同时大幅减少了训练时的存储和内存使用。

图1显示在SuperGLUE开发集上,不同规模的预训练模型(从330M到10B参数)在RTE、BoolQ和CB任务上的平均得分。P-Tuning v2的关键特点包括:
- 多层面的提示调整:与传统的仅在输入层进行提示调整的方法不同,P-Tuning v2在模型的每一层都添加了提示,使得模型能够更直接地响应任务特定的需求。
- 参数效率:P-Tuning v2只需要调整极小比例的参数(0.1%-3%),大大降低了训练时的内存成本和任务存储成本。
- 通用性和简单性:P-Tuning v2在不同规模的模型和多种NLU任务上都表现出色,证明了其通用性和作为未来研究强基线(strong baseline)的潜力。
论文链接:https://arxiv.org/pdf/2110.07602
方法

图 2 展示了P-Tuning v2与其他提示调整方法的区别。图中橙色块表示可训练的提示嵌入(trainable prompt embeddings),而蓝色块表示由冻结的预训练语言模型存储或计算的嵌入。这种设计使得P-Tuning v2在不同规模和任务上都能达到与微调相媲美的性能。
(a):这一部分展示了Lester et al. (2021) 和 P-tuning 方法的结构,主要用于处理简单任务,且模型规模为10亿参数级别。在这种方法中,可训练的提示嵌入被添加到输入序列中,而预训练模型的参数则被冻结。尽管Lester et al. (2021) 和 Liu et al. (2021) 在许多自然语言处理(NLP)应用中表现出色,但在模型规模和任务上的普遍性不足,限制了它们替代微调的能力。特别是对于中等规模的模型(参数量从100M到1B),提示调整的性能远不如微调。
(b):这一部分展示了P-tuning v2 方法的结构,它适用于大多数模型规模和任务。P-Tuning v2采用了深度提示调整策略。与之前的方法相比,P-Tuning v2在模型的多个层次上引入了可训练的连续提示,而不仅仅是输入层。这种策略不仅增加了可训练参数的数量,提高了任务特定性能,而且通过在更深层次添加提示,直接增强了模型预测的能力。
如图2所示P-Tuning v2的结构中,提示被添加到不同的Transformer层作为前缀标记。一方面,P-Tuning v2具有更多的可训练任务特定参数(从0.01%到0.1%-3%),这允许更多的任务特定容量,同时保持参数效率;另一方面,添加到更深层次的提示对模型预测有更直接的影响。
为了实现最佳性能,P-Tuning v2在优化和实现方面进行了细致的调整。例如:
重参数化:研究发现其对不同任务和数据集的效果不一。在某些数据集(如RTE和CoNLL04)上,使用MLP(多层感知机)作为重参数化编码器可以带来一致的性能提升;而在其他数据集(如BoolQ和CoNLL12)上,MLP的效果则不明显。
提示长度: 提示长度在P-Tuning v2中起着至关重要的作用。研究者们发现,不同的NLU任务通常需要不同长度的提示来达到最佳性能。简单分类任务倾向于较短的提示,而复杂序列标注任务则需要更长的提示。
多任务学习: P-Tuning v2支持多任务学习,这可以在微调各个任务之前,通过共享连续提示共同优化多个任务,从而提供更好的初始化,进一步提升性能。

表 1 展示了P-Tuning v2与现有提示调整方法的概念比较。表中列出了不同方法在任务、重参数化、深度提示调整和多任务学习等方面的支持情况。P-Tuning v2在这些方面都表现出了较高的灵活性和适应性。
通过这些优化和实现细节,P-Tuning v2不仅在技术上实现了显著的改进,而且在实际应用中也展现出了广泛的适用性和高效性。研究者们的这些发现为未来NLU任务的研究和应用提供了新的视角和工具。
想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。
实验

表 2 展示了 P-Tuning v2 在不同模型规模上的表现。研究者们使用了从 335M 到 10B 不同规模的模型进行实验,包括 BERT-large、RoBERTa-large、GLMxlarge/xxlarge。
在 SuperGLUE 基准测试中,P-Tuning v2 在小于 10B 规模的模型上超越了 Lester et al. (2021) 和 P-tuning,与微调(fine-tuning)的性能相匹配。特别是在 RTE 任务上,P-Tuning v2 显著优于微调。
对于更大的模型规模(2B 到 10B),P-Tuning v2 与微调之间的性能差距逐渐缩小。在 10B 规模上,P-Tuning v2 显示出与微调相当的性能,但仅需要 0.1% 的任务特定参数。
表 3 展示了 P-Tuning v2 在命名实体识别(NER)、抽取式问答(Extractive QA)和语义角色标注(SRL)等任务上的表现。
P-Tuning v2 在所有任务上通常与微调相当。特别是在 QA 任务上,P-Tuning 和 Lester et al. (2021) 显示出较差的性能,这可能是因为 QA 任务的复杂性。多任务学习为 P-Tuning v2 在大多数任务上带来了显著的性能提升,除了 QA 任务。
表 4 比较了在 RoBERTa-large 模型上使用 [CLS] 标签与线性头和使用 verbalizer 与语言模型头的效果。研究者们发现,使用 [CLS] 标签与线性头与使用 verbalizer 与语言模型头在性能上没有显著差异。

图 3 展示了在 BERT-large 模型上进行的关于提示深度的消融研究。研究者们探讨了在不同 Transformer 层添加连续提示的影响。结果显示,将相同数量的提示添加到更接近输出层的深层(例如,17-24 层)比添加到较浅层能带来更好的性能。
通过这些实验,研究者们证明了 P-Tuning v2 在不同规模的模型和多种 NLU 任务上的普遍有效性。P-Tuning v2 通过深度提示调整,不仅提高了模型的性能,还显著减少了所需的任务特定参数数量,使其成为一种高效的参数调整方法。这些发现为未来 NLU 任务的研究和应用提供了新的视角和工具。
相关文章:
P-Tuning v2:一种普遍有效的提示调整方法
人工智能咨询培训老师叶梓 转载标明出处 预训练语言模型通过微调(fine-tuning)来适应特定任务虽然效果显著,但存在训练成本高、参数存储量大等问题。为了解决这些问题,清华大学的研究者们提出了一种名为P-Tuning v2的提示调整&am…...
微信小程序启动不起来,报错凡是以~/包名/*.js路径的文件,都找不到,试过网上一切方法,最终居然这么解决的,【避坑】命运的齿轮开始转动
app.json "resolveAlias": {"~/*": "/*"},文件代码也没有问题,网上的方法试过来了,大模型AI也问过遍,熬夜到凌晨2点半,最不可思议的是居然是因为微信开发者工具版本的问题,我真的是笑死…...
C#串口温度读取
背景:每天学点,坚持 要安装好虚拟串口和modbus poll,方便调试(相关资源在文末,也可以私信找我要) 传感器部分使用的是达林科技的DL11B-MC-D1,当时42软妹币买的(官网上面有这个传感…...
2.5 Spring Boot整合Spring MVC框架
今天,我将向大家介绍如何在Spring Boot中整合Spring MVC框架,并展示如何创建和测试控制层(Controller)。 首先,让我们简要回顾一下Spring MVC。Spring MVC是一个基于Servlet的MVC框架,它简单、侵入性小&am…...
Java 归并排序
归并排序(Merge Sort)是一种基于分治法的排序算法。它将一个大数组分成两个较小的子数组,分别对每个子数组进行排序,然后再将这两个已排序的子数组合并成一个完整的已排序数组。归并排序的时间复杂度为 O(n log n),其中…...
20241008深度学习动手篇
文章目录 1.如何写一个神经网络进行训练?1.1创建一个子类,搭建你需要的神经网络结构1.2 加载数据集1.3 自定义一些指标评估函数1.4训练1.5 结果展示 2.参考文献 1.如何写一个神经网络进行训练? 1.1创建一个子类,搭建你需要的神经网络结构 # File: 241008LeNet.py # Author:…...
对序列化反序列化在项目中的使用优化
文章目录 序列化是什么?常见的序列化协议使用序列化反序列化序列化List反序列化List 查看源码,分析不足进行改善 序列化是什么? 如果我们需要持久化 Java 对象比如将 Java 对象保存在文件中,或者在网络传输 Java 对象,…...
查看 git log的过程中看到 :说明日志输出可能超出屏幕大小,系统进入了分页模式
在命令行提示符中,通常 : 表示系统等待进一步的输入。如果你在查看 git log 的过程中看到 :,说明日志输出可能超出屏幕大小,系统进入了分页模式,默认使用 less 命令查看内容。 此时你可以: 按 q 退出日志查看。按 En…...
Linux--信号量详解
目录 一、信号量 1、信号量相关函数 2、多线程环形队列生产消费模型 3、实现代码 信号量是将整体的资源分割成多份使用 信号量本质是对资源的预定机制 一、信号量 1、信号量相关函数 创建信号量: sem_init: int sem_init(sem_t *sem, int pshared, unsigned int value); …...
【重学 MySQL】五十一、更新和删除数据
【重学 MySQL】五十一、更新和删除数据 更新数据删除数据注意事项 在MySQL中,更新和删除数据是数据库管理的基本操作。 更新数据 为了更新(修改)表中的数据,可使用UPDATE语句。UPDATE语句的基本语法如下: UPDATE ta…...
Web3与人工智能的交叉应用探索
随着数字技术的发展,Web3与人工智能(AI)之间的结合正逐渐成为一个重要的研究领域。Web3技术旨在实现更加去中心化和透明的互联网,而人工智能则在数据分析、自动化决策和增强人类能力方面展示了巨大的潜力。 1. 去中心化数据管理与…...
【springboot9736】基于springboot+vue的逍遥大药房管理系统
作者主页:Java码库 主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 项目描述 伴随着全球信息化发展,行行业业都与计算机技…...
四.网络层(上)
目录 4.1网络层功能概述 4.2 SDN基本概念 4.3 路由算法与路由协议 4.3.1什么是路由协议? 4.3.2什么是路由算法? 4.3.3路由算法分类 (1)静态路由算法 (2)动态路由算法 ①全局性 OSPF协议与链路状态算法 ②分散性 RIP协议与距离向量算法 4.3.…...
Leecode热题100-56.合并区间
以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:intervals [[1,3…...
安全帽未佩戴预警系统 劳保防护用品穿戴监测系统 YOLO
在建筑、矿山、电力等高危行业中,工人面临着各种潜在的危险,如高空坠物、物体打击等。安全帽能够有效地分散和吸收冲击力,大大降低头部受伤的严重程度。一旦工人未正确佩戴安全帽,在遭遇危险时,头部将直接暴露在危险之…...
【python机器学习】线性回归 拟合 欠拟合与过拟合 以及波士顿房价预估案例
文章目录 线性回归之波士顿房价预测案例 欠拟合与过拟合线性回归API 介绍:波士顿房价预测数据属性:机器学习代码实现 拟合 过拟合 欠拟合 模拟 及处理方法(正则化处理)导包定义函数表示欠拟合定义函数表示拟合定义函数表示过拟合 正则化处理过拟合L1正则化L2正则化 线性回归之波…...
IT招聘乱象的全面分析
近年来,IT行业的招聘要求似乎越来越苛刻,甚至有些不切实际。许多企业在招聘时,不仅要求前端工程师具备UI设计能力,还希望后端工程师精通K8S服务器运维,更有甚至希望研发经理掌握所有前后端框架和最新开发技术。这种招聘…...
一入递归深似海,算法之美无止境
最近在刷leetcode hot100,在写二叉树中最大路径和的时候,看到了一个佬对递归的理解,深受启发,感觉自己对于递归的题又行了!!! 这里给大家分享一下(建立大家先去尝试一下这道题再来看 124. 二叉树中的最大路径和 二叉树中的 路径 被定义为一条节点序列,序列中每…...
进程的状态的理解(概念+Linux)
文章目录 进程的状态并行和并发物理和逻辑 时间片进程具有独立性等待的本质运行阻塞标记挂起等待 Linux下的进程状态(一)运行状态(R - running)(二)睡眠状态(S - sleeping)ÿ…...
Apache Linkis + OceanBase:如何提升数据分析效率
计算中间件 Apache Linkis 构建了一个计算中间件层,以实现上层应用程序和底层数据引擎之间的连接、治理和编排。目前,已经支持通过数据源的功能,实现用户通过Linkis 对接并使用 OceanBase数据库。 本文详细阐述了在 Apache Linkis v1.3.2中&a…...
在鸿蒙HarmonyOS 5中实现抖音风格的点赞功能
下面我将详细介绍如何使用HarmonyOS SDK在HarmonyOS 5中实现类似抖音的点赞功能,包括动画效果、数据同步和交互优化。 1. 基础点赞功能实现 1.1 创建数据模型 // VideoModel.ets export class VideoModel {id: string "";title: string ""…...
【Linux】C语言执行shell指令
在C语言中执行Shell指令 在C语言中,有几种方法可以执行Shell指令: 1. 使用system()函数 这是最简单的方法,包含在stdlib.h头文件中: #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...
【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...
MySQL 8.0 OCP 英文题库解析(十三)
Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...
Map相关知识
数据结构 二叉树 二叉树,顾名思义,每个节点最多有两个“叉”,也就是两个子节点,分别是左子 节点和右子节点。不过,二叉树并不要求每个节点都有两个子节点,有的节点只 有左子节点,有的节点只有…...
Modbus RTU与Modbus TCP详解指南
目录 1. Modbus协议基础 1.1 什么是Modbus? 1.2 Modbus协议历史 1.3 Modbus协议族 1.4 Modbus通信模型 🎭 主从架构 🔄 请求响应模式 2. Modbus RTU详解 2.1 RTU是什么? 2.2 RTU物理层 🔌 连接方式 ⚡ 通信参数 2.3 RTU数据帧格式 📦 帧结构详解 🔍…...
Android写一个捕获全局异常的工具类
项目开发和实际运行过程中难免会遇到异常发生,系统提供了一个可以捕获全局异常的工具Uncaughtexceptionhandler,它是Thread的子类(就是package java.lang;里线程的Thread)。本文将利用它将设备信息、报错信息以及错误的发生时间都…...
《信号与系统》第 6 章 信号与系统的时域和频域特性
目录 6.0 引言 6.1 傅里叶变换的模和相位表示 6.2 线性时不变系统频率响应的模和相位表示 6.2.1 线性与非线性相位 6.2.2 群时延 6.2.3 对数模和相位图 6.3 理想频率选择性滤波器的时域特性 6.4 非理想滤波器的时域和频域特性讨论 6.5 一阶与二阶连续时间系统 6.5.1 …...
Java详解LeetCode 热题 100(26):LeetCode 142. 环形链表 II(Linked List Cycle II)详解
文章目录 1. 题目描述1.1 链表节点定义 2. 理解题目2.1 问题可视化2.2 核心挑战 3. 解法一:HashSet 标记访问法3.1 算法思路3.2 Java代码实现3.3 详细执行过程演示3.4 执行结果示例3.5 复杂度分析3.6 优缺点分析 4. 解法二:Floyd 快慢指针法(…...
[USACO23FEB] Bakery S
题目描述 Bessie 开了一家面包店! 在她的面包店里,Bessie 有一个烤箱,可以在 t C t_C tC 的时间内生产一块饼干或在 t M t_M tM 单位时间内生产一块松糕。 ( 1 ≤ t C , t M ≤ 10 9 ) (1 \le t_C,t_M \le 10^9) (1≤tC,tM≤109)。由于空间…...


