当前位置: 首页 > news >正文

P-Tuning v2:一种普遍有效的提示调整方法

 人工智能咨询培训老师叶梓 转载标明出处

预训练语言模型通过微调(fine-tuning)来适应特定任务虽然效果显著,但存在训练成本高、参数存储量大等问题。为了解决这些问题,清华大学的研究者们提出了一种名为P-Tuning v2的提示调整(prompt tuning)方法,该方法在不同规模的模型和多种自然语言理解(NLU)任务中表现出与微调相媲美的性能,同时大幅减少了训练时的存储和内存使用。

图1显示在SuperGLUE开发集上,不同规模的预训练模型(从330M到10B参数)在RTE、BoolQ和CB任务上的平均得分。P-Tuning v2的关键特点包括:

  • 多层面的提示调整:与传统的仅在输入层进行提示调整的方法不同,P-Tuning v2在模型的每一层都添加了提示,使得模型能够更直接地响应任务特定的需求。
  • 参数效率:P-Tuning v2只需要调整极小比例的参数(0.1%-3%),大大降低了训练时的内存成本和任务存储成本。
  • 通用性和简单性:P-Tuning v2在不同规模的模型和多种NLU任务上都表现出色,证明了其通用性和作为未来研究强基线(strong baseline)的潜力。

论文链接:https://arxiv.org/pdf/2110.07602

方法

图 2 展示了P-Tuning v2与其他提示调整方法的区别。图中橙色块表示可训练的提示嵌入(trainable prompt embeddings),而蓝色块表示由冻结的预训练语言模型存储或计算的嵌入。这种设计使得P-Tuning v2在不同规模和任务上都能达到与微调相媲美的性能。

(a):这一部分展示了Lester et al. (2021) 和 P-tuning 方法的结构,主要用于处理简单任务,且模型规模为10亿参数级别。在这种方法中,可训练的提示嵌入被添加到输入序列中,而预训练模型的参数则被冻结。尽管Lester et al. (2021) 和 Liu et al. (2021) 在许多自然语言处理(NLP)应用中表现出色,但在模型规模和任务上的普遍性不足,限制了它们替代微调的能力。特别是对于中等规模的模型(参数量从100M到1B),提示调整的性能远不如微调。

(b):这一部分展示了P-tuning v2 方法的结构,它适用于大多数模型规模和任务。P-Tuning v2采用了深度提示调整策略。与之前的方法相比,P-Tuning v2在模型的多个层次上引入了可训练的连续提示,而不仅仅是输入层。这种策略不仅增加了可训练参数的数量,提高了任务特定性能,而且通过在更深层次添加提示,直接增强了模型预测的能力。

如图2所示P-Tuning v2的结构中,提示被添加到不同的Transformer层作为前缀标记。一方面,P-Tuning v2具有更多的可训练任务特定参数(从0.01%到0.1%-3%),这允许更多的任务特定容量,同时保持参数效率;另一方面,添加到更深层次的提示对模型预测有更直接的影响。

为了实现最佳性能,P-Tuning v2在优化和实现方面进行了细致的调整。例如:

重参数化:研究发现其对不同任务和数据集的效果不一。在某些数据集(如RTE和CoNLL04)上,使用MLP(多层感知机)作为重参数化编码器可以带来一致的性能提升;而在其他数据集(如BoolQ和CoNLL12)上,MLP的效果则不明显。

提示长度: 提示长度在P-Tuning v2中起着至关重要的作用。研究者们发现,不同的NLU任务通常需要不同长度的提示来达到最佳性能。简单分类任务倾向于较短的提示,而复杂序列标注任务则需要更长的提示。

多任务学习: P-Tuning v2支持多任务学习,这可以在微调各个任务之前,通过共享连续提示共同优化多个任务,从而提供更好的初始化,进一步提升性能。

表 1 展示了P-Tuning v2与现有提示调整方法的概念比较。表中列出了不同方法在任务、重参数化、深度提示调整和多任务学习等方面的支持情况。P-Tuning v2在这些方面都表现出了较高的灵活性和适应性。

通过这些优化和实现细节,P-Tuning v2不仅在技术上实现了显著的改进,而且在实际应用中也展现出了广泛的适用性和高效性。研究者们的这些发现为未来NLU任务的研究和应用提供了新的视角和工具。

想要掌握如何将大模型的力量发挥到极致吗?2024年10月26日叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。

留言“参加”即可来叶老师的直播间互动,1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

实验

表 2 展示了 P-Tuning v2 在不同模型规模上的表现。研究者们使用了从 335M 到 10B 不同规模的模型进行实验,包括 BERT-large、RoBERTa-large、GLMxlarge/xxlarge。

在 SuperGLUE 基准测试中,P-Tuning v2 在小于 10B 规模的模型上超越了 Lester et al. (2021) 和 P-tuning,与微调(fine-tuning)的性能相匹配。特别是在 RTE 任务上,P-Tuning v2 显著优于微调。

对于更大的模型规模(2B 到 10B),P-Tuning v2 与微调之间的性能差距逐渐缩小。在 10B 规模上,P-Tuning v2 显示出与微调相当的性能,但仅需要 0.1% 的任务特定参数。

表 3 展示了 P-Tuning v2 在命名实体识别(NER)、抽取式问答(Extractive QA)和语义角色标注(SRL)等任务上的表现。

P-Tuning v2 在所有任务上通常与微调相当。特别是在 QA 任务上,P-Tuning 和 Lester et al. (2021) 显示出较差的性能,这可能是因为 QA 任务的复杂性。多任务学习为 P-Tuning v2 在大多数任务上带来了显著的性能提升,除了 QA 任务。

表 4 比较了在 RoBERTa-large 模型上使用 [CLS] 标签与线性头和使用 verbalizer 与语言模型头的效果。研究者们发现,使用 [CLS] 标签与线性头与使用 verbalizer 与语言模型头在性能上没有显著差异。

图 3 展示了在 BERT-large 模型上进行的关于提示深度的消融研究。研究者们探讨了在不同 Transformer 层添加连续提示的影响。结果显示,将相同数量的提示添加到更接近输出层的深层(例如,17-24 层)比添加到较浅层能带来更好的性能。

通过这些实验,研究者们证明了 P-Tuning v2 在不同规模的模型和多种 NLU 任务上的普遍有效性。P-Tuning v2 通过深度提示调整,不仅提高了模型的性能,还显著减少了所需的任务特定参数数量,使其成为一种高效的参数调整方法。这些发现为未来 NLU 任务的研究和应用提供了新的视角和工具。

相关文章:

P-Tuning v2:一种普遍有效的提示调整方法

人工智能咨询培训老师叶梓 转载标明出处 预训练语言模型通过微调(fine-tuning)来适应特定任务虽然效果显著,但存在训练成本高、参数存储量大等问题。为了解决这些问题,清华大学的研究者们提出了一种名为P-Tuning v2的提示调整&am…...

微信小程序启动不起来,报错凡是以~/包名/*.js路径的文件,都找不到,试过网上一切方法,最终居然这么解决的,【避坑】命运的齿轮开始转动

app.json "resolveAlias": {"~/*": "/*"},文件代码也没有问题,网上的方法试过来了,大模型AI也问过遍,熬夜到凌晨2点半,最不可思议的是居然是因为微信开发者工具版本的问题,我真的是笑死…...

C#串口温度读取

背景:每天学点,坚持 要安装好虚拟串口和modbus poll,方便调试(相关资源在文末,也可以私信找我要) 传感器部分使用的是达林科技的DL11B-MC-D1,当时42软妹币买的(官网上面有这个传感…...

2.5 Spring Boot整合Spring MVC框架

今天,我将向大家介绍如何在Spring Boot中整合Spring MVC框架,并展示如何创建和测试控制层(Controller)。 首先,让我们简要回顾一下Spring MVC。Spring MVC是一个基于Servlet的MVC框架,它简单、侵入性小&am…...

Java 归并排序

归并排序(Merge Sort)是一种基于分治法的排序算法。它将一个大数组分成两个较小的子数组,分别对每个子数组进行排序,然后再将这两个已排序的子数组合并成一个完整的已排序数组。归并排序的时间复杂度为 O(n log n),其中…...

20241008深度学习动手篇

文章目录 1.如何写一个神经网络进行训练?1.1创建一个子类,搭建你需要的神经网络结构1.2 加载数据集1.3 自定义一些指标评估函数1.4训练1.5 结果展示 2.参考文献 1.如何写一个神经网络进行训练? 1.1创建一个子类,搭建你需要的神经网络结构 # File: 241008LeNet.py # Author:…...

对序列化反序列化在项目中的使用优化

文章目录 序列化是什么?常见的序列化协议使用序列化反序列化序列化List反序列化List 查看源码,分析不足进行改善 序列化是什么? 如果我们需要持久化 Java 对象比如将 Java 对象保存在文件中,或者在网络传输 Java 对象&#xff0c…...

查看 git log的过程中看到 :说明日志输出可能超出屏幕大小,系统进入了分页模式

在命令行提示符中,通常 : 表示系统等待进一步的输入。如果你在查看 git log 的过程中看到 :,说明日志输出可能超出屏幕大小,系统进入了分页模式,默认使用 less 命令查看内容。 此时你可以: 按 q 退出日志查看。按 En…...

Linux--信号量详解

目录 一、信号量 1、信号量相关函数 2、多线程环形队列生产消费模型 3、实现代码 信号量是将整体的资源分割成多份使用 信号量本质是对资源的预定机制 一、信号量 1、信号量相关函数 创建信号量: sem_init: int sem_init(sem_t *sem, int pshared, unsigned int value); …...

【重学 MySQL】五十一、更新和删除数据

【重学 MySQL】五十一、更新和删除数据 更新数据删除数据注意事项 在MySQL中,更新和删除数据是数据库管理的基本操作。 更新数据 为了更新(修改)表中的数据,可使用UPDATE语句。UPDATE语句的基本语法如下: UPDATE ta…...

Web3与人工智能的交叉应用探索

随着数字技术的发展,Web3与人工智能(AI)之间的结合正逐渐成为一个重要的研究领域。Web3技术旨在实现更加去中心化和透明的互联网,而人工智能则在数据分析、自动化决策和增强人类能力方面展示了巨大的潜力。 1. 去中心化数据管理与…...

【springboot9736】基于springboot+vue的逍遥大药房管理系统

作者主页:Java码库 主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 项目描述 伴随着全球信息化发展,行行业业都与计算机技…...

四.网络层(上)

目录 4.1网络层功能概述 4.2 SDN基本概念 4.3 路由算法与路由协议 4.3.1什么是路由协议? 4.3.2什么是路由算法? 4.3.3路由算法分类 (1)静态路由算法 (2)动态路由算法 ①全局性 OSPF协议与链路状态算法 ②分散性 RIP协议与距离向量算法 4.3.…...

Leecode热题100-56.合并区间

以数组 intervals 表示若干个区间的集合,其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间,并返回 一个不重叠的区间数组,该数组需恰好覆盖输入中的所有区间 。 示例 1: 输入:intervals [[1,3…...

安全帽未佩戴预警系统 劳保防护用品穿戴监测系统 YOLO

在建筑、矿山、电力等高危行业中,工人面临着各种潜在的危险,如高空坠物、物体打击等。安全帽能够有效地分散和吸收冲击力,大大降低头部受伤的严重程度。一旦工人未正确佩戴安全帽,在遭遇危险时,头部将直接暴露在危险之…...

【python机器学习】线性回归 拟合 欠拟合与过拟合 以及波士顿房价预估案例

文章目录 线性回归之波士顿房价预测案例 欠拟合与过拟合线性回归API 介绍:波士顿房价预测数据属性:机器学习代码实现 拟合 过拟合 欠拟合 模拟 及处理方法(正则化处理)导包定义函数表示欠拟合定义函数表示拟合定义函数表示过拟合 正则化处理过拟合L1正则化L2正则化 线性回归之波…...

IT招聘乱象的全面分析

近年来,IT行业的招聘要求似乎越来越苛刻,甚至有些不切实际。许多企业在招聘时,不仅要求前端工程师具备UI设计能力,还希望后端工程师精通K8S服务器运维,更有甚至希望研发经理掌握所有前后端框架和最新开发技术。这种招聘…...

一入递归深似海,算法之美无止境

最近在刷leetcode hot100,在写二叉树中最大路径和的时候,看到了一个佬对递归的理解,深受启发,感觉自己对于递归的题又行了!!! 这里给大家分享一下(建立大家先去尝试一下这道题再来看 124. 二叉树中的最大路径和 二叉树中的 路径 被定义为一条节点序列,序列中每…...

进程的状态的理解(概念+Linux)

文章目录 进程的状态并行和并发物理和逻辑 时间片进程具有独立性等待的本质运行阻塞标记挂起等待 Linux下的进程状态(一)运行状态(R - running)(二)睡眠状态(S - sleeping)&#xff…...

Apache Linkis + OceanBase:如何提升数据分析效率

计算中间件 Apache Linkis 构建了一个计算中间件层,以实现上层应用程序和底层数据引擎之间的连接、治理和编排。目前,已经支持通过数据源的功能,实现用户通过Linkis 对接并使用 OceanBase数据库。 本文详细阐述了在 Apache Linkis v1.3.2中&a…...

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...

Zustand 状态管理库:极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库,特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。 核心优势对比 基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八

现象1 打开VMware失败 Ubuntu升级之后打开VMware上报需要安装vmmon和vmnet,点击确认后如下提示 最终上报fail 解决方法 内核升级导致,需要在新内核下重新下载编译安装 查看版本 $ vmware -v VMware Workstation 17.5.1 build-23298084$ lsb_release…...

将对透视变换后的图像使用Otsu进行阈值化,来分离黑色和白色像素。这句话中的Otsu是什么意思?

Otsu 是一种自动阈值化方法,用于将图像分割为前景和背景。它通过最小化图像的类内方差或等价地最大化类间方差来选择最佳阈值。这种方法特别适用于图像的二值化处理,能够自动确定一个阈值,将图像中的像素分为黑色和白色两类。 Otsu 方法的原…...

Java-41 深入浅出 Spring - 声明式事务的支持 事务配置 XML模式 XML+注解模式

点一下关注吧!!!非常感谢!!持续更新!!! 🚀 AI篇持续更新中!(长期更新) 目前2025年06月05日更新到: AI炼丹日志-28 - Aud…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章?AI自动生成,效率提升10倍! 支持多语言、自动配图、定时发布,让内容创作更轻松! AI内容生成 → 不想每天写文章?AI一键生成高质量内容!多语言支持 → 跨境电商必备&am…...

涂鸦T5AI手搓语音、emoji、otto机器人从入门到实战

“🤖手搓TuyaAI语音指令 😍秒变表情包大师,让萌系Otto机器人🔥玩出智能新花样!开整!” 🤖 Otto机器人 → 直接点明主体 手搓TuyaAI语音 → 强调 自主编程/自定义 语音控制(TuyaAI…...

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了,要么要会员、要么写的乱七八糟。这里我整理一下,把问题说清楚并且给出代码,拿去用就行,照着葫芦画瓢。 问题 在继承QWebEngineView后,重写mousePressEvent或event函数无法捕获鼠标按下事…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

高考志愿填报管理系统---开发介绍

高考志愿填报管理系统是一款专为教育机构、学校和教师设计的学生信息管理和志愿填报辅助平台。系统基于Django框架开发,采用现代化的Web技术,为教育工作者提供高效、安全、便捷的学生管理解决方案。 ## 📋 系统概述 ### 🎯 系统定…...