【论文笔记】The Power of Scale for Parameter-Efficient Prompt Tuning
🍎个人主页:小嗷犬的个人主页
🍊个人网站:小嗷犬的技术小站
🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。
基本信息
标题: The Power of Scale for Parameter-Efficient Prompt Tuning
作者: Brian Lester, Rami Al-Rfou, Noah Constant
发表: EMNLP 2021
arXiv: https://arxiv.org/abs/2104.08691

摘要
在这项工作中,我们探讨了“prompt tuning”,这是一种简单而有效的机制,用于学习“soft prompt”以条件化冻结的语言模型执行特定下游任务。
与GPT-3使用的离散文本提示不同,soft prompt是通过反向传播学习的,并且可以调整以包含来自任意数量token示例的信号。
我们端到端的学习方法在少样本学习方面优于GPT-3。
更令人惊讶的是,通过使用T5在模型大小上的消融实验,我们表明提示微调在规模上变得更加具有竞争力:当模型超过数十亿参数时,我们的方法缩小了差距并匹配了模型微调(所有模型权重都进行调整)的强大性能。
这一发现尤其相关,因为大型模型成本高昂且难以共享和部署,而能够重复使用一个冻结模型执行多个下游任务可以减轻这一负担。
我们的方法可以看作是Li和Liang最近提出的“prefix tuning”的简化,我们提供了与这一方法和其他类似方法的比较。
最后,我们表明,使用soft prompt条件化冻结模型可以带来在领域迁移中的鲁棒性优势,并使“prompt ensembling”变得高效。我们发布了代码和模型检查点以重现我们的实验。

prompt tuning、全量微调、使用GPT-3生成提示词三种方法之间的比较。
主要贡献
- 提出了prompt tuning,并展示了其在大型语言模型调整机制中的竞争力。
- 对许多设计选择进行了消融,并展示质量与鲁棒性随规模提升而提高。
- 展示了prompt tuning优于全量微调在领域迁移问题上的表现。
- 提出了“prompt ensembling”并展示其有效性。
Prompt Tuning

prompt tuning只需要为每个下游任务训练一个soft prompt,而全量微调需要训练整个模型。
给定一系列 n n n 个token, { x 1 , x 2 , … , x n } \{x_1, x_2, \ldots, x_n\} {x1,x2,…,xn},T5 首先做的是嵌入这些token,形成一个矩阵 X e ∈ R n × e X_e \in \mathbb{R}^{n \times e} Xe∈Rn×e,其中 e e e 是嵌入空间的维度。soft prompt被表示为一个参数 P e ∈ R p × e P_e \in \mathbb{R}^{p \times e} Pe∈Rp×e,其中 p p p 是prompt的长度。然后,soft prompt被连接到嵌入的输入上,形成一个单一的矩阵 [ P e ; X e ] ∈ R ( p + n ) × e [P_e; X_e] \in \mathbb{R}^{(p+n) \times e} [Pe;Xe]∈R(p+n)×e,然后像往常一样通过编码器-解码器。训练模型以最大化 Y Y Y 的概率,但只有prompt参数 P e P_e Pe 被更新。
Prompt Ensemble
对一个下游任务训练多个Prompt,然后集成多个Prompt而不是多个模型。
实验

各种超参数对prompt tuning性能的影响。

与其他相似方法的比较。在具有可学习参数的方法中,提示调整是最参数高效的,对于超过十亿参数的模型,只需要不到0.01%的任务特定参数。


领域迁移问题上的表现。

prompt ensemble与prompt平均性能以及单个最好性能的比较。
总结
在这篇论文中,我们展示了prompt tuning是一种将冻结预训练语言模型适应下游任务的竞争性技术。
在流行的SuperGLUE基准上,其任务性能与传统模型调整相当,随着模型规模的增加,差距逐渐消失。
在零样本领域迁移中,我们发现prompt tuning导致了更好的泛化。这很可能表明,冻结通用语言理解参数并将下游学习限制在轻量级参数足迹内,有助于避免对特定领域的过度拟合。
除了任务质量指标之外,我们还讨论了转向冻结预训练模型在存储和服务器成本方面的吸引力。这一举措既实现了高效的多任务服务,也实现了高效的高性能提示集成。
展望未来,我们认为将任务定义参数与通用语言模型参数区分开来是一个令人兴奋的步骤,它为新的研究开辟了许多途径。
相关文章:
【论文笔记】The Power of Scale for Parameter-Efficient Prompt Tuning
🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: The Power of Scale for P…...
几个docker可用的镜像源
几个docker可用的镜像源 💐The Begin💐点点关注,收藏不迷路💐 sudo rm -rf /etc/docker/daemon.json sudo mkdir -p /etc/dockersudo tee /etc/docker/daemon.json <<-EOF {"registry-mirrors": ["https://d…...
Spring学习笔记_27——@EnableLoadTimeWeaving
EnableLoadTimeWeaving 1. 介绍 在Spring框架中,EnableLoadTimeWeaving 是一个注解,它用于启用加载时织入(Load-Time Weaving, LTW) LWT[Spring学习笔记_26——LWT-CSDN博客] 2. 场景 AOP:在Spring框架中…...
【数据分析】如何构建指标体系?
有哪些指标体系搭建模型?五个步骤教你从0开始搭建指标体系 一、企业指标体系搭建存在什么问题 许多企业在搭建数据指标体系时遇到了诸多难题,如问题定位不准确、数据采集不完整、目标不一致、报表无序、指标覆盖不全面以及报表价值未充分利用等。 1、…...
大数据程序猿不可不看的资料大全
随着大数据技术的发展,大数据程序猿在数据采集、处理、分析、存储等方面的技能需求不断增加。要在这个领域保持竞争力,系统性地学习和掌握大数据工具、技术架构和行业趋势是非常重要的。以下为您提供一份围绕大数据程序猿不可不看的资料大全…...
【架构设计常见技术】
EJB EJB是服务器端的组件模型,使开发者能够构建可扩展、分布式的业务逻辑组件。这些组件运行在EJB容器中,EJB将各功能模块封装成独立的组件,能够被不同的客户端应用程序调用,简化开发过程,支持分布式应用开发。 IOC …...
LLMs之MemFree:MemFree的简介、安装和使用方法、案例应用之详细攻略
LLMs之MemFree:MemFree的简介、安装和使用方法、案例应用之详细攻略 目录 MemFree的简介 1、MemFree的价值 2、MemFree 配备了强大的功能,可满足各种搜索和生产力需求 3、MemFree AI UI生成器功能 MemFree 安装和使用方法 1. 前端安装 2. 向量服务…...
Hive简介 | 体系结构
Hive简介 Hive 是一个框架,可以通过编写sql的方式,自动的编译为MR任务的一个工具。 在这个世界上,会写SQL的人远远大于会写java代码的人,所以假如可以将MR通过sql实现,这个将是一个巨大的市场,FaceBook就这…...
[C++] GDB的调试和自动化检测
文章目录 GDB基本使用1. bazel的debug过程2. line-tables-only的使用 Reference GDB基本使用 参考文档: https://zhuanlan.zhihu.com/p/655719314 1. bazel的debug过程 需要带--copt-g --copt-ggdb选项进行编译 // bazel build --stripnever --copt-g --copt-ggd…...
车机版 Android Audio 框架笔记
车机版Android Audio 框架涉及的知识点很多,在工作中涉及的功能板块也及其繁杂,后面我会根据工作中的一些实际遇到的实例,逐步拆解 Android Audio的知识点,这里从网上整理了一些思维导图,可以做为未来的一个研究方向&a…...
【NLP自然语言处理】深入解析Encoder与Decoder模块:结构、作用与深度学习应用
目录 🍔 Encoder模块 1.1 Encoder模块的结构和作用 1.2 关于Encoder Block 1.3 多头自注意力层(self-attention) 🍔 Decoder模块及Add & Norm模块 3.1 Decoder模块介绍 3.2 Add & Norm模块 3.3 位置编码器Positional Encoding 3.4 Decod…...
【JAVA EE】多线程、锁、线程池的使用
目录 创建线程 方法一:继承Thread类来创建一个线程类 方法二:实现Runnable,重写run 线程等待 获取当前线程引用 休眠当前线程 线程的状态 synchronized synchronized的特性 1、互斥 2、刷新内存 死锁 死锁的四个必要条件 避免死…...
云计算:定义、类型及对企业的影响
💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 云计算:定义、类型及对企业的影响 云计算:定义、类型及对企业的影响 云计算:定义、类型及对企…...
大数据面试题--kafka夺命连环问
1、kafka消息发送的流程? 在消息发送过程中涉及到两个线程:一个是 main 线程和一个 sender 线程。在 main 线程中创建了一个双端队列 RecordAccumulator。main 线程将消息发送给双端队列,sender 线程不断从双端队列 RecordAccumulator 中拉取…...
【大模型】Spring AI Alibaba 对接百炼平台大模型使用详解
目录 一、前言 二、Spring AI概述 2.1 spring ai是什么 2.2 Spring AI 核心能力 2.3 Spring AI 应用场景 三、Spring AI Alibaba 介绍 3.1 Spring AI Alibaba 是什么 3.2 Spring AI Alibaba 核心特点 3.3 Spring AI Alibaba 应用场景 四、SpringBoot 对接Spring AI Al…...
Zabbix如何配置将信息发送到邮件
申请邮箱,下面以QQ邮箱为例 1.1登录邮箱后,点击设置->账号 1.2开启服务 1.3点击生成授权码(这里生成的授权码记得保存,后面要用到) 创建报警媒介类型 2.1点击管理/媒介/Email 2.2编辑 Email,这里配置的…...
jmeter常用配置元件介绍总结之前置处理器、测试片段
系列文章目录 安装jmeter jmeter常用配置元件介绍总结之前置处理器、测试片段 6.前置处理器6.1用户参数6.2取样器超时6.3.测试片段6.4JSR223 PreProcessor6.5.JDBC PreProcessor 6.前置处理器 在取样器请求之前执行的操作,优先级比取样器高,用来处理一些…...
Redis2:Redis数据结构介绍、通用命令、String类型、Key的层级格式
欢迎来到“雪碧聊技术”CSDN博客! 在这里,您将踏入一个专注于Java开发技术的知识殿堂。无论您是Java编程的初学者,还是具有一定经验的开发者,相信我的博客都能为您提供宝贵的学习资源和实用技巧。作为您的技术向导,我将…...
jenkins流水线pipeline
创建项目 1. 新建item 并选择pipeline 1.1 和普通项目配置的区别 普通项目配置目录: pipeline项目目录: pipeline的两种语法 声明式语法 2. 配置 2.1 流水线配置 2.2 选择声明式 声明式需要添加一个名为Jenkinsfile的文件实现流水线 Jenkinsfile的…...
【计网】基于TCP协议的Echo Server程序实现与多版本测试
目录 前言: 1、InitServer类的实现 1.1. 创建流式套接字 1.2. bind 绑定一个固定的网络地址和端口号 1.3.listen监听机制 1.4.完整代码 2. 循环接收接口与服务接口 2.1.accept函数讲解 讲个商场拉客的故事方便我们理解: 2.2.服务接口实现 3.服…...
BG3ModManager模组管理工具完全指南
BG3ModManager模组管理工具完全指南 【免费下载链接】BG3ModManager A mod manager for Baldurs Gate 3. 项目地址: https://gitcode.com/gh_mirrors/bg/BG3ModManager 一、初识BG3ModManager BG3ModManager作为《博德之门3》的专用模组管理工具,为玩家提供…...
颠覆中文字体困境:思源宋体CN 7字重开源方案深度解析
颠覆中文字体困境:思源宋体CN 7字重开源方案深度解析 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 价值主张:破解中文字体的"三重枷锁" 在数字设计…...
基于SpringBoot的CLAP音频分类服务开发实战
基于SpringBoot的CLAP音频分类服务开发实战 1. 项目背景与价值 音频分类在实际业务中有着广泛的应用场景,比如内容审核、智能家居、媒体分析等。传统的音频分类方案通常需要大量标注数据来训练专用模型,这在很多实际场景中成本高昂且不够灵活。 CLAP&…...
Face Analysis WebUI在金融领域的应用:远程开户身份核验
Face Analysis WebUI在金融领域的应用:远程开户身份核验 1. 引言 想象一下这样的场景:一位偏远地区的客户想要开设银行账户,但最近的银行网点在100公里外。传统方式下,他需要亲自前往网点,排队等待,提交各…...
PDF-Extract-Kit-1.0保姆级部署教程:4090D单卡一键启动Jupyter实战
PDF-Extract-Kit-1.0保姆级部署教程:4090D单卡一键启动Jupyter实战 你是不是经常需要从PDF里提取表格、公式或者分析文档布局?手动操作不仅费时费力,还容易出错。今天,我要给你介绍一个神器——PDF-Extract-Kit-1.0。这是一个功能…...
WAN2.2文生视频效果实测对比:不同SDXL风格对动态连贯性的影响分析
WAN2.2文生视频效果实测对比:不同SDXL风格对动态连贯性的影响分析 最近在玩WAN2.2文生视频模型时,我发现一个挺有意思的现象:虽然模型本身很强大,但生成的视频效果好不好,很大程度上取决于你选的“风格”。WAN2.2集成…...
创新实训第一周总结
第一周工作产出较少,作为患者端的开发者,为了保证数据库不出现重合或冲突等原因,我等待医生端和管理员端的开发初步完成后再进行的开发。第一篇博客的技术性会较低想到什么说什么本周的工作主要以分析为主首先分析了数据库的结构(…...
中科蓝讯AB565X蓝牙耳机通话电流音、回声、杂音?手把手教你用PC工具调通它
中科蓝讯AB565X蓝牙耳机通话问题全解析:从硬件排查到参数调优实战指南 当你手握一款基于中科蓝讯AB565X芯片的蓝牙耳机样机,却在通话测试中遭遇电流音、回声和杂音时,那种挫败感我深有体会。作为深耕音频调试领域多年的工程师,我经…...
解锁Nvidia Tesla A100完整性能:从驱动安装到Fabric Manager服务配置
1. 为什么你的Tesla A100性能被锁住了? 很多朋友第一次拿到Tesla A100显卡时,都会遇到一个奇怪的现象:明明按照常规方法安装了驱动,nvidia-smi也能正常显示显卡信息,但实际跑深度学习训练或者高性能计算任务时…...
check-dev-env - 开发环境依赖检测技能
check-dev-env - 开发环境依赖检测技能 技能概述 check-dev-env 是一个用于自动检查开发环境中常见依赖项是否已安装的 AI Agent 技能。该技能能够快速验证 Java、Maven、Node.js、NPM、Go、Python、Git 等主流开发工具的安装状态和版本号。 📋 元信息 项目说明技…...
