当前位置: 首页 > news >正文

Re77 读论文:LoRA: Low-Rank Adaptation of Large Language Models

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名:LoRA: Low-Rank Adaptation of Large Language Models

ArXiv网址:https://arxiv.org/abs/2106.09685
官方GitHub网站(包含在RoBERTa、DeBERTa、GPT-2上用Lora微调的权重):https://github.com/microsoft/LoRA

LoRA应该算是现在最流行的部分微调大模型的算法之一。也是我最常用的算法。
作者来自微软。

文章目录

  • 1. 算法思路
  • 2. 之前方法的不足之处
  • 3. 实验
  • 参考资料

1. 算法思路

如果对每个子任务都进行全量微调,代价太大了,所以本文提出了LoRA(Low-Rank Adaptation)算法来在子任务上优化大模型:冻结模型权重,在Transformer每一层加入新参数rank decomposition matrices来进行训练。测试的时候就把这个新参数直接加到原权重里。
LoRA跟全量微调相比减少了训练用时,效果没差多少,跟adapter相比没有增加推理用时。

以前解决模型微调代价高问题的方法有只微调部分权重和额外学习参数模块。这些方法要么会增加推理用时(因为模型加了个adapter,更深了)1 2,要么会减少模型可输入序列长度(prefix-tuning调的prefix挤了prompt本来该占的长度)3,而且微调效果也远逊于全量微调。

45指出大模型的参数是过参数化(over-parametrized6)的,实际上一个秩更低的矩阵就够用了,本文就假设模型微调过程中矩阵的变化差异( Δ Φ \Delta\Phi ΔΦ)也有这样一个低秩矩阵( Θ , ∣ Θ ∣ ≪ ∣ Δ Φ ∣ \Theta, |\Theta|\ll|\Delta\Phi| Θ,∣Θ∣∣ΔΦ∣),所以只优化这个rank decomposition matrices(秩分解矩阵)就相当于间接优化了整个稠密的大模型权重。

也就是将大模型权重更新矩阵拆成两个小矩阵的乘积:
在这里插入图片描述

最终表征向量也就变成了:
在这里插入图片描述

语言模型的目标函数:
在这里插入图片描述

LoRA就只优化AB。目标函数:
在这里插入图片描述

在这里插入图片描述

这样很省空间,省时间。

(有一些不知道是不是trick的细节我就没写了。Section 7部分分析了模型结构,我也没写)

2. 之前方法的不足之处

adapter系:推理慢,尤其在多卡运行时
2:每个block有两层adapter layers

prefix tuning:很难优化,更新参数时效果不稳定,而且留给下游任务的token不够长

3. 实验

与adapter相比,用时具有优势:
在这里插入图片描述

基模型选择了RoBERTa、DeBERTa、GPT-2,然后在GPT-3上进行了压力测。

对比实验结果:
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

超参数分析:
在这里插入图片描述
在这里插入图片描述

参考资料

  1. LORA:大模型轻量级微调:这篇有一些写得更详细的内容,还有更多参考资料,以后我可能会重读。当然我还是觉得如果真的想了解论文详情,应该去看论文

  1. (2017) Learning multiple visual domains with residual adapters
    (2020 EMNLP) AdapterDrop: On the Efficiency of Adapters in Transformers
    AdapterFusion: Non-Destructive Task Composition for Transfer Learning ↩︎

  2. (2019) Parameter-Efficient Transfer Learning for NLP
    (2020 EMNLP) Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning ↩︎ ↩︎

  3. (2021) Prefix-Tuning: Optimizing Continuous Prompts for Generation
    (2021 EMNLP) The Power of Scale for Parameter-Efficient Prompt Tuning
    (2021 ACL) WARP: Word-level Adversarial ReProgramming
    (2021) GPT Understands, Too ↩︎

  4. (2018) Measuring the Intrinsic Dimension of Objective Landscapes ↩︎

  5. (2020) Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ↩︎

  6. 为了阐述这个问题我专门写了另一篇博文:Lora里面说大模型参数是over-parametrized(过参数的),什么是over-parametrized?(另附相关概念:double descent和bias-variance trade ↩︎

相关文章:

Re77 读论文:LoRA: Low-Rank Adaptation of Large Language Models

诸神缄默不语-个人CSDN博文目录 诸神缄默不语的论文阅读笔记和分类 论文全名:LoRA: Low-Rank Adaptation of Large Language Models ArXiv网址:https://arxiv.org/abs/2106.09685 官方GitHub网站(包含在RoBERTa、DeBERTa、GPT-2上用Lora微调…...

曲波系数 curvelet transform

Curvelet 变换后的系数涵义 曲波变换(Curvelet Transform)是一种多尺度、多方向的变换工具,能够有效地表示信号中的几何特征(如边缘、曲线等)。曲波变换后的系数具有明确的物理意义,反映了信号在不同尺度、…...

OS的随机数生成过程中的内核熵池

内核熵池(Kernel Entropy Pool)是操作系统内核中用于收集和管理熵(随机性来源)的机制 ,在操作系统的随机数生成过程中发挥关键作用。 以下从其原理、作用、工作方式方面详细介绍: 原理:熵在信…...

数据结构:双向循环链表

双向循环链表(Doubly Circular Linked List) 双向循环链表是双向链表的一种变体,其特点是链表的头节点和尾节点相连,形成一个闭环。这种结构允许在链表中进行无缝的双向遍历,并且由于循环特性,可以从任何节…...

IP网和传输网区别(以访问百度为例!)

1. IP网和传输网的关系 IP网:是基于IP协议的网络,负责数据的逻辑传输,包括数据包的路由、寻址和转发。IP网是“虚拟”的,它依赖于底层的传输网来实际传递数据。 传输网:是物理网络基础设施,负责数据的物理…...

STM32裸机开发转FreeRTOS教程

目录 1. 简介2. RTOS设置(1)分配内存(2)查看任务剩余空间(3)使用osDelay 3. 队列的使用(1)创建队列(1)直接传值和指针传值(2)发送/接收…...

FreeSWITCH dialplan/default.xml 之释疑

准备花时间好好研究下,一直都是一知半解 sip_looped_call 通俗地说,就是自己呼叫自己 查文档,是这样讲的:如果调用已通过 ACL 以外的方式进行身份验证,并且当前请求 IP/port 与配置文件 IP/port 匹配,那…...

lambda用法及其原理

目录 lambda形式lambda用法1.sort降序2.swap3.捕捉列表 习题解题 lambda形式 [capture-list](parameters)->return type{function boby}[capture-list]:[捕捉列表]用于捕捉函数外的参数,可以为空,但不能省略;(parameters) &am…...

Go Ebiten随机迷宫生成示例

引言 迷宫生成是计算机科学中一个经典的问题,常用于算法教学和游戏开发。本文将介绍如何使用 Go 语言和 Ebiten 游戏引擎实现一个基于深度优先搜索(DFS)的随机迷宫生成算法,并通过可视化的方式展示迷宫的生成过程。 技术栈 Go …...

前端学习DAY31(子元素溢出父元素)

.box1{width: 200px;height: 200px;background-color: chocolate;} 子元素是在父元素的内容区中排列的,如果子元素的大小超过了父元素,则子元素会从 父元素中溢出,使用overflow属性设置父元素如何处理溢出的子元素 可选值:visible…...

『SQLite』表的创建、修改和删除

本节摘要:主要讲述SQLite中创建、删除、修改表等操作。 创建表 CREATE TABLE 语句来创建表。 修改表 ALTER TABLE 语句来修改表名称、已有表字段,或者新增字段。 删除表 DROP TABLE 语句用来删除表. 注意: 上述内容详细讲解见文章&#…...

可持久化数据结构-线段树(主席树)

可持久化数据结构-线段树(主席树) (与可持久化字典树差不多) 概念:可持久化线段树是基本线段树的一个简单拓展, 是使用函数式编程思想的线段树; 作用: 可以存下来数据结构的所有历史版本 特点: 拓扑结构…...

如何利用PHP爬虫按关键字搜索淘宝商品

在当今的电商时代,获取淘宝商品信息对于市场研究、价格监控和竞争分析等方面具有重要意义。手动搜索和整理大量商品信息不仅耗时耗力,而且容易出错。幸运的是,PHP爬虫技术为我们提供了一种高效、自动化的方式来按关键字搜索淘宝商品。本文将详…...

GitHub - riscv-software-src/riscv-isa-sim: Spike, a RISC-V ISA Simulator

GitHub - riscv-software-src/riscv-isa-sim: Spike, a RISC-V ISA Simulator 操作手册 $ apt-get install device-tree-compiler libboost-regex-dev libboost-system-dev $ mkdir build $ cd build $ ../configure --prefix$RISCV $ make $ [sudo] make install 具体安装 …...

ubuntu开机启动服务

需求背景: 需要监控日志,每次都是手动启动 nohup ./prometheus >/dev/null & nohub ./node_exporter >/dev/null & 需求目标: 重启后系统自动启动服务...

电子电气架构 --- 设计车载充电机的关键考虑因素

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…...

2025_0105_生活记录

3号去内蒙看了流星雨。还记得上次看流星的时间是2018年,也是冬天,大家在雁栖湖校区的操场上仰望星空。那个时候幸运的看到了一颗流星,便迅速地在心里许愿。这次看到了三颗流星,我也许了愿,希望实现。 24年走过了十多个…...

电池管理系统(BMS)架构详细解析:原理与器件选型指南

BMS(电池管理系统)架构详细讲解 从你提供的BMS(Battery Management System)架构图来看,主要涉及到电池监控模块、通信模块、功率控制模块等部分。下面我将详细讲解该架构的各个功能模块及其工作原理。 1. 电池管理核…...

用JAVA编写一个简单的小游戏

用Java语言编写一个简单的小游戏。这里是一个非常基础的猜数字小游戏的代码示例。在这个游戏中,程序会随机选择一个1到100之间的整数,玩家需要猜测这个数字是什么。每次猜测后,程序会告诉玩家他们猜的数字是太高了、太低了还是正确。 impor…...

【SpringSecurity】二、自定义页面前后端分离

文章目录 1、用户认证流程AuthenticationSuccessHandler AuthenticationFailureHandlerSecurityFilterChain配置用户认证信息 2、会话并发处理2.1、实现处理器接口2.2、SecurityFilterChain配置 1、用户认证流程 AuthenticationSuccessHandler AuthenticationFailureHandler …...

D3KeyHelper完全指南:5分钟掌握暗黑3鼠标宏工具,效率提升300%

D3KeyHelper完全指南:5分钟掌握暗黑3鼠标宏工具,效率提升300% 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper D3KeyHelper是一…...

RMBG-2.0新手教程:暗黑动漫UI交互逻辑全图解,零基础5分钟上手

RMBG-2.0新手教程:暗黑动漫UI交互逻辑全图解,零基础5分钟上手 你是不是经常为了给照片抠图而头疼?用传统的工具,要么边缘抠不干净,要么头发丝处理得一塌糊涂,费时费力效果还不好。 今天,我要带…...

genanki性能优化指南:如何高效处理大规模卡片生成

genanki性能优化指南:如何高效处理大规模卡片生成 【免费下载链接】genanki A Python 3 library for generating Anki decks 项目地址: https://gitcode.com/gh_mirrors/ge/genanki genanki是一款强大的Python 3库,专为生成Anki卡片而设计。当处理…...

聊聊天AI搞定本地Excel自动同步飞书表格!影刀6.0解锁数据同步新姿势

聊聊天AI搞定本地Excel自动同步飞书表格!影刀6.0解锁数据同步新姿势谁懂职场人数据同步的崩溃啊🥹手里的本地Excel天天更新还要手动复制粘贴到飞书表格共享给同事字段一多、行数一大复制错行、漏贴数据简直是家常便饭反复核对、反复粘贴,十几…...

手把手教你用F1C200s驱动正点原子7寸LCD屏:完整配置流程与LVGL测试

从零构建F1C200s嵌入式GUI系统:正点原子7寸屏驱动与LVGL实战指南 在嵌入式开发领域,显示界面的人机交互体验越来越受到重视。F1C200s作为一款性价比极高的国产ARM9芯片,搭配正点原子7寸LCD屏,能够构建出性能稳定、成本可控的嵌入式…...

OneAPI部署实操手册:从零配置到多渠道管理,支持腾讯混元、通义千问、文心一言等全生态

OneAPI部署实操手册:从零配置到多渠道管理,支持腾讯混元、通义千问、文心一言等全生态 你是不是也遇到过这样的烦恼?想用通义千问写代码,用文心一言做PPT,用腾讯混元分析数据,结果每个平台都要单独注册、单…...

前端 GraphQL:别再为 API 调用头疼了

前端 GraphQL:别再为 API 调用头疼了 什么是前端 GraphQL? GraphQL 是一种用于 API 的查询语言,也是一个满足你数据查询的运行时。别以为 GraphQL 只是一种新的 API 格式,它是前端数据获取的革命性解决方案。 为什么需要前端 Grap…...

从SDR#到MATLAB:用RTL-SDR玩转无线信号分析,一份完整的软硬件环境搭建清单

从零构建无线信号分析实验室:RTL-SDR与MATLAB的深度整合指南 无线电波如同城市中看不见的暗流,承载着从广播到卫星通信的各种信息。RTL-SDR这款售价仅20美元左右的USB接收器,配合MATLAB强大的信号处理能力,可以成为探索这片无形领…...

【我的Android进阶之旅】解决MediaPlayer播放音乐的时候报错: Should have subtitle controller already set

文章目录 一、错误描述 二、错误解决 解决方法一 解决方法二 一、错误描述 刚用MediaPlayer播放Music的时候,看到Log打印台总是会打印一条错误日志,MediaPlayer: Should have subtitle controller already set,虽然程序运行不会出问题,但是看起来红色的日志很显眼,因此决…...

学术是一场马拉松吗

最近录用一篇 EJOR,虽然是一件比较高兴的事,却没有那么的喜悦。因为根据我阅读多篇 EJOR 论文的经验,这篇投稿论文有 EJOR 的实力,即使被拒稿了,我会转投 COR 或者领域内其他不错的杂志,晚点发表而已。 目前…...