当前位置：首页 > news >正文

Re77 读论文：LoRA: Low-Rank Adaptation of Large Language Models

news 2026/2/10 0:56:11

诸神缄默不语-个人CSDN博文目录
诸神缄默不语的论文阅读笔记和分类

论文全名：LoRA: Low-Rank Adaptation of Large Language Models

ArXiv网址：https://arxiv.org/abs/2106.09685
官方GitHub网站（包含在RoBERTa、DeBERTa、GPT-2上用Lora微调的权重）：https://github.com/microsoft/LoRA

LoRA应该算是现在最流行的部分微调大模型的算法之一。也是我最常用的算法。
作者来自微软。

文章目录

1. 算法思路
2. 之前方法的不足之处
3. 实验
参考资料

1. 算法思路

如果对每个子任务都进行全量微调，代价太大了，所以本文提出了LoRA（Low-Rank Adaptation）算法来在子任务上优化大模型：冻结模型权重，在Transformer每一层加入新参数rank decomposition matrices来进行训练。测试的时候就把这个新参数直接加到原权重里。
LoRA跟全量微调相比减少了训练用时，效果没差多少，跟adapter相比没有增加推理用时。

以前解决模型微调代价高问题的方法有只微调部分权重和额外学习参数模块。这些方法要么会增加推理用时（因为模型加了个adapter，更深了）¹ ²，要么会减少模型可输入序列长度（prefix-tuning调的prefix挤了prompt本来该占的长度）³，而且微调效果也远逊于全量微调。

⁴和⁵指出大模型的参数是过参数化（over-parametrized⁶）的，实际上一个秩更低的矩阵就够用了，本文就假设模型微调过程中矩阵的变化差异（ $\Delta\Phi$ ）也有这样一个低秩矩阵（ $\Theta, |\Theta|\ll|\Delta\Phi|$ ），所以只优化这个rank decomposition matrices（秩分解矩阵）就相当于间接优化了整个稠密的大模型权重。

也就是将大模型权重更新矩阵拆成两个小矩阵的乘积：
在这里插入图片描述

最终表征向量也就变成了：
在这里插入图片描述

语言模型的目标函数：
在这里插入图片描述

LoRA就只优化AB。目标函数：
在这里插入图片描述

在这里插入图片描述

这样很省空间，省时间。

（有一些不知道是不是trick的细节我就没写了。Section 7部分分析了模型结构，我也没写）

2. 之前方法的不足之处

adapter系：推理慢，尤其在多卡运行时
²：每个block有两层adapter layers

prefix tuning：很难优化，更新参数时效果不稳定，而且留给下游任务的token不够长

3. 实验

与adapter相比，用时具有优势：
在这里插入图片描述

基模型选择了RoBERTa、DeBERTa、GPT-2，然后在GPT-3上进行了压力测。

对比实验结果：
在这里插入图片描述

在这里插入图片描述

超参数分析：
在这里插入图片描述

参考资料

LORA：大模型轻量级微调：这篇有一些写得更详细的内容，还有更多参考资料，以后我可能会重读。当然我还是觉得如果真的想了解论文详情，应该去看论文

(2017) Learning multiple visual domains with residual adapters
(2020 EMNLP) AdapterDrop: On the Efficiency of Adapters in Transformers
AdapterFusion: Non-Destructive Task Composition for Transfer Learning ↩︎
(2019) Parameter-Efficient Transfer Learning for NLP
(2020 EMNLP) Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning ↩︎ ↩︎
(2021) Prefix-Tuning: Optimizing Continuous Prompts for Generation
(2021 EMNLP) The Power of Scale for Parameter-Efficient Prompt Tuning
(2021 ACL) WARP: Word-level Adversarial ReProgramming
(2021) GPT Understands, Too ↩︎
(2018) Measuring the Intrinsic Dimension of Objective Landscapes ↩︎
(2020) Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ↩︎
为了阐述这个问题我专门写了另一篇博文：Lora里面说大模型参数是over-parametrized（过参数的），什么是over-parametrized？（另附相关概念：double descent和bias-variance trade ↩︎

Re77 读论文：LoRA: Low-Rank Adaptation of Large Language Models

文章目录

1. 算法思路

2. 之前方法的不足之处

3. 实验

参考资料

相关文章：

Re77 读论文：LoRA: Low-Rank Adaptation of Large Language Models

曲波系数 curvelet transform

OS的随机数生成过程中的内核熵池

数据结构：双向循环链表

IP网和传输网区别（以访问百度为例！）

STM32裸机开发转FreeRTOS教程

FreeSWITCH dialplan/default.xml 之释疑

lambda用法及其原理

Go Ebiten随机迷宫生成示例

前端学习DAY31（子元素溢出父元素）

『SQLite』表的创建、修改和删除

可持久化数据结构-线段树(主席树）

如何利用PHP爬虫按关键字搜索淘宝商品

GitHub - riscv-software-src/riscv-isa-sim: Spike, a RISC-V ISA Simulator

ubuntu开机启动服务

电子电气架构 --- 设计车载充电机的关键考虑因素

2025_0105_生活记录

电池管理系统（BMS）架构详细解析：原理与器件选型指南

用JAVA编写一个简单的小游戏

【SpringSecurity】二、自定义页面前后端分离

springboot 百货中心供应链管理系统小程序

ElasticSearch搜索引擎之倒排索引及其底层算法

C++ Visual Studio 2017厂商给的源码没有.sln文件易兆微芯片下载工具加开机动画下载。

JavaScript 数据类型详解

RSS 2025｜从说明书学习复杂机器人操作任务：NUS邵林团队提出全新机器人装配技能学习框架Manual2Skill

day36-多路IO复用

wpf在image控件上快速显示内存图像

【Linux】自动化构建-Make/Makefile

Spring Security 认证流程——补充

五子棋测试用例