当前位置：首页 > news >正文

什么是LoRA微调

news 2026/2/10 7:54:55

LoRA是大模型微调方法的一种，它的特点是只在模型的部分权重（如 QKV 矩阵）上添加可训练参数
通过低秩矩阵（A×B）来优化参数更新
优点：
极大降低显存消耗（deepseek 7B 只需 10GB）
适用于多任务 LoRA 适配器切换
训练速度快

例如在 Transformer 里，自注意力（Self-Attention）计算：
Y=XW，
其中 X 是input, W是原始模型的权重矩阵（全连接层）.
传统的Fine-tuning就是直接对 W 进行梯度更新，导致需要存储整个 W 的更新版本，显存占用极大。

LoRA 关键思想：
不直接更新 W，而是用两个小矩阵 $A$ 和 $B$ 近似建模 W 的变化：
$\Delta W$
$\Delta W = AB$

其中：
$\in \mathbb{R}^{d \times r}$
$\in \mathbb{R}^{r \times d}$
$\ll d$ （低秩），一般 r=4, 8, 16，远小于 d。

所以只需要训练A 和 B，大幅减少训练参数量，用 $A B$ 近似 $\Delta W$ , 使得最终 $W^{'}$ 仍然能适应新任务。
训练时，只更新A和B， W保持冻结。
推理时，计算 $W + A B$ 得到微调后的完整模型, 但A，B远小于W，开销极小。

代码简单演示一下如何在transformer的q_proj里加入LoRA
在 Transformer 里，q_proj 是 nn.Linear 层

import torch
import torch.nn as nn
import mathclass LoRAQProj(nn.Module):def __init__(self, hidden_size, r=16, lora_alpha=16):super().__init__()self.hidden_size = hidden_sizeself.r = rself.lora_alpha = lora_alphaself.scaling = lora_alpha / r  # LoRA 影响力# 原始 Q 投影层（冻结）self.q_proj = nn.Linear(hidden_size, hidden_size, bias=False)# LoRA 适配器：A 和 Bself.lora_A = nn.Linear(hidden_size, r, bias=False)  # 低秩 Aself.lora_B = nn.Linear(r, hidden_size, bias=False)  # 低秩 B# 初始化 LoRA 参数nn.init.kaiming_uniform_(self.lora_A.weight, a=math.sqrt(5))nn.init.zeros_(self.lora_B.weight)  # B 矩阵初始化为 0def forward(self, x):"""计算 Self-Attention 里的 Query 矩阵：Q = X * (W_q + AB)"""base_output = self.q_proj(x)  # 原始投影lora_output = self.lora_B(self.lora_A(x)) * self.scaling  # LoRA 适配器return base_output + lora_output  # 总输出# 测试模型
hidden_size = 512
batch_size = 4
seq_len = 10x = torch.randn(batch_size, seq_len, hidden_size)  # 输入数据
model = LoRAQProj(hidden_size)
output = model(x)print("LoRA Q-Projection Output Shape:", output.shape)  # (4, 10, 512)

训练LoRA适配器

训练时，冻结self.q_proj, 只训练lora_A 和 lora_B

# 训练 LoRA
optimizer = torch.optim.AdamW([p for n, p in model.named_parameters() if "lora" in n], lr=1e-4
)for epoch in range(10):for batch in dataloader:  # 假设 dataloader 提供训练数据optimizer.zero_grad()output = model(batch["input_ids"])loss = loss_function(output, batch["labels"])  # 计算损失loss.backward()optimizer.step()

推理时合并LoRA

LoRA 训练完成后，我们需要合并 A, B 到 q_proj
计算 $W_{q}' = W_{q} + AB$ ,
这样，可以移除A，B，只保留 $W_{q}'$ , 加速推理

def merge_lora(model):"""合并 LoRA 适配器到原始权重：W_q' = W_q + AB"""with torch.no_grad():model.q_proj.weight += (model.lora_B.weight @ model.lora_A.weight) * model.scaling# 移除 LoRA 适配器del model.lora_Adel model.lora_Breturn model# 进行推理时合并 LoRA
merged_model = merge_lora(model)

不过实际中，不需要我们自己去写这些代码，可以用unsloth, LLaMA-Factory 等框架来实现。

什么是LoRA微调

训练LoRA适配器

推理时合并LoRA

相关文章：

什么是LoRA微调

热管理系统：新能源汽车的 “温度管家”

如何修改Windows系统Ollama模型存储位置

《网络安全入门实战手册》

一文详解U盘启动Legacy/UEFI方式以及GPT/MBR关系

如何查看java的字节码文件？javap？能用IDEA吗？

加油站(力扣134)

1.vue使用vite构建初始化项目

汽车零部件开发应该具备哪些编程思维？

25工程管理研究生复试面试问题汇总工程管理专业知识问题很全！工程管理复试全流程攻略工程管理考研复试真题汇总

#4【CVPR2024】SHIP：图像融合的一种协同高阶交互范式

虚拟机从零实现机器人控制

趣味数学300题1981版-八个等式、五个5等于24

Microsoft Office 2024 软件安装教程（免费）

Linux 常见指令

HTML Application(hta)入门教程

pytest运行用例的常见方式及参数

XML Schema 元素替换

OpenBMC：BmcWeb app.run

hot100_74. 搜索二维矩阵

golang循环变量捕获问题

Redis相关知识总结（缓存雪崩，缓存穿透，缓存击穿，Redis实现分布式锁，如何保持数据库和缓存一致）

系统设计 --- MongoDB亿级数据查询优化策略

什么是库存周转？如何用进销存系统提高库存周转率？

图表类系列各种样式PPT模版分享

音视频——I2S 协议详解

springboot 日志类切面，接口成功记录日志，失败不记录

DBLP数据库是什么？

Sklearn 机器学习缺失值处理获取填充失值的统计值

热门Chrome扩展程序存在明文传输风险，用户隐私安全受威胁