当前位置：首页 > article >正文

LoRA 部署：微调后的模型怎么上线

article 2026/5/23 20:15:40

本文基于昇腾CANN和昇腾NPU围绕 cann-recipes-infer 仓库的相关技术展开。LoRA 训练完出来两个东西——基础模型权重不动外加一个小 rank 矩阵。部署时你不能直接丢原始权重LoRA 矩阵要合并进去或者通过算子注入。CANN 上 LoRA 部署有两种路子权重合并Merge和动态注入Runtime LoRA。LoRA 的本质# LoRA 训练的产出——两个小矩阵classLoraLayer(torch.nn.Module): 原始层: y Wx LoRA: y Wx BAx B: [out_dim, rank], A: [rank, in_dim], rank dim def__init__(self,base_weight,rank8,alpha16):super().__init__()self.Wbase_weight# 冻结不更新self.Atorch.nn.Linear(base_weight.shape[1],rank,biasFalse)self.Btorch.nn.Linear(rank,base_weight.shape[0],biasFalse)self.scalealpha/rank# 初始化A 用高斯B 用 0torch.nn.init.normal_(self.A.weight,std0.02)torch.nn.init.zeros_(self.B.weight)defforward(self,x):# LoRA 分支x → A → B → scale加到主路lora_outself.B(self.A(x))*self.scalereturnself.W(x)lora_out# 训练完得到 A、B 矩阵# rank8, dim4096 → A: [8, 4096], B: [4096, 8] → 共 65K 参数# 原始层 W 有 4096×4096 ≈ 16.8M 参数# LoRA 只改 0.4% 的参数部署时两难跑推理时每个 Forward 都要算Wx BAx多了两次小 MatMul。合并的话丢掉了切换任务的能力。方案一权重合并# Merge——把 BA 加进 W推理不感知 LoRAdefmerge_lora_to_weight(base_weight,lora_A,lora_B,alpha,rank): 把 LoRA 矩阵合并到原始权重 W_merged W (B A) * (alpha / rank) 合并后模型结构和原始模型完全一样。推理代码不需要知道 LoRA 的存在。 # B A: [out_dim, rank] [rank, in_dim] [out_dim, in_dim]deltatorch.mm(lora_B.weight.data,lora_A.weight.data)deltadelta*(alpha/rank)merged_weightbase_weight.clone()merged_weightdeltareturnmerged_weight# 使用方法merged_wmerge_lora_to_weight(model.layers[0].self_attn.q_proj.weight,lora_modules[q_proj].A.weight,lora_modules[q_proj].B.weight,alpha16,rank8)# 推理时直接换权重——代码没变# model.layers[0].self_attn.q_proj.weight merged_w合并后推理路径跟原始模型一模一样——零额外开销。代价是每换一个任务要重新 Merge 一遍生成一个新的 OM 模型文件。方案二CANN 动态注入// AscendCL 上做 Runtime LoRA——不合并用额外的 MatMulclassRuntimeLoRAExecutor{// 加载基础模型uint32_tmodel_id;aclmdlDesc*model_desc;// LoRA 参数——存在 Device 上std::vectorLoraAdapteradapters;structLoraAdapter{void*a_matrix_dev;// [rank, dim] 存 Devicevoid*b_matrix_dev;// [dim, rank] 存 Device};voidExecuteWithLoRA(void*input,void*output,constchar*task_name){// 先跑基础模型aclmdlExecute(model_id,input,output);// 根据 task_name 选 LoRA 适配器LoraAdapterloraadapters[task_name];// 在某个 Attention 层的输出上追加 LoRA 分支// 需要知道目标层的输出 Tensor 地址void*layer_outGetLayerOutput(model_id,self_attn.q_proj);// LoRA 分支x → A → B → scale → addvoid*hidden_bufaclrtMalloc(hidden_dim*sizeof(float));void*rank_bufaclrtMalloc(rank*sizeof(float));// x A^T: [1, dim] [dim, rank] [1, rank]aclblasGemmEx(rank_buf,layer_out,lora.a_matrix_dev,1,rank,dim,ACL_TRANS_N,ACL_TRANS_N,ALPHA,0.0f,ACL_FLOAT);// rank_out B^T: [1, rank] [rank, dim] [1, dim]aclblasGemmEx(hidden_buf,rank_buf,lora.b_matrix_dev,1,dim,rank,ACL_TRANS_N,ACL_TRANS_N,alpha/rank,1.0f,ACL_FLOAT);// beta1 做累加// 结果已经在 hidden_buf 里累加到原始输出了}};动态注入的好处是切换任务不用换模型换个 adapter 指针就行。CANN 上利用aclblasGemmEx的小矩阵 API 做 LoRA 分支rank8 的矩阵乘法在 NPU 上的开销约 0.02ms——可以忽略。部署选型建议场景选 Merge选 Runtime LoRA单任务部署✅ 性能最好❌ 有额外开销多租户不同 LoRA❌ 要存多份✅ 切换快小 Batch 在线服务✅✅大 Batch 离线推理✅❌ 显存碎片多CANN 上跑 LoRA 部署时注意一点AscendCL 的aclmdlExecute是模型级执行不能模块粒度打断。想做到 Layer 级 LoRA 注入得在 GE 图层面插入算子节点或者用 ATC 编译时把 LoRA 矩阵编进 OM。参考仓库LoRA 部署示例AscendCL 推理接口TorchAir 微调支持

LoRA 部署：微调后的模型怎么上线

相关文章：

LoRA 部署：微调后的模型怎么上线

MQA：全部 Query 共享一套 Key-Value

GQA：多查少算的 Attention 头组合

法律科技的发展脉络：从数字化管理到AI辅助办案的演进路径

紧急！2024年Q2最新：Claude 3.5 Sonnet对LaTeX/Markdown混合文档的支持边界实测报告（附绕过限制的3种军工级方案）

不会 CSS 也能做出惊艳 PPT！Frontend Slides这个开源 Claude Code 技能让 AI 帮你生成 12 种风格演示文稿，告别千篇一律的紫渐变

企业AI编程效率提升：2026最新权威AI编程工具必看

工业视觉开发的基石：GenICam 简介

AI答案优化效果可以靠哪些第三方数据验证？

AI Agent在仓储分拣中的真实效能验证（2023-2024全国12家仓配中心压测报告首次公开）

Lindy流程冷启动死亡陷阱（97%新手踩中的第3个环节）：实时检测+自动回滚机制详解

Lindy流程自动化效果衰减真相：3年追踪数据显示，未做持续治理的企业6个月后效率回落至基线112%

【行业首发】Midjourney v6.2水动力学渲染白皮书：基于流体物理模型的prompt工程重构（附NASA水波频谱对照表）

Taotoken 的 Token Plan 套餐如何帮助我们预测并锁定开发成本

Anthropic 万亿估值启示录：战略聚焦如何击败全面扩张

在微服务架构中集成Taotoken实现智能客服路由与成本控制

论文写到一半卡壳了？师兄推荐这几个AI写作辅助软件

如何快速清理Windows右键菜单：终极管理工具完整指南

2026跨境实测｜主流国产AI视频生成工具图生视频功能深度测评

华实展厅出圈！大自然标识匠心打造，目视化呈现基建巨头的实力底气

2025年AI数字人行业现状：全国超99万家企业涌入，真正能落地的不到一成

FactoryBluePrints：戴森球计划终极蓝图仓库，5步打造高效自动化工厂

3分钟搞定Windows 11系统优化：Win11Debloat开源工具完整指南

抖音小店搜索排名规则及优化方法

观测 TaoToken 在多模型间自动路由的稳定性与响应速度

将Taotoken作为统一网关整合到企业现有微服务架构中的设计考量

3步快速搭建微信小程序商城：巴爷商城开源项目实战指南

使用OpenClaw连接Taotoken配置Agent工作流的具体步骤

通过Taotoken Token Plan套餐降低长期项目成本的观察

美容顾问转型AI训练师：2024紧缺新职业认证路径（含国家人社部备案课程编号）