当前位置：首页 > news >正文

【LLM训练系列02】如何找到一个大模型Lora的target_modules

news 2025/12/17 7:00:55

方法1：观察attention中的线性层

import numpy as np
import pandas as pd
from peft import PeftModel
import torch
import torch.nn.functional as F
from torch import Tensor
from transformers import AutoTokenizer, AutoModel, BitsAndBytesConfig
from typing import List
from tqdm.auto import tqdm
from sentence_transformers import SentenceTransformer
import os
os.environ['CUDA_VISIBLE_DEVICES']='1,2'
os.environ["TOKENIZERS_PARALLELISM"] = "false"model_path ="/home/jovyan/codes/llms/Qwen2.5-14B-Instruct"
base_model = AutoModel.from_pretrained(model_path, device_map='cuda:0',trust_remote_code=True)

打印attention模型层的名字

for name, module in base_model.named_modules():if 'attn' in name or 'attention' in name:  # Common attention module namesprint(name)for sub_name, sub_module in module.named_modules():  # Check sub-modules within attentionprint(f"  - {sub_name}")

方法2：通过bitsandbytes量化查找线性层

import bitsandbytes as bnb
def find_all_linear_names(model):lora_module_names = set()for name, module in model.named_modules():if isinstance(module, bnb.nn.Linear4bit):names = name.split(".")# model-specificlora_module_names.add(names[0] if len(names) == 1 else names[-1])if "lm_head" in lora_module_names:  # needed for 16-bitlora_module_names.remove("lm_head")return list(lora_module_names)

加载模型

bnb_config = BitsAndBytesConfig(load_in_4bit=True,bnb_4bit_use_double_quant=True,bnb_4bit_quant_type="nf4",bnb_4bit_compute_dtype=torch.bfloat16)
base_model = AutoModel.from_pretrained(model_path,quantization_config=bnb_config,device_map="auto")

查找Lora的目标层

find_all_linear_names(base_model)

还有个函数，一样的原理

def find_target_modules(model):# Initialize a Set to Store Unique Layersunique_layers = set()# Iterate Over All Named Modules in the Modelfor name, module in model.named_modules():# Check if the Module Type Contains 'Linear4bit'if "Linear4bit" in str(type(module)):# Extract the Type of the Layerlayer_type = name.split('.')[-1]# Add the Layer Type to the Set of Unique Layersunique_layers.add(layer_type)# Return the Set of Unique Layers Converted to a Listreturn list(unique_layers)find_target_modules(base_model)

方法3：通过分析开源框架的源码swift

代码地址

from collections import OrderedDict
from dataclasses import dataclass, field
from typing import List, Union@dataclass
class ModelKeys:model_type: str = Nonemodule_list: str = Noneembedding: str = Nonemlp: str = Nonedown_proj: str = Noneattention: str = Noneo_proj: str = Noneq_proj: str = Nonek_proj: str = Nonev_proj: str = Noneqkv_proj: str = Noneqk_proj: str = Noneqa_proj: str = Noneqb_proj: str = Nonekva_proj: str = Nonekvb_proj: str = Noneoutput: str = None@dataclass
class MultiModelKeys(ModelKeys):language_model: Union[List[str], str] = field(default_factory=list)connector: Union[List[str], str] = field(default_factory=list)vision_tower: Union[List[str], str] = field(default_factory=list)generator: Union[List[str], str] = field(default_factory=list)def __post_init__(self):# compatfor key in ['language_model', 'connector', 'vision_tower', 'generator']:v = getattr(self, key)if isinstance(v, str):setattr(self, key, [v])if v is None:setattr(self, key, [])LLAMA_KEYS = ModelKeys(module_list='model.layers',mlp='model.layers.{}.mlp',down_proj='model.layers.{}.mlp.down_proj',attention='model.layers.{}.self_attn',o_proj='model.layers.{}.self_attn.o_proj',q_proj='model.layers.{}.self_attn.q_proj',k_proj='model.layers.{}.self_attn.k_proj',v_proj='model.layers.{}.self_attn.v_proj',embedding='model.embed_tokens',output='lm_head',
)INTERNLM2_KEYS = ModelKeys(module_list='model.layers',mlp='model.layers.{}.feed_forward',down_proj='model.layers.{}.feed_forward.w2',attention='model.layers.{}.attention',o_proj='model.layers.{}.attention.wo',qkv_proj='model.layers.{}.attention.wqkv',embedding='model.tok_embeddings',output='output',
)CHATGLM_KEYS = ModelKeys(module_list='transformer.encoder.layers',mlp='transformer.encoder.layers.{}.mlp',down_proj='transformer.encoder.layers.{}.mlp.dense_4h_to_h',attention='transformer.encoder.layers.{}.self_attention',o_proj='transformer.encoder.layers.{}.self_attention.dense',qkv_proj='transformer.encoder.layers.{}.self_attention.query_key_value',embedding='transformer.embedding',output='transformer.output_layer',
)BAICHUAN_KEYS = ModelKeys(module_list='model.layers',mlp='model.layers.{}.mlp',down_proj='model.layers.{}.mlp.down_proj',attention='model.layers.{}.self_attn',qkv_proj='model.layers.{}.self_attn.W_pack',embedding='model.embed_tokens',output='lm_head',
)YUAN_KEYS = ModelKeys(module_list='model.layers',mlp='model.layers.{}.mlp',down_proj='model.layers.{}.mlp.down_proj',attention='model.layers.{}.self_attn',qk_proj='model.layers.{}.self_attn.qk_proj',o_proj='model.layers.{}.self_attn.o_proj',q_proj='model.layers.{}.self_attn.q_proj',k_proj='model.layers.{}.self_attn.k_proj',v_proj='model.layers.{}.self_attn.v_proj',embedding='model.embed_tokens',output='lm_head',
)CODEFUSE_KEYS = ModelKeys(module_list='gpt_neox.layers',mlp='gpt_neox.layers.{}.mlp',down_proj='gpt_neox.layers.{}.mlp.dense_4h_to_h',attention='gpt_neox.layers.{}.attention',o_proj='gpt_neox.layers.{}.attention.dense',qkv_proj='gpt_neox.layers.{}.attention.query_key_value',embedding='gpt_neox.embed_in',output='gpt_neox.embed_out',
)PHI2_KEYS = ModelKeys(module_list='transformer.h',mlp='transformer.h.{}.mlp',down_proj='transformer.h.{}.mlp.c_proj',attention='transformer.h.{}.mixer',o_proj='transformer.h.{}.mixer.out_proj',qkv_proj='transformer.h.{}.mixer.Wqkv',embedding='transformer.embd',output='lm_head',
)QWEN_KEYS = ModelKeys(module_list='transformer.h',mlp='transformer.h.{}.mlp',down_proj='transformer.h.{}.mlp.c_proj',attention='transformer.h.{}.attn',o_proj='transformer.h.{}.attn.c_proj',qkv_proj='transformer.h.{}.attn.c_attn',embedding='transformer.wte',output='lm_head',
)PHI3_KEYS = ModelKeys(module_list='model.layers',mlp='model.layers.{}.mlp',down_proj='model.layers.{}.mlp.down_proj',attention='model.layers.{}.self_attn',o_proj='model.layers.{}.self_attn.o_proj',qkv_proj='model.layers.{}.self_attn.qkv_proj',embedding='model.embed_tokens',output='lm_head',
)PHI3_SMALL_KEYS = ModelKeys(module_list='model.layers',mlp='model.layers.{}.mlp',down_proj='model.layers.{}.mlp.down_proj',attention='model.layers.{}.self_attn',o_proj='model.layers.{}.self_attn.dense',qkv_proj='model.layers.{}.self_attn.query_key_value',embedding='model.embed_tokens',output='lm_head',
)DEEPSEEK_V2_KEYS = ModelKeys(module_list='model.layers',mlp='model.layers.{}.mlp',down_proj='model.layers.{}.mlp.down_proj',attention='model.layers.{}.self_attn',o_proj='model.layers.{}.self_attn.o_proj',qa_proj='model.layers.{}.self_attn.q_a_proj',qb_proj='model.layers.{}.self_attn.q_b_proj',kva_proj='model.layers.{}.self_attn.kv_a_proj_with_mqa',kvb_proj='model.layers.{}.self_attn.kv_b_proj',embedding='model.embed_tokens',output='lm_head',
)

我的博客即将同步至腾讯云开发者社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support-plan?invite_code=3hiaca88ulogc

【LLM训练系列02】如何找到一个大模型Lora的target_modules

方法1：观察attention中的线性层 import numpy as np import pandas as pd from peft import PeftModel import torch import torch.nn.functional as F from torch import Tensor from transformers import AutoTokenizer, AutoModel, BitsAndBytesConfig from typ…...

编程日记 2024/11/22 0:54:54

uni-app快速入门（八）--常用内置组件（上）

uni-app提供了一套基础组件，类似HTML里的标签元素，不推荐在uni-app中使用使用div等HTML标签。在uni-app中，对应<div>的标签是view，对应<span>的是text，对应<a>的是navigator，常用uni-app…...

编程日记 2024/11/22 0:52:52

基于Amazon Bedrock：一站式多模态数据处理新体验

目录引言关于Amazon Bedrock 基础模型体验 1、进入环境 2、发现模型及快速体验 3、打开 Amazon Bedrock 控制台 4、通过 Playgrounds 体验模型 （1）文本生成 （2）图片生成关于资源清理结束语引言在云计算和人工智能…...

编程日记 2024/11/22 0:51:51

FAX动作文件优化脚本（MAX清理多余关键帧插件）

大较好，为大家介绍一个节省FBX容量的插件！只保留有用的动画轴向，其他不参与动画运动的清除！一．插件目的：： 1.我们使用的U3D引擎产生的游戏资源包容量太大，故全方位优化动画资源； 2.在max曲线编辑器内，点取轴向太过麻烦，费事，直观清除帧大大提高效率。如：二：…...

编程日记 2024/11/22 0:48:48

Chapter 2 - 16. Understanding Congestion in Fibre Channel Fabrics

Transforming an I/O Operation to FC frames A read or write I/O operation (Figure 2-28) between an initiator and a target undergoes a series of transformations before being transmitted on a Fibre Channel link. 启动程序和目标程序之间的读取或写入 I/O 操作（图…...

编程日记 2024/11/22 0:46:46

mysql数据库（六）pymysql、视图、触发器、存储过程、函数、流程控制、数据库连接池

pymysql、视图、触发器、存储过程、函数、流程控制、数据库连接池文章目录 pymysql、视图、触发器、存储过程、函数、流程控制、数据库连接池一、pymysql二、视图三、触发器四、存储过程五、函数六、流程控制七、数据库连接池一、pymysql 可以使用pip install pymysql安装py…...

编程日记 2024/11/22 0:45:45

RFdiffusion EuclideanDiffuser类解读

EuclideanDiffuser 是 RFdiffusion 中的一个关键类，专门设计用于对**三维空间中的点（如蛋白质的原子坐标）**进行扩散处理。它通过逐步向这些点添加噪音来实现扩散过程，从而为扩散模型提供输入数据，并通过逆扩散还原这些数据。 get_beta_schedule函数源代码 def get_beta…...

编程日记 2024/11/22 0:44:37

Flutter实现气泡提示框学习

前置知识点学习 GlobalKey GlobalKey 是 Flutter 中一个非常重要的概念，它用于唯一标识 widget 树中的特定 widget，并提供对该 widget 的访问。这在需要跨越 widget 树边界进行交互或在 widget 树重建时保持状态时尤其有用。 GlobalKey 的作用唯一标…...

编程日记 2024/11/22 0:42:35

vue3 路由守卫

在Vue 3中，路由守卫是一种控制和管理路由跳转的机制。它允许你在执行导航前后进行一些逻辑处理，比如权限验证、数据预取等，从而增强应用的安全性和效率。路由守卫分为几种不同的类型，每种类型的守卫都有其特定的应用场景。其实路…...

编程日记 2024/11/22 0:41:34

【MATLAB源码-第218期】基于matlab的北方苍鹰优化算法(NGO)无人机三维路径规划，输出做短路径图和适应度曲线.

操作环境： MATLAB 2022a 1、算法描述北方苍鹰优化算法（Northern Goshawk Optimization，简称NGO）是一种新兴的智能优化算法，灵感来源于北方苍鹰的捕猎行为。北方苍鹰是一种敏捷且高效的猛禽，广泛分布于北…...

编程日记 2024/11/22 0:40:33

如何控制自己玩手机的时间？两台苹果手机帮助自律

对一些人来说，被智能手机“绑架”是一件心甘情愿的事，和它相处的一天中，不必面对现实的压力，它就像个“舒适区”。这是因为在使用手机的过程中，应用程序（尤其是游戏和社交媒体应用）会不断刺激大…...

编程日记 2024/11/22 0:39:32

【java-Neo4j 5开发入门篇】-最新Java开发Neo4j

系列文章目录前言上一篇文章讲解了Neo4j的基本使用，本篇文章对Java操作Neo4j进行入门级别的阐述，方便读者快速上手对Neo4j的开发。一、开发环境与代码 1.docker 部署Neo4j #这里使用docker部署Neo4j,需要镜像加速的需要自行配置 docker run --name…...

编程日记 2024/11/22 0:37:30

Python的3D可视化库 - vedo (1)简介和模块功能概览

文章目录 1. vedo和它支持的功能简介1.1 安装vedo1.2 命令行接口1.3 导出3D文件1.4 文件格式转换 2. vedo模块功能概览2.1 绘制和渲染visual 管理可视化、对象及其属性的显示的基类plotter 3D渲染colors 定义和显示颜色dolfin FEniCS/Dolfin库的支持 2.2 图形数据管理mesh 多边…...

编程日记 2024/11/22 0:35:28

全面解析:HTML页面的加载全过程(一)--输入URL地址，与服务器建立连接

用户输入URL地址，与服务器建立连接用户在浏览器地址栏输入一个URL 浏览器开始执行以下三步操作操作：url解析、DNS查询、TCP连接第一步：URL解析什么是URL？ URL(Uniform Resource Locator，统一资源定位符)是互联网…...

编程日记 2024/11/22 0:32:25

elasticsearch的倒排索引是什么？

大家好，我是锋哥。今天分享关于【elasticsearch的倒排索引是什么？】面试题。希望对大家有帮助； elasticsearch的倒排索引是什么？ 1000道互联网大厂Java工程师精选面试题-Java资源分享网倒排索引（Inverted Index&a…...

编程日记 2024/11/22 0:30:21

Ubuntu VNC Session启动chromium和firefox报错

问题描述 VNC客户端连接到Ubuntu Server后，启动chromium和firefox时报错： $ chromium [348564:348564:1117/102143.085649:ERROR:ozone_platform_x11.cc(244)] Missing X server or $DISPLAY [348564:348564:1117/102143.085732:ERROR:env.cc(258)] Th…...

编程日记 2024/11/22 0:29:20

【Tealscale + Headscale + 自建服务器】异地组网笔记

文章目录效果为什么要用 Headscale云服务器安装 Headscale配置 config.yaml创建反向代理搭建管理 UI授权管理 UI添加互联设备参考效果首先是连接情况，双端都连接上自建的 Headscale， 手机使用移动流量，测试一下 ping 值再试试进入游戏可…...

编程日记 2024/11/22 0:22:13

C++ 编程基础（8）模版 | 8.2、函数模版

文章目录一、函数模版1、声明与定义2、模版参数3、模板的实例化3.1、隐式实例化3.2、显示实例化 4、模版的特化5、注意事项6、总结前言： C 函数模板是一种强大的特性，它允许程序员编写与类型无关的代码。通过使用模板，函数或类可以处理不同…...

编程日记 2024/11/22 0:21:12

Android Studio音频视频播放器课程设计

这个项目适合刚刚学习Android studio的初学者，实现音视频的基本播放功能，各项功能的页面都做的比较简单，特别适用于初学者，其特点在于本项目抛开了各种花里胡哨的制作，以最接近初学者的样式画面呈现，完全不…...

编程日记 2024/11/22 0:20:11

速盾：CDN是否支持屏蔽IP？

CDN（内容分发网络）是一种用于提高网站性能和可靠性的技术，通过将内容分发到距离终端用户更近的节点，减少了数据传输的延迟并提高了用户体验。在CDN中，屏蔽IP是一项重要的功能，可以帮助网站屏蔽无效或恶意请…...

编程日记 2024/11/22 0:19:09

第19节 Node.js Express 框架

Express 是一个为Node.js设计的web开发框架，它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用，和丰富的HTTP工具。使用Express可以快速地搭建一个完整功能的网站。 Expre…...

编程新知 2025/12/15 8:47:15

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子，用于处理异步操作（如数据加载）中的错误。下面我将详细解释其用途并提供代码示例。一、useAsyncError 用途处理异步错误：捕获在 loader 或 action 中发生的异步错误替…...

编程新知 2025/11/25 10:36:53

椭圆曲线密码学(ECC)

一、ECC算法概述椭圆曲线密码学（Elliptic Curve Cryptography）是基于椭圆曲线数学理论的公钥密码系统，由Neal Koblitz和Victor Miller在1985年独立提出。相比RSA，ECC在相同安全强度下密钥更短（256位ECC ≈ 3072位RSA…...

编程新知 2025/10/1 22:26:06

Leetcode 3577. Count the Number of Computer Unlocking Permutations

Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现题目链接：3577. Count the Number of Computer Unlocking Permutations 1. 解题思路这一题其实就是一个脑筋急转弯，要想要能够将所有的电脑解锁&#x…...

编程新知 2025/11/30 23:54:21

IT供电系统绝缘监测及故障定位解决方案

随着新能源的快速发展，光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域，IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选，但在长期运行中，例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...

编程新知 2025/12/15 2:28:05

浅谈不同二分算法的查找情况

二分算法原理比较简单，但是实际的算法模板却有很多，这一切都源于二分查找问题中的复杂情况和二分算法的边界处理，以下是博主对一些二分算法查找的情况分析。需要说明的是，以下二分算法都是基于有序序列为升序有序的情况&#xf…...

编程新知 2025/9/14 7:37:32

学校时钟系统，标准考场时钟系统，AI亮相2025高考，赛思时钟系统为教育公平筑起“精准防线”

2025年#高考将在近日拉开帷幕，#AI 监考一度冲上热搜。当AI深度融入高考，#时间同步不再是辅助功能，而是决定AI监考系统成败的“生命线”。 AI亮相2025高考，40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕，江西、…...

编程新知 2025/12/9 7:25:28

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

分区配置 (ptab.json) img 属性介绍： img 属性指定分区存放的 image 名称，指定的 image 名称必须是当前工程生成的 binary 。如果 binary 有多个文件，则以 proj_name:binary_name 格式指定文件名， proj_name 为工程名&…...

编程新知 2025/12/15 14:15:30

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

修改bug思路： 分别把 tabledata 和表尾相关数据 console.log() 发现更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行升级↑：async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

编程新知 2025/12/9 21:25:16

给网站添加live2d看板娘

给网站添加live2d看板娘参考文献： stevenjoezhang/live2d-widget: 把萌萌哒的看板娘抱回家 (ノ≧∇≦)ノ | Live2D widget for web platformEikanya/Live2d-model: Live2d model collectionzenghongtu/live2d-model-assets 前言网站环境如下，文章也主…...

编程新知 2025/12/7 21:13:39

方法1：观察attention中的线性层

方法2：通过bitsandbytes量化查找线性层

方法3：通过分析开源框架的源码swift

相关文章：