LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型
上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。
对过程不感兴趣的兄弟们可以直接从第3节开始看。
1.量化方法
重点介绍bitsandbytes、hqq和eetq这三种量化方式,它们通过将模型的权重压缩为低精度格式来减少显存占用,从而使得可以训练更大的模型,或者在有限的显存资源下运行大型模型。
- bitsandbytes: 专注于权重量化,通过将模型权重表示为更低精度的数据类型,以减少显存占用和提升训练效率
- hqq: 通常是一种结合了多种量化技术的方法,旨在通过多种策略进一步压缩模型的存储需求,并保持训练过程的性能。
- eetq: 专注于在训练阶段有效地进行量化,以减少显存占用,并可能采用某些自适应的量化策略来平衡效率和效果。
1.1 在配置文件中的位置:
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
quantization_bit: 4
quantization_method: bitsandbytes # choices: [bitsandbytes (4/8), hqq (2/3/4/5/6/8), eetq (8)]
如上述配置文件所示,量化模型方法有:bitsandbytes、hqq和eetq三种方式,其中bitsandbytes(4/8)是指支持4bit和8bit量化,其他两种同理。
2.微调Meta-Llama-3-8B-Instruct
## llama3_lora_sft_otfq.yaml 修改部分
model_name_or_path: models/Meta-Llama-3-8B-Instruct/
quantization_bit: 2
quantization_method: hqq # choices: [bitsandbytes (4/8), hqq (2/3/4/5/6/8), eetq (8)]
trust_remote_code: true
...
### method
...
lora_target: q_proj,v_proj
运行训练命令:
llamafactory-cli train examples/train_qlora/llama3_lora_sft_otfq.yaml
通过修改lora_target,只微调q_proj和v_proj的方式减少显存使用,成功运行,没有OOM,但显存也是几乎全满了,与官网对照表还是对不上。
3.微调Llama-2-13b-chat-hf模型
抱着菜就多练,不会就问的态度,直接在github上问,结果还真得到了答复,问题地址:issue

得到的回复也很简单,微调方式有问题。

于是我去官网上去找fsdp + qlora的微调方式,还真让我找到了!!

于是我兴致冲冲的去按照官方命令微调:
bash examples/extras/fsdp_qlora/train.sh# train.sh
#CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch \
# --config_file examples/accelerate/fsdp_config.yaml \
# src/train.py examples/extras/fsdp_qlora/llama3_lora_sft.yaml
注意: 运行之前要修改一下fsdp_config.yaml和llama3_lora_sft.yaml,其中fsdp_config.yaml第19行num_processes为你GPU数量,llama3_lora_sft.yaml的配置就不赘述。
运行结果显存使用显著下降,但是RAM使用量提高,如图所示:

总结
- PyTorch的全切片数据并行技术
FSDP能让我们处理更多更大的模型,这是微调13b模型成功的关键。 - fsdp_config.yaml中的FULL_SHARD将模型参数、梯度和优化器状态都切分到不同的GPU上,类似ZeRO-3。
- 使用
fsdp + qlora微调方法微调32B模型依旧OOM,后续会继续探索DeepSpeed方式来微调32B模型,验证其可行性。
相关文章:
LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型
上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。 对过程不感兴趣的兄弟们可以直…...
常用高压缩率的视频容器格式,并进行大比例压缩
常用的高压缩率视频容器格式,包括*.mp4 、*.mkv、*.webM等。 容器格式本身并不直接决定压缩率,而是取决于容器中所使用的视频编码格式等因素。不过,在常见的视频容器格式中,一些容器在搭配特定编码格式时,通常能表现出较高的压缩效率,以下是相关介绍: 1 MKV格式 …...
代码编译(词法义)
1.预处理 (Preprocessing): 在这个阶段,编译器会处理所有以 # 开头的指令,如 #include、#define 等。它会把头文件的内容插入到源代码中,进行宏替换等预处理操作,生成一个纯净的代码文件。 3.词法分析 (Lexical Analy…...
android,flutter 混合开发,pigeon通信,传参
文章目录 app效果native和flutter通信的基础知识1. 编解码器 一致性和完整性,安全性,性能优化2. android代码3. dart代码 1. 创建flutter_module2.修改 Android 项目的 settings.gradle,添加 Flutter module3. 在 Android app 的 build.gradl…...
at32f403a rt thread led基础bsp工程测试
1.led工程官方bsp使用 导出一个独立的AT32F403A的BSP工程 下载RTT源代码 gitee更新较慢 https://gitee.com/rtthread/rt-thread github版本更新最新 https://github.com/RT-Thread/rt-thread. 切换到V5.1.0分支(使用一个发布版本可以避免不必要的bug) 导出一个独立的AT32BSP…...
DeepSeek写贪吃蛇手机小游戏
DeepSeek写贪吃蛇手机小游戏 提问 根据提的要求,让DeepSeek整理的需求,进行提问,内容如下: 请生成一个包含以下功能的可运行移动端贪吃蛇H5文件: 要求 蛇和食物红点要清晰,不超过屏幕外 下方有暂停和重新…...
【好玩的工具和命令】 ASCII 艺术生成工具: figlet
figlet 是一款用于生成 ASCII 艺术文字的工具,支持多种字体样式。它能将输入的文本转换为由字符组成的大型字母图案,广泛应用于命令行环境下的标题展示或装饰。 核心功能 生成 ASCII 文字艺术:将普通文本转化为大号的、由字符构成的艺术字…...
工具--安川伺服故障代码
上传一下安川伺服故障代码,后续结合实际维修经验,逐个整理分析,绝对超出手册经验 故障代码 故障描述 a.020/a.02 用户参数和数检查异常 1 a.021/a.02 参数格式化异常 1 a.022/a.02 系统参数和数检查异常 1 a.023/a.02 参数密码异常…...
车载软件架构 --- OEM主机厂如何打入软件供应商内部?
我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…...
AI 编程助手 cursor的系统提示词 prompt
# Role 你是一名极其优秀具有10年经验的产品经理和精通java编程语言的架构师。与你交流的用户是不懂代码的初中生,不善于表达产品和代码需求。你的工作对用户来说非常重要,完成后将获得10000美元奖励。 # Goal 你的目标是帮助用户以他容易理解的…...
Matlab写入点云数据到Rosbag
最近有需要读取一个点云并做处理后,重新写回rosbag。网上有很多读取的教程,但没有写入。自己写入时也遇到了很多麻烦,踩了一堆坑进行记录。 1. rosbag中一个lidar的msg有哪些信息? 通过如下代码,先读取一个rosbag的l…...
业务流程相关的权威认证和培训有哪些
业务流程的认证和培训种类繁多,旨在帮助专业人士掌握业务流程管理 (BPM) 的知识和技能,从而提升个人职业发展和组织运营效率。下面分别介绍: 一、 业务流程认证和培训的种类 业务流程的认证和培训可以大致分为以下几类,涵盖了不…...
基于Spring Boot的兴顺物流管理系统设计与实现(LW+源码+讲解)
专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…...
【算法系列】荷兰国旗问题:三指针法原地排序
一、题目(leetcode75 颜色分类 --三分数组) 二、思路 算法核心:三指针分治策略 该问题被称为“荷兰国旗问题”(Dutch National Flag Problem),由计算机科学家Edsger Dijkstra提出。其核心思想是通过三个指针将数组划分为三个区…...
DeepSeek R1本地+私有云版医疗AI部署开发成功案例技术剖析
1. 引言 1.1 研究背景与意义 随着科技的飞速发展,人工智能(AI)在医疗领域的应用正逐渐成为推动医疗行业变革的重要力量。近年来,医疗 AI 取得了显著的进展,从疾病诊断、药物研发到医疗管理等各个环节,AI 技术都展现出了巨大的潜力。它能够处理和分析海量的医疗数据,为…...
ARM64 Trust Firmware [五]
本章介绍 ATF 中的 Runtime Service 是如何定义和被调用的。 要了解 SMC,必须从 SMC 指令本身开始,其指令如下图: 指令格式为:SMC #<imm>,从官方文档了解到该指令只能在 EL1 以及更高的异常等级上调用ÿ…...
rkipc main.c 中 rk_param_init函数分析
rk_param_init函数 这个函数是用来读取配置文件进行参数配置 这个函数在 luckfox-pico/project/app/rk_smart_door/smart_door/common/uvc/param/param.c 中 这个函数在main函数中被调用 //通过-c 配置文件路径 把配置文件传进来 case c:rkipc_ini_path_ optarg;//调用&am…...
正确清理C盘空间
一.系统清理 正确清理C盘空间主要是删除不需要的文件和应用程序,以释放磁盘空间。以下是一些常用的方法: 删除临时文件:在Windows搜索框中输入“%temp%”,打开临时文件夹,将其中的文件全部删除。 清理回收站…...
http代理IP怎么实现?如何解决代理IP访问不了问题?
HTTP代理是一种网络服务,它充当客户端和目标服务器之间的中介。当客户端发送请求时,请求首先发送到代理服务器,然后由代理服务器转发到目标服务器。同样,目标服务器的响应也会先发送到代理服务器,再由代理服务器返回给…...
【Gin-Web】Bluebell社区项目梳理5:投票功能分析与实现
本文目录 一、投票功能投票流程实现代码redis投票 一、投票功能 投票流程 首先我们要明确,就是 谁(哪个用户:userID) 给 哪个帖子(postID) 投了 什么票(赞成票or反对票)。 赞成票…...
PolarFire SoC开发板解析:RISC-V与FPGA的高效融合
1. PolarFire SoC Discovery Kit开发板深度解析Microchip最新推出的PolarFire SoC Discovery Kit开发板,为RISC-V和FPGA开发者提供了一个高性价比的硬件平台。这款开发板基于Microchip独特的非易失性FPGA架构,集成了五核RISC-V处理器子系统,特…...
Kimi-VL-A3B-Thinking应用场景:跨境电商多语言商品图自动标注与翻译
Kimi-VL-A3B-Thinking应用场景:跨境电商多语言商品图自动标注与翻译 1. 引言:跨境电商的“看图说话”难题 如果你在跨境电商平台工作过,或者自己经营过海外店铺,一定遇到过这样的场景:面对成百上千张商品图片&#x…...
WeDLM-7B-Base镜像免配置:预装FlashAttention-2与Triton优化库
WeDLM-7B-Base镜像免配置:预装FlashAttention-2与Triton优化库 1. 模型概述 WeDLM-7B-Base是一款基于扩散机制(Diffusion)的高性能基座语言模型,拥有70亿参数。该模型采用创新的并行解码技术,在标准因果注意力机制下…...
BPM引擎系列(三) Flowable实战-Activiti分家后的升级版
Flowable实战——Activiti"分家"后的升级版 系列第三篇:Flowable 6.x Spring Boot 集成,看看原班人马搞出来的升级版到底强在哪。 一、Activiti 团队为啥"分家"了? 上篇咱们把Activiti跑起来了,但评论区肯定…...
CubeMX+正点原子RGB屏终极优化:如何让LTDC刷新率稳定跑满45MHz?
CubeMX与正点原子RGB屏性能优化实战:LTDC时钟稳定运行45MHz的完整指南 在嵌入式显示开发领域,正点原子的7寸1024x600 RGB屏幕凭借其出色的性价比和稳定的性能表现,成为众多开发者的首选。然而,当我们需要在高性能场景下驱动这块屏…...
MySQL高并发下如何锁住指定行_使用索引字段进行锁定条件
SELECT ... FOR UPDATE 必须走索引才能行锁,否则升级为表级锁;需确保WHERE条件命中主键或唯一索引、避免隐式转换、控制事务粒度,并考虑隔离级别对间隙锁的影响。SELECT ... FOR UPDATE 必须走索引,否则锁表MySQL 的 SELECT ... F…...
实战:自动化数据分析报表 Agent Harness
实战:搭建基于Harness的自动化数据分析报表智能Agent 一、引言 1.1 钩子:你还在每周花4小时做重复的报表吗? 我2022年在一家电商公司做数据开发的时候,见过运营组最崩溃的场景:每周一早上8点到12点,4个运营同事全员放下所有业务工作,分别从MySQL业务库、ClickHouse行为…...
终极网盘直链下载助手:8大平台满速下载的完整指南
终极网盘直链下载助手:8大平台满速下载的完整指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...
adb 实战:精准识别安卓设备与 APK 的 CPU 架构(从基础查询到多设备管理)
1. 为什么需要精准识别CPU架构? 第一次给不同型号的安卓设备打包APK时,我就被CPU架构问题坑惨了。明明在模拟器上运行良好的应用,安装到测试机上直接闪退。后来才发现是没正确配置ABI过滤,导致应用包体臃肿不说,还出现…...
从零部署到QPS 12,800:EF Core 10 + Azure AI Search向量管道搭建,附可审计的迁移Checklist
第一章:EF Core 10 向量搜索扩展的演进与定位EF Core 10 并未原生内置向量搜索能力,但其可扩展性架构为第三方向量搜索集成提供了坚实基础。随着 AI 应用对语义检索需求激增,社区与厂商开始围绕 EF Core 构建轻量、数据库感知的向量搜索扩展—…...
