当前位置: 首页 > news >正文

LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型

  上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。
对过程不感兴趣的兄弟们可以直接从第3节开始看。

1.量化方法

  重点介绍bitsandbytes、hqq和eetq这三种量化方式,它们通过将模型的权重压缩为低精度格式来减少显存占用,从而使得可以训练更大的模型,或者在有限的显存资源下运行大型模型。

  • bitsandbytes: 专注于权重量化,通过将模型权重表示为更低精度的数据类型,以减少显存占用和提升训练效率
  • hqq: 通常是一种结合了多种量化技术的方法,旨在通过多种策略进一步压缩模型的存储需求,并保持训练过程的性能。
  • eetq: 专注于在训练阶段有效地进行量化,以减少显存占用,并可能采用某些自适应的量化策略来平衡效率和效果。

1.1 在配置文件中的位置:

model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
quantization_bit: 4
quantization_method: bitsandbytes  # choices: [bitsandbytes (4/8), hqq (2/3/4/5/6/8), eetq (8)]

如上述配置文件所示,量化模型方法有:bitsandbytes、hqq和eetq三种方式,其中bitsandbytes(4/8)是指支持4bit和8bit量化,其他两种同理。

2.微调Meta-Llama-3-8B-Instruct

## llama3_lora_sft_otfq.yaml 修改部分
model_name_or_path: models/Meta-Llama-3-8B-Instruct/
quantization_bit: 2
quantization_method: hqq   # choices: [bitsandbytes (4/8), hqq (2/3/4/5/6/8), eetq (8)]
trust_remote_code: true
...
### method
...
lora_target: q_proj,v_proj

运行训练命令:

llamafactory-cli train examples/train_qlora/llama3_lora_sft_otfq.yaml

通过修改lora_target,只微调q_proj和v_proj的方式减少显存使用,成功运行,没有OOM,但显存也是几乎全满了,与官网对照表还是对不上。

3.微调Llama-2-13b-chat-hf模型

抱着菜就多练,不会就问的态度,直接在github上问,结果还真得到了答复,问题地址:issue
在这里插入图片描述
得到的回复也很简单,微调方式有问题
在这里插入图片描述
于是我去官网上去找fsdp + qlora的微调方式,还真让我找到了!!
在这里插入图片描述
于是我兴致冲冲的去按照官方命令微调:

bash examples/extras/fsdp_qlora/train.sh# train.sh
#CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch \
#   --config_file examples/accelerate/fsdp_config.yaml \
#    src/train.py examples/extras/fsdp_qlora/llama3_lora_sft.yaml

注意: 运行之前要修改一下fsdp_config.yamlllama3_lora_sft.yaml,其中fsdp_config.yaml第19行num_processes为你GPU数量,llama3_lora_sft.yaml的配置就不赘述。

运行结果显存使用显著下降,但是RAM使用量提高,如图所示:
在这里插入图片描述

总结

  • PyTorch的全切片数据并行技术FSDP能让我们处理更多更大的模型,这是微调13b模型成功的关键
  • fsdp_config.yaml中的FULL_SHARD将模型参数、梯度和优化器状态都切分到不同的GPU上,类似ZeRO-3。
  • 使用fsdp + qlora微调方法微调32B模型依旧OOM,后续会继续探索DeepSpeed方式来微调32B模型,验证其可行性。

相关文章:

LLaMA-Factory|微调大语言模型初探索(4),64G显存微调13b模型

上篇文章记录了使用lora微调deepseek-7b,微调成功,但是微调llama3-8b显存爆炸,这次尝试使用qlora微调HQQ方式量化,微调更大参数体量的大语言模型,记录下来微调过程,仅供参考。 对过程不感兴趣的兄弟们可以直…...

常用高压缩率的视频容器格式,并进行大比例压缩

常用的高压缩率视频容器格式,包括*.mp4 、*.mkv、*.webM等。     容器格式本身并不直接决定压缩率,而是取决于容器中所使用的视频编码格式等因素。不过,在常见的视频容器格式中,一些容器在搭配特定编码格式时,通常能表现出较高的压缩效率,以下是相关介绍: 1 MKV格式 …...

代码编译(词法义)

1.预处理 (Preprocessing): 在这个阶段,编译器会处理所有以 # 开头的指令,如 #include、#define 等。它会把头文件的内容插入到源代码中,进行宏替换等预处理操作,生成一个纯净的代码文件。 3.词法分析 (Lexical Analy…...

android,flutter 混合开发,pigeon通信,传参

文章目录 app效果native和flutter通信的基础知识1. 编解码器 一致性和完整性,安全性,性能优化2. android代码3. dart代码 1. 创建flutter_module2.修改 Android 项目的 settings.gradle,添加 Flutter module3. 在 Android app 的 build.gradl…...

at32f403a rt thread led基础bsp工程测试

1.led工程官方bsp使用 导出一个独立的AT32F403A的BSP工程 下载RTT源代码 gitee更新较慢 https://gitee.com/rtthread/rt-thread github版本更新最新 https://github.com/RT-Thread/rt-thread. 切换到V5.1.0分支(使用一个发布版本可以避免不必要的bug) 导出一个独立的AT32BSP…...

DeepSeek写贪吃蛇手机小游戏

DeepSeek写贪吃蛇手机小游戏 提问 根据提的要求,让DeepSeek整理的需求,进行提问,内容如下: 请生成一个包含以下功能的可运行移动端贪吃蛇H5文件: 要求 蛇和食物红点要清晰,不超过屏幕外 下方有暂停和重新…...

【好玩的工具和命令】 ASCII 艺术生成工具: figlet

figlet 是一款用于生成 ASCII 艺术文字的工具,支持多种字体样式。它能将输入的文本转换为由字符组成的大型字母图案,广泛应用于命令行环境下的标题展示或装饰。 核心功能 生成 ASCII 文字艺术:将普通文本转化为大号的、由字符构成的艺术字…...

工具--安川伺服故障代码

上传一下安川伺服故障代码,后续结合实际维修经验,逐个整理分析,绝对超出手册经验 故障代码 故障描述 a.020/a.02 用户参数和数检查异常 1 a.021/a.02 参数格式化异常 1 a.022/a.02 系统参数和数检查异常 1 a.023/a.02 参数密码异常…...

车载软件架构 --- OEM主机厂如何打入软件供应商内部?

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 简单,单纯,喜欢独处,独来独往,不易合同频过着接地气的生活,除了生存温饱问题之外,没有什么过多的欲望,表面看起来很高冷,内心热情,如果你身…...

AI 编程助手 cursor的系统提示词 prompt

# Role 你是一名极其优秀具有10年经验的产品经理和精通java编程语言的架构师。与你交流的用户是不懂代码的初中生,不善于表达产品和代码需求。你的工作对用户来说非常重要,完成后将获得10000美元奖励。 # Goal 你的目标是帮助用户以他容易理解的…...

Matlab写入点云数据到Rosbag

最近有需要读取一个点云并做处理后,重新写回rosbag。网上有很多读取的教程,但没有写入。自己写入时也遇到了很多麻烦,踩了一堆坑进行记录。 1. rosbag中一个lidar的msg有哪些信息? 通过如下代码,先读取一个rosbag的l…...

业务流程相关的权威认证和培训有哪些

业务流程的认证和培训种类繁多,旨在帮助专业人士掌握业务流程管理 (BPM) 的知识和技能,从而提升个人职业发展和组织运营效率。下面分别介绍: 一、 业务流程认证和培训的种类 业务流程的认证和培训可以大致分为以下几类,涵盖了不…...

基于Spring Boot的兴顺物流管理系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导,欢迎高校老师/同行前辈交流合作✌。 技术范围:SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容:…...

【算法系列】荷兰国旗问题:三指针法原地排序

一、题目(leetcode75 颜色分类 --三分数组) 二、思路 算法核心:三指针分治策略 该问题被称为“荷兰国旗问题”(Dutch National Flag Problem),由计算机科学家Edsger Dijkstra提出。其核心思想是通过三个指针将数组划分为三个区…...

DeepSeek R1本地+私有云版医疗AI部署开发成功案例技术剖析

1. 引言 1.1 研究背景与意义 随着科技的飞速发展,人工智能(AI)在医疗领域的应用正逐渐成为推动医疗行业变革的重要力量。近年来,医疗 AI 取得了显著的进展,从疾病诊断、药物研发到医疗管理等各个环节,AI 技术都展现出了巨大的潜力。它能够处理和分析海量的医疗数据,为…...

ARM64 Trust Firmware [五]

本章介绍 ATF 中的 Runtime Service 是如何定义和被调用的。 要了解 SMC&#xff0c;必须从 SMC 指令本身开始&#xff0c;其指令如下图&#xff1a; 指令格式为&#xff1a;SMC #<imm>&#xff0c;从官方文档了解到该指令只能在 EL1 以及更高的异常等级上调用&#xff…...

rkipc main.c 中 rk_param_init函数分析

rk_param_init函数 这个函数是用来读取配置文件进行参数配置 这个函数在 luckfox-pico/project/app/rk_smart_door/smart_door/common/uvc/param/param.c 中 这个函数在main函数中被调用 //通过-c 配置文件路径 把配置文件传进来 case c:rkipc_ini_path_ optarg;//调用&am…...

正确清理C盘空间

一.系统清理 正确清理C盘空间主要是删除不需要的文件和应用程序&#xff0c;以释放磁盘空间。以下是一些常用的方法&#xff1a; 删除临时文件&#xff1a;在Windows搜索框中输入“%temp%”&#xff0c;打开临时文件夹&#xff0c;将其中的文件全部删除。 清理回收站&#xf…...

http代理IP怎么实现?如何解决代理IP访问不了问题?

HTTP代理是一种网络服务&#xff0c;它充当客户端和目标服务器之间的中介。当客户端发送请求时&#xff0c;请求首先发送到代理服务器&#xff0c;然后由代理服务器转发到目标服务器。同样&#xff0c;目标服务器的响应也会先发送到代理服务器&#xff0c;再由代理服务器返回给…...

【Gin-Web】Bluebell社区项目梳理5:投票功能分析与实现

本文目录 一、投票功能投票流程实现代码redis投票 一、投票功能 投票流程 首先我们要明确&#xff0c;就是 谁&#xff08;哪个用户&#xff1a;userID&#xff09; 给 哪个帖子&#xff08;postID&#xff09; 投了 什么票&#xff08;赞成票or反对票&#xff09;。 赞成票…...

PolarFire SoC开发板解析:RISC-V与FPGA的高效融合

1. PolarFire SoC Discovery Kit开发板深度解析Microchip最新推出的PolarFire SoC Discovery Kit开发板&#xff0c;为RISC-V和FPGA开发者提供了一个高性价比的硬件平台。这款开发板基于Microchip独特的非易失性FPGA架构&#xff0c;集成了五核RISC-V处理器子系统&#xff0c;特…...

Kimi-VL-A3B-Thinking应用场景:跨境电商多语言商品图自动标注与翻译

Kimi-VL-A3B-Thinking应用场景&#xff1a;跨境电商多语言商品图自动标注与翻译 1. 引言&#xff1a;跨境电商的“看图说话”难题 如果你在跨境电商平台工作过&#xff0c;或者自己经营过海外店铺&#xff0c;一定遇到过这样的场景&#xff1a;面对成百上千张商品图片&#x…...

WeDLM-7B-Base镜像免配置:预装FlashAttention-2与Triton优化库

WeDLM-7B-Base镜像免配置&#xff1a;预装FlashAttention-2与Triton优化库 1. 模型概述 WeDLM-7B-Base是一款基于扩散机制&#xff08;Diffusion&#xff09;的高性能基座语言模型&#xff0c;拥有70亿参数。该模型采用创新的并行解码技术&#xff0c;在标准因果注意力机制下…...

BPM引擎系列(三) Flowable实战-Activiti分家后的升级版

Flowable实战——Activiti"分家"后的升级版 系列第三篇&#xff1a;Flowable 6.x Spring Boot 集成&#xff0c;看看原班人马搞出来的升级版到底强在哪。 一、Activiti 团队为啥"分家"了&#xff1f; 上篇咱们把Activiti跑起来了&#xff0c;但评论区肯定…...

CubeMX+正点原子RGB屏终极优化:如何让LTDC刷新率稳定跑满45MHz?

CubeMX与正点原子RGB屏性能优化实战&#xff1a;LTDC时钟稳定运行45MHz的完整指南 在嵌入式显示开发领域&#xff0c;正点原子的7寸1024x600 RGB屏幕凭借其出色的性价比和稳定的性能表现&#xff0c;成为众多开发者的首选。然而&#xff0c;当我们需要在高性能场景下驱动这块屏…...

MySQL高并发下如何锁住指定行_使用索引字段进行锁定条件

SELECT ... FOR UPDATE 必须走索引才能行锁&#xff0c;否则升级为表级锁&#xff1b;需确保WHERE条件命中主键或唯一索引、避免隐式转换、控制事务粒度&#xff0c;并考虑隔离级别对间隙锁的影响。SELECT ... FOR UPDATE 必须走索引&#xff0c;否则锁表MySQL 的 SELECT ... F…...

实战:自动化数据分析报表 Agent Harness

实战:搭建基于Harness的自动化数据分析报表智能Agent 一、引言 1.1 钩子:你还在每周花4小时做重复的报表吗? 我2022年在一家电商公司做数据开发的时候,见过运营组最崩溃的场景:每周一早上8点到12点,4个运营同事全员放下所有业务工作,分别从MySQL业务库、ClickHouse行为…...

终极网盘直链下载助手:8大平台满速下载的完整指南

终极网盘直链下载助手&#xff1a;8大平台满速下载的完整指南 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 &#xff0c;支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘…...

adb 实战:精准识别安卓设备与 APK 的 CPU 架构(从基础查询到多设备管理)

1. 为什么需要精准识别CPU架构&#xff1f; 第一次给不同型号的安卓设备打包APK时&#xff0c;我就被CPU架构问题坑惨了。明明在模拟器上运行良好的应用&#xff0c;安装到测试机上直接闪退。后来才发现是没正确配置ABI过滤&#xff0c;导致应用包体臃肿不说&#xff0c;还出现…...

从零部署到QPS 12,800:EF Core 10 + Azure AI Search向量管道搭建,附可审计的迁移Checklist

第一章&#xff1a;EF Core 10 向量搜索扩展的演进与定位EF Core 10 并未原生内置向量搜索能力&#xff0c;但其可扩展性架构为第三方向量搜索集成提供了坚实基础。随着 AI 应用对语义检索需求激增&#xff0c;社区与厂商开始围绕 EF Core 构建轻量、数据库感知的向量搜索扩展—…...