使用 LLaMA-Factory 微调大模型
本文将介绍如下内容:
- 一、搭建 Docker Container 环境
- 二、配置大模型训练环境
- 三、构建、配置数据集
- 四、训练大模型
一、搭建 Docker Container 环境
笔者此前多篇文章说明,此处不再赘述,可参考:NGC容器中快速搭建Jupyter环境
Eg: NGC 版本为 24.09
二、配置大模型训练环境
1、下载代码
git clone https://github.com/hiyouga/LLaMA-Factory.git# 切换到此次案例的版本
git checkout c3fda5046d835ba4542d525b8d89cd12838e9f4c
2、配置训练环境
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install deepspeed==0.15.4
三、构建、配置数据集
1、构建数据集
将数据构造为如下格式的json文件:
[{"instruction": "识别并解释给定列表中的两个科学理论:细胞理论和日心说。","input": "","output": "细胞理论是生物科学的一个理论,它认为所有生命体都是由微小的基本单元——细胞所构成。"},[{"instruction": "识别并解释给定列表中的两个科学理论:细胞理论和日心说。","input": "","output": "细胞理论是生物科学的一个理论,它认为所有生命体都是由微小的基本单元——细胞所构成。这是生物学的一个基础理论,认为细胞是所有生物的基本结构和功能单位,所有的生物都是由一个或>多个细胞组成,细胞只能通过细胞分裂产生新的细胞。这一理论由薛定谔、施瓦内和雪莱于1839年首次提出。\n\n日心说是指太阳是太阳系的中心,也就是说,行星围绕太阳旋转的理论。这个理论打破了传统的
地心说观点,认为地球并不是宇宙的中心。日心说的提出者是尼古拉·哥白尼,他在16世纪初发表了他的著作《天体运行论》,阐述了太阳系行星围绕太阳运行的模型,为天文学的发展做出了巨大贡献。"},
]
2、配置数据集
vim LLaMA-Factory/data/dataset_info.json
{"dataset_merged": {"file_name": "dataset_merged.json"},"identity": {"file_name": "identity.json"},
}
四、训练大模型
1、torchrun 命令详细
--nnodes: 总共的节点(机器)数量。
--nproc_per_node: 每个节点上要使用的进程数,通常等于该节点所使用的 GPU 数。
--node_rank: 当前节点的编号,从 0 开始计数。
--master_addr: 主节点(node_rank=0)的 IP 地址或主机名。
--master_port: 用于通信的端口,确保这个端口在主节点是空闲、未被占用的。
2 、单机多卡案例
在单机多卡的场景下,nnodes 设置为 1,node_rank 为 0,master_addr 通常设为 localhost 或者 127.0.0.1,master_port 选择一个未被占用的端口(例如 12355)。
#!/bin/bash# 分布式训练参数
DISTRIBUTED_ARGS="--nnodes=1 \--node_rank=0 \--nproc_per_node=3 \--master_addr=127.0.0.1 \--master_port=12355 \
"# 设置可见的 GPU 设备,这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \--stage sft \--do_train \--deepspeed /data/njh/generate-medical-record/LLaMA-Factory/examples/deepspeed/ds_z2_config_self.json \--use_fast_tokenizer \--flash_attn auto \--model_name_or_path /nasdata/zhanjie/models/Qwen2.5-7B-Instruct \--dataset dataset_merged \--template qwen \--finetuning_type full \--lora_dropout 0.2 \--lora_target lora \--output_dir saves/qwen2.5-7B-Instruct/epoch3_dropout2_rank4 \--overwrite_cache \--overwrite_output_dir \--warmup_steps 100 \--weight_decay 0.1 \--per_device_train_batch_size 1 \--gradient_accumulation_steps 4 \--ddp_timeout 9000 \--learning_rate 1e-5 \--lr_scheduler_type cosine \--logging_steps 1 \--cutoff_len 6000 \--save_steps 100 \--plot_loss \--num_train_epochs 1 \--bf16 True \--optim adamw_torch \--lora_rank 4 \--lora_alpha 8
说明:--nnodes=1:表示总共有1个节点(机器)。
--node_rank=0:当前节点编号为0(唯一的节点)。
--nproc_per_node=3:每个节点上启动3个进程,对应3个GPU(GPU 0, 2, 3)。
--master_addr=127.0.0.1:主节点地址为本机。
--master_port=12355:主节点通信端口。
3、多机多卡案例
在多机多卡的场景下,假设有两台机器(节点),每台机器有3个GPU。需要在每台机器上分别运行相应的 torchrun 命令,并确保主节点的 master_addr 和 master_port 在所有节点上保持一致。
- 主节点(Node 0)
#!/bin/bash# 分布式训练参数
DISTRIBUTED_ARGS="--nnodes=2 \--node_rank=0 \--nproc_per_node=3 \--master_addr=192.168.1.1 \--master_port=12355 \
"# 设置可见的 GPU 设备,这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \--your_other_args
说明:
–nnodes=2:总共有2个节点。
–node_rank=0:当前节点为主节点(编号为0)。
–master_addr=192.168.1.1:主节点的IP地址(需替换为实际主节点IP)。
其他参数同单机多卡。
- 从节点(Node 1)
#!/bin/bash# 分布式训练参数
DISTRIBUTED_ARGS="--nnodes=2 \--node_rank=1 \--nproc_per_node=3 \--master_addr=192.168.1.1 \--master_port=12355 \
"# 设置可见的 GPU 设备,这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \--stage sft \--do_train \--deepspeed /data/njh/generate-medical-record/LLaMA-Factory/examples/deepspeed/ds_z2_config_self.json \--use_fast_tokenizer \--flash_attn auto \--model_name_or_path /nasdata/zhanjie/models/Qwen2.5-7B-Instruct \--dataset dataset_merged \--template qwen \--finetuning_type full \--lora_dropout 0.2 \--lora_target lora \--output_dir saves/qwen2.5-7B-Instruct/epoch3_dropout2_rank4 \--overwrite_cache \--overwrite_output_dir \--warmup_steps 100 \--weight_decay 0.1 \--per_device_train_batch_size 1 \--gradient_accumulation_steps 4 \--ddp_timeout 9000 \--learning_rate 1e-5 \--lr_scheduler_type cosine \--logging_steps 1 \--cutoff_len 6000 \--save_steps 100 \--plot_loss \--num_train_epochs 1 \--bf16 True \--optim adamw_torch \--lora_rank 4 \--lora_alpha 8
说明:
–nnodes=2:总共有2个节点。
–node_rank=1:当前节点为从节点(编号为1)。
–master_addr=192.168.1.1 和 --master_port=12355:与主节点保持一致。
其他参数同单机多卡。
注意事项:
网络通信:确保所有节点之间的网络通信正常,且 master_port 在主节点上是开放且未被占用的。
同步代码和环境:所有节点上的代码和运行环境(如PyTorch版本、依赖库等)应保持一致。
数据访问:确保所有节点能够访问到训练所需的数据,数据存储路径应一致或通过网络共享。
相关文章:
使用 LLaMA-Factory 微调大模型
本文将介绍如下内容: 一、搭建 Docker Container 环境二、配置大模型训练环境三、构建、配置数据集四、训练大模型 一、搭建 Docker Container 环境 笔者此前多篇文章说明,此处不再赘述,可参考:NGC容器中快速搭建Jupyter环境 E…...
数据仓库的复用性:模型层面通用指标体系、参数化模型、版本化管理
在数据仓库设计中,复用性 是一个关键原则,它不仅能提升数据资产的使用效率,还能降低开发成本、优化系统运维。下面将从 模型层面的复用性、通用指标体系、参数化模型、版本化管理 四个方面进行详细介绍,并提供可落地的设计方案。 …...
Web APP 阶段性综述
Web APP 阶段性综述 当前,Web APP 主要应用于电脑端,常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域,Web APP 扮演着重要角色。在生物信息学领域,诸多工具以 Web APP 的形式呈现ÿ…...
某国际大型超市电商销售数据分析和可视化
完整源码项目包获取→点击文章末尾名片! 本作品将从人、货、场三个维度,即客户维度、产品维度、区域维度(补充时间维度与其他维度)对某国际大型超市的销售情况进行数据分析和可视化报告展示,从而为该超市在弄清用户消费…...
电子杂志制作平台哪个好
作为一个热爱分享的人,我试过了好几个平台,终于找到了几款比较好用得电子杂志制作平台,都是操作界面很简洁,上手非常快的工具。 FLBOOK:这是一款在线制作H5电子画册软件,提供了各种类型的模板,可支持添加…...
Django Admin 实战:实现 ECS 集群批量同步功能
引言 在管理大规模 AWS ECS (Elastic Container Service) 集群时,保持本地数据库与 AWS 实际状态的同步是一项关键任务。手动更新既耗时又容易出错,因此自动化这个过程变得尤为重要。本文将介绍如何利用 Django Admin 的自定义动作功能来实现 ECS 集群的批量同步操作,从而大…...
虚拟拨号技术(GOIP|VOIP)【基于IP的语音传输转换给不法分子的境外来电披上一层外衣】: Voice over Internet Protocol
文章目录 引言I 虚拟拨号技术(GOIP|VOIP)原理特性:隐蔽性和欺骗性II “GOIP”设备原理主要功能III 基于IP的语音传输 “VOIP” (Voice over Internet Protocol)IV “断卡行动”“断卡行动”目的电信运营商为打击电诈的工作V 知识扩展虚拟号保护隐私虚拟运营商被用于拨打骚扰…...
迅为RK3576开发板Android 多屏显示
迅为iTOP-3576开发板采用瑞芯微RK3576高性能、低功耗的应用处理芯片,集成了4个Cortex-A72和4个Cortex-A53核心,以及独立的NEON协处理器。它适用于ARM PC、边缘计算、个人移动互联网设备及其他多媒体产品。 1.1 Android 多屏同显 iTOP-RK3576 开发板支持…...
cmake + vscode + mingw 开发环境配置
1.软件准备 准备如下软件: mingw64(安装完成之后检测是否有环境变量,如果没有需要配置) cmake(安装完成之后检测是否有环境变量,如果没有需要配置) vscode(安装CMake插件࿰…...
nginx 配置代理,根据 不同的请求头进行转发至不同的代理
解决场景:下载发票的版式文件,第三方返回的是url链接地址,但是服务是部署在内网环境,无法访问互联网进行下载。此时需要进行走反向代理出去,如果按照已有套路,就是根据不同的访问前缀,跳转不同的…...
类模板的使用方法
目录 类模板的使用方法 1.类模板语法 2.类模板和函数模板区别 3.类模板中成员函数创建时机 4.类函数对象做函数参数 5.类模板和继承 6.类模板成员函数类外实现 7.类模板分文件编写 person.hpp 实现cpp文件: 8.类模板与友元 9.类模板案例 MyArray.hpp …...
高级Python Web开发:FastAPI的前后端集成与API性能优化
高级Python Web开发:FastAPI的前后端集成与API性能优化 目录 🛠️ 前后端集成的基本原理与实践🚀 FastAPI的API设计与实现📈 API性能测试与负载测试 📊 使用Locust进行API性能测试💥 使用Apache JMeter进…...
期权懂|期权的溢价率和杠杆率有什么区别?
锦鲤三三每日分享期权知识,帮助期权新手及时有效地掌握即市趋势与新资讯! 期权的溢价率和杠杆率有什么区别? 一、定义篇 期权溢价率:这是一个细腻地描绘了期权价格与其内在价值之间微妙差异的指标。想象一下,期权价格就…...
分布式ID的实现方案
1. 什么是分布式ID 对于低访问量的系统来说,无需对数据库进行分库分表,单库单表完全可以应对,但是随着系统访问量的上升,单表单库的访问压力逐渐增大,这时候就需要采用分库分表的方案,来缓解压力。 …...
Py之cv2:cv2(OpenCV,opencv-python)库的简介、安装、使用方法(常见函数、图像基本运算等)
1. OpenCV简介 1.1 OpenCV定义与功能 OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库。它为计算机视觉应用程序提供了一个通用的基础设施,并加速了在商业产品中使用机器感知。作为BSD许可的产品&…...
如何学习网络安全?有哪些小窍门?
学好网络安全其实没有所谓的捷径,也没有什么小窍门。 入门网络安全首先要有浓厚的学习兴趣,不然很容易就变成了从入门到放弃了。 其次要能静下心,踏踏实实的打好基础。如果你是零基础,建议从Web安全入手,课程难度相对…...
Dart语言的数据结构
Dart语言中的数据结构探讨 引言 Dart是一种现代化的编程语言,主要用于构建移动应用、Web应用和服务端应用。随着应用程序的复杂性日益增加,选择合适的数据结构显得尤为重要。数据结构不仅影响程序的性能,也影响程序的可维护性和可扩展性。本…...
TabPFN - 表格数据基础模型
文章目录 一、关于 TabPFN🌐TabPFN生态系统 二、快速入门🏁1、安装2、基本用法 三、使用技巧💡四、开发🛠️1、设置环境2、在提交之前3、运行测试 一、关于 TabPFN TabPFN是表格数据的基础模型,它优于传统方法&#x…...
AOF日志:宕机了Redis如何避免数据丢失?
文章目录 AOF 日志是如何实现的?三种写回策略日志文件太大了怎么办?AOF 重写会阻塞吗?小结每课一问 更多redis相关知识 如果有人问你:“你会把 Redis 用在什么业务场景下?”我想你大概率会说:“我会把它当作缓存使用&…...
MAC上安装Octave
1. 当前最新版Octave是9.3版本,需要把mac os系统升级到14版本(本人之前的版本是10版本) https://wiki.octave.org/Octave_for_macOS octave的历史版本参考此文档:Octave for macOS (outdated) - Octavehttps://wiki.octave.org/Oc…...
Vue记事本应用实现教程
文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展:显示创建时间8. 功能扩展:记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...
无法与IP建立连接,未能下载VSCode服务器
如题,在远程连接服务器的时候突然遇到了这个提示。 查阅了一圈,发现是VSCode版本自动更新惹的祸!!! 在VSCode的帮助->关于这里发现前几天VSCode自动更新了,我的版本号变成了1.100.3 才导致了远程连接出…...
【Web 进阶篇】优雅的接口设计:统一响应、全局异常处理与参数校验
系列回顾: 在上一篇中,我们成功地为应用集成了数据库,并使用 Spring Data JPA 实现了基本的 CRUD API。我们的应用现在能“记忆”数据了!但是,如果你仔细审视那些 API,会发现它们还很“粗糙”:有…...
【配置 YOLOX 用于按目录分类的图片数据集】
现在的图标点选越来越多,如何一步解决,采用 YOLOX 目标检测模式则可以轻松解决 要在 YOLOX 中使用按目录分类的图片数据集(每个目录代表一个类别,目录下是该类别的所有图片),你需要进行以下配置步骤&#x…...
NLP学习路线图(二十三):长短期记忆网络(LSTM)
在自然语言处理(NLP)领域,我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感,还是实现语言的翻译,都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心,而循环神经网络(RNN) 曾被视为…...
大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计
随着大语言模型(LLM)参数规模的增长,推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长,而KV缓存的内存消耗可能高达数十GB(例如Llama2-7B处理100K token时需50GB内存&a…...
九天毕昇深度学习平台 | 如何安装库?
pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子: 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...
用机器学习破解新能源领域的“弃风”难题
音乐发烧友深有体会,玩音乐的本质就是玩电网。火电声音偏暖,水电偏冷,风电偏空旷。至于太阳能发的电,则略显朦胧和单薄。 不知你是否有感觉,近两年家里的音响声音越来越冷,听起来越来越单薄? —…...
抽象类和接口(全)
一、抽象类 1.概念:如果⼀个类中没有包含⾜够的信息来描绘⼀个具体的对象,这样的类就是抽象类。 像是没有实际⼯作的⽅法,我们可以把它设计成⼀个抽象⽅法,包含抽象⽅法的类我们称为抽象类。 2.语法 在Java中,⼀个类如果被 abs…...
Vue3 PC端 UI组件库我更推荐Naive UI
一、Vue3生态现状与UI库选择的重要性 随着Vue3的稳定发布和Composition API的广泛采用,前端开发者面临着UI组件库的重新选择。一个好的UI库不仅能提升开发效率,还能确保项目的长期可维护性。本文将对比三大主流Vue3 UI库(Naive UI、Element …...
