当前位置: 首页 > news >正文

使用 LLaMA-Factory 微调大模型

本文将介绍如下内容:

  • 一、搭建 Docker Container 环境
  • 二、配置大模型训练环境
  • 三、构建、配置数据集
  • 四、训练大模型

一、搭建 Docker Container 环境

笔者此前多篇文章说明,此处不再赘述,可参考:NGC容器中快速搭建Jupyter环境
Eg: NGC 版本为 24.09

二、配置大模型训练环境

1、下载代码
git clone https://github.com/hiyouga/LLaMA-Factory.git# 切换到此次案例的版本
git checkout c3fda5046d835ba4542d525b8d89cd12838e9f4c
2、配置训练环境
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install deepspeed==0.15.4

三、构建、配置数据集

1、构建数据集

将数据构造为如下格式的json文件:

[{"instruction": "识别并解释给定列表中的两个科学理论:细胞理论和日心说。","input": "","output": "细胞理论是生物科学的一个理论,它认为所有生命体都是由微小的基本单元——细胞所构成。"},[{"instruction": "识别并解释给定列表中的两个科学理论:细胞理论和日心说。","input": "","output": "细胞理论是生物科学的一个理论,它认为所有生命体都是由微小的基本单元——细胞所构成。这是生物学的一个基础理论,认为细胞是所有生物的基本结构和功能单位,所有的生物都是由一个或>多个细胞组成,细胞只能通过细胞分裂产生新的细胞。这一理论由薛定谔、施瓦内和雪莱于1839年首次提出。\n\n日心说是指太阳是太阳系的中心,也就是说,行星围绕太阳旋转的理论。这个理论打破了传统的
地心说观点,认为地球并不是宇宙的中心。日心说的提出者是尼古拉·哥白尼,他在16世纪初发表了他的著作《天体运行论》,阐述了太阳系行星围绕太阳运行的模型,为天文学的发展做出了巨大贡献。"},
]
2、配置数据集

vim LLaMA-Factory/data/dataset_info.json

{"dataset_merged": {"file_name": "dataset_merged.json"},"identity": {"file_name": "identity.json"},
}

四、训练大模型

1、torchrun 命令详细
--nnodes: 总共的节点(机器)数量。
--nproc_per_node: 每个节点上要使用的进程数,通常等于该节点所使用的 GPU 数。
--node_rank: 当前节点的编号,从 0 开始计数。
--master_addr: 主节点(node_rank=0)的 IP 地址或主机名。
--master_port: 用于通信的端口,确保这个端口在主节点是空闲、未被占用的。
2 、单机多卡案例

在单机多卡的场景下,nnodes 设置为 1,node_rank 为 0,master_addr 通常设为 localhost 或者 127.0.0.1,master_port 选择一个未被占用的端口(例如 12355)。

#!/bin/bash# 分布式训练参数
DISTRIBUTED_ARGS="--nnodes=1 \--node_rank=0 \--nproc_per_node=3 \--master_addr=127.0.0.1 \--master_port=12355 \
"# 设置可见的 GPU 设备,这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \--stage sft \--do_train \--deepspeed /data/njh/generate-medical-record/LLaMA-Factory/examples/deepspeed/ds_z2_config_self.json \--use_fast_tokenizer \--flash_attn auto \--model_name_or_path /nasdata/zhanjie/models/Qwen2.5-7B-Instruct \--dataset dataset_merged \--template qwen \--finetuning_type full  \--lora_dropout 0.2 \--lora_target lora \--output_dir saves/qwen2.5-7B-Instruct/epoch3_dropout2_rank4 \--overwrite_cache \--overwrite_output_dir \--warmup_steps 100 \--weight_decay 0.1 \--per_device_train_batch_size 1 \--gradient_accumulation_steps 4 \--ddp_timeout 9000 \--learning_rate 1e-5 \--lr_scheduler_type cosine \--logging_steps 1 \--cutoff_len 6000 \--save_steps 100 \--plot_loss \--num_train_epochs 1 \--bf16 True \--optim adamw_torch \--lora_rank 4 \--lora_alpha 8
说明:--nnodes=1:表示总共有1个节点(机器)。
--node_rank=0:当前节点编号为0(唯一的节点)。
--nproc_per_node=3:每个节点上启动3个进程,对应3个GPU(GPU 0, 2, 3)。
--master_addr=127.0.0.1:主节点地址为本机。
--master_port=12355:主节点通信端口。
3、多机多卡案例

在多机多卡的场景下,假设有两台机器(节点),每台机器有3个GPU。需要在每台机器上分别运行相应的 torchrun 命令,并确保主节点的 master_addr 和 master_port 在所有节点上保持一致。

  • 主节点(Node 0)
#!/bin/bash# 分布式训练参数
DISTRIBUTED_ARGS="--nnodes=2 \--node_rank=0 \--nproc_per_node=3 \--master_addr=192.168.1.1 \--master_port=12355 \
"# 设置可见的 GPU 设备,这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \--your_other_args

说明:

–nnodes=2:总共有2个节点。
–node_rank=0:当前节点为主节点(编号为0)。
–master_addr=192.168.1.1:主节点的IP地址(需替换为实际主节点IP)。
其他参数同单机多卡。

  • 从节点(Node 1)
#!/bin/bash# 分布式训练参数
DISTRIBUTED_ARGS="--nnodes=2 \--node_rank=1 \--nproc_per_node=3 \--master_addr=192.168.1.1 \--master_port=12355 \
"# 设置可见的 GPU 设备,这里选择 GPU 0, 2, 3
CUDA_VISIBLE_DEVICES=0,2,3 torchrun $DISTRIBUTED_ARGS src/train.py \--stage sft \--do_train \--deepspeed /data/njh/generate-medical-record/LLaMA-Factory/examples/deepspeed/ds_z2_config_self.json \--use_fast_tokenizer \--flash_attn auto \--model_name_or_path /nasdata/zhanjie/models/Qwen2.5-7B-Instruct \--dataset dataset_merged \--template qwen \--finetuning_type full  \--lora_dropout 0.2 \--lora_target lora \--output_dir saves/qwen2.5-7B-Instruct/epoch3_dropout2_rank4 \--overwrite_cache \--overwrite_output_dir \--warmup_steps 100 \--weight_decay 0.1 \--per_device_train_batch_size 1 \--gradient_accumulation_steps 4 \--ddp_timeout 9000 \--learning_rate 1e-5 \--lr_scheduler_type cosine \--logging_steps 1 \--cutoff_len 6000 \--save_steps 100 \--plot_loss \--num_train_epochs 1 \--bf16 True \--optim adamw_torch \--lora_rank 4 \--lora_alpha 8

说明:

–nnodes=2:总共有2个节点。
–node_rank=1:当前节点为从节点(编号为1)。
–master_addr=192.168.1.1 和 --master_port=12355:与主节点保持一致。
其他参数同单机多卡。
注意事项:

网络通信:确保所有节点之间的网络通信正常,且 master_port 在主节点上是开放且未被占用的。
同步代码和环境:所有节点上的代码和运行环境(如PyTorch版本、依赖库等)应保持一致。
数据访问:确保所有节点能够访问到训练所需的数据,数据存储路径应一致或通过网络共享。

相关文章:

使用 LLaMA-Factory 微调大模型

本文将介绍如下内容: 一、搭建 Docker Container 环境二、配置大模型训练环境三、构建、配置数据集四、训练大模型 一、搭建 Docker Container 环境 笔者此前多篇文章说明,此处不再赘述,可参考:NGC容器中快速搭建Jupyter环境 E…...

数据仓库的复用性:模型层面通用指标体系、参数化模型、版本化管理

在数据仓库设计中,复用性 是一个关键原则,它不仅能提升数据资产的使用效率,还能降低开发成本、优化系统运维。下面将从 模型层面的复用性、通用指标体系、参数化模型、版本化管理 四个方面进行详细介绍,并提供可落地的设计方案。 …...

Web APP 阶段性综述

Web APP 阶段性综述 当前,Web APP 主要应用于电脑端,常被用于部署数据分析、机器学习及深度学习等高算力需求的任务。在医学与生物信息学领域,Web APP 扮演着重要角色。在生物信息学领域,诸多工具以 Web APP 的形式呈现&#xff…...

某国际大型超市电商销售数据分析和可视化

完整源码项目包获取→点击文章末尾名片! 本作品将从人、货、场三个维度,即客户维度、产品维度、区域维度(补充时间维度与其他维度)对某国际大型超市的销售情况进行数据分析和可视化报告展示,从而为该超市在弄清用户消费…...

电子杂志制作平台哪个好

​作为一个热爱分享的人,我试过了好几个平台,终于找到了几款比较好用得电子杂志制作平台,都是操作界面很简洁,上手非常快的工具。 FLBOOK:这是一款在线制作H5电子画册软件,提供了各种类型的模板,可支持添加…...

Django Admin 实战:实现 ECS 集群批量同步功能

引言 在管理大规模 AWS ECS (Elastic Container Service) 集群时,保持本地数据库与 AWS 实际状态的同步是一项关键任务。手动更新既耗时又容易出错,因此自动化这个过程变得尤为重要。本文将介绍如何利用 Django Admin 的自定义动作功能来实现 ECS 集群的批量同步操作,从而大…...

虚拟拨号技术(GOIP|VOIP)【基于IP的语音传输转换给不法分子的境外来电披上一层外衣】: Voice over Internet Protocol

文章目录 引言I 虚拟拨号技术(GOIP|VOIP)原理特性:隐蔽性和欺骗性II “GOIP”设备原理主要功能III 基于IP的语音传输 “VOIP” (Voice over Internet Protocol)IV “断卡行动”“断卡行动”目的电信运营商为打击电诈的工作V 知识扩展虚拟号保护隐私虚拟运营商被用于拨打骚扰…...

迅为RK3576开发板Android 多屏显示

迅为iTOP-3576开发板采用瑞芯微RK3576高性能、低功耗的应用处理芯片,集成了4个Cortex-A72和4个Cortex-A53核心,以及独立的NEON协处理器。它适用于ARM PC、边缘计算、个人移动互联网设备及其他多媒体产品。 1.1 Android 多屏同显 iTOP-RK3576 开发板支持…...

cmake + vscode + mingw 开发环境配置

1.软件准备 准备如下软件: mingw64(安装完成之后检测是否有环境变量,如果没有需要配置) cmake(安装完成之后检测是否有环境变量,如果没有需要配置) vscode(安装CMake插件&#xff0…...

nginx 配置代理,根据 不同的请求头进行转发至不同的代理

解决场景:下载发票的版式文件,第三方返回的是url链接地址,但是服务是部署在内网环境,无法访问互联网进行下载。此时需要进行走反向代理出去,如果按照已有套路,就是根据不同的访问前缀,跳转不同的…...

类模板的使用方法

目录 类模板的使用方法 1.类模板语法 2.类模板和函数模板区别 3.类模板中成员函数创建时机 4.类函数对象做函数参数 5.类模板和继承 6.类模板成员函数类外实现 7.类模板分文件编写 person.hpp 实现cpp文件: 8.类模板与友元 9.类模板案例 MyArray.hpp …...

高级Python Web开发:FastAPI的前后端集成与API性能优化

高级Python Web开发:FastAPI的前后端集成与API性能优化 目录 🛠️ 前后端集成的基本原理与实践🚀 FastAPI的API设计与实现📈 API性能测试与负载测试 📊 使用Locust进行API性能测试💥 使用Apache JMeter进…...

期权懂|期权的溢价率和杠杆率有什么区别?

锦鲤三三每日分享期权知识,帮助期权新手及时有效地掌握即市趋势与新资讯! 期权的溢价率和杠杆率有什么区别? 一、定义篇 期权溢价率:这是一个细腻地描绘了期权价格与其内在价值之间微妙差异的指标。想象一下,期权价格就…...

分布式ID的实现方案

1. 什么是分布式ID ​ 对于低访问量的系统来说,无需对数据库进行分库分表,单库单表完全可以应对,但是随着系统访问量的上升,单表单库的访问压力逐渐增大,这时候就需要采用分库分表的方案,来缓解压力。 ​…...

Py之cv2:cv2(OpenCV,opencv-python)库的简介、安装、使用方法(常见函数、图像基本运算等)

1. OpenCV简介 1.1 OpenCV定义与功能 OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库。它为计算机视觉应用程序提供了一个通用的基础设施,并加速了在商业产品中使用机器感知。作为BSD许可的产品&…...

如何学习网络安全?有哪些小窍门?

学好网络安全其实没有所谓的捷径,也没有什么小窍门。 入门网络安全首先要有浓厚的学习兴趣,不然很容易就变成了从入门到放弃了。 其次要能静下心,踏踏实实的打好基础。如果你是零基础,建议从Web安全入手,课程难度相对…...

Dart语言的数据结构

Dart语言中的数据结构探讨 引言 Dart是一种现代化的编程语言,主要用于构建移动应用、Web应用和服务端应用。随着应用程序的复杂性日益增加,选择合适的数据结构显得尤为重要。数据结构不仅影响程序的性能,也影响程序的可维护性和可扩展性。本…...

TabPFN - 表格数据基础模型

文章目录 一、关于 TabPFN🌐TabPFN生态系统 二、快速入门🏁1、安装2、基本用法 三、使用技巧💡四、开发🛠️1、设置环境2、在提交之前3、运行测试 一、关于 TabPFN TabPFN是表格数据的基础模型,它优于传统方法&#x…...

AOF日志:宕机了Redis如何避免数据丢失?

文章目录 AOF 日志是如何实现的?三种写回策略日志文件太大了怎么办?AOF 重写会阻塞吗?小结每课一问 更多redis相关知识 如果有人问你:“你会把 Redis 用在什么业务场景下?”我想你大概率会说:“我会把它当作缓存使用&…...

MAC上安装Octave

1. 当前最新版Octave是9.3版本,需要把mac os系统升级到14版本(本人之前的版本是10版本) https://wiki.octave.org/Octave_for_macOS octave的历史版本参考此文档:Octave for macOS (outdated) - Octavehttps://wiki.octave.org/Oc…...

Spring Cloud AWS 实战教程:构建高可用 SQS 消息队列应用 [特殊字符]

Spring Cloud AWS 实战教程:构建高可用 SQS 消息队列应用 🚀 【免费下载链接】spring-cloud-aws The New Home for Spring Cloud AWS 项目地址: https://gitcode.com/gh_mirrors/sp/spring-cloud-aws Spring Cloud AWS 是一个强大的开源框架&…...

T型翼/尾板导向的穿浪双体船姿态控制【附代码】

✨ 长期致力于穿浪双体船、T型翼、尾板、多自由度姿态控制、舒适性评估研究工作,擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流,点击《获取方式》 (1)动态水翼升力模型与耦合运动方…...

DeepSeek系统设计辅助效能断崖式下降的3个信号,第2个90%工程师至今未察觉!

更多请点击: https://kaifayun.com 第一章:DeepSeek系统设计辅助效能断崖式下降的3个信号,第2个90%工程师至今未察觉! 当 DeepSeek 的系统设计辅助能力突然变“笨”——接口建议频繁失准、上下文感知错乱、生成代码无法通过基础编…...

Simulink中Repeating Sequence锯齿波显示恒为0解决方案

锯齿波设置如图1时,其示波器显示恒为0(如图2)。图1图2于是新建模型,只添加Repeating Sequence模块,采用原始设置发现可以正常输出锯齿波,于是调整时间参数,发现当时间设置为≥[0 0.06]时可以正常…...

终极鼠标连点器使用指南:3分钟掌握高效自动化技巧

终极鼠标连点器使用指南:3分钟掌握高效自动化技巧 【免费下载链接】MouseClick 🖱️ MouseClick 🖱️ 是一款功能强大的鼠标连点器和管理工具,采用 QT Widget 开发 ,具备跨平台兼容性 。软件界面美观 ,操作…...

【DeepSeek开源协议识别权威指南】:20年合规专家亲授3大协议陷阱与5步精准识别法

更多请点击: https://intelliparadigm.com 第一章:DeepSeek开源协议识别的底层逻辑与合规价值 DeepSeek系列模型(如DeepSeek-V2、DeepSeek-Coder)虽以“开源”名义发布,但其实际许可状态需通过结构化协议解析才能准确…...

QMCDecode终极指南:3步解锁QQ音乐加密格式,实现跨平台音乐自由

QMCDecode终极指南:3步解锁QQ音乐加密格式,实现跨平台音乐自由 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载目…...

基于ATtiny84的智能冰箱监控器:低功耗温度与门状态监测方案

1. 项目概述:一个装在树莓派盒子里的智能冰箱管家如果你家里有台老冰箱,或者对食物储存温度特别在意,总担心冰箱门没关严或者突然断电导致内部升温,那么这个自己动手做的“冰箱看门狗”项目就太适合你了。它本质上是一个高度定制化…...

告别混乱绑定!在UE5 GAS中优雅管理技能输入(基于GameplayTag)

告别混乱绑定!在UE5 GAS中优雅管理技能输入(基于GameplayTag)当你的UE5 RPG项目发展到中期,技能数量从十几个膨胀到几十个时,最痛苦的莫过于发现InputAction绑定已经变成一团乱麻。每次新增技能都要修改输入绑定逻辑&a…...

Arcmap实操:如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例

Arcmap实操:如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例 想象一下,医生通过CT扫描将人体内部结构分层呈现,而GIS中的"渔网"工具同样能对城市路网进行"切片式"分析。这种空间离散化技术&…...