当前位置：首页 > news >正文

LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集教程 (2)

news 2026/2/9 0:46:24

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/143725947

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Llama

LLaMA-Factory 是开源的大模型微调框架，用于高效地微调和部署大语言模型，支持多种预训练模型和微调算法，提供完整的工具和接口，对于预训练的模型进行定制化的训练和调整，以适应特定的应用场景。

Paper: LlamaFactory: Unified Efficient Fine-Tuning of 100+ Language Models

配置环境参考：使用 LLaMA-Factory 微调大模型环境配置与训练推理教程 (1)

1. 准备数据

测试使用的开源数据集：Qwen2-VL-History.zip

其中，在 Qwen2-VL-History.zip 中，数据集样式 dataset_info.json，即：

{"train": {"file_name": "train.json","formatting": "sharegpt","columns": {"messages": "conversations","images": "images"}}
}

其中，样本主要是图像描述，其中，一张图像可以包括多种不同形式的描述，即：

{"conversations": [{"from": "system","value": "你是一个文博工作人员，请严谨认真地回答用户提出的问题"},{"from": "human","value": "<image>给我讲讲这个东西"},{"from": "gpt","value": "# 文物名称\n神面纹玉戚\n# 时代\n新石器时代\n# 类别\n玉器\n# 收藏机构\n山西博物院\n# 尺寸\n高20.6厘米，宽13.1厘米，厚0.4厘米\n# 出土时间\n1964年\n# 出土地点\n黎城县后庄村广志山\n# 特征描述\n线刻，一侧为神人半侧面头像，头戴冠饰，披拂长发，眼眉清晰可辨；一侧为一方形台座上置神人冠饰的形象，神秘威严\n# 象征意义\n象征军事统帅权力"}],"images": ["images/instance_1579398113581395972.jpg"]
},

即 images/instance_1579398113581395972.jpg 图像：

准备数据集的 dataset_info.json 文件：

"qwen2_vl_history": {"file_name": "Qwen2-VL-History/train.json","formatting": "sharegpt","columns": {"messages": "conversations","images": "images"}
}

2. 训练模型

修改训练的 Yaml 文件 qwen2vl_lora_sft_my20241112.yaml，即：

使用本地的 Qwen2-VL-7B-Instruct 模型，或者下载 HuggingFace 模型。
dataset 数据集增加 qwen2_vl_history，来源于注册的 dataset_info.json 数据集。
image_dir 图像数据位置，与 train.json 共同组成 Image 数据。
num_train_epochs: 100.0，训练 100 个 epoch。

### model
model_name_or_path: [your path]/llm/Qwen/Qwen2-VL-7B-Instruct/### method
stage: sft
do_train: true
finetuning_type: lora
lora_target: all### dataset
dataset: qwen2_vl_history,identity  # video: mllm_video_demo
template: qwen2_vl
cutoff_len: 1024
max_samples: 100000
overwrite_cache: true
preprocessing_num_workers: 16
image_dir: [your path]/llm/LLaMA-Factory/data/Qwen2-VL-History/### output
output_dir: saves/qwen2_vl-7b/lora/sft-2
logging_steps: 10
save_steps: 500
plot_loss: true
overwrite_output_dir: true### train
per_device_train_batch_size: 2
gradient_accumulation_steps: 8
learning_rate: 1.0e-4
num_train_epochs: 100.0
lr_scheduler_type: cosine
warmup_ratio: 0.1
bf16: true
ddp_timeout: 180000000### eval
val_size: 0.1
per_device_eval_batch_size: 1
eval_strategy: steps
eval_steps: 500

max_samples 是最大的训练数据量，即：

if data_args.max_samples is not None:  # truncate datasetmax_samples = min(data_args.max_samples, len(dataset))dataset = dataset.select(range(max_samples))

训练模型：

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 llamafactory-cli train [your path]/llm/LLaMA-Factory/examples/train_lora/qwen2vl_lora_sft_my20241112.yaml

训练日志：

[INFO|tokenization_utils_base.py:2646] 2024-11-12 13:10:21,050 >> tokenizer config file saved in saves/qwen2_vl-7b/lora/sft-2/tokenizer_config.json
[INFO|tokenization_utils_base.py:2655] 2024-11-12 13:10:21,056 >> Special tokens file saved in saves/qwen2_vl-7b/lora/sft-2/special_tokens_map.json
***** train metrics *****epoch                    =        80.0total_flos               = 551442980GFtrain_loss               =      0.6243train_runtime            =  0:14:05.42train_samples_per_second =      37.377train_steps_per_second   =       0.237
Figure saved at: saves/qwen2_vl-7b/lora/sft-2/training_loss.png
[WARNING|2024-11-12 13:10:21] llamafactory.extras.ploting:162 >> No metric eval_loss to plot.
[WARNING|2024-11-12 13:10:21] llamafactory.extras.ploting:162 >> No metric eval_accuracy to plot.
[INFO|trainer.py:4117] 2024-11-12 13:10:21,387 >> 
***** Running Evaluation *****
[INFO|trainer.py:4119] 2024-11-12 13:10:21,388 >>   Num examples = 36
[INFO|trainer.py:4122] 2024-11-12 13:10:21,388 >>   Batch size = 1
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 5/5 [00:00<00:00,  8.60it/s]
***** eval metrics *****epoch                   =       80.0eval_loss               =     0.3075eval_runtime            = 0:00:00.64eval_samples_per_second =     55.459eval_steps_per_second   =      7.703

Loss 情况，注意 Loss 需要收敛，否则效果非常一般，即：
Loss
LoRA 模型训练结果：adapter_model.safetensors，模型大小是 78M

Qwen2-VL-7B 的模型大小是 3.7 + 3.6 + 3.6 + 3.6 + 1.1 = 15.6G

3. 测试效果

使用 LoRA 测试效果：

CUDA_VISIBLE_DEVICES=1 llamafactory-cli webchat \
--model_name_or_path [your path]/llm/Qwen/Qwen2-VL-7B-Instruct/ \
--adapter_name_or_path [your path]/llm/LLaMA-Factory/saves/qwen2_vl-7b/lora/sft-2/  \
--template qwen2_vl \
--finetuning_type lora

测试效果：

LLM - 使用 LLaMA-Factory 微调大模型 Qwen2-VL SFT(LoRA) 图像数据集教程 (2)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/143725947 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 LLaMA-…...

编程日记 2024/11/18 21:36:21

基于STM32设计的大棚育苗管理系统(4G+华为云IOT)_265

文章目录一、前言1.1 项目介绍【1】项目开发背景【2】设计实现的功能【3】项目硬件模块组成【4】设计意义【5】国内外研究现状【6】摘要1.2 设计思路1.3 系统功能总结1.4 开发工具的选择【1】设备端开发【2】上位机开发1.5 参考文献1.6 系统框架图1.7 系统原理图1.8 实物图1.9…...

编程日记 2024/11/18 21:35:19

深入浅出《钉钉AI》产品体验报告

1. 引言随着人工智能技术的迅猛发展，企业协同办公领域迎来了新的变革。钉钉作为阿里巴巴集团旗下的企业级通讯与协同办公平台，推出了钉钉AI助理，旨在提高工作效率，优化用户体验。本报告将对钉钉AI助理进行全面的产品体验分析&am…...

编程日记 2024/11/18 21:34:14

2020年计挑赛往届真题（C++）

因为17号要开赛了，甚至是用云端编辑器，debuff拉满，只能临时抱佛脚了各个选择题的选择项我就不标出来了，默认ABCD排，手打太麻烦了目录单选题： 1.阅读以下语句:double m0;for(int i3;i>0;i--)m1/i;…...

编程日记 2024/11/18 21:29:08

ES6进阶知识二

一、promise方法的案例 Promise对象通过new Promise()语法创建，它接受一个函数作为参数，该函数接受两个参数：resolve和reject。resolve表示异步操作成功，reject表示异步操作失败。案例：异步加载图片 const loadIma…...

编程日记 2024/11/18 21:27:06

大语言模型通用能力排行榜（2024年10月8日更新)

数据来源SuperCLUE 榜单数据为通用能力排行榜排名模型名称机构总分理科文科 Hard 使用方式发布日期 - o1-preview OpenAI 75.85 86.07 76.6 64.89 API 2024年11月8日 - Claude 3.5 Sonnet（20241022） Anthropic 70.88 82.4…...

编程日记 2024/11/18 21:26:05

第六节、Docker 方式部署指南 github 上项目 mkdocs-material

一、简介 MkDocs 可以同时编译多个 markdown 文件，形成书籍一样的文件。有多种主题供你选择，很适合项目使用。 MkDocs 是快速，简单和华丽的静态网站生成器，可以构建项目文档。文档源文件在 Markdown 编写，使用单个 YAML 配置文件配置。 MkDocs—markdown项目文档工具，…...

编程日记 2024/11/18 21:24:03

【MySQL】MySQL中的函数之JSON_REPLACE

在 MySQL 中，JSON_REPLACE() 函数用于在 JSON 文档中替换现有的值。如果指定的路径不存在，则 JSON_REPLACE() 不会修改 JSON 文档。如果需要添加新的键值对，可以使用 JSON_SET() 函数。基本语法 JSON_REPLACE(json_doc, path, val[, path,…...

编程日记 2024/11/18 21:23:01

【大数据学习 | HBASE高级】hbase的API操作

首先引入hbase的依赖 <dependencies><dependency><groupId>org.apache.hbase</groupId><artifactId>hbase-server</artifactId><version>2.4.13</version></dependency><dependency><groupId>org.slf4j<…...

编程日记 2024/11/18 21:18:56

C++(Qt)软件调试---内存泄漏分析工具MTuner （25）

C(Qt)软件调试—内存泄漏分析工具MTuner （25） 文章目录 C(Qt)软件调试---内存泄漏分析工具MTuner （25）[toc]1、概述🐜2、下载MTuner🪲3、使用MTuner分析qt程序内存泄漏🦧4、相关地址&#x1f41…...

编程日记 2024/11/18 21:13:50

python核心语法

目录核⼼语法第⼀节变量0.变量名规则1.下⾯这些都是不合法的变量名2.关键字3.变量赋值4.变量的销毁第⼆节数据类型0.数值1.字符串2.布尔值(boolean, bool)3.空值 None 核⼼语法第⼀节变量变量的定义变量就是可变的量，对于⼀些有可能会经常变化的数据&#…...

编程日记 2024/11/18 21:05:40

MATLAB用CNN-LSTM神经网络的语音情感分类深度学习研究

全文链接：https://tecdat.cn/?p38258 在语音处理领域，对语音情感的分类是一个重要的研究方向。本文将介绍如何通过结合二维卷积神经网络（2 - D CNN）和长短期记忆网络（LSTM）构建一个用于语音分类任务的网络…...

编程日记 2024/11/18 21:03:38

智能网页内容截图工具：AI助力内容提取与可视化

我们每天都会接触到大量的网页内容。然而，如何从这些内容中快速提取关键信息，并有效地进行整理和分享，一直是困扰我们的问题。本文将介绍一款我近期完成的基于AI技术的智能网页内容截图工具，它能够自动分析网页内容，截…...

编程日记 2024/11/18 21:01:37

Axure设计之文本编辑器制作教程

文本编辑器是一个功能强大的工具，允许用户在图形界面中创建和编辑文本的格式和布局，如字体样式、大小、颜色、对齐方式等，在Web端实际项目中，文本编辑器的使用非常频繁。以下是在Axure中模拟web端富文本编辑器，来制作文…...

编程日记 2024/11/18 20:58:33

【MyBatis源码】深入分析TypeHandler原理和源码

🎮 作者主页：点击 🎁 完整专栏和代码：点击 🏡 博客主页：点击文章目录原始 JDBC 存在的问题自定义 TypeHandler 实现TypeHandler详解BaseTypeHandler类TypeReference类型参考器43个类型处理器类型注册表&a…...

编程日记 2024/11/18 20:56:31

号卡分销系统，号卡系统，物联网卡系统源码安装教程

号卡分销系统，号卡系统，物联网卡系统，，实现的高性能(PHP协程、PHP微服务)、高灵活性、前后端分离(后台)，PHP 持久化框架，助力管理系统敏捷开发，长期持续更新中。主要特性基于Auth验证的权限…...

编程日记 2024/11/18 20:55:30

常用命令之LinuxOracleHivePython

1. 用户改密 passwd app_adm chage -l app_adm passwd -x 90 app_adm -> 执行操作后，app_adm用户的密码时间改为90天有效期--查看该euser用户过期信息使用chage命令 --chage的参数包括 ---m 密码可更改的最小天数。为零时代表任何时候都可以更改密码。 ---M 密码…...

编程日记 2024/11/18 20:52:27

从dos上传shell脚本文件到Linux、麒麟执行报错“/bin/bash^M:解释器错误:没有那个文件或目录”

[rootkylin tmp]#./online_update_wars-1.3.0.sh ba51:./online_update_wars-1.3.0.sh:/bin/bash^M:解释器错误:没有那个文件或目录使用scp命令上传文件到麒麟系统，执行shell脚本时报错 “/bin/bash^M:解释器错误:没有那个文件或目录” 解决方法： 执行…...

编程日记 2024/11/18 20:48:22

使用 Go 实现将任何网页转化为 PDF

在许多应用场景中，可能需要将网页内容转化为 PDF 格式，比如保存网页内容、生成报告、或者创建网站截图。使用 Go 编程语言，结合一些现有的库，可以非常方便地实现这一功能。本文将带你一步一步地介绍如何使用 Go 语言将任何网页转换…...

编程日记 2024/11/18 20:47:21

文件操作和IO

目录一. 文件预备知识 1. 硬盘 2. 文件 (1) 概念 (2) 文件路径 (3) 文件类型二. 文件操作 1. 文件系统操作 [1] File常见的构造方法 [2] File的常用方法 [3] 查看某目录下所有的目录和文件 2. 文件内容操作 (1) 打开文件 (2) 关闭文件 (3) 读文件 (4) 写文件 …...

编程日记 2024/11/18 20:46:20

深入剖析AI大模型：大模型时代的 Prompt 工程全解析

今天聊的内容，我认为是AI开发里面非常重要的内容。它在AI开发里无处不在，当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗"，或者让翻译模型 "将这段合同翻译成商务日语" 时，输入的这句话就是 Prompt。…...

编程新知 2026/2/8 20:42:53

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）　にする1，接续：名词＋にする2，接续：疑问词＋にする3，（A）は（B）にする。（2）復習：（1）复习句子（2）ために　＆　ように（３）そう（４）にする3、…...

编程新知 2025/11/20 7:52:01

MongoDB学习和应用(高效的非关系型数据库)

一丶 MongoDB简介对于社交类软件的功能，我们需要对它的功能特点进行分析： 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具： mysql：关系型数据库&am…...

编程新知 2026/1/23 10:24:30

多场景 OkHttpClient 管理器 - Android 网络通信解决方案

下面是一个完整的 Android 实现，展示如何创建和管理多个 OkHttpClient 实例，分别用于长连接、普通 HTTP 请求和文件下载场景。 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:android"http://schemas…...

编程新知 2025/12/15 1:34:37

java 实现excel文件转pdf | 无水印 | 无限制

文章目录目录文章目录前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件总结前言 java处理excel转pdf一直没找到什么好用的免费jar包工具，自己手写的难度，恐怕高级程序员花费一年的事件，也…...

编程新知 2025/11/5 4:10:42

基于Flask实现的医疗保险欺诈识别监测模型

基于Flask实现的医疗保险欺诈识别监测模型项目截图项目简介社会医疗保险是国家通过立法形式强制实施，由雇主和个人按一定比例缴纳保险费，建立社会医疗保险基金，支付雇员医疗费用的一种医疗保险制度， 它是促进社会文明和进步的…...

编程新知 2026/1/24 14:59:08

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架，相比 MapReduce 具有以下核心优势： 内存计算：数据可常驻内存，迭代计算性能提升 10-100 倍（文档段落：3-79…...

编程新知 2026/2/5 1:30:05

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2026/1/26 21:56:38

oracle与MySQL数据库之间数据同步的技术要点

Oracle与MySQL数据库之间的数据同步是一个涉及多个技术要点的复杂任务。由于Oracle和MySQL的架构差异，它们的数据同步要求既要保持数据的准确性和一致性，又要处理好性能问题。以下是一些主要的技术要点： 数据结构差异数据类型差异&#xff…...

编程新知 2026/1/11 0:40:53

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块，它提供了一个轻量级的 HTTP 服务器实现，主要用于构建基于 HTTP 的应用程序和服务。功能介绍： 主要功能 HTTP服务器功能： 支持 HTTP/1.1 协议简单的请求/响应处理模型支持 GET…...

编程新知 2025/10/17 21:16:57

1. 准备数据

2. 训练模型

3. 测试效果

相关文章：