当前位置：首页 > news >正文

LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 视频微调(LoRA) 教程(3)

news 2026/2/9 8:02:04

欢迎关注我的CSDN：https://spike.blog.csdn.net/
本文地址：https://spike.blog.csdn.net/article/details/142882496

免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。

Introduction

SWIFT 即 Scalable lightWeight Infrastructure for FineTuning (可扩展轻量级微调基础设施)，是高效、轻量级的模型微调和推理框架，支持大语言模型(LLM) 和多模态大型模型(MLLM) 的训练、推理、评估和部署。可以将 SWIFT 框架直接应用到研究和生产环境中，实现从模型训练和评估到应用的完整工作流程。

GitHub: modelscope/ms-swift

1. 数据集

测试数据集，视频文本数据集，即：

VideoChatGPT

示例：

Row 0: {'video_name': 'v_p1QGn0IzfW0', 'question_1': 'What equipment is visible in the gym where the boy is doing his routine?', 'question_2': 'None', 'answer': 'There is other equipment visible in the gym like a high bar and still rings.'}

视频：

测试命令：

NFRAMES=24 MAX_PIXELS=100352 CUDA_VISIBLE_DEVICES=0 swift infer --model_type qwen2-vl-7b-instruct
<video>What equipment is visible in the gym where the boy is doing his routine?
[your path]/modelscope_models/media_resources/v_p1QGn0IzfW0.mp4
# 模型输出
The video shows a red and white pole, a red and white bar, and a red and white pole in the gym where the boy is doing his routine.
# Fine-Tuning 模型输出 (明显更优)
Other equipment visible in the gym includes a high bar, still rings, and a platform with foam mats on the floor.

video_chatgpt 数据集处理函数：

def _preprocess_video_chatgpt(dataset: DATASET_TYPE) -> DATASET_TYPE:url = 'https://modelscope.cn/datasets/swift/VideoChatGPT/resolve/master/videos.zip'local_dir = MediaCache.download(url, 'video_chatgpt')local_dir = os.path.join(local_dir, 'Test_Videos')# only `.mp4`mp4_set = [file[:-4] for file in os.listdir(local_dir) if file.endswith('mp4')]def _process(d):if d['video_name'] not in mp4_set:return {'query': None, 'response': None, 'videos': None}return {'query': d['question'] or d['question_1'] or d['question_2'],'response': d['answer'],'videos': [os.path.join(local_dir, f"{d['video_name']}.mp4")]}return dataset.map(_process).filter(lambda row: row['query'] is not None)

支持提前使用 ModelScope 命令下载 VideoChatGPT 数据集，即：

modelscope download --dataset swift/VideoChatGPT --local_dir swift/VideoChatGPT

复制到 ModelScope 的缓存目录：MODELSCOPE_CACHE，缓存位置如下：

[your folder]/modelscope_models/media_resources/video_chatgpt

需要进行重命名 VideoChatGPT -> video_chatgpt，同时，提前解压视频文件 videos.zip -> Test_Videos，这样就可以直接使用数据集：

--dataset video-chatgpt

2. 微调

视频描述任务，指令微调的训练脚本，如下：

NFRAMES 使用的视频帧数
MAX_PIXELS 最大像素数量，100352 = 1024x98
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 NPROC_PER_NODE=8，多卡参数
--dataset video-chatgpt 数据集

即：

NFRAMES=24 MAX_PIXELS=100352 CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 NPROC_PER_NODE=8 nohup swift sft \
--model_type qwen2-vl-7b-instruct \
--model_id_or_path qwen/Qwen2-VL-7B-Instruct \
--sft_type lora \
--dataset video-chatgpt \
--deepspeed default-zero2 \
--num_train_epochs 2 \
--batch_size 2 \
--eval_steps 100 \
--save_steps 100 \
> nohup.video-chatgpt.out &

训练日志：

Train: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 398/398 [4:09:59<00:00, 21.84s/it]
{'eval_loss': 1.29713297, 'eval_acc': 0.63649852, 'eval_runtime': 83.265, 'eval_samples_per_second': 0.36, 'eval_steps_per_second': 0.024, 'epoch': 2.0, 'global_step/max_steps': '398/398', 'percentage': '100.00%', 'elapsed_time': '4h 11m 22s', 'remaining_time': '0s'}
Val: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [00:02<00:00,  1.47s/it]
[INFO:swift] Saving model checkpoint to [your path]/llm/ms-swift/output/qwen2-vl-7b-instruct/v18-20241013-065323/checkpoint-398
{'train_runtime': 15092.9517, 'train_samples_per_second': 0.421, 'train_steps_per_second': 0.026, 'train_loss': 1.21231406, 'epoch': 2.0, 'global_step/max_steps': '398/398', 'percentage': '100.00%', 'elapsed_time': '4h 11m 32s', 'remaining_time': '0s'}
Train: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 398/398 [4:11:32<00:00, 37.92s/it]
[INFO:swift] last_model_checkpoint: [your path]/llm/ms-swift/output/qwen2-vl-7b-instruct/v18-20241013-065323/checkpoint-398
[INFO:swift] best_model_checkpoint: [your path]/llm/ms-swift/output/qwen2-vl-7b-instruct/v18-20241013-065323/checkpoint-398
[INFO:swift] images_dir: [your path]/llm/ms-swift/output/qwen2-vl-7b-instruct/v18-20241013-065323/images
[INFO:swift] End time of running main: 2024-10-13 11:15:43.850041

训练输出：

[your path]/llm/ms-swift/output/qwen2-vl-7b-instruct/v18-20241013-065323/

TensorBoard 可视化模型输出：

tensorboard --logdir="runs" --host=0.0.0.0 --port=6006

训练 Loss：

Loss

验证集 Loss：

Loss
GPU 占用 (53.4G)：

GPU

合并 LoRA 模型：

CUDA_VISIBLE_DEVICES=0,1,2 swift infer \
--ckpt_dir [your path]/llm/ms-swift/output/qwen2-vl-7b-instruct/v18-20241013-065323/checkpoint-398/ \
--merge_lora true
# --load_dataset_config true
# 直接评估模型

使用 LoRA 模型：

NFRAMES=24 MAX_PIXELS=100352 CUDA_VISIBLE_DEVICES=0,1,2 swift infer --ckpt_dir [your path]/llm/ms-swift/output/qwen2-vl-7b-instruct/v18-20241013-065323/checkpoint-398-merged/

LLM - 配置 ModelScope SWIFT 测试 Qwen2-VL 视频微调(LoRA) 教程(3)

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/142882496 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 SWIFT …...

编程日记 2024/10/14 14:27:44

jmeter实现SSL双向验证

前提：预先了解：SSL单向/双向认证详解握手请求以及tomcat配置https请求的请到以下网址了解Java nginx https 双向认证 der，cer文件一般是二进制格式的，只放证书，不含私钥 crt 文件可能是二进制的，也可能是文本格式的，应该以文本格式居多，功能同der/cer pem文件一般是…...

编程日记 2024/10/14 14:26:42

数据结构 ——— 单链表oj题：相交链表（链表的共节点）

目录题目要求手搓两个相交简易链表代码实现题目要求两个单链表的头节点 headA 和 headB ，请找出并返回两个单链表相交的起始节点，如果两个链表不存在相交节点，则返回 NULL 手搓两个相交简易链表代码演示： struct Lis…...

编程日记 2024/10/14 14:24:39

【WKWebview】WKWebView Cookie 同步

个人实测：js注入的方式更靠谱一点 ⌈iOS⌋WKWebView Cookie 同步的一种方式屈服于 Apple 的“淫威”，开发者不得不将 App 的网页容器从 UIWebView 迁移到 WKWebView。我们在享受后者带来的性能和功能提升的同时，也被诸如 Cookie 同步、截图…...

编程日记 2024/10/14 14:21:36

vue-router拦截器

在 Vue 项目中，vue-router 的路由拦截器和组件内部的路由拦截器（如 beforeRouteEnter、beforeRouteUpdate、beforeRouteLeave）虽然都能拦截路由，但它们的作用范围和使用场景有所不同。下面是二者的区别总结： 1. 全局路…...

编程日记 2024/10/14 14:20:35

SpringBoot驱动的人事管理系统：高效办公新选择

1系统概述 1.1 研究背景如今互联网高速发展，网络遍布全球，通过互联网发布的消息能快而方便的传播到世界每个角落，并且互联网上能传播的信息也很广，比如文字、图片、声音、视频等。从而，这种种好处使得互联网成了信息传…...

编程日记 2024/10/14 14:18:31

大数据干了什么？

1.大数据技术主要解决的问题是海量数据的存储和查询...

编程日记 2024/10/14 14:17:30

android studio可用下载地址

AndroidDevTools - Android开发工具 Android SDK下载 Android Studio下载 Gradle下载 SDK Tools下载在此记录一下...

编程日记 2024/10/14 14:16:29

HTTP 协议详解

HTTP 协议是 Web 的基石，它定义了客户端和服务器之间的通信规则。本文将深入地探讨 HTTP 的核心概念，包括工作原理、请求方法、状态码以及不同 HTTP 版本的演进。一、HTTP 的工作原理 HTTP 协议基于客户端-服务器模型，遵循请求-响应的循环&…...

编程日记 2024/10/14 14:14:26

【力扣 | SQL题 | 每日四题】力扣534， 574， 2314， 2298

今天的每日四题比较简单，主要其中两题可以用窗口函数轻松解决。 1. 力扣534：游戏玩法分析3 1.1 题目： 表：Activity ----------------------- | Column Name | Type | ----------------------- | player_id | int | …...

编程日记 2024/10/14 14:12:24

Gitxray：一款基于GitHub REST API的网络安全工具

关于Gitxray Gitxray是一款基于GitHub REST API的网络安全工具，支持利用公共 GitHub REST API 进行OSINT、信息安全取证和安全检测等任务。 Gitxray（Git X-Ray 的缩写）是一款多功能安全工具，专为 GitHub 存储库而设计。它可以用于…...

编程日记 2024/10/14 14:11:23

Chrome（谷歌）浏览器数据JSON格式美化 2024显示插件安装和使用

文章目录目录文章目录安装流程小结概要安装流程技术细节小结概要没有美化的格式浏览器展示美化之后效果图安装流程下载地址 https://github.com/gildas-lormeau/JSONVue 点击下载下载成功，如图所示解压文件添加成功，如图所示通过浏览器…...

编程日记 2024/10/14 14:10:18

关于相机的一些零碎知识点

热成像，英文为Thermal Imaging，例如型号500T，其实指的就是热成像500分辨率。相机的CMOS，英文为Complementary Metal Oxide Semiconductor，是数码相机的核心成像部件，是一种互补金属氧化物导体器件。 DPI…...

编程日记 2024/10/14 14:09:17

看不懂来打我！让性能提升56%的Vue3.5响应式重构

前言在Vue3.5版本中最大的改动就是响应式重构，重构后性能竟然炸裂的提升了56%。之所以重构后的响应式性能提升幅度有这么大，主要还是归功于：双向链表和版本计数。这篇文章我们来讲讲使用双向链表后，Vue内部是如何实现依赖收集和…...

编程日记 2024/10/14 14:06:12

Halcon 极坐标变换

（1）极坐标的展开：polar_trans_image_ext(Image : PolarTransImage : Row, Column, AngleStart, AngleEnd, RadiusStart, RadiusEnd, Width, Height, Interpolation : ) （2）极坐标的逆变换：polar_trans_ima…...

编程日记 2024/10/14 14:04:10

JavaScript进阶--深入面向对象

深入面向对象编程思想面向过程：多个步骤> 解决问题性能较高，适合跟硬件联系很紧密的东西，如单片机但代码维护成本高，扩展性差面向对象：问题所需功能分解为一个一个的对象（分工合作）>…...

编程日记 2024/10/14 14:03:08

Python列表专题：list与in

Python是一种强大的编程语言，其中列表（list）是最常用的数据结构之一。列表允许我们存储多个元素，并且可以方便地进行各种操作。在Python中，in运算符被广泛用于检测元素是否存在于列表中。本文将深入探讨Python列表及其与in运算符的结合使用。 1. Python列表的基础 1.1 什…...

编程日记 2024/10/14 14:01:06

利用Microsoft Entra Application Proxy在无公网IP条件下安全访问内网计算机

在现代混合办公环境中，如何让员工能够从任何地方安全访问公司内部资源成为了企业的重要挑战。传统的VPN解决方案虽然可以满足需求，但有时配置复杂，并可能涉及公网IP的问题。为了解决这个问题，Microsoft Entra（原Azure …...

编程日记 2024/10/14 14:00:04

【IEEE独立出版 | 厦门大学主办】第四届人工智能、机器人和通信国际会议（ICAIRC 2024）

【IEEE独立出版 | 厦门大学主办】第四届人工智能、机器人和通信国际会议（ICAIRC 2024） 2024 4th International Conference on Artificial Intelligence, Robotics, and Communication 2024年12月27-29日 | 中国厦门 >>往届均已成功见刊检索…...

编程日记 2024/10/14 13:59:03

C++ 内存布局 - Part5: 继承关系中构造析构与vptr的调整

这里以单继承为例，汇编采用AT&T格式，先看示例代码： #include <iostream>class Base { public:Base() {std::cout << "Base Constructor, this ptr: " << this << std::endl;printVptr();}virtual ~Ba…...

编程日记 2024/10/14 13:53:57

Spark 之入门讲解详细版（1）

1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室（Algorithms, Machines, and People Lab）开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处&…...

编程新知 2026/2/5 4:17:31

通过Wrangler CLI在worker中创建数据库和表

官方使用文档：Getting started Cloudflare D1 docs 创建数据库在命令行中执行完成之后，会在本地和远程创建数据库： npx wranglerlatest d1 create prod-d1-tutorial 在cf中就可以看到数据库： 现在，您的Cloudfla…...

编程新知 2026/1/31 6:18:08

智能在线客服平台：数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展，消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁，不仅优化了客户体验，还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用，并…...

编程新知 2026/2/4 17:51:19

生成 Git SSH 证书

🔑 1. 生成 SSH 密钥对在终端（Windows 使用 Git Bash，Mac/Linux 使用 Terminal）执行命令： ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明： -t rsa&#x…...

编程新知 2025/9/18 11:31:13

2025 后端自学UNIAPP【项目实战：旅游项目】6、我的收藏页面

代码框架视图 1、先添加一个获取收藏景点的列表请求【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口（适配服务端返回 Token） export const login async (code, avatar) > {const res await http…...

编程新知 2026/1/29 11:40:13

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

引言：为什么 Eureka 依然是存量系统的核心？ 尽管 Nacos 等新注册中心崛起，但金融、电力等保守行业仍有大量系统运行在 Eureka 上。理解其高可用设计与自我保护机制，是保障分布式系统稳定的必修课。本文将手把手带你搭建生产级 Eur…...

编程新知 2026/1/31 7:23:48

现代密码学 | 椭圆曲线密码学—附py代码

Elliptic Curve Cryptography 椭圆曲线密码学（ECC）是一种基于有限域上椭圆曲线数学特性的公钥加密技术。其核心原理涉及椭圆曲线的代数性质、离散对数问题以及有限域上的运算。椭圆曲线密码学是多种数字签名算法的基础，例如椭圆曲线数字签…...

编程新知 2026/2/6 7:30:33

工业自动化时代的精准装配革新：迁移科技3D视觉系统如何重塑机器人定位装配

AI3D视觉的工业赋能者迁移科技成立于2017年，作为行业领先的3D工业相机及视觉系统供应商，累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成，通过稳定、易用、高回报的AI3D视觉系统，为汽车、新能源、金属制造等行…...

编程新知 2025/11/25 4:59:47

微信小程序云开发平台MySQL的连接方式

注：微信小程序云开发平台指的是腾讯云开发先给结论：微信小程序云开发平台的MySQL，无法通过获取数据库连接信息的方式进行连接，连接只能通过云开发的SDK连接，具体要参考官方文档： 为什么？ 因为…...

编程新知 2026/2/1 5:24:17

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码五、报告文件爬取5.1 提…...

编程新知 2026/2/4 12:52:32

1. 数据集

2. 微调

相关文章：