当前位置：首页 > article >正文

小白友好：ms-swift框架快速上手，5步完成大模型微调与部署

article 2026/3/18 22:32:01

小白友好ms-swift框架快速上手5步完成大模型微调与部署你是不是也想试试微调自己的大模型但被复杂的代码和配置劝退了今天我要介绍的ms-swift框架就是专门为简化大模型微调而生的神器。它让大模型微调变得像搭积木一样简单即使你是AI新手也能在10分钟内完成一个模型的微调。ms-swift是魔搭社区推出的大模型微调框架支持600多个纯文本大模型和300多个多模态大模型。无论是Qwen、Llama、GLM这些热门模型还是图片、视频、语音等多模态模型它都能轻松搞定。最棒的是你不需要懂复杂的深度学习理论也不需要写大量代码。ms-swift提供了命令行和Web界面两种方式让微调变得超级简单。下面我就带你用5个步骤从零开始完成一个大模型的微调。1. 环境准备3分钟搞定安装开始之前你需要准备一个Linux环境推荐CentOS 7或Ubuntu 20.04以及一张NVIDIA显卡RTX 4090、A100等都可以。如果你的显卡是RTX 4000系列还需要设置两个环境变量。1.1 安装Anaconda如果你还没有安装Anaconda可以按照以下步骤操作# 下载Anaconda安装脚本 wget https://repo.anaconda.com/archive/Anaconda3-2023.09-0-Linux-x86_64.sh # 运行安装脚本 bash Anaconda3-2023.09-0-Linux-x86_64.sh # 按照提示完成安装然后激活conda环境 source ~/.bashrc1.2 创建并激活虚拟环境# 创建名为swift的Python 3.10环境 conda create --name swift python3.10 -y # 激活环境 conda activate swift1.3 安装ms-swiftms-swift提供了两种安装方式推荐使用pip直接安装最简单快捷# 使用清华镜像源加速安装 pip install ms-swift[all] -U -i https://pypi.tuna.tsinghua.edu.cn/simple如果你想要从源码安装也可以这样做# 克隆源码 git clone https://github.com/modelscope/swift.git cd swift # 安装依赖 pip install -e .[llm] -i https://pypi.tuna.tsinghua.edu.cn/simple重要提示ms-swift依赖PyTorch 1.13以上版本推荐使用PyTorch 2.0.0。如果你在安装过程中遇到问题可以先安装PyTorch# 安装PyTorch根据你的CUDA版本选择 pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu1181.4 特殊显卡设置如果你使用的是RTX 4000系列显卡如RTX 4090需要设置以下环境变量# 解决RTX 4000系列显卡的通信问题 export NCCL_IB_DISABLE1 export NCCL_P2P_DISABLE1你可以把这行命令添加到~/.bashrc文件中这样每次登录都会自动设置。2. 数据准备准备你的训练数据微调大模型就像教小孩说话你需要准备一些教材——也就是训练数据。ms-swift支持多种数据格式最常用的是ShareGPT格式。2.1 数据格式说明ShareGPT格式很简单就是一个JSON数组每个元素代表一次对话[ { system: 你是一名优秀的陪聊大师你的名字叫小蜜。, conversations: [ { from: user, value: 您和模型关系? }, { from: assistant, value: 其实我也不是无所不知但如果能和你多聊几句我情愿绞尽脑汁。 } ] }, { system: 你是一名优秀的陪聊大师你的名字叫小蜜。, conversations: [ { from: user, value: 请问一下您身份是啥? }, { from: assistant, value: 我是小蜜任何时间任何地点不论什么事只要你有疑问都可以来问我哦~ } ] } ]每个对话包含system系统提示词可选告诉模型它的角色conversations对话内容包含用户提问和模型回答2.2 创建数据集文件假设我们要微调一个聊天助手让它学会用特定的风格回答问题。我们创建一个简单的数据集# 创建数据目录 mkdir -p /data/service/swift/data # 创建数据集文件 cat /data/service/swift/data/qwen_zh_demo.json EOF [ { system: 你是一名优秀的陪聊大师你的名字叫小蜜。, conversations: [ { from: user, value: 您和模型关系? }, { from: assistant, value: 其实我也不是无所不知但如果能和你多聊几句我情愿绞尽脑汁。 } ] }, { system: 你是一名优秀的陪聊大师你的名字叫小蜜。, conversations: [ { from: user, value: 请问一下您身份是啥? }, { from: assistant, value: 我是小蜜任何时间任何地点不论什么事只要你有疑问都可以来问我哦~ } ] } ] EOF2.3 创建数据集描述文件为了让ms-swift识别我们的数据集还需要创建一个描述文件cat /data/service/swift/data/custom_dataset_info.json EOF { qwen_zh_demo: { dataset_path: /data/service/swift/data/qwen_zh_demo.json } } EOF这个文件告诉ms-swift有一个叫qwen_zh_demo的数据集它的数据在/data/service/swift/data/qwen_zh_demo.json这个位置。3. 模型下载获取预训练模型在开始微调之前你需要先下载一个基础模型。ms-swift支持从ModelScope和HuggingFace下载模型这里我们使用Qwen2-7B-Instruct模型。3.1 下载模型你可以选择从ModelScope下载国内速度快# 创建模型保存目录 mkdir -p /data/model/qwen2-7b-instruct # 使用ModelScope下载推荐国内用户 git clone https://www.modelscope.cn/qwen/Qwen2-7B-Instruct.git /data/model/qwen2-7b-instruct或者从HuggingFace下载# 使用HuggingFace下载 git clone https://huggingface.co/Qwen/Qwen2-7B-Instruct /data/model/qwen2-7b-instruct3.2 模型说明Qwen2-7B-Instruct是通义千问团队推出的7B参数指令微调模型具有以下特点强大的对话能力在多个基准测试中表现优秀代码和数学能力强得益于高质量的训练数据多语言支持支持27种语言长上下文支持32K上下文长度这个模型大小约14GB下载需要一些时间建议在网络条件好的时候进行。4. 开始微调两种方式任选ms-swift提供了两种微调方式命令行和Web界面。命令行适合熟悉Linux的用户Web界面则更加直观易用。4.1 命令行方式微调命令行方式最灵活适合批量处理和自动化。下面是一个完整的微调命令# 激活环境 conda activate swift # 设置环境变量RTX 4000系列显卡需要 export NCCL_IB_DISABLE1 export NCCL_P2P_DISABLE1 # 开始微调 CUDA_VISIBLE_DEVICES0,1 \ nohup swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --model_type qwen2-7b-instruct \ --sft_type lora \ --tuner_backend peft \ --dtype fp16 \ --output_dir /data/model/sft/qwen2-7b-instruct-sft \ --dataset qwen_zh_demo \ --custom_dataset_info /data/service/swift/data/custom_dataset_info.json \ --num_train_epochs 1 \ --max_length 2048 \ --check_dataset_strategy warning \ --lora_rank 8 \ --lora_alpha 32 \ --lora_dropout_p 0.05 \ --lora_target_modules ALL \ --gradient_checkpointing true \ --batch_size 1 \ --weight_decay 0.1 \ --learning_rate 5e-6 \ --gradient_accumulation_steps 1 \ --max_grad_norm 0.5 \ --warmup_ratio 0.03 \ --eval_steps 100 \ --save_steps 100 \ --save_total_limit 2 \ --logging_steps 100 \ --use_flash_attn false output.txt 21 关键参数说明参数说明推荐值--model_id_or_path模型路径你下载的模型位置--model_type模型类型根据模型选择如qwen2-7b-instruct--sft_type微调类型lora轻量微调或full全参数微调--output_dir输出目录微调后的模型保存位置--dataset数据集名称自定义数据集的名字--custom_dataset_info数据集描述文件告诉框架数据集在哪里--num_train_epochs训练轮数1-3轮通常足够--max_length最大长度根据模型和显存调整--lora_rankLoRA秩8-32越大效果越好但参数越多--learning_rate学习率5e-6到1e-5比较合适4.2 Web界面方式微调如果你不熟悉命令行ms-swift还提供了Web界面点点鼠标就能完成微调# 启动Web界面 conda activate swift nohup swift web-ui --host 0.0.0.0 --port 7860 webui_output.txt 21 启动后在浏览器中访问http://你的服务器IP:7860你会看到这样的界面在Web界面中你只需要选择模型类型上传或选择数据集设置训练参数点击开始训练界面会自动生成训练命令并在后台执行。你可以在界面上实时查看训练进度和日志。4.3 训练过程监控无论使用哪种方式训练开始后你都可以查看日志# 查看训练日志 tail -f output.txt你会看到类似这样的输出{loss: 1.5091, acc: 0.6034, learning_rate: 5e-06, epoch: 0.0} {loss: 1.6385, acc: 0.5922, learning_rate: 4.91e-06, epoch: 0.11}关键指标说明loss损失值越小越好acc准确率越大越好learning_rate当前学习率epoch训练进度训练完成后你会在输出目录看到保存的模型文件。5. 模型推理测试微调效果微调完成后最重要的一步就是测试效果。ms-swift提供了多种推理方式。5.1 命令行推理使用微调后的模型进行推理# 使用交互式命令行推理 CUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters /data/model/sft/qwen2-7b-instruct-sft/qwen2-7b-instruct/v0-20240901-140352/checkpoint-873 \ --stream true \ --temperature 0 \ --max_new_tokens 2048参数说明--adapters微调后的模型检查点路径--stream是否流式输出--temperature生成温度0表示确定性输出--max_new_tokens最大生成token数运行后你会进入交互模式可以输入问题测试模型请输入问题你好我是谁模型回答我是小蜜任何时间任何地点不论什么事只要你有疑问都可以来问我哦~5.2 使用vLLM加速推理如果你需要更快的推理速度可以合并LoRA权重并使用vLLM加速# 合并LoRA并使用vLLM加速 CUDA_VISIBLE_DEVICES0 \ swift infer \ --adapters /data/model/sft/qwen2-7b-instruct-sft/qwen2-7b-instruct/v0-20240901-140352/checkpoint-873 \ --stream true \ --merge_lora true \ --infer_backend vllm \ --vllm_max_model_len 8192 \ --temperature 0 \ --max_new_tokens 20485.3 Web界面推理ms-swift也提供了Web界面的推理工具# 启动推理Web界面 CUDA_VISIBLE_DEVICES0 swift app \ --model Qwen/Qwen2.5-7B-Instruct \ --stream true \ --infer_backend pt \ --max_new_tokens 2048 \ --lang zh访问http://你的服务器IP:7860你就可以在网页上直接与模型对话了。5.4 模型部署如果你想将微调后的模型部署为API服务# 部署为API服务 CUDA_VISIBLE_DEVICES0 swift deploy \ --model Qwen/Qwen2.5-7B-Instruct \ --infer_backend vllm这会启动一个兼容OpenAI API的服务你可以用任何支持OpenAI API的客户端来调用。6. 进阶技巧提升微调效果掌握了基础操作后我们来看看如何进一步提升微调效果。6.1 调整LoRA参数LoRA微调有几个关键参数可以调整# 调整LoRA参数示例 CUDA_VISIBLE_DEVICES0 swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --sft_type lora \ --lora_rank 16 \ # 增加秩提升表达能力 --lora_alpha 64 \ # 增加alpha提升学习率 --lora_dropout_p 0.1 \ # 增加dropout防止过拟合 --lora_target_modules q_proj,v_proj \ # 指定目标模块 # ... 其他参数参数调优建议小数据集1000条lora_rank8, lora_alpha32中等数据集1000-10000条lora_rank16, lora_alpha64大数据集10000条lora_rank32, lora_alpha1286.2 使用量化训练节省显存如果你的显卡显存有限可以使用量化训练# 使用QLoRA量化训练7B模型只需9GB显存 CUDA_VISIBLE_DEVICES0 swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --sft_type lora \ --quantization_bit 4 \ # 4位量化 --quantization_method bnb \ # 使用bitsandbytes量化 # ... 其他参数6.3 多GPU训练加速如果你有多张显卡可以加速训练# 使用2张GPU训练 CUDA_VISIBLE_DEVICES0,1 \ NPROC_PER_NODE2 \ swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --deepspeed zero2 \ # 使用DeepSpeed ZeRO-2优化 # ... 其他参数6.4 使用内置数据集ms-swift内置了150多个数据集你可以直接使用# 使用内置数据集 CUDA_VISIBLE_DEVICES0 swift sft \ --model Qwen/Qwen2.5-7B-Instruct \ --dataset AI-ModelScope/alpaca-gpt4-data-zh#500 \ # 中文指令数据集 AI-ModelScope/alpaca-gpt4-data-en#500 \ # 英文指令数据集 swift/self-cognition#500 \ # 自我认知数据集 # ... 其他参数7. 常见问题与解决方案在实际使用中你可能会遇到一些问题这里整理了一些常见问题的解决方法。7.1 显存不足问题问题训练时出现CUDA out of memory错误。解决方案减小批次大小--batch_size 1使用梯度累积--gradient_accumulation_steps 4启用梯度检查点--gradient_checkpointing true使用量化训练--quantization_bit 4使用QLoRA--sft_type lora--quantization_bit 4# 最小显存配置示例7B模型约需9GB CUDA_VISIBLE_DEVICES0 swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --sft_type lora \ --quantization_bit 4 \ --batch_size 1 \ --gradient_accumulation_steps 8 \ --gradient_checkpointing true \ # ... 其他参数7.2 训练速度慢问题训练速度太慢一个epoch要很久。解决方案使用Flash Attention加速--use_flash_attn true增加批次大小--batch_size 4在显存允许的情况下使用多GPU训练使用混合精度训练--dtype bf16需要显卡支持# 加速训练配置 CUDA_VISIBLE_DEVICES0,1 \ NPROC_PER_NODE2 \ swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --use_flash_attn true \ --dtype bf16 \ --batch_size 2 \ --gradient_accumulation_steps 4 \ # ... 其他参数7.3 模型过拟合问题模型在训练集上表现很好但在新数据上表现差。解决方案增加Dropout--lora_dropout_p 0.1使用权重衰减--weight_decay 0.01早停策略监控验证集loss提前停止训练增加数据量或使用数据增强# 防止过拟合配置 CUDA_VISIBLE_DEVICES0 swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --lora_dropout_p 0.1 \ --weight_decay 0.01 \ --num_train_epochs 3 \ # 减少训练轮数 --eval_steps 50 \ # 更频繁地验证 --save_steps 50 \ # ... 其他参数7.4 模型效果不佳问题微调后模型效果没有提升。解决方案检查数据质量确保数据格式正确内容相关调整学习率尝试1e-5、5e-6、1e-6等不同值增加LoRA秩--lora_rank 32使用全参数微调--sft_type full需要更多显存尝试不同的优化器--optim adamw_torch_fused# 提升效果配置 CUDA_VISIBLE_DEVICES0 swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --sft_type lora \ --lora_rank 32 \ --lora_alpha 64 \ --learning_rate 1e-5 \ --optim adamw_torch_fused \ --num_train_epochs 5 \ # ... 其他参数8. 实际应用案例让我们看几个实际的应用场景了解ms-swift能做什么。8.1 客服机器人微调假设你要为电商平台微调一个客服机器人// customer_service_data.json [ { system: 你是一个专业的电商客服助手负责回答用户关于订单、物流、退换货的问题。, conversations: [ { from: user, value: 我的订单什么时候发货 }, { from: assistant, value: 您好您的订单将在24小时内发货发货后会有短信通知您物流单号。 } ] }, { system: 你是一个专业的电商客服助手负责回答用户关于订单、物流、退换货的问题。, conversations: [ { from: user, value: 商品有质量问题怎么退货 }, { from: assistant, value: 如果商品有质量问题请在收到货7天内联系客服我们会安排上门取件并全额退款。 } ] } ]训练命令CUDA_VISIBLE_DEVICES0 swift sft \ --model_id_or_path /data/model/qwen2-7b-instruct \ --dataset customer_service_data \ --custom_dataset_info /path/to/customer_service_info.json \ --sft_type lora \ --output_dir /data/model/customer_service_bot \ --num_train_epochs 3 \ --max_length 1024 \ # ... 其他参数8.2 代码助手微调如果你要微调一个代码生成助手// code_assistant_data.json [ { system: 你是一个专业的编程助手擅长Python、JavaScript、Java等多种编程语言。, conversations: [ { from: user, value: 用Python写一个快速排序算法 }, { from: assistant, value: python\ndef quick_sort(arr):\n if len(arr) 1:\n return arr\n pivot arr[len(arr) // 2]\n left [x for x in arr if x pivot]\n middle [x for x in arr if x pivot]\n right [x for x in arr if x pivot]\n return quick_sort(left) middle quick_sort(right)\n } ] } ]8.3 多轮对话微调对于需要记忆上下文的对话场景// multi_turn_data.json [ { system: 你是一个贴心的生活助手。, conversations: [ { from: user, value: 我今天心情不好 }, { from: assistant, value: 听到你心情不好我很难过。愿意和我聊聊发生了什么吗 }, { from: user, value: 工作压力太大了 }, { from: assistant, value: 工作压力确实让人喘不过气。试试深呼吸或者休息一下喝杯茶我也可以帮你分析一下工作安排。 } ] } ]9. 模型评估与优化微调完成后如何评估模型效果并进行优化9.1 使用内置评估工具ms-swift提供了评估功能# 评估模型在特定数据集上的表现 CUDA_VISIBLE_DEVICES0 swift eval \ --model /data/model/sft/qwen2-7b-instruct-sft \ --eval_dataset ARC_c \ # 使用ARC推理数据集 --infer_backend lmdeploy \ --eval_backend OpenCompass9.2 人工评估除了自动评估人工评估也很重要。你可以准备一些测试问题# test_questions.txt 1. 介绍一下你自己 2. 你能帮我做什么 3. 今天的天气怎么样 4. 用Python写一个Hello World程序 5. 解释一下什么是机器学习然后批量测试模型回答# 批量测试 while IFS read -r question; do echo 问题$question swift infer --adapters /path/to/model --prompt $question echo --- done test_questions.txt9.3 模型量化部署如果要将模型部署到资源有限的环境可以进行量化# 将模型量化为4位 CUDA_VISIBLE_DEVICES0 swift export \ --model /data/model/sft/qwen2-7b-instruct-sft \ --quant_bits 4 \ --quant_method awq \ --dataset AI-ModelScope/alpaca-gpt4-data-zh \ --output_dir /data/model/qwen2-7b-instruct-4bit量化后的模型大小会大幅减小推理速度也会提升。10. 总结通过这5个步骤你已经掌握了使用ms-swift进行大模型微调的全流程。让我们回顾一下关键点10.1 核心步骤回顾环境准备安装Anaconda和ms-swift3分钟搞定数据准备准备ShareGPT格式的数据集模型下载从ModelScope或HuggingFace下载基础模型开始微调命令行或Web界面任选10分钟完成训练模型推理测试微调效果部署使用10.2 ms-swift的优势简单易用命令行和Web界面两种方式适合不同用户支持广泛600文本模型300多模态模型资源友好支持LoRA、QLoRA等轻量微调显存要求低功能全面训练、推理、评估、量化、部署一站式解决性能优秀支持Flash Attention、DeepSpeed等加速技术10.3 给新手的建议如果你是第一次尝试大模型微调我建议从小开始先用小数据集10-100条测试整个流程循序渐进先尝试命令行熟悉后再用Web界面多试多调不同的参数组合效果不同多尝试几次关注日志训练过程中的loss和acc是重要参考及时备份好的模型检查点要及时保存10.4 下一步学习方向掌握了基础微调后你可以进一步学习多模态模型尝试图片、视频、语音模型的微调强化学习使用DPO、KTO等算法进一步提升模型效果模型融合将多个微调模型融合获得更好效果分布式训练学习多卡、多机训练加速自定义模型支持自定义模型架构和训练逻辑大模型微调不再是高不可攀的技术有了ms-swift这样的工具每个人都可以轻松上手。现在就去试试吧给你的模型注入专属的知识和风格获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

小白友好：ms-swift框架快速上手，5步完成大模型微调与部署

相关文章：

小白友好：ms-swift框架快速上手，5步完成大模型微调与部署

MBP-Ubuntu实战指南：三步解决WiFi与Touch Bar硬件适配难题

智能制造工程毕业设计中的效率瓶颈与优化实践：从数据采集到决策闭环

ExplorerPatcher：重塑Windows任务栏体验的开源革新方案

网络安全视角下的EcomGPT-7B部署：API接口鉴权与防滥用策略

PS软件工作流增强：将万象熔炉·丹青幻境作为Photoshop的智能填充插件

Qwen3-0.6B-FP8模型在STM32F103C8T6最小系统板项目中的辅助开发实践

6大高效修复方案：biliTickerBuy抢票脚本Windows运行异常深度排查

QZSS增强服务深度对比：L6E与L6D在东亚地区的定位性能差异（含基准站数据解析）

华为Datacom认证中的5个常见配置错误及解决方法

AI辅助开发：在快马平台上打造智能fiddler流量分析与自动化调试工具

Z-Image-Turbo_Sugar脸部Lora创意延展：生成一致性角色多视角与表情

ECharts异常检测实战指南：从数据噪声中挖掘关键信息

从WFE唤醒机制看LL/SC不可替代性：为什么Linux内核某些场景仍用LDXR/STXR

ROS2 MoveIt2实战避坑指南：从MTC配置到轨迹执行超时解决方案

深入解析C库函数fprintf()、sprintf()与snprintf()：安全格式化输出的最佳实践

三步掌握B站录播高效工具：从入门到精通

ChatGPT降低AI率指令实战：从原理到高效应用

HTML5语义化标签：现代网页的骨架与灵魂

战术空间智能中枢：三维感知 × 轨迹推演 × 智能决策一体化系统

Trae vs Cursor：哪个AI编程助手更适合你的开发需求？（2024实测对比）

空间重构引擎：基于视频反演的三维作战认知体系

SpringBoot+SpringCloud实战：如何用Nacos和ZXing实现微信支付宝一码双付（附避坑指南）

状态机崩溃还是无损连载？2026年5款AI写作软件长篇网文工程实测与去AI化解析

算法中的记忆化思想与重复子问题优化的技术7

同工不同酬，劳务派遣成部分企业吸血工具，委员建议废除。网友：非常好，支持

Fastjson枚举反序列化：当字符串不是枚举常量名时，会发生什么？

如何给小龙虾设置定时任务：每日科技晨报

论文选题方法指导

迷你世界UGC3.0脚本Wiki排行榜、K/V数据介绍