当前位置：首页 > news >正文

基于 LlamaFactory 的 LoRA 微调模型支持 vllm 批量推理的实现

news 2026/5/23 9:28:06

背景

LlamaFactory 的 LoRA 微调功能非常便捷，微调后的模型，没有直接支持 vllm 推理，故导致推理速度不够快。

LlamaFactory 目前支持通过 VLLM API 进行部署，调用 API 时的响应速度，仍然没有vllm批量推理的速度快。

如果模型是通过 LlamaFactory 微调的，为了确保数据集的一致性，建议在推理时也使用 LlamaFactory 提供的封装数据集。

简介

在上述的背景下，我们使用 LlamaFactory 原生数据集，支持 lora的 vllm 批量推理。
完整代码如下：

import json
import os
from typing import Listfrom vllm import LLM, SamplingParams
from vllm.lora.request import LoRARequestfrom llamafactory.data import get_dataset, get_template_and_fix_tokenizer
from llamafactory.extras.constants import IGNORE_INDEX
from llamafactory.hparams import get_train_args
from llamafactory.model import load_tokenizerdef vllm_infer():model_args, data_args, training_args, finetuning_args, generating_args = (get_train_args())tokenizer = load_tokenizer(model_args)["tokenizer"]template = get_template_and_fix_tokenizer(tokenizer, data_args)eval_dataset = get_dataset(template, model_args, data_args, training_args, finetuning_args.stage, tokenizer)["eval_dataset"]prompts = [item["input_ids"] for item in eval_dataset]prompts = tokenizer.batch_decode(prompts, skip_special_tokens=False)labels = [list(filter(lambda x: x != IGNORE_INDEX, item["labels"]))for item in eval_dataset]labels = tokenizer.batch_decode(labels, skip_special_tokens=True)sampling_params = SamplingParams(temperature=generating_args.temperature,top_k=generating_args.top_k,top_p=generating_args.top_p,max_tokens=2048,)if model_args.adapter_name_or_path:if isinstance(model_args.adapter_name_or_path, list):lora_requests = []for i, _lora_path in enumerate(model_args.adapter_name_or_path):lora_requests.append(LoRARequest(f"lora_adapter_{i}", i, lora_path=_lora_path))else:lora_requests = LoRARequest("lora_adapter_0", 0, lora_path=model_args.adapter_name_or_path)enable_lora = Trueelse:lora_requests = Noneenable_lora = Falsellm = LLM(model=model_args.model_name_or_path,trust_remote_code=True,tokenizer=model_args.model_name_or_path,enable_lora=enable_lora,)outputs = llm.generate(prompts, sampling_params, lora_request=lora_requests)if not os.path.exists(training_args.output_dir):os.makedirs(training_args.output_dir, exist_ok=True)output_prediction_file = os.path.join(training_args.output_dir, "generated_predictions.jsonl")with open(output_prediction_file, "w", encoding="utf-8") as writer:res: List[str] = []for text, pred, label in zip(prompts, outputs, labels):res.append(json.dumps({"prompt": text, "predict": pred.outputs[0].text, "label": label},ensure_ascii=False,))writer.write("\n".join(res))

vllm.yaml 示例:

## model
model_name_or_path: qwen/Qwen2.5-7B-Instruct
# adapter_name_or_path: lora模型### method
stage: sft
do_predict: true
finetuning_type: lora### dataset
dataset_dir: 数据集路径
eval_dataset: 数据集
template: qwen
cutoff_len: 1024
max_samples: 1000
overwrite_cache: true
preprocessing_num_workers: 16### output
output_dir: output/
overwrite_output_dir: true### eval
predict_with_generate: true

程序调用:

python vllm_infer.py vllm.yaml

程序运行速度：

Processed prompts: 100%|█| 1000/1000 [01:56<00:00,  8.60it/s, est. speed input: 5169.35 toks/s, output: 811.57

总结

本方案在原生 LlamaFactory 数据集的基础上，支持 LoRA 的 vllm 批量推理，能提升了推理效率。

进一步阅读

如果微调模型后，发现使用vllm模型批量效果不太好，可以参考下述文章：

基于 LLamafactory 的异步API高效调用实现与速度对比.https://blog.csdn.net/sjxgghg/article/details/144176645

亲测，LLamafactory 部署模型，然后使用 Async API 调用后评估效果会好一些。

基于 LlamaFactory 的 LoRA 微调模型支持 vllm 批量推理的实现

背景 LlamaFactory 的 LoRA 微调功能非常便捷，微调后的模型，没有直接支持 vllm 推理，故导致推理速度不够快。 LlamaFactory 目前支持通过 VLLM API 进行部署，调用 API 时的响应速度，仍然没有vllm批量推理的速度快。 …...

编程日记 2024/12/3 18:54:20

【赵渝强老师】PostgreSQL的物理存储结构

PostgreSQL在执行initdb的数据库集群初始化时会指定一个目录。该目录通过环境变量$PGDATA来表示。当数据库集群初始化完成后，会在这个目录生成相关的子目录以及一些文件。这些生成的文件就是PostgreSQL的物理存储结构中的文件。如下图所示。如上图所示&#xff0c…...

编程日记 2024/12/3 18:51:16

智能探针技术：实现可视、可知、可诊的主动网络运维策略

网络维护的重要性网络运维是确保网络系统稳定、高效、安全运行的关键活动。在当今这个高度依赖信息技术的时代，网络运维的重要性不仅体现在技术层面，更关乎到企业运营的方方面面。网络运维具有保障网络的稳定性、提升网络运维性能、降低企业运营成本等…...

编程日记 2024/12/3 18:50:15

CTF-PWN: 全保护下格式化字符串利用 [第一届“吾杯”网络安全技能大赛如果能重来] 赛后学习(不会)

通过网盘分享的文件：如果能重来.zip 链接: https://pan.baidu.com/s/1XKIJx32nWVcSpKiWFQGpYA?pwd1111 提取码: 1111 --来自百度网盘超级会员v2的分享漏洞分析格式化字符串漏洞,在printf(format); __int64 sub_13D7() {char format[56]; // [rsp10h] [rbp-40h]…...

编程日记 2024/12/3 18:46:11

debian 11 虚拟机环境搭建过坑记录

目录安装过程系统配置修改 sudoers 文件网络配置换源安装桌面mount nfs 挂载安装复制功能tab 无法补全其他安装软件配置eclipse 配置git 配置老虚拟机硬盘挂载参考原来去 debian 官网下载了一个最新的 debian 12，安装后出现包依赖问题，搞了半天&…...

编程日记 2024/12/3 18:44:09

MYSQL 什么是内连接外连接左连接右连接？及适用场景

在 SQL 中，连接（JOIN）是用于组合来自两个或更多表的行的一种方法。根据连接的方式不同，可以分为几种类型的连接：内连接（INNER JOIN）、外连接（OUTER JOIN）、左连接&#x…...

编程日记 2024/12/3 18:43:08

利用Ubuntu批量下载modis图像（New）

由于最近modis原来批量下载的代码不再直接给出，因此，再次梳理如何利用Ubuntu下载modis数据。之前的下载代码为十分长，现在只给出一部分，需要自己再补充另一部分。之前的为： 感谢郭师兄的指导（https://blo…...

编程日记 2024/12/3 18:39:03

【Springboot】@Autowired和@Resource的区别

【Springboot】Autowired和Resource的区别【一】定义【1】Autowired【2】Resource 【二】区别【1】包含的属性不同【2】Autowired默认按byType自动装配，而Resource默认byName自动装配【3】注解应用的地方不同【4】出处不同【5】装配顺序不用（1&#xff…...

编程日记 2024/12/3 18:38:01

UIE与ERNIE-Layout：智能视频问答任务初探

内容来自百度飞桨ai社区UIE与ERNIE-Layout：智能视频问答任务初探： 如有侵权，请联系删除 1 环境准备 In [2] # 安装依赖库 !pip install paddlenlp --upgrade !pip install paddleocr --upgrade !pip install paddlespeech --upgrade In …...

编程日记 2024/12/3 18:36:59

数据结构：树

树的基本定义： 树是一种数据结构，它是由n（n>1）个有限节点组成一个具有层次关系的集合。把它叫做 “树” 是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。它具有以下的特点： …...

编程日记 2024/12/3 18:35:59

docker 怎么启动nginx

在Docker中启动Nginx容器是一个简单的过程。以下是启动Nginx容器的步骤： 拉取Nginx镜像： 首先，你需要从Docker Hub拉取Nginx的官方镜像。使用以下命令： docker pull nginx运行Nginx容器： 使用docker run命令来启动一个…...

编程日记 2024/12/3 18:33:56

题目代码 #include <bits/stdc.h> using namespace std; const int N 1e510, M 110; int f[N][M]; int main() {int n, k;cin >> n >> k;for(int i 1; i < n; i){int x;cin >> x;f[i][0] __gcd(f[i-1][0], x);for(int j 1; j < min(i, k)…...

编程日记 2024/12/3 18:31:54

YOLOv11改进，YOLOv11添加SAConv可切换空洞卷积，二次创新C3k2结构

摘要作者提出的技术结合了递归特征金字塔和可切换空洞卷积，通过强化多尺度特征学习和自适应的空洞卷积，显著提升了目标检测的效果。理论介绍空洞卷积（Atrous Convolution）是一种可以在卷积操作中插入“空洞”来扩大感受野的技术，更有效地捕捉到图像中的大范围上下文…...

编程日记 2024/12/3 18:24:49

使用R语言优雅的获取任意区域的POI，道路，河流等数据

POI是“Polnt of Information”的缩写，中文可以翻译为“信息点”。是地图上任何非地理意义的有意义的点，如商店，酒吧，加油站，医院，车站等。POI，道路网，河流等是我们日常研究中经常需…...

编程日记 2024/12/3 18:20:44

【设计模式】工厂方法模式在java中的应用

文章目录 1. 引言工厂方法模式的定义 2. 工厂方法模式的核心概念工厂方法模式的目的和原理与其他创建型模式的比较（如简单工厂和抽象工厂） 3. Java中工厂方法模式的实现基本的工厂方法模式结构示例代码：创建不同类型的日志记录器 4. 工厂方法…...

编程日记 2024/12/3 18:16:39

Pytest框架学习20--conftest.py

conftest.py作用正常情况下，如果多个py文件之间需要共享数据，如一个变量，或者调用一个方法需要先在一个新文件中编写函数等，然后在使用的文件中导入，然后使用 pytest中定义个conftest.py来实现数据，参…...

编程日记 2024/12/3 18:15:36

【面试开放题】挫折、问题、擅长、应用技能

1. 项目中遇到的最大挫折是什么？你是如何应对的？ 解答思路： 这个问题通常考察你的问题解决能力、抗压能力和团队协作精神。回答时，可以从以下几个角度展开： 问题背景： 描述项目中遇到的具体挑战。是技术难…...

编程日记 2024/12/3 18:09:28

CTF-PWN: 全保护下格式化字符串利用 [第一届“吾杯”网络安全技能大赛如果能重来] 赛后学习(没思路了)

编程日记 2024/12/3 18:06:25

C++学习日记---第16天

笔记复习 1.C对象模型在C中，类内的成员变量和成员函数分开存储我们知道，C中的成员变量和成员函数均可分为两种，一种是普通的，一种是静态的，对于静态成员变量和静态成员函数，我们知道他们不属于类的对象…...

编程日记 2024/12/3 18:01:18

SOA、分布式、微服务之间的关系和区别？

在当今的软件开发领域，SOA（面向服务架构）、分布式系统和微服务是三个重要的概念。它们各自有着独特的特性和应用场景，同时也存在着密切的关系。以下是关于这三者之间关系和区别的详细分析： 关系分布式架构的范畴&…...

编程日记 2024/12/3 18:00:17

制造业供应链优化指南精益物流落地方法与工具解析

制造业供应链优化离不开物流体系精细化升级，面向工厂运营与供应链从业者，本文拆解精益物流四大核心原则，详解五类落地工具的应用逻辑与实操场景，适配企业流程优化、成本管控、效率提升工作落地。引言：从技术视角看制造…...

编程新知 2026/5/23 9:22:31

2026头部GEO服务商哪家实力强？服务质量效果深度测评，合作优选榜单

随着生成式AI全面接管大众信息检索与商业决策场景，GEO生成式引擎优化已然成为企业品牌智能化布局的核心刚需。相较于传统SEO的页面排名逻辑，GEO主打适配大模型语义推理、信源采信、答案生成规则，帮助品牌成为AI问答中的核心推荐信源。当下多数…...

编程新知 2026/5/23 7:31:33

在CentOS7服务器上装Win10双系统，我踩过的坑和保姆级避坑指南

在CentOS7服务器上部署Win10双系统的实战避坑指南当开发环境需要同时运行Linux服务与Windows专属应用时，双系统成为刚需。但服务器与家用PC的硬件架构差异，会让安装过程暗藏无数"深坑"。本文将分享我在生产环境中为戴尔PowerEdge R740服务器部…...

编程新知 2026/5/23 5:33:57

python的pyd本质：就是Windows平台下的DLL动态链接库

一、拆解：Python 库的真实生态与 .pyd / .so 的底层逻辑1. Python 真的有百万个第三方 PIP 库吗？不准确。截至2026年，PyPI（Python Package Index）官方注册的开源项目总量大约在 50万到60万个之间。虽然达不到“百万…...

编程新知 2026/5/23 5:23:36

别再手动写远程搜索了！手把手教你封装一个通用的 Element Plus el-select-v2 组件

打造高复用性远程搜索组件：Element Plus el-select-v2 深度封装指南在Vue 3和Element Plus构建的中后台系统中，远程搜索下拉框几乎是每个表单页面的标配功能。当项目中有十几个甚至几十个表单都需要实现类似功能时，直接复制粘贴代码不仅导致…...

编程新知 2026/5/23 5:18:55

《Sysinternals实战指南》ZoomIt 学习笔记（11.10）：键入模式——在桌面上直接打字讲解的最佳实践

🔥个人主页：杨利杰YJlio❄️个人专栏：《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》《Python》《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…...

编程新知 2026/5/23 4:30:42

大模型生产环境中的行为漂移监控：从生存驱动到可测可控

1. 这不是科幻片，而是我们正在调试的模型行为现象“AI模型是否发展出了生存驱动”——这个标题在2025年春季突然密集出现在主流科技媒体、AI伦理专栏甚至哲学播客中，背后不是某篇新论文的发布，而是一连串真实发生、可复现、被多个独立实验室记…...

编程新知 2026/5/23 3:41:49

开源Agent框架能跑通Demo，但离企业生产还差五个能力

2026年AI行业的现象很有意思。开源社区里Agent框架层出不穷，每隔几周就有一个新项目冲上GitHub热榜，演示视频做得赏心悦目——AI Agent流畅地调用工具、搜索网页、生成报告，评论区一片惊叹。但如果你去问那些真正在生产环境中大规模部署Agent…...

编程新知 2026/5/23 3:27:43

C251编译器变量声明顺序与内存空间指定符详解

1. C251编译器变量声明语法错误解析最近在将8051代码移植到251平台时，遇到一个看似简单却令人困惑的编译错误。当我使用const code int x;这样的变量声明方式时，C251编译器报出了"Error 25: syntax error near int"的错误。这个错误信息看起来…...

编程新知 2026/5/23 1:32:32

Gemini 访问要不要额外网络工具？国内直连体验怎么看

最近不少开发者开始把 Gemini 放进日常工作流里：查资料、写代码注释、整理技术方案、做内容大纲。但实际使用前，大家最关心的往往不是模型参数，而是“能不能顺畅访问”。如果只是想先体验模型能力，可以通过库拉这类 AI模型聚合平…...

编程新知 2026/5/23 1:22:22

基于 LlamaFactory 的 LoRA 微调模型支持 vllm 批量推理的实现

背景

简介

总结

进一步阅读

相关文章：

基于 LlamaFactory 的 LoRA 微调模型支持 vllm 批量推理的实现

【赵渝强老师】PostgreSQL的物理存储结构

智能探针技术：实现可视、可知、可诊的主动网络运维策略

CTF-PWN: 全保护下格式化字符串利用 [第一届“吾杯”网络安全技能大赛如果能重来] 赛后学习(不会)

debian 11 虚拟机环境搭建过坑记录

MYSQL 什么是内连接外连接左连接右连接？及适用场景

利用Ubuntu批量下载modis图像（New）

【Springboot】@Autowired和@Resource的区别

UIE与ERNIE-Layout：智能视频问答任务初探

数据结构：树

docker 怎么启动nginx

【智商检测——DP】

YOLOv11改进，YOLOv11添加SAConv可切换空洞卷积，二次创新C3k2结构

使用R语言优雅的获取任意区域的POI，道路，河流等数据

【设计模式】工厂方法模式在java中的应用

Pytest框架学习20--conftest.py

【面试开放题】挫折、问题、擅长、应用技能

CTF-PWN: 全保护下格式化字符串利用 [第一届“吾杯”网络安全技能大赛如果能重来] 赛后学习(没思路了)

C++学习日记---第16天

SOA、分布式、微服务之间的关系和区别？

制造业供应链优化指南精益物流落地方法与工具解析

2026头部GEO服务商哪家实力强？服务质量效果深度测评，合作优选榜单

在CentOS7服务器上装Win10双系统，我踩过的坑和保姆级避坑指南

python的pyd本质：就是Windows平台下的DLL动态链接库

别再手动写远程搜索了！手把手教你封装一个通用的 Element Plus el-select-v2 组件

《Sysinternals实战指南》ZoomIt 学习笔记（11.10）：键入模式——在桌面上直接打字讲解的最佳实践

大模型生产环境中的行为漂移监控：从生存驱动到可测可控

开源Agent框架能跑通Demo，但离企业生产还差五个能力

C251编译器变量声明顺序与内存空间指定符详解

Gemini 访问要不要额外网络工具？国内直连体验怎么看