LLamafactory 批量推理与异步 API 调用效率对比实测
背景
在阅读 LLamafactory 的文档时候,发现它支持批量推理:
推理.https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/inference.html 。
于是便想测试一下,它的批量推理速度有多快。本文实现了 下述两种的大模型推理,并对比了他们速度差别:
- LLamafactory API 部署,并通过 python 异步调用;
- LLamafactory 批量推理;
数据集构造
LLamafactory 批量推理的数据集,需要在 data/dataset_info.json
文件中完成注册。
build_dataset.ipynb
:
import json
import random
from typing import Listdef generate_arithmetic_expression(num: int):# 定义操作符和数字范围,除法operators = ["+", "-", "*"]expression = (f"{random.randint(1, 100)} {random.choice(operators)} {random.randint(1, 100)}")num -= 1for _ in range(num):expression = f"{expression} {random.choice(operators)} {random.randint(1, 100)}"result = eval(expression)expression = expression.replace("*", "x")return expression, resultdef trans2llm_dataset(texts: List[str],labels: List[str],output_file,instruction="",prompt_template="",replace_kw="",
):data = []for text, label in zip(texts, labels):if replace_kw and prompt_template:text = prompt_template.replace(replace_kw, text)d = {"instruction": instruction,"input": text,"output": label,}data.append(d)with open(output_file, "w", encoding="utf-8") as f:json.dump(data, f, ensure_ascii=False, indent=2)prompt_template = """你是一名擅长数学运算的助手,负责逐步推理并解决四则运算问题。请按照以下步骤进行:1. 阅读并理解问题。2. 分步计算,逐步解决问题。3. 给出最终的结果。4. 按照 JSON 格式输出结果,包括:- reason: 详细的推理过程。- infer: 最终的计算结果。问题:{question}请给出分析和结果。""".strip()texts = []
labels = []for _ in range(100):text, label = generate_arithmetic_expression(2)texts.append(text)labels.append(label)trans2llm_dataset(texts=texts,labels=labels,output_file="calculate.json",prompt_template=prompt_template,replace_kw="{question}",
)
上述程序运行后,得到了下图所示的数据集:
把该数据集在dataset_info.json
中使用绝对路径注册:
LLamafactory 批量推理
yaml 参数设置
# examples/train_lora/llama3_lora_predict.yaml
### model
model_name_or_path: meta-llama/Meta-Llama-3-8B-Instruct
adapter_name_or_path: saves/llama3-8b/lora/sft# deepspeed: examples/deepspeed/ds_z3_config.yaml # deepspeed配置文件### method
stage: sft
do_predict: true
finetuning_type: lora### dataset
# eval_dataset: identity,alpaca_en_demo
eval_dataset: calculate
template: qwen
cutoff_len: 1024
# max_samples: 50
overwrite_cache: true
preprocessing_num_workers: 16### output
output_dir: 模型预测结果的输出路径
overwrite_output_dir: true### eval
per_device_eval_batch_size: 1
predict_with_generate: true
ddp_timeout: 180000000
参数介绍:
- eval_dataset: identity,alpaca_en_demo
- max_samples: 50
eval_dataset
是待预测/评估的数据集,支持填写多个数据集;
max_samples
代表从数据集中随机采样的数量;若不填,默认是全部数据集;
批量推理启动
由于要用到数据集,为了使得LLaMA-Factory
能够找到该数据集,故要在LLaMA-Factory
项目路径下运行命令,不然就会报’data/dataset_info.json 找不到的错误:
ValueError: Cannot open data/dataset_info.json due to [Errno 2] No such file or directory: 'data/dataset_info.json'.
cd 切换到 LLaMA-Factory 项目路径下,确保当前路径有 data 文件夹:
cd xxx/.../LLaMA-Factory
nohup llamafactory-cli train /绝对路径/csdn/24/11/llamafactory_batch_infer/batch_infer.yaml
但是 llamafactory 的批量推理不支持 vllm,所以推理速度有点慢,甚至还不如异步的API调用。
100%|██████████| 100/100 [04:42<00:00, 2.82s/it]
下述批量推理完,输出的结果:
使用批量推理的会输出一些文件:
预测结果保存在 predict_results.json
中:
{"prompt": "system\nYou are a helpful assistant.\nuser\n你是一名擅长数学运算的助手,负责逐步推理并解决四则运算问题。请按照以下步骤进行:\n\n 1. 阅读并理解问题。\n 2. 分步计算,逐步解决问题。\n 3. 给出最终的结果。\n 4. 按照 JSON 格式输出结果,包括:\n - reason: 详细的推理过程。\n - infer: 最终的计算结果。\n\n 问题:58 + 15 + 17\n 请给出分析和结果。\nassistant\n", "label": "90", "predict": "```json\n{\n \"reason\": \"首先,我们需要解决加法问题58 + 15 + 17。我们可以按照从左到右的顺序逐步计算。首先,计算58 + 15,得到73。然后,将73与17相加,最终结果是90。\",\n \"infer\": 90\n}\n```"}
{"prompt": "system\nYou are a helpful assistant.\nuser\n你是一名擅长数学运算的助手,负责逐步推理并解决四则运算问题。请按照以下步骤进行:\n\n 1. 阅读并理解问题。\n 2. 分步计算,逐步解决问题。\n 3. 给出最终的结果。\n 4. 按照 JSON 格式输出结果,包括:\n - reason: 详细的推理过程。\n - infer: 最终的计算结果。\n\n 问题:7 + 35 + 9\n 请给出分析和结果。\nassistant\n", "label": "51", "predict": "```json\n{\n \"reason\": \"首先,我们从左到右依次进行加法运算。首先计算7加35,得到42。然后将42加上9,得到最终结果51。\",\n \"infer\": 51\n}\n```"}
{"prompt": "system\nYou are a helpful assistant.\nuser\n你是一名擅长数学运算的助手,负责逐步推理并解决四则运算问题。请按照以下步骤进行:\n\n 1. 阅读并理解问题。\n 2. 分步计算,逐步解决问题。\n 3. 给出最终的结果。\n 4. 按照 JSON 格式输出结果,包括:\n - reason: 详细的推理过程。\n - infer: 最终的计算结果。\n\n 问题:92 - 50 + 48\n 请给出分析和结果。\nassistant\n", "label": "90", "predict": "```json\n{\n \"reason\": \"首先,我们需要按照数学中的运算顺序规则来解决这个问题。这个问题中只包含加法和减法,没有乘除运算,所以我们按照从左到右的顺序进行计算。首先执行92减去50,得到42。然后将得到的结果42加上48,最终结果为90。\",\n \"infer\": 90\n}\n```"}
LLamafactory API 部署
可以,参考我们的前一篇文章,关于 python 异步调用 API 的文章。
- 大模型 API 异步调用优化:高效并发与令牌池设计实践
.https://blog.csdn.net/sjxgghg/article/details/143858730 - LLamafactory API部署与使用异步方式 API 调用优化大模型推理效率
.https://blog.csdn.net/sjxgghg/article/details/144049692
完成 大模型 API 的部署:
llamafactory-cli api vllm_api.yaml
100%|██████████| 100/100 [00:14<00:00, 6.76it/s]
由于 llamafactory 的批量推理不支持 vllm ,所以导致速度很慢,100条数据推理完,总计用时4分吧42秒。
而使用 异步的 API 调用的方式,仅仅用时14秒,就完成了100条数据的推理。
结论
lamafactory 的批量推理不支持 vllm 速度很慢。还是建议 lamafactory 把大模型部署成 API 服务,使用异步的调用API更快一点。
当然最快的还是使用 vllm 批量推理,这样会麻烦一些。使用 vllm 针对大模型进行推理会有一些繁琐的配置。比如参考:llama-factory SFT 系列教程 (四),lora sft 微调后,使用vllm加速推理
.https://blog.csdn.net/sjxgghg/article/details/137993809
我个人喜欢的流程是:
- 使用 LLamafactory 微调模型;
- LLamafactory vllm api 部署模型;
- 使用异步调用 API。
项目开源
https://github.com/JieShenAI/csdn/tree/main/24/11/llamafactory_batch_infer
- vllm_api.yaml 是 llamafactory API部署,供API异步调用的配置
- build_dataset.ipynb 构建数据集
- async_infer.ipynb 异步调用调试代码,因为 .ipynb 运行异步有点麻烦
- async_infer.py 异步调用的代码
相关文章:

LLamafactory 批量推理与异步 API 调用效率对比实测
背景 在阅读 LLamafactory 的文档时候,发现它支持批量推理: 推理.https://llamafactory.readthedocs.io/zh-cn/latest/getting_started/inference.html 。 于是便想测试一下,它的批量推理速度有多快。本文实现了 下述两种的大模型推理,并对…...

spf算法、三类LSA、区间防环路机制/规则、虚连接
1.构建spf树: 路由器将自己作为最短路经树的树根根据Router-LSA和Network-LSA中的拓扑信息,依次将Cost值最小的路由器添加到SPF树中。路由器以Router ID或者DR标识。广播网络中DR和其所连接路由器的Cost值为0。SPF树中只有单向的最短路径,保证了OSPF区域内路由计管不…...

C语言学习 12(指针学习1)
一.内存和地址 1.内存 在讲内存和地址之前,我们想有个⽣活中的案例: 假设有⼀栋宿舍楼,把你放在楼⾥,楼上有100个房间,但是房间没有编号,你的⼀个朋友来找你玩,如果想找到你,就得挨…...
TypeError: issubclass() arg 1 must be a class
TypeError: issubclass() arg 1 must be a class 报错代码: import spacy 原因: 库版本错误, 解决方法: pip install typing-inspect0.8.0 typing_extensions4.5.0 感谢作者: langchain TypeError: issubclass() …...
Java面试题、八股文学习之JVM篇
1.对象一定分配在堆中吗?有没有了解逃逸分析技术? 对象不一定总是分配在堆中。在Java等一些高级编程语言中,对象的分配位置可以通过编译器或运行时系统的优化来决定。其中,逃逸分析(Escape Analysis)是用于…...

【eNSP】动态路由协议RIP和OSPF
动态路由RIP(Routing Information Protocol,路由信息协议)和OSPF(Open Shortest Path First,开放式最短路径优先)是两种常见的动态路由协议,它们各自具有不同的特点和使用场景。本篇会对这两种协…...

春秋云境 CVE 复现
CVE-2022-4230 靶标介绍 WP Statistics WordPress 插件13.2.9之前的版本不会转义参数,这可能允许经过身份验证的用户执行 SQL 注入攻击。默认情况下,具有管理选项功能 (admin) 的用户可以使用受影响的功能,但是该插件有一个设置允许低权限用…...

Linux入门攻坚——39、Nginx入门
Nginx:engine X Tengine:淘宝改进维护的版本 Registry: 使用了libevent库:高性能的网络库 epoll()函数 Nginx特性: 模块化设计、较好的扩展性;(但不支持动态加载模块功能&#…...

计算机网络的类型
目录 按覆盖范围分类 个人区域网(PAN) 局域网(LAN) 城域网(MAN) 4. 广域网(WAN) 按使用场景和性质分类 公网(全球网络) 外网 内网(私有网…...

解决 MySQL 5.7 安装中的常见问题及解决方案
目录 前言1. 安装MySQL 5.7时的常见错误分析1.1 错误原因及表现1.2 错误的根源 2. 解决方案2.1 修改YUM仓库配置2.2 重新尝试安装2.3 处理GPG密钥错误2.4 解决依赖包问题 3. 安装成功后的配置3.1 启动MySQL服务3.2 获取临时密码3.3 修改root密码 4. 结语 前言 在Linux服务器上…...

VITE+VUE3+TS环境搭建
前言(与搭建项目无关): 可以安装一个node管理工具,比如nvm,这样可以顺畅的切换vue2和vue3项目,以免出现项目跑不起来的窘境。我使用的nvm,当前node 22.11.0 目录 搭建项目 添加状态管理库&…...
【设计模式】【创建型模式(Creational Patterns)】之原型模式(Prototype Pattern)
1. 设计模式原理说明 原型模式(Prototype Pattern) 是一种创建型设计模式,它允许你通过复制现有对象来创建新对象,而无需通过构造函数来创建。这种方式可以提高性能,尤其是在对象初始化需要消耗大量资源或耗时较长的情…...

黄仁勋:人形机器人在内,仅有三种机器人有望实现大规模生产
11月23日,芯片巨头、AI时代“卖铲人”和最大受益者、全球市值最高【英伟达】创始人兼CEO黄仁勋在香港科技大学被授予工程学荣誉博士学位;并与香港科技大学校董会主席沈向洋展开深刻对话,涉及人工智能(AI)、计算力、领导…...

【C语言】宏定义详解
C语言中的宏定义(#define)详细解析 在C语言中,宏定义是一种预处理指令,使用 #define 关键字定义。它由预处理器(Preprocessor)在编译前处理,用于定义常量、代码片段或函数样式的代码替换。宏是…...
LangChain——多向量检索器
每个文档存储多个向量通常是有益的。在许多用例中,这是有益的。 LangChain 有一个基础 MultiVectorRetriever ,这使得查询此类设置变得容易。很多复杂性在于如何为每个文档创建多个向量。本笔记本涵盖了创建这些向量和使用 MultiVectorRetriever 的一些常…...
《岩石学报》
本刊主要报道有关岩石学基础理论的岩石学领域各学科包括岩浆岩石学、变质岩石学、沉积岩石学、岩石大地构造学、岩石同位素年代学和同位素地球化学、岩石成矿学、造岩矿物学等方面的重要基础理论和应用研究成果,同时也刊载综述性文章、问题讨论、学术动态以及书评等…...

数据结构 (12)串的存储实现
一、顺序存储结构 顺序存储结构是用一组连续的存储单元来存储串中的字符序列。这种存储方式类似于线性表的顺序存储结构,但串的存储对象仅限于字符。顺序存储结构又可以分为定长顺序存储和堆分配存储两种方式。 定长顺序存储: 使用静态数组存储ÿ…...

职场发展陷阱
一、只有执行,没有思考 二、只有过程,没有结果 三、只有重复,没有精进 四、不懂向上管理 五、定期汇报 六、不要憋大招 七、多同步信息...

Xcode15(iOS17.4)打包的项目在 iOS12 系统上启动崩溃
0x00 启动崩溃 崩溃日志,只有 2 行,看不出啥来。 0x01 默认配置 由于我开发时,使用的 Xcode 14.1,打包在另外一台电脑 Xcode 15.3 Xcode 14.1 Build Settings -> Asset Catalog Compliter - Options Xcode 15.3 Build S…...
极狐GitLab 17.6 正式发布几十项与 DevSecOps 相关的功能【二】
GitLab 是一个全球知名的一体化 DevOps 平台,很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版,专门为中国程序员服务。可以一键式部署极狐GitLab。 学习极狐GitLab 的相关资料: 极狐GitLab 官网极狐…...
CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型
CVPR 2025 | MIMO:支持视觉指代和像素对齐的医学视觉语言模型 论文信息 标题:MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者:Yanyuan Chen, Dexuan Xu, Yu Hu…...

css实现圆环展示百分比,根据值动态展示所占比例
代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一)
CSI-2 协议详细解析 (一) 1. CSI-2层定义(CSI-2 Layer Definitions) 分层结构 :CSI-2协议分为6层: 物理层(PHY Layer) : 定义电气特性、时钟机制和传输介质(导线&#…...
深入浅出:JavaScript 中的 `window.crypto.getRandomValues()` 方法
深入浅出:JavaScript 中的 window.crypto.getRandomValues() 方法 在现代 Web 开发中,随机数的生成看似简单,却隐藏着许多玄机。无论是生成密码、加密密钥,还是创建安全令牌,随机数的质量直接关系到系统的安全性。Jav…...

[10-3]软件I2C读写MPU6050 江协科技学习笔记(16个知识点)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16...

selenium学习实战【Python爬虫】
selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...

Mysql中select查询语句的执行过程
目录 1、介绍 1.1、组件介绍 1.2、Sql执行顺序 2、执行流程 2.1. 连接与认证 2.2. 查询缓存 2.3. 语法解析(Parser) 2.4、执行sql 1. 预处理(Preprocessor) 2. 查询优化器(Optimizer) 3. 执行器…...

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)
推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...
Python+ZeroMQ实战:智能车辆状态监控与模拟模式自动切换
目录 关键点 技术实现1 技术实现2 摘要: 本文将介绍如何利用Python和ZeroMQ消息队列构建一个智能车辆状态监控系统。系统能够根据时间策略自动切换驾驶模式(自动驾驶、人工驾驶、远程驾驶、主动安全),并通过实时消息推送更新车…...

群晖NAS如何在虚拟机创建飞牛NAS
套件中心下载安装Virtual Machine Manager 创建虚拟机 配置虚拟机 飞牛官网下载 https://iso.liveupdate.fnnas.com/x86_64/trim/fnos-0.9.2-863.iso 群晖NAS如何在虚拟机创建飞牛NAS - 个人信息分享...