vllm serve的参数大全及其解释
以下是 vllm serve 的常见参数说明以及它们的作用:
1. 基本参数
model_tag
- 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。
- 示例:
vllm serve "gpt-neo-2.7B"
--config CONFIG
- 说明:允许从 YAML 配置文件加载参数。适合复杂配置。
- 示例:
vllm serve "gpt-neo-2.7B" --config /path/to/config.yaml
--host HOST 和 --port PORT
- 说明:设置服务运行的主机地址和端口。
- 默认值:
host=127.0.0.1,port=8000 - 示例:
vllm serve "gpt-neo-2.7B" --host 0.0.0.0 --port 8080
2. 模型加载与优化
--tensor-parallel-size
- 说明:设置 Tensor 并行的数量(多 GPU 分布式推理)。
- 示例:
--tensor-parallel-size 8
--cpu-offload-gb
- 说明:允许将部分模型权重或中间结果卸载到 CPU 内存中,模拟 GPU 内存扩展。
- 默认值:
0(禁用 CPU 卸载)。 - 示例:
--cpu-offload-gb 128
--gpu-memory-utilization
- 说明:指定 GPU 内存利用率,值为 0-1 的小数。
- 默认值:
0.9 - 示例:
--gpu-memory-utilization 0.8
--max-model-len
- 说明:模型的最大上下文长度(序列长度)。
- 示例:
--max-model-len 16384
--max-num-batched-tokens
- 说明:每批次处理的最大 token 数量。适用于优化吞吐量。
- 示例:
--max-num-batched-tokens 60000
--dtype
- 说明:设置数据类型,通常用于控制权重和激活值的精度。
float32:32位浮点数(精确但消耗内存)。float16:16位浮点数(推荐)。bfloat16:16位浮点数(适合 NVIDIA A100 等设备)。
- 示例:
--dtype float16
3. 日志与调试
--uvicorn-log-level
- 说明:控制
uvicornWeb 服务器的日志级别。 - 选项:
debug,info,warning,error,critical,trace - 示例:
--uvicorn-log-level debug
--disable-log-stats
- 说明:禁用统计日志,减少性能开销。
- 示例:
--disable-log-stats
--disable-log-requests
- 说明:禁用请求的日志记录。
- 示例:
--disable-log-requests
4. 分布式设置
--distributed-executor-backend
- 说明:设置分布式推理的执行后端。
- 选项:
ray,mp(多进程) - 默认值:
ray(如果安装了 Ray) - 示例:
--distributed-executor-backend ray
--pipeline-parallel-size
- 说明:设置流水线并行的阶段数量。
- 示例:
--pipeline-parallel-size 4
5. 前端与安全
--api-key
- 说明:启用 API 访问控制,客户端需提供此密钥。
- 示例:
--api-key my_secure_api_key
--ssl-keyfile 和 --ssl-certfile
- 说明:配置 HTTPS 证书,启用安全通信。
- 示例:
--ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem
--disable-fastapi-docs
- 说明:禁用 FastAPI 的 OpenAPI 文档(Swagger UI)。
- 示例:
--disable-fastapi-docs
6. 调度与优化
--swap-space
- 说明:每个 GPU 的 CPU 换页空间(GiB)。
- 示例:
--swap-space 8
--max-num-seqs
- 说明:每次迭代的最大序列数量,适合控制吞吐量。
- 示例:
--max-num-seqs 16
--enable-prefix-caching
- 说明:启用前缀缓存以减少重复计算。
- 示例:
--enable-prefix-caching
7. 特殊用途参数
--quantization
- 说明:设置量化方法,减少内存占用。
- 选项:
bitsandbytes:8位量化(推荐)。fp8:FP8(需要支持 FP8 的设备)。
- 示例:
--quantization bitsandbytes
--enable-lora
- 说明:启用 LoRA(低秩适配器)功能。
- 示例:
--enable-lora
示例命令
结合以上参数的一个完整示例:
vllm serve "defog/sqlcoder-70b-alpha" \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug
如需进一步调整,请参阅 vLLM 官方文档。
相关文章:
vllm serve的参数大全及其解释
以下是 vllm serve 的常见参数说明以及它们的作用: 1. 基本参数 model_tag 说明:用于指定要加载的模型,可以是 Hugging Face 模型仓库中的模型名称,也可以是本地路径。示例:vllm serve "gpt-neo-2.7B"--co…...
2025职业院校技能大赛信息安全管理与评估(河北省) 任务书
2025职业院校技能大赛信息安全管理与评估--河北省 任务书 模块一网络平台搭建与设备安全防护任务1:网络平台搭建 (50分)任务2:网络安全设备配置与防护(250分) 模块二网络安全事件响应、数字取证调查、应用程…...
通过高德 JS API 实现H5端定位
实现步骤: 1、安装 amap-jsapi-loader 插件 npm install amap-jsapi-loader 2、对定位组件进行封装 gb-location组件 <script lang="ts" setup> import AMapLoader from @amap/amap-jsapi-loader; import {ref,defineExpose} from vue;let map = ref(nul…...
第J6周:RenseNeXt-50实战
🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 文章目录 一、前言1、结构改进2、分组卷积 二、前期工作1.设置GPU2. 导入数据3. 查看数据 三、数据预处理1、加载数据2、配置数据集 四、构建网络1、导入包2、…...
JAVA八股与代码实践----接口与抽象类的区别和用法
接口和抽象类的区别 关键字abstractinterface 实例化不能直接实例化不能直接实例化 方法可以有抽象和具体方法只能有抽象方法(Java 8 支持默认方法) 变量可以有普通变量只能有常量 (public static final) 继承单继承多继承 构造函数可以定义不允许…...
详解 【AVL树】
AVL树实现 1. AVL的概念AVL树的实现2.1 AVL树的结点结构2.2 AVL树的插入2.2.1 AVL树的插入的一个大概操作:2.2.2 AVL树的平衡因子更新2.2.3 平衡因子的停止条件2.2.4 再不考虑旋转的角度上实现AVL树的插入 2.3 旋转2.3.1 旋转的原则2.3.2 右单旋2.2.3 右单旋代码实现…...
SQLite Having 子句
SQLite Having 子句 SQLite 是一种轻量级的数据库管理系统,广泛应用于移动设备和嵌入式系统。它支持标准的 SQL 语法,包括 SELECT 语句中的 HAVING 子句。HAVING 子句通常与 GROUP BY 子句一起使用,用于对分组后的结果进行条件过滤。 SQLit…...
ZYNQ-7020嵌入式系统学习笔记(1)——使用ARM核配置UART发送Helloworld
本工程实现调用ZYNQ-7000的内部ARM处理器,通过UART给电脑发送字符串。 硬件:正点原子领航者-7020 开发平台:Vivado 2018、 SDK 1 Vivado部分操作 1.1 新建工程 设置工程名,选择芯片型号。 1.2 添加和配置PS IP 点击IP INTEGR…...
实践篇:青果IP助理跨境电商的高效采集
写在前面: 近年来,跨境电商行业迅速崛起,成为全球贸易的重要组成部分。据市场调研机构Statista数据显示,2024年全球跨境电商市场规模预计将突破5万亿美元,覆盖数十亿消费者。跨境电商的竞争日益激烈,商家不…...
本地安装YAPI
项目中用到很多的RESTAPI,光靠人工管理或者普通文档肯定是不行的,翻了很多的RESTAPI管理工具,还是选择了YAPI,原因有2,一个是接口位于内网,外网网站上管理测试不到内网接口,另外一个是使用方式&…...
pytest日志总结
pytest日志分为两类: 一、终端(控制台)打印的日志 1、指定-s,脚本中print打印出的信息会显示在终端; 2、pytest打印的summary信息,这部分是pytest 的默认输出(例如测试结果PASSED, FAILED, S…...
day16
目录 1 联合体的定义和使用 2 联合体的内存布局 3 联合体的应用 1 联合体的定义和使用 #include <iostream>using namespace std;struct DataS {int i; double d; char s[10]; };/*联合体 所有成员共享同一段内存 修改一个成员会影响其他成员 { */ union DataU {int…...
医工交叉入门书籍分享:Transformer模型在机器学习领域的应用|个人观点·24-11-22
小罗碎碎念 今天给大家推荐一本入门书籍。 这本书由Uday Kamath、Kenneth L. Graham和Wael Emara撰写,深入探讨了Transformer模型在机器学习领域的应用,特别是自然语言处理(NLP)。 原文pdf已经上传至知识星球的【入门书籍】专栏&…...
【读书】复杂性意义结构框架——Cynefin框架
Cynefin框架 《代码大全》的作者史蒂夫麦克康奈尔(Steve McConnell)在《卓有成效的敏捷》这本书里,探讨了用于理解不确定性和复杂性的Cynefin框架。 Cynefin框架是戴维斯诺登(David Snowden)20世纪90年代的在IBM时创…...
Python模块、迭代器与正则表达式day10
1、Python模块 1.1模块的简介 在编写代码的时候,创建的.py文件就被称为一个模块 1.2模块的使用 想要在a文件里使用b文件的时候,只要在a文件中使用关键字import导入即可 1.2.2 from ...import...语句 导入模块可以使用import,如果只导入模…...
Hutool工具类生成二维码
1、引入依赖 <dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.3.3</version></dependency><dependency><groupId>cn.hutool</groupId><artifactId>hutoo…...
wpf 事件转命令的方式
1,方式1 <StackPanel Background"Transparent"><StackPanel.InputBindings><KeyBinding Command"{Binding ChangeColorCommand}"CommandParameter"{Binding ElementNamecolorPicker, PathSelectedItem}"Key"{Bi…...
第二十八章 TCP 客户端 服务器通信 - JOB命令示例
文章目录 第二十八章 TCP 客户端 服务器通信 - JOB命令示例JOB命令示例 第二十八章 TCP 客户端 服务器通信 - JOB命令示例 JOB命令示例 以下示例显示了一个非常简单的并发服务器,只要它检测到来自客户端的连接,就会产生一个子作业。 JOB指定一个并发服…...
「Mac玩转仓颉内测版19」PTA刷题篇10 - L1-010 比较大小
本篇将继续讲解PTA平台上的题目 L1-010 比较大小,通过对三个整数的排序,进一步提升Cangjie编程语言的数组操作与逻辑处理能力。 关键词 PTA刷题数字排序条件判断Cangjie语言 一、L1-010 比较大小 题目描述:给定3个整数,要求将它…...
C++趣味编程玩转物联网:用树莓派Pico实现一位数码管动态显示
七段数码管是一种经典的电子显示器件,广泛应用于数字时钟、电子仪表等设备。本文将通过树莓派Pico开发板,介绍如何用C代码控制一位七段数码管显示数字。作为一个嵌入式开发项目,这不仅是初学者理解数码管工作原理的好机会,也是C开…...
XCTF-web-easyupload
试了试php,php7,pht,phtml等,都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接,得到flag...
内存分配函数malloc kmalloc vmalloc
内存分配函数malloc kmalloc vmalloc malloc实现步骤: 1)请求大小调整:首先,malloc 需要调整用户请求的大小,以适应内部数据结构(例如,可能需要存储额外的元数据)。通常,这包括对齐调整,确保分配的内存地址满足特定硬件要求(如对齐到8字节或16字节边界)。 2)空闲…...
iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...
Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...
Caliper 配置文件解析:config.yaml
Caliper 是一个区块链性能基准测试工具,用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构,并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析 这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件,主要包含以下几个部…...
如何在网页里填写 PDF 表格?
有时候,你可能希望用户能在你的网站上填写 PDF 表单。然而,这件事并不简单,因为 PDF 并不是一种原生的网页格式。虽然浏览器可以显示 PDF 文件,但原生并不支持编辑或填写它们。更糟的是,如果你想收集表单数据ÿ…...
USB Over IP专用硬件的5个特点
USB over IP技术通过将USB协议数据封装在标准TCP/IP网络数据包中,从根本上改变了USB连接。这允许客户端通过局域网或广域网远程访问和控制物理连接到服务器的USB设备(如专用硬件设备),从而消除了直接物理连接的需要。USB over IP的…...
人机融合智能 | “人智交互”跨学科新领域
本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...
[大语言模型]在个人电脑上部署ollama 并进行管理,最后配置AI程序开发助手.
ollama官网: 下载 https://ollama.com/ 安装 查看可以使用的模型 https://ollama.com/search 例如 https://ollama.com/library/deepseek-r1/tags # deepseek-r1:7bollama pull deepseek-r1:7b改token数量为409622 16384 ollama命令说明 ollama serve #:…...
BLEU评分:机器翻译质量评估的黄金标准
BLEU评分:机器翻译质量评估的黄金标准 1. 引言 在自然语言处理(NLP)领域,衡量一个机器翻译模型的性能至关重要。BLEU (Bilingual Evaluation Understudy) 作为一种自动化评估指标,自2002年由IBM的Kishore Papineni等人提出以来,…...
