当前位置：首页 > news >正文

vllm serve的参数大全及其解释

news 2026/2/8 19:28:56

以下是 vllm serve 的常见参数说明以及它们的作用：

1. 基本参数

`model_tag`

说明：用于指定要加载的模型，可以是 Hugging Face 模型仓库中的模型名称，也可以是本地路径。
示例：
```
vllm serve "gpt-neo-2.7B"
```

`--config CONFIG`

说明：允许从 YAML 配置文件加载参数。适合复杂配置。

示例：

vllm serve "gpt-neo-2.7B" --config /path/to/config.yaml

`--host HOST` 和 `--port PORT`

说明：设置服务运行的主机地址和端口。
默认值：host=127.0.0.1，port=8000

示例：

vllm serve "gpt-neo-2.7B" --host 0.0.0.0 --port 8080

2. 模型加载与优化

`--tensor-parallel-size`

说明：设置 Tensor 并行的数量（多 GPU 分布式推理）。
示例：
```
--tensor-parallel-size 8
```

`--cpu-offload-gb`

说明：允许将部分模型权重或中间结果卸载到 CPU 内存中，模拟 GPU 内存扩展。
默认值：0（禁用 CPU 卸载）。
示例：
```
--cpu-offload-gb 128
```

`--gpu-memory-utilization`

说明：指定 GPU 内存利用率，值为 0-1 的小数。
默认值：0.9
示例：
```
--gpu-memory-utilization 0.8
```

`--max-model-len`

说明：模型的最大上下文长度（序列长度）。
示例：
```
--max-model-len 16384
```

`--max-num-batched-tokens`

说明：每批次处理的最大 token 数量。适用于优化吞吐量。
示例：
```
--max-num-batched-tokens 60000
```

`--dtype`

说明：设置数据类型，通常用于控制权重和激活值的精度。
- float32：32位浮点数（精确但消耗内存）。
- float16：16位浮点数（推荐）。
- bfloat16：16位浮点数（适合 NVIDIA A100 等设备）。
示例：
```
--dtype float16
```

3. 日志与调试

`--uvicorn-log-level`

说明：控制 uvicorn Web 服务器的日志级别。
选项：debug, info, warning, error, critical, trace
示例：
```
--uvicorn-log-level debug
```

`--disable-log-stats`

说明：禁用统计日志，减少性能开销。
示例：
```
--disable-log-stats
```

`--disable-log-requests`

说明：禁用请求的日志记录。
示例：
```
--disable-log-requests
```

4. 分布式设置

`--distributed-executor-backend`

说明：设置分布式推理的执行后端。
选项：ray, mp（多进程）
默认值：ray（如果安装了 Ray）
示例：
```
--distributed-executor-backend ray
```

`--pipeline-parallel-size`

说明：设置流水线并行的阶段数量。
示例：
```
--pipeline-parallel-size 4
```

5. 前端与安全

`--api-key`

说明：启用 API 访问控制，客户端需提供此密钥。
示例：
```
--api-key my_secure_api_key
```

`--ssl-keyfile` 和 `--ssl-certfile`

说明：配置 HTTPS 证书，启用安全通信。

示例：

--ssl-keyfile /path/to/keyfile.pem --ssl-certfile /path/to/certfile.pem

`--disable-fastapi-docs`

说明：禁用 FastAPI 的 OpenAPI 文档（Swagger UI）。
示例：
```
--disable-fastapi-docs
```

6. 调度与优化

`--swap-space`

说明：每个 GPU 的 CPU 换页空间（GiB）。
示例：
```
--swap-space 8
```

`--max-num-seqs`

说明：每次迭代的最大序列数量，适合控制吞吐量。
示例：
```
--max-num-seqs 16
```

`--enable-prefix-caching`

说明：启用前缀缓存以减少重复计算。
示例：
```
--enable-prefix-caching
```

7. 特殊用途参数

`--quantization`

说明：设置量化方法，减少内存占用。
选项：
- bitsandbytes：8位量化（推荐）。
- fp8：FP8（需要支持 FP8 的设备）。
示例：
```
--quantization bitsandbytes
```

`--enable-lora`

说明：启用 LoRA（低秩适配器）功能。
示例：
```
--enable-lora
```

示例命令

结合以上参数的一个完整示例：

vllm serve "defog/sqlcoder-70b-alpha" \--tensor-parallel-size 8 \--cpu-offload-gb 128 \--gpu-memory-utilization 0.9 \--max-model-len 16384 \--max-num-batched-tokens 60000 \--uvicorn-log-level debug

如需进一步调整，请参阅 vLLM 官方文档。

vllm serve的参数大全及其解释

以下是 vllm serve 的常见参数说明以及它们的作用： 1. 基本参数 model_tag 说明：用于指定要加载的模型，可以是 Hugging Face 模型仓库中的模型名称，也可以是本地路径。示例：vllm serve "gpt-neo-2.7B"--co…...

编程日记 2024/11/23 10:42:34

2025职业院校技能大赛信息安全管理与评估(河北省) 任务书

2025职业院校技能大赛信息安全管理与评估--河北省任务书模块一网络平台搭建与设备安全防护任务1：网络平台搭建 （50分）任务2：网络安全设备配置与防护（250分） 模块二网络安全事件响应、数字取证调查、应用程…...

编程日记 2024/11/23 10:36:26

实现步骤： 1、安装 amap-jsapi-loader 插件 npm install amap-jsapi-loader 2、对定位组件进行封装 gb-location组件 <script lang="ts" setup> import AMapLoader from @amap/amap-jsapi-loader; import {ref,defineExpose} from vue;let map = ref(nul…...

编程日记 2024/11/23 10:35:25

第J6周：RenseNeXt-50实战

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊文章目录一、前言1、结构改进2、分组卷积二、前期工作1.设置GPU2. 导入数据3. 查看数据三、数据预处理1、加载数据2、配置数据集四、构建网络1、导入包2、…...

编程日记 2024/11/23 10:34:23

JAVA八股与代码实践----接口与抽象类的区别和用法

接口和抽象类的区别关键字abstractinterface 实例化不能直接实例化不能直接实例化方法可以有抽象和具体方法只能有抽象方法（Java 8 支持默认方法） 变量可以有普通变量只能有常量 (public static final) 继承单继承多继承构造函数可以定义不允许…...

编程日记 2024/11/23 10:32:21

详解【AVL树】

AVL树实现 1. AVL的概念AVL树的实现2.1 AVL树的结点结构2.2 AVL树的插入2.2.1 AVL树的插入的一个大概操作：2.2.2 AVL树的平衡因子更新2.2.3 平衡因子的停止条件2.2.4 再不考虑旋转的角度上实现AVL树的插入 2.3 旋转2.3.1 旋转的原则2.3.2 右单旋2.2.3 右单旋代码实现…...

编程日记 2024/11/23 10:29:17

SQLite Having 子句

SQLite Having 子句 SQLite 是一种轻量级的数据库管理系统，广泛应用于移动设备和嵌入式系统。它支持标准的 SQL 语法，包括 SELECT 语句中的 HAVING 子句。HAVING 子句通常与 GROUP BY 子句一起使用，用于对分组后的结果进行条件过滤。 SQLit…...

编程日记 2024/11/23 10:28:16

ZYNQ-7020嵌入式系统学习笔记（1）——使用ARM核配置UART发送Helloworld

本工程实现调用ZYNQ-7000的内部ARM处理器，通过UART给电脑发送字符串。硬件：正点原子领航者-7020 开发平台：Vivado 2018、 SDK 1 Vivado部分操作 1.1 新建工程设置工程名，选择芯片型号。 1.2 添加和配置PS IP 点击IP INTEGR…...

编程日记 2024/11/23 10:27:15

实践篇：青果IP助理跨境电商的高效采集

写在前面： 近年来，跨境电商行业迅速崛起，成为全球贸易的重要组成部分。据市场调研机构Statista数据显示，2024年全球跨境电商市场规模预计将突破5万亿美元，覆盖数十亿消费者。跨境电商的竞争日益激烈，商家不…...

编程日记 2024/11/23 10:23:11

本地安装YAPI

项目中用到很多的RESTAPI，光靠人工管理或者普通文档肯定是不行的，翻了很多的RESTAPI管理工具，还是选择了YAPI，原因有2，一个是接口位于内网，外网网站上管理测试不到内网接口，另外一个是使用方式&…...

编程日记 2024/11/23 10:21:08

pytest日志总结

pytest日志分为两类： 一、终端（控制台）打印的日志 1、指定-s，脚本中print打印出的信息会显示在终端； 2、pytest打印的summary信息，这部分是pytest 的默认输出（例如测试结果PASSED, FAILED, S…...

编程日记 2024/11/23 10:20:06

day16

目录 1 联合体的定义和使用 2 联合体的内存布局 3 联合体的应用 1 联合体的定义和使用 #include <iostream>using namespace std;struct DataS {int i; double d; char s[10]; };/*联合体所有成员共享同一段内存修改一个成员会影响其他成员 { */ union DataU {int…...

编程日记 2024/11/23 10:19:02

医工交叉入门书籍分享：Transformer模型在机器学习领域的应用｜个人观点·24-11-22

小罗碎碎念今天给大家推荐一本入门书籍。这本书由Uday Kamath、Kenneth L. Graham和Wael Emara撰写，深入探讨了Transformer模型在机器学习领域的应用，特别是自然语言处理（NLP）。原文pdf已经上传至知识星球的【入门书籍】专栏&…...

编程日记 2024/11/23 10:14:56

【读书】复杂性意义结构框架——Cynefin框架

Cynefin框架《代码大全》的作者史蒂夫麦克康奈尔（Steve McConnell）在《卓有成效的敏捷》这本书里，探讨了用于理解不确定性和复杂性的Cynefin框架。 Cynefin框架是戴维斯诺登（David Snowden）20世纪90年代的在IBM时创…...

编程日记 2024/11/23 10:13:52

Python模块、迭代器与正则表达式day10

1、Python模块 1.1模块的简介在编写代码的时候，创建的.py文件就被称为一个模块 1.2模块的使用想要在a文件里使用b文件的时候，只要在a文件中使用关键字import导入即可 1.2.2 from ...import...语句导入模块可以使用import，如果只导入模…...

编程日记 2024/11/23 10:12:49

Hutool工具类生成二维码

1、引入依赖 <dependency><groupId>com.google.zxing</groupId><artifactId>core</artifactId><version>3.3.3</version></dependency><dependency><groupId>cn.hutool</groupId><artifactId>hutoo…...

编程日记 2024/11/23 10:11:48

wpf 事件转命令的方式

1，方式1 <StackPanel Background"Transparent"><StackPanel.InputBindings><KeyBinding Command"{Binding ChangeColorCommand}"CommandParameter"{Binding ElementNamecolorPicker, PathSelectedItem}"Key"{Bi…...

编程日记 2024/11/23 10:04:41

第二十八章 TCP 客户端服务器通信 - JOB命令示例

文章目录第二十八章 TCP 客户端服务器通信 - JOB命令示例JOB命令示例第二十八章 TCP 客户端服务器通信 - JOB命令示例 JOB命令示例以下示例显示了一个非常简单的并发服务器，只要它检测到来自客户端的连接，就会产生一个子作业。 JOB指定一个并发服…...

编程日记 2024/11/23 10:02:38

「Mac玩转仓颉内测版19」PTA刷题篇10 - L1-010 比较大小

本篇将继续讲解PTA平台上的题目 L1-010 比较大小，通过对三个整数的排序，进一步提升Cangjie编程语言的数组操作与逻辑处理能力。关键词 PTA刷题数字排序条件判断Cangjie语言一、L1-010 比较大小题目描述：给定3个整数，要求将它…...

编程日记 2024/11/23 10:01:36

C++趣味编程玩转物联网：用树莓派Pico实现一位数码管动态显示

七段数码管是一种经典的电子显示器件，广泛应用于数字时钟、电子仪表等设备。本文将通过树莓派Pico开发板，介绍如何用C代码控制一位七段数码管显示数字。作为一个嵌入式开发项目，这不仅是初学者理解数码管工作原理的好机会，也是C开…...

编程日记 2024/11/23 9:58:34

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

376. Wiggle Subsequence

376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...

编程新知 2026/2/8 10:51:38

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类在 Nav2（Navigation2）的行为树框架中，行为树节点插件按照功能分为 Action（动作节点）、Condition（条件节点）、Control（控制节点）和 Decorator（装饰节点）四类。 1.1 动作节点 Action 执行具体的机器人操作或任务，直接与硬件、传感器或外部系统…...

编程新知 2026/2/7 8:45:41

第25节 Node.js 断言测试

Node.js的assert模块主要用于编写程序的单元测试时使用，通过断言可以提早发现和排查出错误。稳定性: 5 - 锁定这个模块可用于应用的单元测试，通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...

编程新知 2025/10/11 0:24:31

sqlserver 根据指定字符解析拼接字符串

DECLARE LotNo NVARCHAR(50)A,B,C DECLARE xml XML ( SELECT <x> REPLACE(LotNo, ,, </x><x>) </x> ) DECLARE ErrorCode NVARCHAR(50) -- 提取 XML 中的值 SELECT value x.value(., VARCHAR(MAX))…...

编程新知 2025/10/29 4:33:03

【Zephyr 系列 10】实战项目：打造一个蓝牙传感器终端 + 网关系统（完整架构与全栈实现）

🧠关键词：Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者：希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数：约 5200 字 ✨ 项目总览在物联网实际项目中，**“终端 + 网关”**是…...

编程新知 2026/1/31 6:12:22

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec？ IPsec VPN 5.1 IPsec传输模式（Transport Mode） 5.2 IPsec隧道模式（Tunne…...

编程新知 2025/11/3 0:44:41

mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包

文章目录现象：mysql已经安装，但是通过rpm -q 没有找mysql相关的已安装包遇到 rpm 命令找不到已经安装的 MySQL 包时，可能是因为以下几个原因：1.MySQL 不是通过 RPM 包安装的2.RPM 数据库损坏3.使用了不同的包名或路径4.使用其他包…...

编程新知 2026/2/4 16:17:25

如何在最短时间内提升打ctf（web)的水平？

刚刚刷完2遍 bugku 的 web 题，前来答题。每个人对刷题理解是不同，有的人是看了writeup就等于刷了，有的人是收藏了writeup就等于刷了，有的人是跟着writeup做了一遍就等于刷了，还有的人是独立思考做了一遍就等于刷了。…...

编程新知 2026/1/28 5:55:15

C++.OpenGL （14/64）多光源（Multiple Lights）

多光源（Multiple Lights）多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

编程新知 2025/6/11 3:15:20

1. 基本参数

model_tag

--config CONFIG

--host HOST 和 --port PORT

2. 模型加载与优化

--tensor-parallel-size

--cpu-offload-gb

--gpu-memory-utilization

--max-model-len

--max-num-batched-tokens

--dtype

3. 日志与调试

--uvicorn-log-level

--disable-log-stats

--disable-log-requests