当前位置: 首页 > article >正文

vLLM实战:多机多卡大模型分布式推理部署全流程指南

1. 环境准备与基础配置

1.1 系统要求

依赖组件:

# 基础工具安装
sudo apt-get install -y lsof git-lfs nvidia-cuda-toolkit

1.2 虚拟环境配置

使用conda创建隔离环境,避免依赖冲突:

conda create -n vllm python=3.10 -y
conda activate vllm
# 配置conda源加速
conda config --add channels conda-forge
conda config --set channel_priority strict
conda install sqlite=3.42.0

1.3 vLLM与依赖安装

# 安装xFormers加速组件
pip install xformers-0.0.27.post2-cp310-cp310-manylinux2014_x86_64.whl
# 通过清华源安装vLLM
pip install vllm==0.5.4 -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安装Ray分布式框架
conda install -c conda-forge ray-default

2. 分布式集群搭建

2.1 Ray集群配置

主节点启动(假设IP为192.168.1.1):

ray start --head --port=6379 \--node-ip-address=192.168.1.1 \--dashboard-host=0.0.0.0 \--num-gpus=4 \--object-store-memory=4294967296

工作节点加入:

ray start --address=192.168.1.1:6379 \--node-ip-address=192.168.1.2 \--num-gpus=4

关键参数说明:

–num-gpus:必须与物理GPU数量一致
–object-store-memory:建议设置为可用内存的70%

2.2 网络优化配置

# 设置通信网卡(根据实际网卡名称调整)
export GLOO_SOCKET_IFNAME=eth0
export NCCL_SOCKET_IFNAME=eth0
export NCCL_ALGO=Tree
export NCCL_NSOCKS_PERTHREAD=4
export NCCL_SOCKET_NTHREADS=2

常见问题:

若出现Gloo connectFullMesh failed错误,需检查防火墙设置并确认网卡名称正确

跨节点通信延迟高时,可尝试export NCCL_NET_GDR_LEVEL=PHB启用高性能模式

3. 模型部署与启动

3.1 模型下载

从ModelScope下载模型(以Qwen2.5-1.5B为例):

modelscope download --model qwen/Qwen2.5-1.5B

模型默认保存在~/.cache/modelscope/hub/目录

3.2 分布式启动命令

两节点部署示例(每节点4卡):

节点0启动命令

GLOO_SOCKET_IFNAME=eth0 NCCL_SOCKET_IFNAME=eth0 RAY_USE_IPV4=1 \
vllm serve qwen/Qwen2.5-1.5B \--dtype half \--tensor-parallel-size 4 \--pipeline-parallel-size 2 \--distributed-executor-backend ray \--gpu-memory-utilization 0.9 \--max-model-len 2048 \--host 0.0.0.0 \--port 6397 \--api-key key-abc123 \--cpu-offload-gb 64 \--block-size 8 \--swap-space 16

参数解析:

参数作用推荐值
–tensor-parallel-size单节点内GPU并行数通常等于单节点GPU数
–pipeline-parallel-size跨节点并行数通常等于节点数
–cpu-offload-gbCPU内存卸载量显存不足时可设为物理内存的50%
–swap-spaceSSD交换空间建议16-32GB

3.3 服务验证

健康检查:

curl http://localhost:6397/health

正常响应应包含200 OK状态码

模型列表查询:

curl http://localhost:6397/v1/models \-H "Authorization: Bearer key-abc123"

对话测试:

curl -X POST http://localhost:6397/v1/chat/completions \-H "Content-Type: application/json" \-H "Authorization: Bearer key-abc123" \-d '{"model": "qwen/Qwen2.5-1.5B","messages": [{"role": "system", "content": "你是一个专业的中文助手"},{"role": "user", "content": "用200字介绍下你自己"}],"temperature": 0.1,"max_tokens": 300,"stop": ["<|im_end|>"]}'

4. 性能优化策略

4.1 显存管理

分块处理:通过–block-size 8减小内存块大小,提升显存利用率
交换空间:启用–swap-space 16利用SSD扩展内存
动态卸载:设置–cpu-offload-gb 64将部分计算卸载到CPU

4.2 通信优化

拓扑感知:通过nvidia-smi topo -m查看GPU连接方式,优先使用NVLink互联的GPU组
协议调优:

export NCCL_IB_DISABLE=1  # 非InfiniBand环境禁用
export NCCL_SOCKET_NTHREADS=2  # 增加通信线程

4.3 批处理优化

连续批处理:vLLM默认启用,通过–max-num-seqs 256控制并发量
预填充优化:添加–enable-chunked-prefill参数减少延迟

5. 常见问题排查

5.1 部署阶段问题

问题1:Ray节点无法加入集群
解决方案:
检查防火墙设置:sudo ufw allow 6379/tcp
验证网络连通性:ping <主节点IP>
确认Ray版本一致:ray --version

问题2:NCCL通信超时
解决方案:

export NCCL_DEBUG=INFO
export NCCL_P2P_DISABLE=1  # 临时禁用P2P

5.2 推理阶段问题

问题3:显存不足(OOM)
解决方案:
降低–gpu-memory-utilization至0.7-0.8
启用量化:–quantization awq
减少–max-model-len值

问题4:响应延迟高
解决方案:
检查GPU利用率:nvidia-smi -l 1
调整–tensor-parallel-size与–pipeline-parallel-size比例

6. 监控与维护

6.1 集群监控

Ray Dashboard:访问http://:8265查看集群状态
Prometheus:集成vLLM指标导出:

vllm serve ... --enable-prometheus

6.2 日志分析

关键日志路径:
Ray日志:/tmp/ray/session_latest/logs/
vLLM日志:启动时添加> vllm.log 2>&1

注:实际性能取决于硬件配置和模型特性

相关文章:

vLLM实战:多机多卡大模型分布式推理部署全流程指南

1. 环境准备与基础配置 1.1 系统要求 依赖组件&#xff1a; # 基础工具安装 sudo apt-get install -y lsof git-lfs nvidia-cuda-toolkit1.2 虚拟环境配置 使用conda创建隔离环境&#xff0c;避免依赖冲突&#xff1a; conda create -n vllm python3.10 -y conda activate…...

贪心算法 day08(加油站+单调递增的数字+坏了的计算机)

目录 1.加油站 2.单调递增的数字 3.坏了的计算器 1.加油站 链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09; 思路&#xff1a; gas[index] - cost[index]&#xff0c;ret 表示的是在i位置开始循环时剩余的油量 a到达的最大路径假设是f那么我们可以得出 a b …...

String类基本使用

文章目录 1. String类的理解和创建对象2. 创建String对象的两种方式3. 两种创建String对象的区别4. 测试5. 字符串的特性6. String 类的常见方法 1. String类的理解和创建对象 String 对象用于保存字符串&#xff0c;也就是一组字符序列字符串常量对象是用双引号括起的字符序列…...

华为机试—火车进站

题目 火车站一共有 n 辆火车需要入站&#xff0c;每辆火车有一个编号&#xff0c;编号为 1 到 n。 同时&#xff0c;也有火车需要出站&#xff0c;由于火车站进出共享一个轨道&#xff0c;所以后入站的火车需要先出站。换句话说&#xff0c;对于某一辆火车&#xff0c;只有在它…...

Python数组(array)学习之旅:数据结构的奇妙冒险

Python数组学习之旅:数据结构的奇妙冒险 第一天:初识数组的惊喜 阳光透过窗帘缝隙洒进李明的房间,照亮了他桌上摊开的笔记本和笔记本电脑。作为一名刚刚转行的金融分析师,李明已经坚持学习Python编程一个月了。他的眼睛因为昨晚熬夜编程而微微发红,但脸上却挂着期待的微…...

spark-core编程2

Key-Value类型&#xff1a; foldByKey 当分区内计算规则和分区间计算规则相同时&#xff0c;aggregateByKey 就可以简化为 foldByKey combineByKey 最通用的对 key-value 型 rdd 进行聚集操作的聚集函数&#xff08;aggregation function&#xff09;。类似于aggregate()&…...

AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用

Nat. Rev. Bioeng. | 大语言模型在医学领域的革命性应用 大型语言模型&#xff08;LLMs&#xff09;&#xff0c;如 ChatGPT&#xff0c;因其对人类语言的理解与生成能力而备受关注。尽管越来越多研究探索其在临床诊断辅助、医学教育等任务中的应用&#xff0c;但关于其发展、…...

Windows 系统中安装 Git 并配置 GitHub 账户

由于电脑重装系统&#xff0c;重新配置了git. 以下是在 Windows 系统中安装 Git 并配置 GitHub 账户的详细步骤&#xff1a; 1. 安装 Git 访问 Git 官网下载页面下载 Windows 版本的 Git 安装程序运行安装程序&#xff0c;使用默认选项即可 2. 配置 Git 用户信息 打开命令…...

QQ风格客服聊天窗口

QQ风格客服聊天窗口 展示引入方式 展示 引入方式 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title&g…...

fastadmin后端添加页面,自主控制弹出框关闭,关闭父页面弹框

Form.api.bindevent($(“form[roleform]”), (data, ret) > { 重写绑定事件,返回false即可 注意:只有返回code1才能拦截,其他值不进行拦截 add: function () {//获取当前search里面的type值var type location.search.split(type)[1];Form.api.bindevent($("form[role…...

leetcode572 另一棵树的子树

1.与100、101解法相同 递归&#xff1a; class Solution { private:bool compare(TreeNode* p, TreeNode* q){if(!p && !q) return true;else if(!p || !q) return false;else if(p->val ! q->val) return false;bool leftside compare(p->left, q->lef…...

MCU刷写——Hex文件格式详解及Python代码

工作之余来写写关于MCU的Bootloader刷写的相关知识,以免忘记。今天就来聊聊Hex这种文件的格式,我是分享人M哥,目前从事车载控制器的软件开发及测试工作。 学习过程中如有任何疑问,可底下评论! 如果觉得文章内容在工作学习中有帮助到你,麻烦点赞收藏评论+关注走一波!感谢…...

ubnetu 服务器版本常用端口和开放的端口对应的应用

1. 使用 netstat 查看端口与进程 netstat 是查看网络连接和监听端口的常用工具。通过以下命令可以列出所有开放的TCP/UDP端口及其关联的进程&#xff1a; sudo netstat -tulnp参数解析&#xff1a; -t&#xff1a;显示TCP端口。 -u&#xff1a;显示UDP端口。 -l&#xff1…...

汇舟问卷:国外问卷调查技巧有哪些,具体该怎么操作

大家好&#xff0c;我是汇舟问卷&#xff0c;今天咱们就聊聊国外问卷答题的技巧和操作步骤&#xff0c;保你听完立马能上手&#xff01; 一、答题前先创建人设 1&#xff0c;进题时先瞄两眼问题&#xff0c;快速判断问卷主题&#xff0c;再定人设。比如遇到奶粉问卷&#xff…...

DeepSeek的神经元革命:穿透搜索引擎算法的下一代内容基建

DeepSeek的神经元革命&#xff1a;穿透搜索引擎算法的下一代内容基建 ——从语义网络到价值共识的范式重构 一、搜索引擎的“内容饥渴症”与AI的基建使命 2024年Q1数据显示&#xff0c;百度索引网页总数突破3500亿&#xff0c;但用户点击集中在0.78%的高价值页面。这种“数据…...

C++标识符:检查是否和保留字冲突

1. 基础知识 最基本的要求&#xff1a; 字母、数字、下划线组成&#xff0c; 并且不能是数字开头。 禁忌1&#xff1a; C 关键字不能用做标识符。 它们是&#xff1a; alignas alignof asm auto bool break case catch char char16_t char32_t class const constexpr const_…...

《Python星球日记》第27天:Seaborn 可视化

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 专栏&#xff1a;《Python星球日记》&#xff0c;限时特价订阅中ing 目录 一、Seabor…...

自动驾驶技术-相机_IMU时空标定

自动驾驶技术-相机_IMU时空标定 时间延迟 时间延迟 参考链接1、2 相机主要分为全局和卷帘快门相机&#xff0c;从触发到成像的过程包括&#xff1a;复位时间、AE()曝光时间、读出时间 全局快门如下图所示 卷帘快门如下图所示 相机录制视频时&#xff0c;为了保持固定频率&am…...

第十六届蓝桥杯大赛软件赛省赛 Python 大学 B 组 部分题解

题面链接Htlang/2025lqb_python_b 个人觉得今年这套题整体比往年要简单许多&#xff0c;但是G题想简单了出大问题&#xff0c;预估50101015120860&#xff0c;道阻且长&#xff0c;再接再厉 A: 攻击次数 答案&#xff1a;103&#xff1f;181&#xff1f;题目没说明白每回合是…...

HTTP:三.HTTP连接

HTTP(Hypertext Transfer Protocol)是一种用于传输超文本数据的应用层协议。它是互联网上最常用的协议,用于在客户端和服务器之间传输数据。HTTP协议通常用于从Web服务器传输网页和文件到客户端浏览器,并支持其他用途,如传输API数据和传输文件。 HTTP连接是指客户端向服务…...

Oracle 复制表结构(含索引、主键)操作指南

Oracle 复制表结构&#xff08;含索引、主键&#xff09;操作指南 1. 复制基础表结构 -- 创建空表结构&#xff08;不复制数据&#xff09; CREATE TABLE new_table AS SELECT * FROM old_table WHERE 10;2. 复制主键约束 -- 查询原表主键信息 SELECT constraint_name, co…...

”插入排序“”选择排序“

文章目录 插入排序1. 直接插入排序(O(n^2))举例1&#xff1a;举例2&#xff1a;直插排序的"代码"直插排序的“时间复杂度” 2. 希尔排序(O(n^1.3))方法一方法二(时间复杂度更优) 选择排序堆排序直接选择排序 我们学过冒泡排序&#xff0c;堆排序等等。&#xff08;回…...

烟花爆竹储存作业安全要求

烟花爆竹储存作业证是从事相关作业的法定凭证&#xff0c;旨在确保操作人员具备专业知识和安全技能&#xff0c;防止因违规操作引发火灾、爆炸等事故。根据《烟花爆竹安全管理条例》及相关法规&#xff0c;未取得作业证的人员不得从事烟花爆竹储存、搬运、管理等作业。 仓库选址…...

Python深度学习基础——卷积神经网络(CNN)(PyTorch)

CNN原理 从DNN到CNN 卷积层与汇聚 深度神经网络DNN中&#xff0c;相邻层的所有神经元之间都有连接&#xff0c;这叫全连接&#xff1b;卷积神经网络 CNN 中&#xff0c;新增了卷积层&#xff08;Convolution&#xff09;与汇聚&#xff08;Pooling&#xff09;。DNN 的全连接…...

Python(11)Python判断语句全面解析:从基础到高级模式匹配

目录 一、条件逻辑的工程价值1.1 真实项目中的逻辑判断1.2 判断语句类型矩阵 二、基础判断深度解析2.1 多条件联合判断2.2 类型安全判断 三、模式匹配进阶应用3.1 结构化数据匹配3.2 对象模式匹配 四、判断语句优化策略4.1 逻辑表达式优化4.2 性能对比测试 五、典型应用场景实战…...

MTK7628基于原厂的mtk-openwrt-sdk-20160324-8f8e4f1e.tar.bz2 源代码包,配置成单网口模式的方法

一、配置. 在SDK工程下&#xff0c;运行make kernel_menuconfig&#xff0c;如下图所示&#xff1a; Ralink Module --->选上“One Port Only”&#xff0c;如下图所示&#xff1a; 如果P0网口实现WAN口&#xff0c;就配置成W/LLLL,否则就配置成LLLL/W. 二、修改网口的原代…...

艾伦·图灵:计算机科学与人工智能之父

名人说&#xff1a;路漫漫其修远兮&#xff0c;吾将上下而求索。—— 屈原《离骚》 创作者&#xff1a;Code_流苏(CSDN)&#xff08;一个喜欢古诗词和编程的Coder&#x1f60a;&#xff09; 艾伦图灵&#xff1a;计算机科学与人工智能之父 一、天才的诞生与早期生涯 1912年6月…...

策略模式实现 Bean 注入时怎么知道具体注入的是哪个 Bean?

Autowire Resource 的区别 1.来源不同&#xff1a;其中 Autowire 是 Spring2.5 定义的注解&#xff0c;而 Resource 是 Java 定义的注解 2.依赖查找的顺序不同&#xff1a; 依赖注入的功能&#xff0c;是通过先在 Spring IoC 容器中查找对象&#xff0c;再将对象注入引入到当…...

React九案例中

代码下载 地图找房模块 顶部导航栏 封装NavHeader组件实现城市选择&#xff0c;地图找房页面的复用&#xff0c;在 components 目录中创建组件 NavHeader&#xff0c;把之前城市列表写过的样式复制到 NavHeader.scss 下&#xff0c;在该组件中封装 antd-mobile 组件库中的 N…...

第一期:[特殊字符] 深入理解MyBatis[特殊字符]从JDBC到MyBatis——持久层开发的转折点[特殊字符]

前言 &#x1f31f; 在软件开发的过程中&#xff0c;持久层&#xff08;或数据访问层&#xff09;是与数据库进行交互的关键部分。早期&#xff0c;开发者通常使用 JDBC&#xff08;Java Database Connectivity&#xff09;来实现与数据库的连接与操作。虽然 JDBC 在一定程度上…...