vLLM实战:多机多卡大模型分布式推理部署全流程指南
1. 环境准备与基础配置
1.1 系统要求
依赖组件:
# 基础工具安装
sudo apt-get install -y lsof git-lfs nvidia-cuda-toolkit
1.2 虚拟环境配置
使用conda创建隔离环境,避免依赖冲突:
conda create -n vllm python=3.10 -y
conda activate vllm
# 配置conda源加速
conda config --add channels conda-forge
conda config --set channel_priority strict
conda install sqlite=3.42.0
1.3 vLLM与依赖安装
# 安装xFormers加速组件
pip install xformers-0.0.27.post2-cp310-cp310-manylinux2014_x86_64.whl
# 通过清华源安装vLLM
pip install vllm==0.5.4 -i https://pypi.tuna.tsinghua.edu.cn/simple
# 安装Ray分布式框架
conda install -c conda-forge ray-default
2. 分布式集群搭建
2.1 Ray集群配置
主节点启动(假设IP为192.168.1.1):
ray start --head --port=6379 \--node-ip-address=192.168.1.1 \--dashboard-host=0.0.0.0 \--num-gpus=4 \--object-store-memory=4294967296
工作节点加入:
ray start --address=192.168.1.1:6379 \--node-ip-address=192.168.1.2 \--num-gpus=4
关键参数说明:
–num-gpus:必须与物理GPU数量一致
–object-store-memory:建议设置为可用内存的70%
2.2 网络优化配置
# 设置通信网卡(根据实际网卡名称调整)
export GLOO_SOCKET_IFNAME=eth0
export NCCL_SOCKET_IFNAME=eth0
export NCCL_ALGO=Tree
export NCCL_NSOCKS_PERTHREAD=4
export NCCL_SOCKET_NTHREADS=2
常见问题:
若出现Gloo connectFullMesh failed错误,需检查防火墙设置并确认网卡名称正确
跨节点通信延迟高时,可尝试export NCCL_NET_GDR_LEVEL=PHB启用高性能模式
3. 模型部署与启动
3.1 模型下载
从ModelScope下载模型(以Qwen2.5-1.5B为例):
modelscope download --model qwen/Qwen2.5-1.5B
模型默认保存在~/.cache/modelscope/hub/目录
3.2 分布式启动命令
两节点部署示例(每节点4卡):
节点0启动命令
GLOO_SOCKET_IFNAME=eth0 NCCL_SOCKET_IFNAME=eth0 RAY_USE_IPV4=1 \
vllm serve qwen/Qwen2.5-1.5B \--dtype half \--tensor-parallel-size 4 \--pipeline-parallel-size 2 \--distributed-executor-backend ray \--gpu-memory-utilization 0.9 \--max-model-len 2048 \--host 0.0.0.0 \--port 6397 \--api-key key-abc123 \--cpu-offload-gb 64 \--block-size 8 \--swap-space 16
参数解析:
| 参数 | 作用 | 推荐值 |
|---|---|---|
| –tensor-parallel-size | 单节点内GPU并行数 | 通常等于单节点GPU数 |
| –pipeline-parallel-size | 跨节点并行数 | 通常等于节点数 |
| –cpu-offload-gb | CPU内存卸载量 | 显存不足时可设为物理内存的50% |
| –swap-space | SSD交换空间 | 建议16-32GB |
3.3 服务验证
健康检查:
curl http://localhost:6397/health
正常响应应包含200 OK状态码
模型列表查询:
curl http://localhost:6397/v1/models \-H "Authorization: Bearer key-abc123"
对话测试:
curl -X POST http://localhost:6397/v1/chat/completions \-H "Content-Type: application/json" \-H "Authorization: Bearer key-abc123" \-d '{"model": "qwen/Qwen2.5-1.5B","messages": [{"role": "system", "content": "你是一个专业的中文助手"},{"role": "user", "content": "用200字介绍下你自己"}],"temperature": 0.1,"max_tokens": 300,"stop": ["<|im_end|>"]}'
4. 性能优化策略
4.1 显存管理
分块处理:通过–block-size 8减小内存块大小,提升显存利用率
交换空间:启用–swap-space 16利用SSD扩展内存
动态卸载:设置–cpu-offload-gb 64将部分计算卸载到CPU
4.2 通信优化
拓扑感知:通过nvidia-smi topo -m查看GPU连接方式,优先使用NVLink互联的GPU组
协议调优:
export NCCL_IB_DISABLE=1 # 非InfiniBand环境禁用
export NCCL_SOCKET_NTHREADS=2 # 增加通信线程
4.3 批处理优化
连续批处理:vLLM默认启用,通过–max-num-seqs 256控制并发量
预填充优化:添加–enable-chunked-prefill参数减少延迟
5. 常见问题排查
5.1 部署阶段问题
问题1:Ray节点无法加入集群
解决方案:
检查防火墙设置:sudo ufw allow 6379/tcp
验证网络连通性:ping <主节点IP>
确认Ray版本一致:ray --version
问题2:NCCL通信超时
解决方案:
export NCCL_DEBUG=INFO
export NCCL_P2P_DISABLE=1 # 临时禁用P2P
5.2 推理阶段问题
问题3:显存不足(OOM)
解决方案:
降低–gpu-memory-utilization至0.7-0.8
启用量化:–quantization awq
减少–max-model-len值
问题4:响应延迟高
解决方案:
检查GPU利用率:nvidia-smi -l 1
调整–tensor-parallel-size与–pipeline-parallel-size比例
6. 监控与维护
6.1 集群监控
Ray Dashboard:访问http://:8265查看集群状态
Prometheus:集成vLLM指标导出:
vllm serve ... --enable-prometheus
6.2 日志分析
关键日志路径:
Ray日志:/tmp/ray/session_latest/logs/
vLLM日志:启动时添加> vllm.log 2>&1
注:实际性能取决于硬件配置和模型特性
相关文章:
vLLM实战:多机多卡大模型分布式推理部署全流程指南
1. 环境准备与基础配置 1.1 系统要求 依赖组件: # 基础工具安装 sudo apt-get install -y lsof git-lfs nvidia-cuda-toolkit1.2 虚拟环境配置 使用conda创建隔离环境,避免依赖冲突: conda create -n vllm python3.10 -y conda activate…...
贪心算法 day08(加油站+单调递增的数字+坏了的计算机)
目录 1.加油站 2.单调递增的数字 3.坏了的计算器 1.加油站 链接:. - 力扣(LeetCode) 思路: gas[index] - cost[index],ret 表示的是在i位置开始循环时剩余的油量 a到达的最大路径假设是f那么我们可以得出 a b …...
String类基本使用
文章目录 1. String类的理解和创建对象2. 创建String对象的两种方式3. 两种创建String对象的区别4. 测试5. 字符串的特性6. String 类的常见方法 1. String类的理解和创建对象 String 对象用于保存字符串,也就是一组字符序列字符串常量对象是用双引号括起的字符序列…...
华为机试—火车进站
题目 火车站一共有 n 辆火车需要入站,每辆火车有一个编号,编号为 1 到 n。 同时,也有火车需要出站,由于火车站进出共享一个轨道,所以后入站的火车需要先出站。换句话说,对于某一辆火车,只有在它…...
Python数组(array)学习之旅:数据结构的奇妙冒险
Python数组学习之旅:数据结构的奇妙冒险 第一天:初识数组的惊喜 阳光透过窗帘缝隙洒进李明的房间,照亮了他桌上摊开的笔记本和笔记本电脑。作为一名刚刚转行的金融分析师,李明已经坚持学习Python编程一个月了。他的眼睛因为昨晚熬夜编程而微微发红,但脸上却挂着期待的微…...
spark-core编程2
Key-Value类型: foldByKey 当分区内计算规则和分区间计算规则相同时,aggregateByKey 就可以简化为 foldByKey combineByKey 最通用的对 key-value 型 rdd 进行聚集操作的聚集函数(aggregation function)。类似于aggregate()&…...
AIDD-人工智能药物设计-大语言模型在医学领域的革命性应用
Nat. Rev. Bioeng. | 大语言模型在医学领域的革命性应用 大型语言模型(LLMs),如 ChatGPT,因其对人类语言的理解与生成能力而备受关注。尽管越来越多研究探索其在临床诊断辅助、医学教育等任务中的应用,但关于其发展、…...
Windows 系统中安装 Git 并配置 GitHub 账户
由于电脑重装系统,重新配置了git. 以下是在 Windows 系统中安装 Git 并配置 GitHub 账户的详细步骤: 1. 安装 Git 访问 Git 官网下载页面下载 Windows 版本的 Git 安装程序运行安装程序,使用默认选项即可 2. 配置 Git 用户信息 打开命令…...
QQ风格客服聊天窗口
QQ风格客服聊天窗口 展示引入方式 展示 引入方式 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title&g…...
fastadmin后端添加页面,自主控制弹出框关闭,关闭父页面弹框
Form.api.bindevent($(“form[roleform]”), (data, ret) > { 重写绑定事件,返回false即可 注意:只有返回code1才能拦截,其他值不进行拦截 add: function () {//获取当前search里面的type值var type location.search.split(type)[1];Form.api.bindevent($("form[role…...
leetcode572 另一棵树的子树
1.与100、101解法相同 递归: class Solution { private:bool compare(TreeNode* p, TreeNode* q){if(!p && !q) return true;else if(!p || !q) return false;else if(p->val ! q->val) return false;bool leftside compare(p->left, q->lef…...
MCU刷写——Hex文件格式详解及Python代码
工作之余来写写关于MCU的Bootloader刷写的相关知识,以免忘记。今天就来聊聊Hex这种文件的格式,我是分享人M哥,目前从事车载控制器的软件开发及测试工作。 学习过程中如有任何疑问,可底下评论! 如果觉得文章内容在工作学习中有帮助到你,麻烦点赞收藏评论+关注走一波!感谢…...
ubnetu 服务器版本常用端口和开放的端口对应的应用
1. 使用 netstat 查看端口与进程 netstat 是查看网络连接和监听端口的常用工具。通过以下命令可以列出所有开放的TCP/UDP端口及其关联的进程: sudo netstat -tulnp参数解析: -t:显示TCP端口。 -u:显示UDP端口。 -l࿱…...
汇舟问卷:国外问卷调查技巧有哪些,具体该怎么操作
大家好,我是汇舟问卷,今天咱们就聊聊国外问卷答题的技巧和操作步骤,保你听完立马能上手! 一、答题前先创建人设 1,进题时先瞄两眼问题,快速判断问卷主题,再定人设。比如遇到奶粉问卷ÿ…...
DeepSeek的神经元革命:穿透搜索引擎算法的下一代内容基建
DeepSeek的神经元革命:穿透搜索引擎算法的下一代内容基建 ——从语义网络到价值共识的范式重构 一、搜索引擎的“内容饥渴症”与AI的基建使命 2024年Q1数据显示,百度索引网页总数突破3500亿,但用户点击集中在0.78%的高价值页面。这种“数据…...
C++标识符:检查是否和保留字冲突
1. 基础知识 最基本的要求: 字母、数字、下划线组成, 并且不能是数字开头。 禁忌1: C 关键字不能用做标识符。 它们是: alignas alignof asm auto bool break case catch char char16_t char32_t class const constexpr const_…...
《Python星球日记》第27天:Seaborn 可视化
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 专栏:《Python星球日记》,限时特价订阅中ing 目录 一、Seabor…...
自动驾驶技术-相机_IMU时空标定
自动驾驶技术-相机_IMU时空标定 时间延迟 时间延迟 参考链接1、2 相机主要分为全局和卷帘快门相机,从触发到成像的过程包括:复位时间、AE()曝光时间、读出时间 全局快门如下图所示 卷帘快门如下图所示 相机录制视频时,为了保持固定频率&am…...
第十六届蓝桥杯大赛软件赛省赛 Python 大学 B 组 部分题解
题面链接Htlang/2025lqb_python_b 个人觉得今年这套题整体比往年要简单许多,但是G题想简单了出大问题,预估50101015120860,道阻且长,再接再厉 A: 攻击次数 答案:103?181?题目没说明白每回合是…...
HTTP:三.HTTP连接
HTTP(Hypertext Transfer Protocol)是一种用于传输超文本数据的应用层协议。它是互联网上最常用的协议,用于在客户端和服务器之间传输数据。HTTP协议通常用于从Web服务器传输网页和文件到客户端浏览器,并支持其他用途,如传输API数据和传输文件。 HTTP连接是指客户端向服务…...
Oracle 复制表结构(含索引、主键)操作指南
Oracle 复制表结构(含索引、主键)操作指南 1. 复制基础表结构 -- 创建空表结构(不复制数据) CREATE TABLE new_table AS SELECT * FROM old_table WHERE 10;2. 复制主键约束 -- 查询原表主键信息 SELECT constraint_name, co…...
”插入排序“”选择排序“
文章目录 插入排序1. 直接插入排序(O(n^2))举例1:举例2:直插排序的"代码"直插排序的“时间复杂度” 2. 希尔排序(O(n^1.3))方法一方法二(时间复杂度更优) 选择排序堆排序直接选择排序 我们学过冒泡排序,堆排序等等。(回…...
烟花爆竹储存作业安全要求
烟花爆竹储存作业证是从事相关作业的法定凭证,旨在确保操作人员具备专业知识和安全技能,防止因违规操作引发火灾、爆炸等事故。根据《烟花爆竹安全管理条例》及相关法规,未取得作业证的人员不得从事烟花爆竹储存、搬运、管理等作业。 仓库选址…...
Python深度学习基础——卷积神经网络(CNN)(PyTorch)
CNN原理 从DNN到CNN 卷积层与汇聚 深度神经网络DNN中,相邻层的所有神经元之间都有连接,这叫全连接;卷积神经网络 CNN 中,新增了卷积层(Convolution)与汇聚(Pooling)。DNN 的全连接…...
Python(11)Python判断语句全面解析:从基础到高级模式匹配
目录 一、条件逻辑的工程价值1.1 真实项目中的逻辑判断1.2 判断语句类型矩阵 二、基础判断深度解析2.1 多条件联合判断2.2 类型安全判断 三、模式匹配进阶应用3.1 结构化数据匹配3.2 对象模式匹配 四、判断语句优化策略4.1 逻辑表达式优化4.2 性能对比测试 五、典型应用场景实战…...
MTK7628基于原厂的mtk-openwrt-sdk-20160324-8f8e4f1e.tar.bz2 源代码包,配置成单网口模式的方法
一、配置. 在SDK工程下,运行make kernel_menuconfig,如下图所示: Ralink Module --->选上“One Port Only”,如下图所示: 如果P0网口实现WAN口,就配置成W/LLLL,否则就配置成LLLL/W. 二、修改网口的原代…...
艾伦·图灵:计算机科学与人工智能之父
名人说:路漫漫其修远兮,吾将上下而求索。—— 屈原《离骚》 创作者:Code_流苏(CSDN)(一个喜欢古诗词和编程的Coder😊) 艾伦图灵:计算机科学与人工智能之父 一、天才的诞生与早期生涯 1912年6月…...
策略模式实现 Bean 注入时怎么知道具体注入的是哪个 Bean?
Autowire Resource 的区别 1.来源不同:其中 Autowire 是 Spring2.5 定义的注解,而 Resource 是 Java 定义的注解 2.依赖查找的顺序不同: 依赖注入的功能,是通过先在 Spring IoC 容器中查找对象,再将对象注入引入到当…...
React九案例中
代码下载 地图找房模块 顶部导航栏 封装NavHeader组件实现城市选择,地图找房页面的复用,在 components 目录中创建组件 NavHeader,把之前城市列表写过的样式复制到 NavHeader.scss 下,在该组件中封装 antd-mobile 组件库中的 N…...
第一期:[特殊字符] 深入理解MyBatis[特殊字符]从JDBC到MyBatis——持久层开发的转折点[特殊字符]
前言 🌟 在软件开发的过程中,持久层(或数据访问层)是与数据库进行交互的关键部分。早期,开发者通常使用 JDBC(Java Database Connectivity)来实现与数据库的连接与操作。虽然 JDBC 在一定程度上…...
