当前位置：首页 > article >正文

vllm部署QwQ32B(Q4_K_M)

article 2026/3/8 7:20:00

vllm部署QwQ32B(Q4_K_M)

Ollama是一个轻量级的开源LLM推理框架，注重简单易用和本地部署，而VLLM是一个专注于高效推理的开源大型语言模型推理引擎，适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和易用性，而VLLM更注重模型推理性能的优化。所以VLLM更适合企业级的高并发需求。

vllm的github地址

https://github.com/vllm-project/vllm

QwQ32B硬件要求

Q4_K_M量化，大概需要22G左右够用，一张3090或者4090即可，魔改2080ti 的 22G 显存差不多够用

硬件配置	模型推理		模型高效微调		模型全量微调
	显存占用	最低配置	显存占用	最低配置	显存占用	最低配置
FP_16	64G	RTX3090＊4（94G）	92G	RTX3090＊4（94G）	350G	A100＊6（480G）
Q_4_K_M	23G	RTX3090（24G）	31G	RTX3090＊2（48G）	－	－

这里使用vllm部署的是Q4_K_M量化，显存占用22G，需要至少一张3090/4090
这里我用的是1张4090

下载QwQ32B模型Q_4_K_MM）

可以使用huggingface或者ModelScope下载，注意不要下成Q4_K_M版本的，这里我用的modelscope下载

假设当前目录为

/root/lanyun-tmp

安装 modelscope

pip install modelscope --index https://pypi.mirrors.ustc.edu.cn/simple

执行下载模型的命令，下载 Qwen/QwQ-32B (下载较慢)

https://modelscope.cn/models/Qwen/QwQ-32B-GGUF

复制全名

Qwen/QwQ-32B-GGUF

模型文件下，复制qwq-32b-q4_k_m.gguf 单独下载
```
modelscope download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf --local_dir ./QwQ-32B-GGUF
```
查看
```
cd /root/lanyun-tmp/QwQ-32B-GGUF
ll -h
```

安装vllm

使用conda创建虚拟环境

conda create --name vllm python=3.10 -yconda activate vllm

下载vllm（指定源，否则极慢）

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

vllm启动QwQ32B

切到刚下载完成QwQ32B目录下
```
cd  /root/lanyun-tmp/QwQ-32B-GGUF
```
启动QwQ32B
```
CUDA_VISIBLE_DEVICES=0 vllm serve ./qwq-32b-q4_k_m.gguf  --max-model-len 4000 --port 8081
```
1. CUDA_VISIBLE_DEVICES=0 :指定使用的 GPU 设备为第1张卡。
2. vllm serve:启动一个 HTTP 服务器，用于接收和处理推理请求。
3. ./qwq-32b-q4_k_m.gguf ：指定要加载的模型路径。
4. –max-model-len ：设置最大上下文长度。这里24G显存最多只能设置为5000左右，否则就会报错cuda oom。
5. –port 8081：指定HTTP服务监听的端口号。
显存占用：22G左右

连接使用

代码

from openai import OpenAI
import openaiopenai.api_key = '1111111' # 这里随便填一个
openai.base_url = 'http://127.0.0.1:8081/v1'def get_completion(prompt, model="QwQ-32B"):client = OpenAI(api_key=openai.api_key,base_url=openai.base_url)messages = [{"role": "user", "content": prompt}]response = client.chat.completions.create(model=model,messages=messages,stream=False)return response.choices[0].message.contentprompt = '你好，请幽默的介绍下你自己，不少于300子'
get_completion(prompt, model="./qwq-32b-q4_k_m.gguf")

速度大概在39 tokens/s

vllm部署QwQ32B(Q4_K_M)

vllm部署QwQ32B(Q4_K_M) Ollama是一个轻量级的开源LLM推理框架，注重简单易用和本地部署，而VLLM是一个专注于高效推理的开源大型语言模型推理引擎，适合开发者在实际应用中集成和使用。两者的主要区别在于Ollama更注重为用户提供多种模型选择和…...

编程日记 2026/3/4 12:43:15

VLLM：虚拟大型语言模型（Virtual Large Language Model）

VLLM：虚拟大型语言模型（Virtual Large Language Model） VLLM指的是一种基于云计算的大型语言模型的虚拟实现。它通常是指那些由多个服务器组成的分布式计算环境中的复杂机器学习模型，这些模型能够处理和理解大量的文本数据。VLLM的…...

编程日记 2026/2/15 11:30:27

企业内网监控软件的选型与应用：四款主流产品的深度剖析

在数字化办公的时代背景下，企业内部网络管理的重要性愈发显著。对于企业管理者而言，如何精准掌握员工工作状态，保障网络安全与工作效率，已成为亟待解决的关键问题。本文将深入剖析四款主流企业内网监控软件，探讨其功能…...

编程日记 2026/2/15 0:33:53

蓝桥杯省赛（2024）

问题描述小蓝和朋友们在玩一个报数游戏。由于今年是 20242024 年，他们决定要从小到大轮流报出是 2020 或 2424 倍数的正整数。前 1010 个被报出的数是：20,24,40,48,60,72,80,96,100,12020,24,40,48,60,72,80,96,100,120。请问第 2024202420242024202420…...

编程日记 2026/2/24 3:36:50

Qt窗口控件之字体对话框QFontDialog

字体对话框QFontDialog QFontDialog 是 Qt 内置的字体对话框，用户能够在这里选择字体的样式、大小，设置加粗和下划线并将结果作为返回值返回。QFontDialog 最好使用其提供的静态函数实例化匿名对象，并获取返回值最为用户选择字体设置的结果。…...

编程日记 2026/2/23 1:04:48

Qt QML实现视频帧提取

## 前言视频帧率（Frame Rate）是指视频播放时每秒显示的画面帧数，通常用fps（Frames Per Second）来表示。视频是由一系列静止的图像帧组成的，而视频帧率则决定了这些图像帧在单位时间内播放的速度。较高的视…...

编程日记 2026/3/4 22:16:41

网络性能指标

目录时延延迟抖动丢包率时延：数据传输的快慢，影响实时性。抖动：延迟的变化，影响稳定性。丢包率：数据丢失的比例，影响可靠性。时延定义：时延是指数据从发送端传输到接收端所需的时间&…...

编程日记 2026/2/25 15:53:45

在 Ubuntu 服务器上使用宝塔面板搭建博客

📌 介绍在本教程中，我们将介绍如何在 Ubuntu 服务器上安装宝塔面板，并使用 Nginx PHP MySQL 搭建一个博客（如 WordPress）。主要步骤包括： 安装宝塔面板配置 Nginx PHP MySQL绑定域名与 SSL 证书…...

编程日记 2026/2/28 4:20:53

计算机组成与接口16

1.0的表示方法唯一的有补码，移码，ASCII码 2.可以多次编程的只读存储器是EPROM,掩膜式ROM 3.8259A芯片可设置成脉冲边沿触发方式；全嵌套方式；自动中断结束方式；特殊屏蔽方式 4.计算机系统中的总线按层次可以分为板级…...

编程日记 2026/2/17 2:38:31

有了大语言模型还需要 RAG 做什么

一、百炼平台简介阿里云的百炼平台就像是一个超级智能的大厨房，专门为那些想要做出美味AI大餐的企业和个人厨师准备的。你不需要从头开始做每一道菜，因为这个厨房已经为你准备了很多预制食材（预训练模型），你可以根据…...

编程日记 2026/3/7 18:12:33

【从0到1搞懂大模型】RNN基础（4）

先说几个常用的可以下载数据集的地方平台：kaggle（https://www.kaggle.com/datasets） 和鲸社区（https://www.heywhale.com/home） 阿里天池（https://tianchi.aliyun.com/） 其他：海量公…...

编程日记 2026/2/15 5:21:29

题目代码 #include <bits/stdc.h> using namespace std;const int N 1e5 10;int a[N], b[N]; int n, m, len; int rt[N], idx; // idx 是点分配器struct node {int l, r;int s; } tr[N * 22];int getw(int x) {return lower_bound(b 1, b len 1, x) - b; }int bui…...

编程日记 2026/2/24 0:17:22

直流减速电机控制实验：Simulink应用层开发（1）

文章目录 1 阶段目标2 功能需求3 需求拆解及方案研究3.1 需求拆解3.2 按键指令识别3.3 电机状态转换3.4 脉宽及启停判断4 总结1 阶段目标本文是《直流减速电机控制实验》的第三部分，会通过图文结合的方式，手把手带读者操作Simulink工具进行直流减速电机的应用层开发。本章…...

编程日记 2026/2/15 13:54:38

本地部署Deep Seek-R1，搭建个人知识库——笔记

目录一、本地部署 DeepSeek - R1 1：安装Ollama 2：部署DeepSeek - R1模型 3：安装Cherry Studio 二、构建私有知识库一、本地部署 DeepSeek - R1 1：安装Ollama 1.打开Ollama下载安装未科学上网，I 先打开迅雷再下…...

编程日记 2026/2/15 5:26:38

【软考-架构】5.3、IPv6-网络规划-网络存储-补充考点

✨资料&文章更新✨ GitHub地址：https://github.com/tyronczt/system_architect 文章目录 IPv6网络规划与设计建筑物综合布线系统PDS💯考试真题第一题第二题磁盘冗余阵列网络存储技术其他考点💯考试真题第一题第二题 IPv6 网络规划与设计…...

编程日记 2026/2/25 13:58:34

fastapi+angular外卖系统

说明： fastapiangular外卖系统 1.美食分类（粥，粉，面，炸鸡，炒菜，西餐，奶茶等等） 2.商家列表 （kfc，兰州拉面，湘菜馆，早餐店…...

编程日记 2026/2/14 23:03:35

Oracle静默安装方法

Web服务器上面的Linux一般是不会有图形界面的，所有通过图形界面来安装Linux的方式在没有图形界面的Linux上面是行不通的，我们要使用的安装方式叫做Linux的静默安装。即在没有图形界面的Linux上面安装。 1. 下载地址 http://www.oracle.com/technetwork…...

编程日记 2026/2/25 20:02:31

鸿蒙路由 HMRouter 配置及使用三全局拦截器使用

1、前期准备简单封装一个用户首选项的工具类 import { preferences } from "kit.ArkData";// 用户首选项方法封装 export class Preferences {private myPreferences: preferences.Preferences | null null;// 初始化init(context: Context, options: preference…...

编程日记 2026/2/15 10:54:21

计算机视觉——深入理解卷积神经网络与使用卷积神经网络创建图像分类算法

引言卷积神经网络（Convolutional Neural Networks，简称 CNNs）是一种深度学习架构，专门用于处理具有网格结构的数据，如图像、视频等。它们在计算机视觉领域取得了巨大成功，成为图像分类、目标检测、图像分…...

编程日记 2026/3/7 3:17:57

永磁同步电机无速度算法--拓展卡尔曼滤波器

一、原理介绍以扩展卡尔曼滤波算法为基础，建立基于EKF算法的估算转子位置和转速的离散模型。实时性是扩展卡尔曼滤波器的一种特征，所以它可实时跟踪系统的状态并进行有效的输出，同时，它可以减少干扰、抑制噪声，其效…...

编程日记 2026/2/16 11:42:52

电机控制常见面试问题（十五）

文章目录一、电机气隙二、电气时间三.电机三环控制详解四.驱动板跳线意义一、电机气隙电机气隙是定子和转子之间的空隙，防止钉子转子运转时物理接触，此外，气隙是磁路的重要环节，磁场需通过气隙传递能量，但其较高的…...

编程日记 2026/2/19 23:40:33

a2字幕分享

1. 沟通communication Hey everybody Welcome to this A2 English listening practice video. You can use this video to practice your listening and comprehension as I speak. Before we start, remember to download the Listening Time podcast and become a member a…...

编程日记 2026/2/10 6:28:56

vllm部署QwQ32B(Q4_K_M)

vllm部署QwQ32B(Q4_K_M)

下载QwQ32B模型Q_4_K_MM）

安装vllm

vllm启动QwQ32B

连接使用

相关文章：

vllm部署QwQ32B(Q4_K_M)

VLLM：虚拟大型语言模型（Virtual Large Language Model）

企业内网监控软件的选型与应用：四款主流产品的深度剖析

蓝桥杯省赛（2024）

Qt窗口控件之字体对话框QFontDialog

Qt QML实现视频帧提取

网络性能指标

在 Ubuntu 服务器上使用宝塔面板搭建博客

计算机组成与接口16

有了大语言模型还需要 RAG 做什么

【从0到1搞懂大模型】RNN基础（4）

【第K小数——可持久化权值线段树】

直流减速电机控制实验：Simulink应用层开发（1）

本地部署Deep Seek-R1，搭建个人知识库——笔记

【软考-架构】5.3、IPv6-网络规划-网络存储-补充考点

fastapi+angular外卖系统

Oracle静默安装方法

鸿蒙路由 HMRouter 配置及使用三全局拦截器使用

计算机视觉——深入理解卷积神经网络与使用卷积神经网络创建图像分类算法

永磁同步电机无速度算法--拓展卡尔曼滤波器

电机控制常见面试问题（十五）

a2字幕分享

基于cat1的多传感器融合的贵重资产管理解决方案项目说明书

deepseek使用记录23——我们的遭遇

【CF】Day9——Codeforces Round 953 (Div. 2) BCD

PEFT简介

harmonyOS NEXT开发与前端开发深度对比分析

Unity小框架之单例模式基类

随机过程的基本概念机有限维分布的数字特征

langchain如何并行调用运行接口