当前位置：首页 > article >正文

5分钟在本地PC上使用VLLM快速启动DeepSeek-R1-Distill-Qwen-32B

article 2026/5/8 19:27:46

5分钟在本地PC上使用VLLM快速启动DeepSeek-R1-Distill-Qwen-32B

- 前言
- 环境准备
- - 所需工具
  - 创建虚拟环境
  - 安装VLLM及依赖库
- 模型下载
- - 安装Hugging Face CLI
  - 下载DeepSeek-R1-Distill-Qwen-32B
- 模型启动
- - 启动命令
  - 启动确认
- 模型验证
- - 发送API请求
  - 示例输出
- 注意事项
- 参考链接

前言

VLLM 是一个高效且轻量的大规模语言模型（LLM）服务器。本文将介绍如何在本地PC上使用VLLM快速启动 DeepSeek-R1-Distill-Qwen-32B 这一高性能语言模型。按照本文的步骤操作，您可以在5分钟内完成模型的启动。

环境准备

所需工具

请确保已安装以下工具：

conda：用于管理Python虚拟环境。
pip：用于安装Python包。
VLLM：用于高效运行LLM的服务器。
flash-attn：用于加速模型推理的库。

创建虚拟环境

首先，创建一个Python 3.11的虚拟环境并激活它。

conda create -n vllm_v0.7.1 python=3.11 -y
conda activate vllm_v0.7.1

安装VLLM及依赖库

运行以下命令安装VLLM和flash-attn。

pip install vllm
pip install flash-attn --no-build-isolation

模型下载

安装Hugging Face CLI

为了下载模型，首先安装Hugging Face CLI。

pip install "huggingface_hub[hf_transfer]"

下载DeepSeek-R1-Distill-Qwen-32B

使用以下命令下载 DeepSeek-R1-Distill-Qwen-32B 模型。

HF_HUB_ENABLE_HF_TRANSFER=1 \
huggingface-cli download deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

模型启动

启动命令

使用以下命令启动模型。
（通过CUDA_VISIBLE_DEVICES指定使用的GPU，并通过--tensor-parallel-size指定GPU数量。）

CUDA_VISIBLE_DEVICES=3,1,0,2 \
VLLM_USE_V1=1 \
VLLM_WORKER_MULTIPROC_METHOD=spawn \
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
--trust-remote-code --served-model-name gpt-4 \
--gpu-memory-utilization 0.98 --tensor-parallel-size 4 \
--port 8000 --max-model-len 65536

启动确认

成功启动后，您将看到以下消息：

INFO:     Uvicorn running on http://0.0.0.0:8000 (Press CTRL+C to quit)

模型验证

发送API请求

使用以下命令向启动的模型发送API请求，验证其是否正常运行。

invoke_url='http://localhost:8000/v1/chat/completions'authorization_header='Authorization: Bearer sk-dummy'
accept_header='Accept: application/json'
content_type_header='Content-Type: application/json'data=$'{"messages": [{"role": "user","content": "Which number is larger, 9.11 or 9.8?"}],"stream": false,"model": "gpt-4","max_tokens": 4096,"presence_penalty": 0,"frequency_penalty": 0,"top_p": 0.7,"temperature": 0.6
}'response=$(curl --silent -i -w "\n%{http_code}" --request POST \--url "$invoke_url" \--header "$authorization_header" \--header "$accept_header" \--header "$content_type_header" \--data "$data"
)echo "$response"

示例输出

您将收到类似以下的响应：

注意事项

GPU内存设置：--gpu-memory-utilization 0.98用于设置GPU内存利用率，请根据您的环境调整。
张量并行处理：--tensor-parallel-size 4应根据使用的GPU数量进行调整。
端口号：--port 8000是API的端口号，如果与其他应用程序冲突，请更改。

参考链接

VLLM官方文档
DeepSeek-R1-Distill-Qwen-32B（Hugging Face）

按照以上步骤，您可以在本地PC上快速启动 DeepSeek-R1-Distill-Qwen-32B 模型。赶快试试吧！

5分钟在本地PC上使用VLLM快速启动DeepSeek-R1-Distill-Qwen-32B

5分钟在本地PC上使用VLLM快速启动DeepSeek-R1-Distill-Qwen-32B 前言环境准备所需工具创建虚拟环境安装VLLM及依赖库模型下载安装Hugging Face CLI下载DeepSeek-R1-Distill-Qwen-32B 模型启动启动命令启动确认模型验证发送API请求示例输出注意事项参考链接前言 VLLM 是一个…...

编程日记 2026/4/30 19:07:26

【Numpy核心编程攻略：Python数据处理、分析详解与科学计算】1.13 降维打击：扁平化操作的六种武器

1.13 降维打击：扁平化操作的六种武器目录 #mermaid-svg-bbLxDryjxBbXe3tu {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-bbLxDryjxBbXe3tu .error-icon{fill:#552222;}#mermaid-svg-bbLxDryjxBbXe3tu…...

编程日记 2026/5/5 22:00:37

Oracle Primavera P6 最新版 v24.12 更新 2/2

目录一. 引言二. P6 EPPM 更新内容 1. 用户管理改进 2. 更轻松地标准化用户设置 3. 摘要栏标签汇总数据字段 4. 将里程碑和剩余最早开始日期拖到甘特图上 5. 轻松访问审计数据 6. 粘贴数据时排除安全代码 7. 改进了状态更新卡片视图中的筛选功能 8. 直接从活动电子…...

编程日记 2026/5/2 8:57:00

DeepSeek相关技术整理

相关介绍 2024年12月26日，DeepSeek V3模型发布（用更低的训练成本，训练出更好的效果）671B参数，激活37B。2025年1月20日，DeepSeek-R1模型发布（仅需少量标注数据（高质量长cot&#xff…...

编程日记 2026/4/27 22:20:52

AI-on-the-edge-device - 将“旧”设备接入智能世界

人工智能无处不在，从语音到图像识别。虽然大多数 AI 系统都依赖于强大的处理器或云计算，但**边缘计算**通过利用现代处理器的功能，使 AI 更接近最终用户。本项目演示了使用 **ESP32**（一种低成本、支持 AI 的设备）进行…...

编程日记 2026/5/1 9:40:34

Openfga 授权模型搭建

1.根据项目去启动配置一个 openfga 服务器先创建一个 config.yaml文件 cd /opt/openFGA/conf touch ./config.yaml 怎么配置？ 根据官网来看 openfga/.config-schema.json at main openfga/openfga GitHub 这里讲述详细的每一个配置每一个类型这些配置有…...

编程日记 2026/5/6 22:55:19

C++模板编程——可变参函数模板之折叠表达式

目录 1. 什么是折叠表达式 2. 一元左折 3. 一元右折 4. 二元左折 5. 二元右折 6. 后记上一节主要讲解了可变参函数模板和参数包展开，这一节主要讲一下折叠表达式。 1. 什么是折叠表达式折叠表达式是C17中引入的概念，引入折叠表达式的目的是为了…...

编程日记 2026/4/29 17:50:33

ArkTS渲染控制

文章目录 if/else：条件渲染ArkUI通过自定义组件的build()函数和@Builder装饰器中的声明式UI描述语句构建相应的UI。在声明式描述语句中开发者除了使用系统组件外，还可以使用渲染控制语句来辅助UI的构建，这些渲染控制语句包括控制组件是否显示的条件渲染语句，基于数组数据快…...

编程日记 2026/5/8 2:33:14

在Scene里面绘制编辑工具

功能要求策划要在scene模式下编辑棋子摆放。用handle.GUI绘制来解决了。问题在scene模式下编辑产生的数据，进入游戏模式后就全不见了。改为executeAlways也没用。我的解决办法是把编辑数据序列化保存到本地。在OnEnable的时候再读取。但是我忽然想到&#xff…...

编程日记 2026/2/27 2:22:56

UbuntuWindows双系统安装

做系统盘： Ubuntu20.04双系统安装详解（内容详细，一文通关！）_ubuntu 20.04-CSDN博客 ubuntu系统调整大小： 调整指南： 虚拟机中的Ubuntu扩容及重新分区方法_ubuntu重新分配磁盘空间-CSDN博客 …...

编程日记 2026/4/29 17:50:28

[Linux]如何將腳本(shell script)轉換到系統管理服務器(systemd service)來運行?

[InfluxDB]Monitor Tem. and Volt of RaspberryPi and Send Message by Line Notify 在Linux中，shell腳本(shell script)常用於運行各種自動化的流程，包含API串接，設置和啟動應用服務等等，腳本語法也相對易學易讀，因此…...

编程日记 2026/2/24 15:35:31

【leetcode详解】T598 区间加法

598. 区间加法 II - 力扣（LeetCode） 思路分析核心在于将问题转化， 题目不是要求最大整数本身，而是要求解最大整数的个数结合矩阵元素的增加原理，我们将抽象问题转为可操作的方法，其实就是再找每组ops中…...

编程日记 2026/5/6 22:05:25

分层多维度应急管理系统的设计

一、系统总体架构设计 1. 六层体系架构 #mermaid-svg-QOXtM1MnbrwUopPb {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-QOXtM1MnbrwUopPb .error-icon{fill:#552222;}#mermaid-svg-QOXtM1MnbrwUopPb .error-text{f…...

编程日记 2026/3/8 3:25:30

稀疏进化训练：机器学习优化算法中的高效解决方案

稀疏进化训练：机器学习优化算法中的高效解决方案稀疏进化训练：机器学习优化算法中的高效解决方案引言第一部分：背景与动机1.1 传统优化算法的局限性1.2 进化策略的优势1.3 稀疏性的重要性第二部分：稀疏进化训练的核心思想2.1 稀…...

编程日记 2026/3/9 19:42:50

实战：如何利用网站日志诊断并解决收录问题？

本文转自：百万收录网原文链接：https://www.baiwanshoulu.com/50.html 利用网站日志诊断并解决收录问题是一种非常有效的方法。以下是一个实战指南，帮助你如何利用网站日志来诊断并解决网站的收录问题： 一、获取并分析网站日志 …...

编程日记 2026/5/1 5:38:03

群晖搭建Gitea教程（使用系统自带的postgresql）

基于群晖7.2.2，使用套件中心的gitea，和系统自带的postgresql postgresql: 切换到postgres用户 sudo -I -u postgres 在想要保存数据库的磁盘路径下创建PostgreSql文件夹初始化数据库文件夹配置 initdb -D ./PostgreSql 备份./PostgreSql路径下的post…...

编程日记 2026/5/7 17:07:24

备考蓝桥杯嵌入式2：使用LCD完成显示

LCD LCD（液晶显示器，Liquid Crystal Display）是一种常见的平面显示技术，广泛应用于电视、电脑显示器、手机屏幕等设备。蓝桥杯中，也有涉及到使用LCD来完成字符串显示的要求和操作。考场上会给予LCD的驱动包&#xf…...

编程日记 2026/5/7 16:08:06

网络爬虫学习：应用selenium获取Edge浏览器版本号，自动下载对应版本msedgedriver，确保Edge浏览器顺利打开。

一、前言我从24年11月份开始学习网络爬虫应用开发，经过2个来月的努力，于1月下旬完成了开发一款网络爬虫软件的学习目标。这里对本次学习及应用开发进行一下回顾总结。前几天我已经发了一篇日志（网络爬虫学习：应用selenium从搜…...

编程日记 2026/5/6 3:54:30

Elasticsearch的索引生命周期管理

目录说明零、参考一、ILM的基本概念二、ILM的实践步骤Elasticsearch ILM策略中的“最小年龄”是如何计算的？如何监控和调整Elasticsearch ILM策略的性能？ 1. **监控性能**使用/_cat/thread_pool API基本请求格式请求特定线程池的信息响应内容 2. **调整…...

编程日记 2026/5/7 23:37:01

Observability：实现 OpenTelemetry 原生可观察性的商业价值

作者：来自 Elastic David Hope 利用开放标准和简化的数据收集转变组织的可观察性策略。现代组织面临着前所未有的可观察性挑战。随着系统变得越来越复杂和分散，传统的监控方法难以跟上步伐。由于数据量每两年翻一番，系统跨越多个云和技术&am…...

编程日记 2026/5/6 11:50:45

C语言中的线程本地变量

这处线程本地变量可不是简单的函数中的本地变量。线程除了可以共享存在于进程内的全局变量外，还可以有属于自己的线程本地变量。线程本地变量的值只能够在某个具体线程的生存期内可用。变量的实际存储空间会在线程开始时分配，线程结束时回收。线程不会对…...

编程日记 2026/3/6 6:47:28

Zabbix 推送告警消息模板美化（钉钉Webhook机器人、邮件）

目前网络上已经有很多关于Zabbix如何推送告警信息到钉钉机器人、到邮件等文章。但是在搜索下来，发现缺少了对告警信息的美化的文章。本文不赘述如何对Zabbix对接钉钉、对接邮件，仅介绍我采用的美化消息模板的内容。活用AI工具可以减轻很多学习、脑力负…...

编程日记 2026/4/29 17:50:34

罗格斯大学：通过输入嵌入对齐选择agent

📖标题：AgentRec: Agent Recommendation Using Sentence Embeddings Aligned to Human Feedback 🌐来源：arXiv, 2501.13333 🌟摘要 🔸多代理系统必须决定哪个代理最适合给定的任务。我们提出了一种新的架…...

编程日记 2026/5/4 5:36:41

机器学习7-全连接神经网络3-过拟合与超参数

机器学习6-全连接神经网络3-过拟合欠拟合过拟合应对过拟合-最优方案：获取更多的训练数据应对过拟合-次优方案：正则化应对过拟合-次优方案2：随机失活综合考量超参数超参数优化方法过拟合机器学习的根本问题是优化和泛化的问题。优化——是…...

编程日记 2026/4/29 17:50:37

【PyTorch】7.自动微分模块：开启神经网络 “进化之门” 的魔法钥匙

目录 1. 梯度基本计算 2. 控制梯度计算 3. 梯度计算注意 4. 小节个人主页：Icomi 专栏地址：PyTorch入门在深度学习蓬勃发展的当下，PyTorch 是不可或缺的工具。它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活…...

编程日记 2026/4/29 17:50:38

11 3D变换模块（transform3d.rs）

transform3d.rs代码定义了一个名为 Transform3D 的 Rust 结构体，它用于表示一个3D变换矩阵。这个结构体是泛型的，包含三个类型参数：T、Src 和 Dst。其中，T 用于矩阵元素的数据类型，Src 和 Dst 用于表示变换的源和目标类…...

编程日记 2026/2/23 19:42:52

MATLAB基础应用精讲-【数模应用】梯度直方图（HOG）（附C++和python代码实现）（二）

目录前言几个高频面试题目 HOG与SIFT区别边缘特征与梯度方向直方图的关系算法原理什么是HOG 图像中像素点的梯度计算为每个cell构造梯度方向直方图HOG 数学模型方向梯度直方图计算步骤第一步：预处理第二步：计算梯度图像第三步：在8*8的网格中计算梯度…...

编程日记 2026/4/4 5:38:49

pytorch生成对抗网络

人工智能例子汇总：AI常见的算法和例子-CSDN博客生成对抗网络（GAN，Generative Adversarial Network）是一种深度学习模型，由两个神经网络组成：生成器（Generator）和判别器&#xff0…...

编程日记 2026/5/7 19:25:32

Baklib在企业知识管理领域的领先地位与三款竞品的深度剖析

内容概要在现代企业中，知识管理已成为提高工作效率和推动创新的重要手段。Baklib作为一款领先的知识中台，以其集成化和智能化的特性，帮助企业在这一领域取得了显著成就。该平台具备强大的知识收集、整理、存储和共享功能，通过构…...

编程日记 2026/4/29 17:50:36

2 MapReduce

2 MapReduce 1. MapReduce 介绍1.1 MapReduce 设计构思 2. MapReduce 编程规范3. Mapper以及Reducer抽象类介绍1.Mapper抽象类的基本介绍2.Reducer抽象类基本介绍 4. WordCount示例编写5. MapReduce程序运行模式6. MapReduce的运行机制详解6.1 MapTask 工作机制6.2 ReduceTask …...

编程日记 2026/4/29 17:50:35

5分钟在本地PC上使用VLLM快速启动DeepSeek-R1-Distill-Qwen-32B

前言

环境准备

所需工具

创建虚拟环境

安装VLLM及依赖库

模型下载

安装Hugging Face CLI

下载DeepSeek-R1-Distill-Qwen-32B

模型启动

启动命令

启动确认

模型验证

发送API请求

示例输出

注意事项

参考链接

相关文章：