当前位置：首页 > news >正文

vLLM 部署 DeepSeek 大模型避坑指南

news 2026/2/10 6:44:53

本文基于实战经验，提供从环境准备到性能调优的全流程避坑指南。

一、环境准备：驱动与硬件兼容性

1. NVIDIA 驱动与 CUDA 版本对齐

确保NVIDIA驱动和CUDA版本相互匹配是关键。例如，CUDA 12.x需要至少525.60+的驱动版本。

# 使用 nvidia-smi 查看驱动状态
nvidia-smi
# 确认 CUDA 版本是否与 PyTorch 安装版本一致
nvcc --version

2. 物理设备识别与资源竞争

多GPU环境下，通过设置 CUDA_VISIBLE_DEVICES 来指定使用的GPU，以避免资源争抢。

export CUDA_VISIBLE_DEVICES=0,1 # 仅使用 GPU 0 和 1

二、依赖安装：PyTorch 与 vLLM 版本管理

1. PyTorch 版本选择

为了确保PyTorch能够正确调用GPU，需选择与CUDA版本相匹配的PyTorch版本。

pip install torch==2.1.2 torchvision==0.16.2 --extra-index-url https://download.pytorch.org/whl/cu121

2. vLLM 安装与更新

建议从源码编译安装以启用最新优化功能。

git clone https://github.com/vllm-project/vllm.git
cd vllm && pip install -e . # 开发模式安装

三、模型部署：配置与启动

1. 模型加载参数优化

为防止显存不足(OOM)，特别是在处理长文本时，应调整相关参数。

python -m vllm.entrypoints.api_server \--model deepseek-ai/deepseek-llm-7b-base \--tensor-parallel-size 2 \          # 多卡并行--gpu-memory-utilization 0.9 \      # 显存利用率上限--max-num-batched-tokens 4096       # 批处理 token 数

2. API 服务端口冲突

为了避免默认端口被占用的问题，可以指定一个未使用的端口号。

python -m vllm.entrypoints.api_server --port 8001
curl http://localhost:8001/v1/models # 测试连通性

四、性能调优：吞吐量与延迟平衡

1. 连续批处理（Continuous Batching）

启用动态批处理机制可以提高GPU利用率。

from vllm import SamplingParams
sampling_params = SamplingParams(max_tokens=512, batch_type="auto")

2. 量化与显存压缩

利用AWQ/GPTQ技术进行模型量化，减少显存需求。

python -m vllm.entrypoints.api_server \--model deepseek-ai/deepseek-llm-7b-base-awq \--quantization awq \--dtype half

五、常见错误与排查

对于常见的错误如CUDA Out of Memory或模型加载失败，提供详细的排查步骤和解决方案。

六、监控与日志

使用 nvidia-smi 实时监控GPU利用率，并分析vLLM的日志文件来定位潜在问题。

vllm链接：https://vllm.hyper.ai/docs/getting-started/installation/
deepseek 开源链接：https://www.modelscope.cn/docs/models/download

vLLM 部署 DeepSeek 大模型避坑指南

本文基于实战经验，提供从环境准备到性能调优的全流程避坑指南。一、环境准备：驱动与硬件兼容性 1. NVIDIA 驱动与 CUDA 版本对齐确保NVIDIA驱动和CUDA版本相互匹配是关键。例如，CUDA 12.x需要至少525.60的驱动版本。 # 使用 nvidia-smi…...

编程日记 2025/2/17 13:57:52

本地部署MindSearch（开源 AI 搜索引擎框架），然后上传到 hugging face的Spaces——L2G6

部署MindSearch到 hugging face Spaces上——L2G6 任务1 在官方的MindSearch页面复制Spaces应用到自己的Spaces下，Space 名称中需要包含 MindSearch 关键词，请在必要的步骤以及成功的对话测试结果当中实现过程如下： 2.1 MindSearch 简…...

编程日记 2025/2/17 13:53:44

【大模型系列】Windows系统上运行大语言模型方式

在Windows系统上运行大语言模型（LLMs）有多种方式，以下是一些具体的方法： GPT4All 简介：GPT4All是一个适用于所有操作系统的LLM框架和聊天机器人应用程序，可以本地运行LLMs，并通过API将其与任何…...

编程日记 2025/2/17 13:52:37

Linux Mem -- Where the mte store and check in the real hardware platform

目录 1 前言 2 MTE tag分类 3 Address tag 4 Memory tag 5 Tag Check 6 Cortex-A710 和 CI-700 系统示例： 1 前言 ARM的MTE允许分配、设置、比较一个 4bit的allocation tag 为16字节粒度的物理地址。当对MTE有一定了解后，应该会产生如下疑问&#…...

编程日记 2025/2/17 13:49:27

连锁企业管理系统的五大核心功能

连锁管理系统对于连锁企业的运营和发展至关重要，以下以核货宝连锁管理系统为例，介绍其五大核心功能： 门店管理功能门店信息管理：核货宝连锁管理系统可集中管理所有门店的详细信息，包括门店地址、联系方式、营业时间、…...

编程日记 2025/2/17 13:48:24

Docker配置镜像加速-解决黑马商城部署Mysql失败问题

随着 Docker 在容器化应用中的广泛应用，越来越多的开发者选择通过 Docker 来简化开发和部署过程。然而，在使用 Docker 部署应用时，有时会遇到因为镜像下载速度慢或者 MySQL 部署失败等问题，特别是在中国地区，由于网络环…...

编程日记 2025/2/17 13:44:13

Cherno C++ P54 内存：栈与堆

这篇文章我们来谈论一下计算机的内存。在这里，我们着重讨论内存的两个部分：栈与堆。我们需要注意的一点是，这两个概念不是虚拟的，而是在计算机内部真实存在的。它们是我们的CPU当中RAM部分物理上存在的两个区域。我们之所以要重点…...

编程日记 2025/2/17 13:43:12

对项目交接的一些思考

天下大势，分久必合合久必分。这些年交接了很多项目，也从别人那里接手了很多项目。最近又接收了一些项目，但团队接收的效果不是很好，或者说掌握的不全面，所以就在想怎么能够做的更好一些？ 团队关系其实我…...

编程日记 2025/2/17 13:40:02

【PYTORCH】官方的turoria实现中英文翻译

参考 https://pytorch.org/tutorials/intermediate/seq2seq_translation_tutorial.html 背景 pytorch官方的是seq2seq是法语到英文，做了一个中文到英文的。数据集下载后解压，使用的data\testsets\devset\UNv1.0.devset.zh和UNv1.0.devset.en&#x…...

编程日记 2025/2/17 13:35:52

【算法与数据结构】并查集详解+题目

目录一，什么是并查集二，并查集的结构三，并查集的代码实现 1，并查集的大致结构和初始化 2，find操作 3，Union操作 4，优化小结： 四，并查集的应用场景省份…...

编程日记 2025/2/17 13:34:48

【动态路由】系统web url整合系列【springcloud-gateway实现】【不改hosts文件版】组件一：多个Eureka路由过滤器

需求实现URL web资源整合，实现使用一个web地址访问多个web资源方案本方案使用SpringCloud Gateway实现，不需要在hosts文件加添加域名映射（也不需要定义一系列域名），通过url路径来将请求转发到不同的Web资源如&…...

编程日记 2025/2/17 13:32:45

Mybatis-扩展功能

逻辑删除乐观锁 MyBatisPlus从入门到精通-3（含mp代码生成器） Db静态工具类 Spring依赖循环问题代码生成器 MybatisPlus代码生成器枚举处理器我们这里用int来存储状态需要注解，很不灵活希望用枚举类来代替这个Integer 这样的话我…...

编程日记 2025/2/17 13:31:42

基于SpringBoot实现的大学社团平台系统实现功能六

一、前言介绍： 1.1 项目摘要随着高校社团活动的日益丰富和多样化，学生对于社团管理和参与的需求也在不断增加。传统的社团管理方式往往存在效率低下、信息不透明等问题，无法满足现代学生对于便捷、高效社团管理的需求。因此，利…...

编程日记 2025/2/17 13:29:39

电子电气架构 --- 机器学习推动车载雷达的发展

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身…...

编程日记 2025/2/17 13:28:37

python从入门到进去

python从入门到进去第一章、软件和工具的安装一、安装 python 解释器二、安装 pycharm 第二章、初识 python一、注释可分三种二、打印输入语句三、变量1、基本数据类型1.1、整数数据类型 int1.2、浮点数数据类型 float1.3、布尔数据类型 boolean1.4、字符串数据类型 string 2、…...

编程日记 2025/2/17 13:24:31

智能化客户画像构建管理：AI视频监控在大型商场的技术

前言：某商家为了优化卖场服务与营销策略，希望通过非侵入式手段获取客户画像，不仅可以帮助卖场提升服务质量、优化营销策略，还能通过数据驱动的方式提升销售业绩和顾客满意度，为卖场的长期发展奠定坚实的基础。具体需求…...

编程日记 2025/2/17 13:23:28

php 拼接字符串

php 拼接字符串 .连字符"Hello, $name" 双引号内会解析变量"Hello, {$name}Doe" 使用花括号可以更明确标识变量名sprintf("Hello, %s", $name) 使用sprintfheredoc语法，同样支持变量的解析$html <<<EOT <p>Hello, $…...

编程日记 2025/2/17 13:18:20

Deepseek实用万能提问模板

一，背景需求约束条件背景:提供与问题相关的时间、地点、人物、事件等信息，帮助 DeepSeek 更好地理解问题的情境。需求:清晰明确地阐述你希望 DeepSeek完成的任务或提供的信息。约束条件:可根据具体情况，对回答的范围、格式、字数等进行…...

编程日记 2025/2/17 13:16:11

MySQL、MariaDB 和 TDSQL 的区别

MySQL、MariaDB 和 TDSQL 是三种不同的数据库管理系统，它们在设计理念、功能、性能和使用场景上有一些显著的区别。以下是对这三者的详细比较和介绍。 1. MySQL 概述类型：关系型数据库管理系统（RDBMS）。开发者：最…...

编程日记 2025/2/17 13:14:08

Android车机DIY开发之软件篇(十七) Android模拟器移植Automotive

AndroidProducts.mk 路径： /device/generic/goldfish/pc/AndroidProducts.mk sdk_pc_x86_64.mk路径： /device/generic/goldfish/pc/sdk_pc_x86_64.mk sdk_car_x86_64.mk路径： /device/generic/goldfish/car/sdk_car_x86_64.mk BoardConfig.mk…...

编程日记 2025/2/17 13:13:06

智慧医疗能源事业线深度画像分析（上）

引言医疗行业作为现代社会的关键基础设施，其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入，智慧医疗能源事业线应运而生，致力于通过创新技术与管理方案，重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

编程新知 2026/2/10 4:40:33

.Net框架，除了EF还有很多很多......

文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

编程新知 2026/2/1 19:26:16

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。您还将了解如何分析列，以便知晓哪些列包含有价值的数据，…...

编程新知 2026/1/30 9:51:12

C++使用 new 来创建动态数组

问题： 不能使用变量定义数组大小原因： 这是因为数组在内存中是连续存储的，编译器需要在编译阶段就确定数组的大小，以便正确地分配内存空间。如果允许使用变量来定义数组的大小，那么编译器就无法在编译时确定数组的大…...

编程新知 2026/2/2 18:33:19

站群服务器的应用场景都有哪些？

站群服务器主要是为了多个网站的托管和管理所设计的，可以通过集中管理和高效资源的分配，来支持多个独立的网站同时运行，让每一个网站都可以分配到独立的IP地址，避免出现IP关联的风险，用户还可以通过控制面板进行管理功…...

编程新知 2025/9/1 19:01:24

安卓基础（Java 和 Gradle 版本）

1. 设置项目的 JDK 版本方法1：通过 Project Structure File → Project Structure... (或按 CtrlAltShiftS) 左侧选择 SDK Location 在 Gradle Settings 部分，设置 Gradle JDK 方法2：通过 Settings File → Settings... (或 CtrlAltS)…...

编程新知 2025/7/10 0:32:50

uniapp 小程序学习（一）

利用Hbuilder 创建项目运行到内置浏览器看效果下载微信小程序安装到Hbuilder 下载地址 ：开发者工具默认安装设置服务端口号在Hbuilder中设置微信小程序配置找到运行设置，将微信开发者工具放入到Hbuilder中， 打开后出现如下 bug 解…...

编程新知 2026/2/5 4:29:00

DeepSeek源码深度解析 × 华为仓颉语言编程精粹——从MoE架构到全场景开发生态

前言在人工智能技术飞速发展的今天，深度学习与大模型技术已成为推动行业变革的核心驱动力，而高效、灵活的开发工具与编程语言则为技术创新提供了重要支撑。本书以两大前沿技术领域为核心，系统性地呈现了两部深度技术著作的精华：…...

编程新知 2026/2/5 4:33:51

若依登录用户名和密码加密

/*** 获取公钥：前端用来密码加密* return*/GetMapping("/getPublicKey")public RSAUtil.RSAKeyPair getPublicKey() {return RSAUtil.rsaKeyPair();}新建RSAUti.Java package com.ruoyi.common.utils;import org.apache.commons.codec.binary.Base64; im…...

编程新知 2026/1/22 11:27:07

解析两阶段提交与三阶段提交的核心差异及MySQL实现方案

引言在分布式系统的事务处理中，如何保障跨节点数据操作的一致性始终是核心挑战。经典的两阶段提交协议（2PC）通过准备阶段与提交阶段的协调机制，以同步决策模式确保事务原子性。其改进版本三阶段提交协议（3PC&#xf…...

编程新知 2026/2/7 9:17:02