当前位置：首页 > news >正文

大模型系列课程学习-基于Vllm/Ollama/Ktransformers完成Deepseek推理服务部署

news 2026/2/9 18:21:15

1.机器配置及实验说明

基于前期搭建的双卡机器装机教程，配置如下：

硬件名称	参数	备注
CPU	E5-2680V42 *2（线程28个）	无
GPU	2080TI-22G 双卡	魔改卡
系统	WSL Unbuntu 22.04.5 LTS	虚拟机

本轮实验目的：基于VLLM/Ollama/ktransformers框架完成Deepseek大模型私有化部署，了解如何搭建大模型推理服务。

2.大模型推理框架介绍及实战

2.1 推理框架介绍

目前大模型推理框架主要包含VLLM/SGLang/ollama/ktransformer等框架，如下是各个框架的介绍：

VLLM：是UC Berkeley大佬Ion Stoica组开源的大模型推理引擎。其在2023.6.20首次发布,为了实现快速推理，经过特别优化，具有高服务吞吐量，使用pagedAttention的有效注意力内存管理。连续批处理和优化的CUDA内核，此外还支持各种解码算法、张量并行和流式输出，支持huggingface模型格式，提供兼容OpenAI的API接口官网链接
SGLang：是一个对标vLLM的大语言模型推理框架，系统的整体架构如下图，分为前端和后端。前端是对调用大语言模型的一些常用操作的抽象，提供一系列原语。后端是具体的对推理过程的优化。 SGLang的两点主要的优化是RadixAttention和Structured output。在此基础之上，作为大模型推理的基础框架，后续也有很多其他的系统优化工作是在SGLang框架上的。官网链接
ollama:是一个简明易用的本地大模型运行框架,只需一条命令即可在本地跑大模型。开源项目，专注于开发和部署先进的大型语言模型（LLM）官网链接,支持guff模型格式
KTransfomers:是一个由清华大学KVAV.AI团队开发的开源项目，旨在优化大语言模型（LLM）的推理性能，特别是在有限显存资源下运行大型模型。支持huggingface模型格式和guff的格式。

2.2 VLLM部署Deepseek大模型

为了方便快速部署，本轮实验采用Deepseek蒸馏模型（DeepSeek-R1-Distill-Qwen-1.5B），可以从huggingface社区或者modelscope进行下载
步骤一：模型下载

国外下载链接：https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B/tree/main
国内下载链接：https://hf-mirror.com/deepseek-ai
git方式下载：

git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

步骤二：安装VLLM
需要注意的是，安装vllm有比较多的依赖，例如torch环境、cuda版本等
（1）nvcc -V 版本和nvidia-smi版本保持一致：
在这里插入图片描述
驱动报错：

cmake报错：

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5c66a146185f4ad8947bc6b1c0c827a3.png)（2）torch版本依赖：安装vllm之前，虚拟环境中一定要有pytorch环境，否则会报错，这里建议部署的时候，新建环境，python和torch都安装最新版本，出错概率会小一些，否则会报如下错误：
```pythonPreparing metadata (setup.py) ... errorerror: subprocess-exited-with-error× python setup.py egg_info did not run successfully.│ exit code: 1╰─> [6 lines of output]Traceback (most recent call last):File "<string>", line 2, in <module>File "<pip-setuptools-caller>", line 34, in <module>File "/tmp/pip-install-sa81j1_y/xformers_5701c77d28094ba6bffdabe8c9ba5779/setup.py", line 24, in <module>import torchModuleNotFoundError: No module named 'torch'

【错误分析】环境中未安装pytorch，按照驱动版本安装相应pytorch版本即可：
在这里插入图片描述
有时候还会遇到如下错误：

Please install it with "pip install transformers[torch]'

在这里插入图片描述
【错误解析】python的版本较老，对于一些新的模型不兼容，建议重建虚拟环境进行最新版本安装
（3）Xformer版本的依赖

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torchvision 0.20.1+cu124 requires torch==2.5.1, but you have torch 2.6.0 which is incompatible.

【错误解析】Xformer版本与torch有强烈依赖关系，安装之前需要下载对应版本
在这里插入图片描述
对应关系可以参考xfomers官网链接
（4）安装VLLM

步骤三：配置模型，启动服务
（1）配置启动模型及配置sh 脚本

#启动时需要将注释内容删除，且对空格比较敏感
python -m vllm.entrypoints.openai.api_server \
--model /mnt/e/NLP/deepseek/DeepSeek-R1-Distill-Qwen-1.5B \  #模型存放绝对路径
--served-model-name deepseek-qwen-1.5b \ # 配置的服务名称
--dtype=half \ #精度
--tensor-parallel-size 1 \ # 并行tensor
--max-model-len 1000 \ #最大模型长度
--trust-remote-code \ 
--gpu-memory-utilization 0.9 #gpu的利用率

（2）启动脚本 sh start.sh
在这里插入图片描述

模型占用显存:

(3)调用模型服务：

curl -X POST "http://localhost:8000/v1/chat/completions"      -H "Content-Type: application/json"     --data '{"model": "deepseek-qwen-1.5b","messages": [{"role": "user","content": "你是谁？"}]}'

返回结果
在这里插入图片描述

2.3 ollama部署Deepseek大模型

步骤一：下载ollama
（1）网络下载：
curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
在这里插入图片描述
（2）安装ollama

步骤二：下载Deepseek模型

ollama run deepseek-r1:1.5b

在这里插入图片描述
步骤三：模型测试

2.4 Ktransformer部署Deepseek大模型

步骤一：克隆仓库

git clone https://github.com/kvcache-ai/ktransformers.git

在这里插入图片描述

步骤二：安装ktransfomers库

 pip install  KTransformers -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simplesome-package

步骤三：启动模型

ktransformers --type transformers --model_path /mnt/e/NLP/deepseek/DeepSeek-R1-Distill-Qwen-1.5B

在这里插入图片描述

步骤四：测试模型接口

curl -X POST "http://localhost:10002/v1/chat/completions"      -H "Content-Type: application/json"     --data '{"model": "deepseek-qwen-1.5b","messages": [{"role": "user","content": "你是谁？"}]}'

返回结果：
在这里插入图片描述

大模型系列课程学习-基于Vllm/Ollama/Ktransformers完成Deepseek推理服务部署

1.机器配置及实验说明

2.大模型推理框架介绍及实战

2.1 推理框架介绍

2.2 VLLM部署Deepseek大模型

2.3 ollama部署Deepseek大模型

2.4 Ktransformer部署Deepseek大模型

相关文章：

大模型系列课程学习-基于Vllm/Ollama/Ktransformers完成Deepseek推理服务部署

基于深度文档理解的开源 RAG 引擎RAGFlow的介绍和安装

DNS Beaconing

【论文阅读】多模态——LSeg

vue3如何配置环境和打包

高并发下订单库存防止超卖策略

vue安装stylelint

用Deepseek写一个 HTML 和 JavaScript 实现一个简单的飞机游戏

three.js 在 webGL 添加纹理

【5】单调队列学习笔记

deepseek为什么要开源

MySQL基本建表操作

防火墙旁挂组网双机热备负载均衡

大白话react第十八章React 与 WebGL 项目的高级拓展与优化

JavaScript系列06-深入理解 JavaScript 事件系统：从原生事件到 React 合成事件

C++：string容器（下篇）

2.数据结构-栈和队列

aws(学习笔记第三十一课) aws cdk深入学习（batch-arm64-instance-type）

MySQL 中，SELECT ... FOR UPDATE

云服务运维智能时代：阿里云操作系统控制台

Linux应用开发之网络套接字编程(实例篇)

OpenLayers 可视化之热力图

2024年赣州旅游投资集团社会招聘笔试真

BCS 2025｜百度副总裁陈洋：智能体在安全领域的应用实践

Java线上CPU飙高问题排查全指南

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

C++.OpenGL （20/64）混合（Blending）

LRU 缓存机制详解与实现（Java版） + 力扣解决

elementUI点击浏览table所选行数据查看文档

Unity中的transform.up