当前位置：首页 > news >正文

内网环境使用Docker部署Qwen2模型-vLLM篇

news 2026/5/24 17:29:59

在此之前，我们已成功利用Docker与Ollama框架，在内网环境中部署了Qwen2模型。下面我们再来看一下使用Docker与vLLM框架部署Qwen2模型。

准备vLLM镜像

在一台具备网络环境的机器上执行以下命令，拉取vLLM的镜像：

# 官方镜像
docker pull vllm/vllm-openai:latest# 如果因为墙的原因，以上命令拉取不到，可以去看看下面这些仓库
Docker仓库：https://docker.1panel.live ✅网友自建
Docker仓库：https://docker.agsv.top  ✅网友自建
Docker仓库：https://docker.agsvpt.work  ✅网友自建
Docker仓库：https://dockerpull.com ✅网友自建
Docker仓库：https://dockerproxy.cn ✅网友自建

下载Qwen2-7B-Instruct模型

我这里下载的是Qwen2-7B-Instruct-GPTQ-Int4的模型。下载地址：

https://huggingface.co/Qwen/Qwen2-7B-Instruct-GPTQ-Int4

编写Dockerfile

我们将Qwen2模型打包上传到服务器，然后编写Dockerfile：

# 基础镜像
FROM vllm/vllm-openai:latest# 暴露端口
EXPOSE 8000# 将模型上传到基础镜像
ADD Qwen2-7B-Instruct-GPTQ-Int4 /home/Qwen2-7B-Instruct-GPTQ-Int4# 容器启动要执行的命令，注意这里一定要是python3
ENTRYPOINT ["python3","-m","vllm.entrypoints.openai.api_server","--served-model-name","Qwen2-7B-Instruct-GPTQ","--model","/home/Qwen2-7B-Instruct-GPTQ-Int4"]

构建镜像

执行docker build命令，构建docker镜像：

docker build -t vllm_qwen2_7b:1.0 -f Dockerfile .

启动容器

执行以下命令，启动docker容器：

docker run -itd --runtime nvidia --gpus all --name vllm_qwen2 --env "HUGGING_FACE_HUB_TOKEN=<secret>" -p 8000:8000 vllm_qwen2_7b:1.0 --max-model-len 8129

经过启动、测试，模型运行没问题。

然后，我们就可以将镜像导出，提供给内网环境使用了：

# 镜像导出
docker save -o vllm_qwen2.tar vllm_qwen2_7b:1.0
# 镜像导入
docker load -i vllm_qwen2.tar

问题解决

问题1、No CUDA GPUs are available

解决方法：

（1）检查是否正确安装了CUDA驱动，执行nvidia-smi可查看。

（2）docker run命令中没有添加--runtime nvidia --gpus all。

问题2：unknown or invalid runtime name: nvidia

解决方法：

当Docker容器需要使用GPU时，需要配置Docker的default-runtime为nvidia，然后重启Docker。

{"runtimes":{
"nvidia":{
"path":"nvidia-container-runtime",
"runtimeArgs":[]
}
},
"default-runtime":"nvidia"
}

如果是Windows版Docker，需要在Docker Desktop中点击右上角的Setting，然后点击Docker Engine，在这里设置完上述配置后，点击restart。

问题3、Try increasing gpu_memory_utilization or decreasing max_model_len when initializing the engine.

解决方法：

因为GPU内存限制而需要调整模型的最大序列长度。在docker run命令最后加--max-model-len限制。

--max-model-len 8129

内网环境使用Docker部署Qwen2模型-vLLM篇

在此之前，我们已成功利用Docker与Ollama框架，在内网环境中部署了Qwen2模型。下面我们再来看一下使用Docker与vLLM框架部署Qwen2模型。准备vLLM镜像在一台具备网络环境的机器上执行以下命令，拉取vLLM的镜像： # 官方镜像 docke…...

编程日记 2024/9/9 11:24:41

Rust的常数、作用域与所有权

【图书介绍】《Rust编程与项目实战》-CSDN博客《Rust编程与项目实战》(朱文伟，李建英)【摘要书评试读】- 京东图书 (jd.com) Rust到底值不值得学，之一 -CSDN博客 Rust到底值不值得学，之二-CSDN博客 Rust的数据类型-CSDN博客 3.7 常…...

编程日记 2024/9/9 11:23:40

Spring 源码解读：解决循环依赖的三种方式

引言在复杂的应用开发中，循环依赖是一个常见的问题。简单来说，循环依赖是指两个或多个Bean之间互相依赖，导致程序无法正常实例化这些Bean。Spring容器通过依赖注入（DI）来管理Bean的创建与生命周期，并在遇…...

编程日记 2024/9/9 11:22:39

Web3 详解

1. 使用 Web3 库 Web3 是一个 JavaScript 库，可用于通过 RPC 通信与以太坊节点通信。 Web3 的工作方式是，公开已通过 RPC 启用的方法，这允许开发利用 Web3 库的用户界面，以便与部署在区块链上的合约进行交互。一旦 Geth JavaScri…...

编程日记 2024/9/9 11:20:37

Spring 中依赖注入注解的区别详解

一、依赖注入的基本概念依赖注入是一种设计模式，通过将对象的依赖以参数的形式传入类中，而不是在类中自行创建依赖对象。这样做有几个好处：降低耦合度：类与类之间的依赖关系变得更清晰，避免了硬编码依赖。提高可测试性：通过依赖注入，可以轻松地进行单元测试，因为可以…...

编程日记 2024/9/9 11:17:33

PTA求一批整数中出现最多的个位数字

作者徐镜春单位浙江大学给定一批整数，分析每个整数的每一位数字，求出现次数最多的个位数字。例如给定3个整数1234、2345、3456，其中出现最多次数的数字是3和4，均出现了3次。输入格式： 输入在第1行中给出正整数…...

编程日记 2024/9/9 11:16:32

探索国产编程工具：如何实现工作效率翻倍

在当前软件开发领域，国产编程工具正在迅速发展，它们在功能、性能以及用户体验上都有显著提升，以下是一些国产编程工具，它们可以帮助开发者提升工作效率。智能代码编辑器 CodeGeeX：这是一款由清华大学和智谱AI合作开…...

编程日记 2024/9/9 11:14:29

秒懂：进程相关的操作

1.进程的查看 1.1创建test.cc文件，运行以下代码 #include <stdio.h> #include <sys/types.h> #include <unistd.h>int main() {while(1){sleep(1);} return 0;}1.2 执行以下命令 1. 运行test.cc文件并将其最终的可执行文件命名为 test gcc t…...

编程日记 2024/9/9 11:12:27

PDF 软件如何帮助您编辑、转换和保护文件。

如何找到最好的 PDF 编辑器。无论您是在为您的企业寻找更高效的 PDF 解决方案，还是尝试组织和编辑主文档，PDF 编辑器都可以在一个地方提供您需要的所有工具。市面上有很多 PDF 编辑器 — 在决定哪个最适合您时，请考虑这些因素。 1. 确定您的…...

编程日记 2024/9/9 11:10:25

蓝桥杯嵌入式国三备赛经验分享

1 学习STM32入门视频向大家推荐一套宝藏级别的视频：【STM32入门教程-2023版细致讲解中文字幕】如果已经比过蓝桥杯单片机或学习过单片机相关课程的同学，你们可以尝试不需要STM32套件进行学习。如果没有学过单片机相关课程的同学，可以买…...

编程日记 2024/9/9 11:07:21

AI编程工具合集

1. 简介 1.1. 概述 AI编程，即人工智能编程，是编写用于创建智能系统（如机器学习模型、自然语言处理应用程序等）的代码的过程。AI编程涉及使用算法和数据结构来实现能够执行任务的程序，这些任务通常需要人类智能才能完成。 AI编程的基础是计算机科学原理，包括数据结构、…...

编程日记 2024/9/9 11:06:20

[网络编程]通过java用TCP实现网络编程

文章目录一. 通过java用TCP实现网络编程api介绍代码实现上述代码存在的问题一. 通过java用TCP实现网络编程 api介绍 1. ServerSocket ServerSocket是专门给服务器用的api 构造方法: 方法: 2. Socket 不管是客⼾端还是服务端Socket，都是双⽅建⽴连接以后&#…...

编程日记 2024/9/9 11:05:19

Python(TensorFlow)和Java及C++受激发射损耗导图

🎯要点神经网络监督去噪预测算法聚焦荧光团和检测模拟平台伪影消除算法性能优化方法自动化多尺度囊泡动力学成像生物研究多维分析统计物距粒子概率算法 Python和MATLAB图像降噪算法消除噪声的一种方法是将原始图像与表示低通滤波器或平滑操作的掩模进行卷积。…...

编程日记 2024/9/9 11:03:16

IEEE投稿模板翻译

>将这一行替换为您的稿件id号(双击此处编辑)< IEEE 期刊和会议论文的撰写准备（2022） 第一作者 A. 作者，IEEE成员，第二作者 B. 作者，第三作者 C. 作者 Jr.，IEEE成员摘要—本文档为IEEE会刊、期刊和…...

编程日记 2024/9/9 11:02:15

log4j 1.x 日志输出线程以唯一ID的形式配置

在 Log4j 1.x 中，直接以线程ID（如Java中的Thread.currentThread().getId()返回的ID）的形式记录日志是可行的，但 Log4j 1.x 本身并不直接提供一个内建的、自动将每个线程ID转换为“同一时间段内唯一ID”的机制。线程ID本身在JVM的上…...

编程日记 2024/9/9 11:01:13

宏观学习笔记：GDP分析（二）

GDP分析（一）主要是介绍GDP相关的定义以及核算逻辑，本节主要介绍GDP的分析思路。GDP分析主要是2种方法：总量分析和结构分析。 1. 总量分析 1.1 数值选择一般情况下，分析的对象都是官方公布的GDP当季值。 1.2 趋势规…...

编程日记 2024/9/9 11:00:12

两个月冲刺软考——访问位与修改位的题型(淘汰哪一页)；内聚的类型；关于码制的知识点；地址映射的相关内容

1.访问位与修改位的题型(淘汰哪一页) 访问位：为1时表示在内存期间被访问过，为0时表示未被访问；修改位：为1时表示该页面自从被装入内存后被修改过，为0时表示未修改过。置换页面时，最先置换访问位和修改位为…...

编程日记 2024/9/9 10:58:10

C高级编程第十六天（树二叉树）

1.树 1.1结构特点非线性结构，有一个直接前驱，但可能有多个直接后继有递归性，树中还有树可以为空，即节点个数为零 1.2相关术语根：即根结点，没有前驱叶子：即终端结点，没有后继森…...

编程日记 2024/9/9 10:57:09

OpenCV结构分析与形状描述符（11）椭圆拟合函数fitEllipse()的使用

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述围绕一组2D点拟合一个椭圆。该函数计算出一个椭圆，该椭圆在最小二乘意义上最好地拟合一组2D点。它返回一个内切椭圆的旋转矩形。使…...

编程日记 2024/9/9 10:56:08

904.水果成篮

题目链接：leetcode链接思路分析（滑动窗口） 读完题目，很明显，这个题目需要我们寻找一个最长子数组，使得这个子数组里面最多存在两种不同的数字，很容易联想到使用滑动窗口。另外&#xff…...

编程日记 2024/9/9 10:55:07

四大巨头AI红队测试报告：AI成「专家级卷王」，却也学会「职场潜规则」

AI效率惊人：完成人类数周的软件项目在代码重构、漏洞发现、系统优化等「易爬坡型」任务上，AI智能体展现出令人窒息的统治力，能独立发现系统漏洞，重写复杂代码架构，完成人类专家需要数周才能交付的真实软件项目。Anthro…...

编程新知 2026/5/24 17:18:31

GitHub中文界面终极汉化指南：5分钟告别英文困扰

GitHub中文界面终极汉化指南：5分钟告别英文困扰【免费下载链接】github-chinese GitHub 汉化插件，GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 还在为GitHub复杂的英文界…...

编程新知 2026/5/24 17:14:29

告别TeamViewer！在Ubuntu 22.04上安装向日葵远程控制的完整保姆级教程

告别TeamViewer！在Ubuntu 22.04上安装向日葵远程控制的完整保姆级教程远程协作已成为现代开发者和运维人员的日常刚需。当TeamViewer频繁弹出商业使用提醒或遭遇连接不稳定时，许多技术从业者开始寻找更轻量、更自由的替代方案。作为国内领先的远程控制…...

编程新知 2026/5/24 16:57:34

如何用NightX Client彻底改变你的Minecraft 1.8.9游戏体验？终极功能解析

如何用NightX Client彻底改变你的Minecraft 1.8.9游戏体验？终极功能解析【免费下载链接】NightX-Client Minecraft Forge 1.8.9 hacked client, Based on LiquidBounce 项目地址: https://gitcode.com/gh_mirrors/ni/NightX-Client 想要在Minecraft 1.8.9中…...

编程新知 2026/5/24 16:09:09

Cursor Pro破解工具完整指南：5步实现机器标识重置与永久Pro功能解锁

Cursor Pro破解工具完整指南：5步实现机器标识重置与永久Pro功能解锁【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve rea…...

编程新知 2026/5/24 15:58:52

DeepSeek v3升级后成本激增41%？紧急发布：兼容性迁移成本对冲清单（含6个可立即执行的config开关）

更多请点击： https://kaifayun.com 第一章：DeepSeek成本控制策略 DeepSeek系列大模型在推理与训练阶段的资源消耗显著，因此精细化的成本控制策略是保障其规模化落地的关键。核心思路在于“按需调度、动态降级、硬件感知”，而非简…...

编程新知 2026/5/24 15:16:34

显存节省68%、训练加速2.3倍，DeepSeek-R1微调实测报告，中小团队必看的轻量化方案

更多请点击： https://intelliparadigm.com 第一章：DeepSeek-R1微调的轻量化价值与适用场景 DeepSeek-R1作为一款高性能开源推理模型，其架构设计天然支持参数高效微调（PEFT），在保持原始推理能力的同时显著降…...

编程新知 2026/5/24 15:16:27

BilibiliDown：3分钟快速掌握B站视频下载的完整解决方案

BilibiliDown：3分钟快速掌握B站视频下载的完整解决方案【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/…...

编程新知 2026/5/24 14:54:48

QQ空间数据备份：3步完成永久保存青春记忆的终极指南

QQ空间数据备份：3步完成永久保存青春记忆的终极指南【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否曾担心QQ空间里那些珍贵的青春记忆会随着时间流逝而消失&#xff…...

编程新知 2026/5/24 14:42:05

DeepXDE终极指南：如何用科学机器学习轻松求解物理方程

DeepXDE终极指南：如何用科学机器学习轻松求解物理方程【免费下载链接】deepxde A library for scientific machine learning and physics-informed learning 项目地址: https://gitcode.com/gh_mirrors/de/deepxde DeepXDE是一款革命性的开源科学机器学习库…...

编程新知 2026/5/24 14:33:39

准备vLLM镜像

下载Qwen2-7B-Instruct模型

编写Dockerfile

构建镜像

启动容器

问题解决

问题1、No CUDA GPUs are available

问题2：unknown or invalid runtime name: nvidia

问题3、Try increasing gpu_memory_utilization or decreasing max_model_len when initializing the engine.

相关文章：