当前位置：首页 > article >正文

Qwen3-4B-Thinking部署教程：Ubuntu/CentOS系统vLLM环境适配

article 2026/4/22 18:48:25

Qwen3-4B-Thinking部署教程Ubuntu/CentOS系统vLLM环境适配1. 模型简介Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill是一个基于54.4百万个由Gemini 2.5 Flash生成的token训练而成的文本生成模型。该模型旨在提炼Gemini-2.5 Flash的行为模式、推理轨迹、输出风格以及核心知识。模型训练数据覆盖多个专业领域领域提示数量学术645金融1048健康1720法律1193营销1350编程1930SEO775科学1435目标9912. 环境准备2.1 系统要求操作系统Ubuntu 20.04/22.04或CentOS 7/8硬件配置GPUNVIDIA显卡推荐RTX 3090及以上显存至少16GB内存32GB及以上存储50GB可用空间2.2 依赖安装# 安装基础依赖 sudo apt-get update sudo apt-get install -y python3-pip python3-dev git # 安装CUDA工具包以Ubuntu为例 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-ubuntu2204.pin sudo mv cuda-ubuntu2204.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/3bf863cc.pub sudo add-apt-repository deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/ / sudo apt-get update sudo apt-get -y install cuda3. 模型部署3.1 下载模型git clone https://github.com/QwenLM/Qwen3-4B-Thinking.git cd Qwen3-4B-Thinking3.2 安装vLLMpip install vllm pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu1183.3 启动模型服务python -m vllm.entrypoints.api_server \ --model Qwen3-4B-Thinking-2507-Gemini-2.5-Flash-Distill \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.93.4 验证服务状态cat /root/workspace/llm.log如果看到类似以下输出表示服务已成功启动INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:8000 (Press CTRLC to quit)4. 前端调用4.1 安装Chainlitpip install chainlit4.2 创建调用脚本新建一个app.py文件内容如下import chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://localhost:8000/generate, json{ prompt: message.content, max_tokens: 1024, temperature: 0.7 } ) await cl.Message(contentresponse.json()[text]).send()4.3 启动前端界面chainlit run app.py访问http://localhost:8000即可开始与模型交互。5. 常见问题解决5.1 模型加载失败如果遇到模型加载失败的问题可以尝试检查CUDA版本是否兼容确认显存是否足够降低--gpu-memory-utilization参数值5.2 响应速度慢尝试减少max_tokens参数值检查GPU利用率是否达到上限考虑升级硬件配置5.3 前端无法连接确保模型服务已正确启动检查防火墙设置确保端口8000开放验证Chainlit和vLLM服务是否在同一网络环境6. 总结通过本教程我们完成了Qwen3-4B-Thinking模型在Ubuntu/CentOS系统上的vLLM环境部署并实现了通过Chainlit前端进行交互的功能。这个模型在多个专业领域表现出色能够生成高质量的文本内容。部署过程中需要注意硬件配置、依赖版本以及服务端口等关键因素。如果遇到问题可以参考常见问题解决部分或联系技术支持。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Qwen3-4B-Thinking部署教程：Ubuntu/CentOS系统vLLM环境适配

相关文章：

Qwen3-4B-Thinking部署教程：Ubuntu/CentOS系统vLLM环境适配

仅限首批200名读者：Docker跨架构配置黄金参数表（含buildx builder配置、--platform优先级、manifest-tool v2迁移路径）

别再到处找资源了！一个百度网盘链接搞定IC设计EDA学习环境（附工艺库与避坑指南）

BilibiliDown：免费开源B站视频下载器的终极完整指南

079、Consistency Models：一步生成的新突破

科技领袖警示：AI、生物工程与气候危机的未来风险

因果AI：让异常检测“知其所以然”——概念、原理、场景与未来全解析

别再用笨办法了！用LTspice快速搞定TL431电路仿真（附模型下载与避坑指南）

Galgame翻译终极指南：3种文本捕获方案实现高效实时翻译

为什么你的Loom项目上线后RT飙升300%？——基于3家金融客户真实故障根因分析

Foundation Magellan 怎么用？

Java静态编译内存崩溃全解（GraalVM 22.3+适配版）：ClassLoader隔离失效、Metaspace伪泄露、Native Image Heap碎片化三重围剿

EF Core 10向量查询延迟突增2700ms？揭秘SQL Server 2022向量索引与LINQ表达式树编译冲突真相

EF Core 10 Vector Search扩展上线即崩？3个被官方文档隐藏的配置陷阱，92%团队已在凌晨紧急回滚

别再死记硬背了！用‘预约医生’的例子，5分钟搞懂数据流图里的‘黑洞’、‘白洞’和‘灰洞’

UVM调试效率翻倍秘籍：活用`set_report_action`实现仿真断点、错误计数与日志归档

告别KP26手工录入：教你写ABAP程序自动维护SAP作业价格计划

永磁同步电机矢量控制C代码总结：S-function模式仿真与实际项目运行一致

从roscore启动失败到成功：新手常踩的5个坑及一站式排查指南（附ROS Noetic/Kinetic示例）

【车载系统调试革命】：Docker容器化调试的5大不可逆优势与3个致命误区

SSD设计必看：巧用ONFI的CE_n引脚缩减机制，轻松搞定多NAND芯片堆叠与寻址

车载ECU调试效率提升300%？揭秘头部车企已落地的Docker轻量化调试流水线（2024实测数据）

Qwen3.5-9B-GGUF部署教程：Docker容器化封装+Supervisor进程守护方案

告别C盘搬家！用mklink命令把任意文件夹塞进OneDrive同步（Windows 10/11保姆级教程）

【Docker跨架构配置终极指南】：ARM、x86、RISC-V三平台镜像构建与运行的7大避坑法则

企业内部聊天工具：从沟通工具到数字化工作门户的进化

西门子PLC工业通信的技术挑战与s7netplus解决方案

Sunshine游戏串流：如何打造家庭游戏云服务器

项目解决方案：食堂反浪费AI智能监督系统项目解决方案

Ostrakon-VL-8B在便利店管理中的应用：AI自动检查货架与价格标签