当前位置：首页 > article >正文

Phi-3.5-mini-instruct部署教程：WSL2环境下Windows本地运行vLLM+Chainlit全步骤

article 2026/4/21 22:31:20

Phi-3.5-mini-instruct部署教程WSL2环境下Windows本地运行vLLMChainlit全步骤1. 环境准备与快速部署在开始之前请确保你的Windows系统已启用WSL2并安装了Ubuntu发行版。本教程将指导你完成从零开始的完整部署流程。1.1 系统要求Windows 10/11 64位系统已启用WSL2功能至少16GB内存推荐32GBNVIDIA显卡推荐RTX 3060及以上已安装最新版NVIDIA驱动1.2 基础环境配置首先打开WSL2终端执行以下命令更新系统并安装基础依赖sudo apt update sudo apt upgrade -y sudo apt install -y python3-pip python3-venv git curl wget安装CUDA工具包以CUDA 12.1为例wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb sudo dpkg -i cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb sudo cp /var/cuda-repo-wsl-ubuntu-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda2. 模型部署与配置2.1 创建Python虚拟环境为避免依赖冲突我们创建一个独立的Python环境python3 -m venv phi3-env source phi3-env/bin/activate2.2 安装vLLM及相关依赖vLLM是一个高效的大模型推理框架特别适合Phi-3这类模型pip install vllm0.3.3 torch2.1.2 transformers4.39.32.3 下载Phi-3.5-mini-instruct模型你可以直接从Hugging Face下载模型git lfs install git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct或者使用镜像加速下载国内推荐git clone https://mirror.csdn.net/microsoft/Phi-3-mini-128k-instruct3. 启动模型服务3.1 使用vLLM启动API服务创建一个启动脚本start_server.pyfrom vllm import LLM, SamplingParams llm LLM( modelPhi-3-mini-128k-instruct, tensor_parallel_size1, gpu_memory_utilization0.9 ) sampling_params SamplingParams(temperature0.7, top_p0.9, max_tokens512) def generate(prompt): outputs llm.generate(prompt, sampling_params) return outputs[0].outputs[0].text if __name__ __main__: from fastapi import FastAPI from fastapi.middleware.cors import CORSMiddleware app FastAPI() app.add_middleware( CORSMiddleware, allow_origins[*], allow_methods[*], allow_headers[*], ) app.post(/generate) async def generate_text(prompt: str): return {response: generate(prompt)} import uvicorn uvicorn.run(app, host0.0.0.0, port8000)启动服务python start_server.py llm.log 21 3.2 验证服务是否正常运行检查日志文件确认服务状态tail -f llm.log看到类似以下输出表示服务已就绪INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:80004. 使用Chainlit构建交互界面4.1 安装Chainlitpip install chainlit4.2 创建Chainlit应用新建app.py文件import chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://localhost:8000/generate, json{prompt: message.content} ).json() await cl.Message(contentresponse[response]).send() cl.on_chat_start async def start(): await cl.Message(contentPhi-3.5-mini-instruct已就绪请输入您的问题).send()4.3 启动Chainlit界面chainlit run app.py -w启动后会自动打开浏览器窗口显示交互界面。你可以直接在输入框中提问模型会实时生成回答。5. 常见问题解决5.1 内存不足问题如果遇到内存不足错误可以尝试减少gpu_memory_utilization参数值如改为0.7使用量化版本的模型增加系统交换空间sudo fallocate -l 8G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile5.2 模型加载缓慢模型首次加载可能需要较长时间10-30分钟这是正常现象。后续启动会快很多。5.3 API调用超时如果Chainlit无法连接到vLLM服务请检查vLLM服务是否正常运行防火墙是否阻止了8000端口服务地址是否正确应为http://localhost:80006. 总结通过本教程你已经成功在WSL2环境下部署了Phi-3.5-mini-instruct模型并使用vLLM和Chainlit构建了完整的本地运行环境。这套方案具有以下优势高效推理vLLM提供了优化的推理性能交互友好Chainlit提供了简洁的聊天界面本地运行所有数据都在本地处理保障隐私安全灵活扩展可以轻松集成到其他应用中你可以进一步探索尝试不同的采样参数temperature、top_p等将模型集成到你的应用程序中测试模型在不同任务上的表现获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Phi-3.5-mini-instruct部署教程：WSL2环境下Windows本地运行vLLM+Chainlit全步骤

相关文章：

Phi-3.5-mini-instruct部署教程：WSL2环境下Windows本地运行vLLM+Chainlit全步骤

GeoAI通用平台：基于LangChain的智能地理空间AI架构实践

保姆级教程：绕过Windows 11 PIN锁，利用‘轻松使用’图标和msconfig恢复系统正常启动

Debian 11上Qt程序中文输入失效？手把手教你编译fcitx5-qt插件（Qt6/Qt5通用）

树莓派Zero 2 W打造超低功耗家庭媒体服务器实战

Alpha AI 量化 vs 传统量化深度对比测评

手把手调试RK3588电源：当CPU变频失效时，如何排查DTS中的PMIC配置问题

亚马逊至多330亿美元追加投资Anthropic，十年合作超千亿美元剑指AI大模型

Agent-Ready ≠ 自动就绪！Spring Boot 4.0插件必须满足的4项JVM兼容性阈值（含OpenJDK 21+ GraalVM 24.1实测数据）

镜像体积压缩78%、冷启提速4.2倍，Docker边缘轻量化部署实战指南，

Docker 27资源监控增强配置：3分钟定位CPU爆表、内存泄漏与网络抖动的7个隐藏参数

Java传统阻塞IO项目转Loom响应式，这4类代码必须重写——含AST自动化改造脚本

Dify API并发限流突然触发？揭秘rate_limit字段的隐藏单位陷阱与burst窗口算法反直觉行为（附压测对比数据）

开箱即用！ComfyUI Qwen人脸生成图像，无需代码一键生成

Qt程序里调用Shell脚本，用QProcess还是system？一个ROS开发者的踩坑实录

大模型微调面试100问，非常详细收藏我这一篇就好了！

AI Agent智能体时代来临：Skills技能与Harness框架如何协同打造超级AI？

Jellyfin元数据插件MetaShark终极指南：快速为你的媒体库添加中文电影信息

从BERT到ViT：聊聊那个“借”来的CLS Token，以及我们真的需要它吗？

MacBook M1/M2芯片上，用Python 3.10手动安装PyTorch全家桶的保姆级避坑指南

别RAG了，直接导航：企业知识库Skill上线~

终极指南：如何彻底解锁《原神》帧率限制，实现高刷新率游戏体验

Appium: Windows桌面应用自动化测试(二) 【Accessibility Insights实战指南-元素定位与状态验证】

计算机网络复习（第一章）：计算机网络体系结构

计算机图形学（Computer Graphics）核心算法与应用实践笔记

iOS设备iCloud绕过解决方案：applera1n工具使用指南

MATLAB实现光束形态变换：高斯光束到平顶光束的转换及SLM相位分布计算

如何修复受损音频：VoiceFixer的完整实践指南

如何用NSC_BUILDER高效管理你的Switch游戏文件库：从新手到高手的完整指南

技术赋能，场景延伸——超元力VR大空间CS的发展与突破