当前位置: 首页 > article >正文

Phi-3.5-mini-instruct部署教程:WSL2环境下Windows本地运行vLLM+Chainlit全步骤

Phi-3.5-mini-instruct部署教程WSL2环境下Windows本地运行vLLMChainlit全步骤1. 环境准备与快速部署在开始之前请确保你的Windows系统已启用WSL2并安装了Ubuntu发行版。本教程将指导你完成从零开始的完整部署流程。1.1 系统要求Windows 10/11 64位系统已启用WSL2功能至少16GB内存推荐32GBNVIDIA显卡推荐RTX 3060及以上已安装最新版NVIDIA驱动1.2 基础环境配置首先打开WSL2终端执行以下命令更新系统并安装基础依赖sudo apt update sudo apt upgrade -y sudo apt install -y python3-pip python3-venv git curl wget安装CUDA工具包以CUDA 12.1为例wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-wsl-ubuntu.pin sudo mv cuda-wsl-ubuntu.pin /etc/apt/preferences.d/cuda-repository-pin-600 wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb sudo dpkg -i cuda-repo-wsl-ubuntu-12-1-local_12.1.1-1_amd64.deb sudo cp /var/cuda-repo-wsl-ubuntu-12-1-local/cuda-*-keyring.gpg /usr/share/keyrings/ sudo apt-get update sudo apt-get -y install cuda2. 模型部署与配置2.1 创建Python虚拟环境为避免依赖冲突我们创建一个独立的Python环境python3 -m venv phi3-env source phi3-env/bin/activate2.2 安装vLLM及相关依赖vLLM是一个高效的大模型推理框架特别适合Phi-3这类模型pip install vllm0.3.3 torch2.1.2 transformers4.39.32.3 下载Phi-3.5-mini-instruct模型你可以直接从Hugging Face下载模型git lfs install git clone https://huggingface.co/microsoft/Phi-3-mini-128k-instruct或者使用镜像加速下载国内推荐git clone https://mirror.csdn.net/microsoft/Phi-3-mini-128k-instruct3. 启动模型服务3.1 使用vLLM启动API服务创建一个启动脚本start_server.pyfrom vllm import LLM, SamplingParams llm LLM( modelPhi-3-mini-128k-instruct, tensor_parallel_size1, gpu_memory_utilization0.9 ) sampling_params SamplingParams(temperature0.7, top_p0.9, max_tokens512) def generate(prompt): outputs llm.generate(prompt, sampling_params) return outputs[0].outputs[0].text if __name__ __main__: from fastapi import FastAPI from fastapi.middleware.cors import CORSMiddleware app FastAPI() app.add_middleware( CORSMiddleware, allow_origins[*], allow_methods[*], allow_headers[*], ) app.post(/generate) async def generate_text(prompt: str): return {response: generate(prompt)} import uvicorn uvicorn.run(app, host0.0.0.0, port8000)启动服务python start_server.py llm.log 21 3.2 验证服务是否正常运行检查日志文件确认服务状态tail -f llm.log看到类似以下输出表示服务已就绪INFO: Started server process [1234] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:80004. 使用Chainlit构建交互界面4.1 安装Chainlitpip install chainlit4.2 创建Chainlit应用新建app.py文件import chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://localhost:8000/generate, json{prompt: message.content} ).json() await cl.Message(contentresponse[response]).send() cl.on_chat_start async def start(): await cl.Message(contentPhi-3.5-mini-instruct已就绪请输入您的问题).send()4.3 启动Chainlit界面chainlit run app.py -w启动后会自动打开浏览器窗口显示交互界面。你可以直接在输入框中提问模型会实时生成回答。5. 常见问题解决5.1 内存不足问题如果遇到内存不足错误可以尝试减少gpu_memory_utilization参数值如改为0.7使用量化版本的模型增加系统交换空间sudo fallocate -l 8G /swapfile sudo chmod 600 /swapfile sudo mkswap /swapfile sudo swapon /swapfile5.2 模型加载缓慢模型首次加载可能需要较长时间10-30分钟这是正常现象。后续启动会快很多。5.3 API调用超时如果Chainlit无法连接到vLLM服务请检查vLLM服务是否正常运行防火墙是否阻止了8000端口服务地址是否正确应为http://localhost:80006. 总结通过本教程你已经成功在WSL2环境下部署了Phi-3.5-mini-instruct模型并使用vLLM和Chainlit构建了完整的本地运行环境。这套方案具有以下优势高效推理vLLM提供了优化的推理性能交互友好Chainlit提供了简洁的聊天界面本地运行所有数据都在本地处理保障隐私安全灵活扩展可以轻松集成到其他应用中你可以进一步探索尝试不同的采样参数temperature、top_p等将模型集成到你的应用程序中测试模型在不同任务上的表现获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

Phi-3.5-mini-instruct部署教程:WSL2环境下Windows本地运行vLLM+Chainlit全步骤

Phi-3.5-mini-instruct部署教程:WSL2环境下Windows本地运行vLLMChainlit全步骤 1. 环境准备与快速部署 在开始之前,请确保你的Windows系统已启用WSL2并安装了Ubuntu发行版。本教程将指导你完成从零开始的完整部署流程。 1.1 系统要求 Windows 10/11 …...

GeoAI通用平台:基于LangChain的智能地理空间AI架构实践

引言 在当今数据驱动的时代,地理空间分析在各个行业中变得越来越重要。然而,传统的GIS工具通常需要专业知识和复杂的工作流程,这对许多用户来说是一个门槛。GeoAI通用平台通过将大语言模型(LLM)与地理空间数据处理相结合,实现了自然语言与地理信息系统的交互,有效解决了…...

保姆级教程:绕过Windows 11 PIN锁,利用‘轻松使用’图标和msconfig恢复系统正常启动

Windows系统启动异常修复:从原理到实战的深度解析 当Windows系统启动遇到问题时,许多用户会感到手足无措。本文将深入探讨Windows启动机制,并提供一个系统化的解决方案框架,帮助技术爱好者不仅解决问题,更能理解背后的…...

Debian 11上Qt程序中文输入失效?手把手教你编译fcitx5-qt插件(Qt6/Qt5通用)

Debian 11上Qt程序中文输入失效的终极解决方案:从原理到实践 刚在Debian 11上完成Qt应用的开发,却发现无法通过fcitx输入中文?这可能是Linux桌面开发中最令人抓狂的问题之一。作为开发者,我们期望的是流畅的编码体验,而…...

树莓派Zero 2 W打造超低功耗家庭媒体服务器实战

1. 项目概述:打造一台超低功耗的Mini-PI媒体服务器去年冬天,当我发现家里的老款NAS在同时处理文件共享和视频转码时功耗高达35W,电费账单上的数字让我下定决心寻找更节能的解决方案。经过多次尝试,最终基于树莓派Zero 2 W搭建的这…...

Alpha AI 量化 vs 传统量化深度对比测评

在数字经济的演进中,量化技术一直处于鄙视链的顶端。但随着 AI 大模型与 Web3 技术的爆发,传统的量化架构正面临前所未有的挑战。近期备受瞩目的Alpha AI平台,打出了“极简智能”的旗号。它究竟是对传统工具的简单升级,还是一次彻…...

手把手调试RK3588电源:当CPU变频失效时,如何排查DTS中的PMIC配置问题

RK3588电源调试实战:当DVFS失效时如何精准定位PMIC初始化问题 凌晨三点,实验室的咖啡机已经空了第三轮。盯着屏幕上/d/opp/opp_summary里空空如也的频率信息,我意识到这又是一个典型的RK3588电源初始化顺序问题。作为嵌入式工程师&#xff0c…...

亚马逊至多330亿美元追加投资Anthropic,十年合作超千亿美元剑指AI大模型

亚马逊330亿美元投资Anthropic,十年合作超千亿4月21日,亚马逊宣布向美国AI大模型独角兽Anthropic投资50亿美元(约合人民币341亿元),未来还将根据商业里程碑情况追加至多200亿美元(约合人民币1364亿元&#…...

Agent-Ready ≠ 自动就绪!Spring Boot 4.0插件必须满足的4项JVM兼容性阈值(含OpenJDK 21+ GraalVM 24.1实测数据)

第一章:Spring Boot 4.0 Agent-Ready 架构概述Spring Boot 4.0 引入了原生支持 Java Agent 的“Agent-Ready”架构设计,标志着运行时可观测性、动态字节码增强与无侵入式监控能力的深度集成。该架构不再将 Agent 视为外部附加组件,而是通过标…...

镜像体积压缩78%、冷启提速4.2倍,Docker边缘轻量化部署实战指南,

第一章:Docker边缘部署优化概述在资源受限、网络不稳定、物理环境多变的边缘计算场景中,Docker 容器虽具备轻量与可移植优势,但默认配置常导致启动延迟高、镜像体积大、内存占用冗余及运行时不可靠等问题。边缘设备(如工业网关、车…...

Docker 27资源监控增强配置:3分钟定位CPU爆表、内存泄漏与网络抖动的7个隐藏参数

第一章:Docker 27资源监控增强配置全景概览Docker 27 引入了多项面向生产环境的资源监控增强能力,涵盖 CPU、内存、I/O、网络及自定义指标采集等维度。这些增强并非孤立功能,而是通过统一的 docker stats 接口、可插拔的监控后端集成&#xf…...

Java传统阻塞IO项目转Loom响应式,这4类代码必须重写——含AST自动化改造脚本

第一章:Java传统阻塞IO项目转Loom响应式编程转型全景图Java平台自JDK 21起正式将虚拟线程(Virtual Threads)作为标准特性引入,标志着Loom项目从孵化走向生产就绪。这一演进并非简单替换线程模型,而是重构整个高并发应用…...

Dify API并发限流突然触发?揭秘rate_limit字段的隐藏单位陷阱与burst窗口算法反直觉行为(附压测对比数据)

第一章:Dify API并发限流突然触发?揭秘rate_limit字段的隐藏单位陷阱与burst窗口算法反直觉行为(附压测对比数据)rate_limit字段的真实单位是“每秒请求数”,而非“每分钟”或“总配额” Dify API文档中未明确说明rate…...

开箱即用!ComfyUI Qwen人脸生成图像,无需代码一键生成

开箱即用!ComfyUI Qwen人脸生成图像,无需代码一键生成 1. 模型简介与核心能力 Qwen-Image-Edit-F2P人脸生成图像模型是一款基于ComfyUI部署的AI工具,它能将单张人脸照片转化为风格多样的全身人像。这个模型特别适合需要快速生成人物形象但缺…...

Qt程序里调用Shell脚本,用QProcess还是system?一个ROS开发者的踩坑实录

Qt中调用Shell脚本的终极指南:QProcess与system的深度对比与实战避坑 在机器人操作系统(ROS)开发中,我们经常需要在Qt开发的图形界面中集成各种命令行工具和脚本。无论是启动一个ROS节点,还是执行复杂的环境配置脚本,如何在Qt应用…...

大模型微调面试100问,非常详细收藏我这一篇就好了!

本文系统梳理了LoRA权重更新梯度反向传播公式推导,解释了固定只训练和能显著减少显存占用的原因。深入解析了QLoRA中NF4量化原理及其利用高斯分布优化量化区间的机制。详细阐述了Double Quantization在QLoRA中的实现步骤及其显存节省效果。推导了DPO损失函数从RLHF目…...

AI Agent智能体时代来临:Skills技能与Harness框架如何协同打造超级AI?

本文深入探讨了AI Agent智能体、Skills技能和Harness框架三者之间的关系及应用。AI Agent作为具备自主能力的AI执行主体,通过Skills技能模块实现专项任务执行,并由Harness框架进行统筹调度与安全管控。三者协同构成了可落地的AI智能体系统,典…...

Jellyfin元数据插件MetaShark终极指南:快速为你的媒体库添加中文电影信息

Jellyfin元数据插件MetaShark终极指南:快速为你的媒体库添加中文电影信息 【免费下载链接】jellyfin-plugin-metashark jellyfin电影元数据插件 项目地址: https://gitcode.com/gh_mirrors/je/jellyfin-plugin-metashark 还在为Jellyfin媒体库中那些只有英文…...

从BERT到ViT:聊聊那个“借”来的CLS Token,以及我们真的需要它吗?

从BERT到ViT:聊聊那个“借”来的CLS Token,以及我们真的需要它吗? 在计算机视觉领域,Vision Transformer(ViT)的出现彻底改变了传统CNN主导的格局。而其中最具争议的设计之一,莫过于那个从NLP领…...

MacBook M1/M2芯片上,用Python 3.10手动安装PyTorch全家桶的保姆级避坑指南

MacBook M1/M2芯片Python 3.10环境配置:PyTorch全家桶精准安装实战手册 当你在M1/M2芯片的MacBook上打开终端,输入那行看似简单的pip install torch命令时,系统报错的那一刻,可能就开启了一场令人头疼的依赖关系迷宫之旅。作为深…...

别RAG了,直接导航:企业知识库Skill上线~

RAG的"结构性盲区" 传统RAG把大模型当成检索结果的被动消费者——它只能看到被硬塞进来的Top-k片段,既不了解语料库的全貌,也不知道自己错过了什么。面对"如何将独资企业转为LLC"这类跨主题复杂查询,平面检索只能返回表…...

终极指南:如何彻底解锁《原神》帧率限制,实现高刷新率游戏体验

终极指南:如何彻底解锁《原神》帧率限制,实现高刷新率游戏体验 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 你是否在游玩《原神》时感觉60FPS的帧率限制让你的…...

Appium: Windows桌面应用自动化测试(二) 【Accessibility Insights实战指南-元素定位与状态验证】

1. Accessibility Insights工具的核心价值 在Windows桌面应用自动化测试中,元素定位一直是最大的痛点之一。传统Win32应用往往使用复杂的UI框架,动态生成的控件和频繁刷新的界面让测试脚本变得脆弱不堪。我经历过太多因为元素定位失败而导致的测试用例崩…...

计算机网络复习(第一章):计算机网络体系结构

计算机网络体系结构:从网络组成到分层模型的一体化理解 这一章讨论的是计算机网络体系结构。和前面偏算法、偏数据结构组织方式的内容不同,这一章更强调“系统如何协同工作”。它不只是讲几台计算机如何连起来,而是在回答一个更根本的问题&am…...

计算机图形学(Computer Graphics)核心算法与应用实践笔记

1. 计算机图形学入门:从像素到虚拟世界 第一次接触计算机图形学时,我被屏幕上那些跳动的像素深深吸引。想象一下,你正在玩的3D游戏里随风摇曳的树叶、电影中逼真的特效场景,甚至手机拍照时自动添加的可爱贴纸——这些都离不开图形…...

iOS设备iCloud绕过解决方案:applera1n工具使用指南

iOS设备iCloud绕过解决方案:applera1n工具使用指南 【免费下载链接】applera1n icloud bypass for ios 15-16 项目地址: https://gitcode.com/gh_mirrors/ap/applera1n 当你面对一台被iCloud激活锁困住的iOS设备时,那种无力感是每个技术爱好者都曾…...

MATLAB实现光束形态变换:高斯光束到平顶光束的转换及SLM相位分布计算

MATLAB实现高斯光束到平顶光束的转变 基于GS算法或者直接计算SLM相位分布。一、引言 在光学工程、激光技术等领域,光束整形是一项关键技术,其核心目标是将一种光束的振幅、相位分布转换为目标分布,以满足特定应用场景的需求。本文所介绍的代码…...

如何修复受损音频:VoiceFixer的完整实践指南

如何修复受损音频:VoiceFixer的完整实践指南 【免费下载链接】voicefixer General Speech Restoration 项目地址: https://gitcode.com/gh_mirrors/vo/voicefixer 你是否曾因为录音中的噪音、回音或失真而感到困扰?无论是珍贵的家庭录音、重要的会…...

如何用NSC_BUILDER高效管理你的Switch游戏文件库:从新手到高手的完整指南

如何用NSC_BUILDER高效管理你的Switch游戏文件库:从新手到高手的完整指南 【免费下载链接】NSC_BUILDER Nintendo Switch Cleaner and Builder. A batchfile, python and html script based in hacbuild and Nuts python libraries. Designed initially to erase ti…...

技术赋能,场景延伸——超元力VR大空间CS的发展与突破

近年来,VR技术的快速发展推动了线下娱乐行业的转型升级,VR大空间CS作为其中最具代表性的品类,凭借技术创新与场景延伸,逐渐从小众娱乐走向大众视野,成为连接虚拟竞技与现实体验的重要载体。它不仅改变了人们的娱乐方式…...