当前位置: 首页 > article >正文

Phi-3.5-mini-instruct部署教程:vLLM服务容器化+Prometheus指标暴露配置

Phi-3.5-mini-instruct部署教程vLLM服务容器化Prometheus指标暴露配置1. 模型简介Phi-3.5-mini-instruct 是一个轻量级的开放模型属于Phi-3模型家族。它基于高质量的数据集构建特别关注推理密集型任务。该模型支持128K令牌的上下文长度经过监督微调、近端策略优化和直接偏好优化等多阶段训练具备精确的指令遵循能力和强大的安全措施。主要特点轻量级设计资源占用低128K长上下文支持优化的指令遵循能力内置安全防护机制2. 环境准备2.1 系统要求建议部署环境满足以下条件Linux操作系统Ubuntu 20.04推荐Docker 20.10NVIDIA GPU至少16GB显存CUDA 11.8至少50GB可用磁盘空间2.2 依赖安装# 安装Docker sudo apt-get update sudo apt-get install docker.io # 安装NVIDIA容器工具包 distribution$(. /etc/os-release;echo $ID$VERSION_ID) \ curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list sudo apt-get update sudo apt-get install -y nvidia-docker2 sudo systemctl restart docker3. 容器化部署3.1 拉取镜像docker pull csdn-mirror/phi-3.5-mini-instruct:vllm3.2 启动容器docker run -d --gpus all \ -p 8000:8000 \ -p 9090:9090 \ -v /path/to/models:/models \ --name phi-3.5-mini \ csdn-mirror/phi-3.5-mini-instruct:vllm3.3 验证部署检查服务是否正常运行docker logs phi-3.5-mini看到类似以下输出表示部署成功INFO: Started server process [1] INFO: Waiting for application startup. INFO: Application startup complete. INFO: Uvicorn running on http://0.0.0.0:80004. Prometheus指标配置4.1 指标暴露设置vLLM服务默认会暴露Prometheus格式的指标可以通过以下URL访问http://localhost:9090/metrics4.2 关键监控指标主要监控指标包括vllm_request_count请求总数vllm_request_duration_seconds请求处理时间vllm_tokens_generated生成的token数量vllm_gpu_utilizationGPU利用率vllm_memory_usage内存使用情况4.3 Prometheus配置示例scrape_configs: - job_name: vllm static_configs: - targets: [localhost:9090]5. 模型调用验证5.1 使用Chainlit前端Chainlit提供了一个简单易用的Web界面来与模型交互。启动Chainlitchainlit run app.py访问http://localhost:8000即可打开交互界面。5.2 API调用示例也可以通过HTTP API直接调用模型import requests url http://localhost:8000/v1/completions headers {Content-Type: application/json} data { model: phi-3.5-mini-instruct, prompt: 解释量子计算的基本原理, max_tokens: 200 } response requests.post(url, headersheaders, jsondata) print(response.json())6. 常见问题解决6.1 模型加载失败可能原因显存不足模型文件损坏权限问题解决方案检查GPU显存使用情况重新下载模型文件确保容器有足够的权限访问模型目录6.2 性能优化建议使用--tensor-parallel-size参数增加并行度调整--max-num-seqs参数优化并发处理能力启用--quantization减少显存占用7. 总结本教程详细介绍了Phi-3.5-mini-instruct模型的容器化部署过程包括使用vLLM高效部署模型服务配置Prometheus监控指标通过Chainlit和API两种方式调用模型常见问题的排查方法这套方案结合了容器化的便捷性和监控系统的可观测性适合生产环境部署使用。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

Phi-3.5-mini-instruct部署教程:vLLM服务容器化+Prometheus指标暴露配置

Phi-3.5-mini-instruct部署教程:vLLM服务容器化Prometheus指标暴露配置 1. 模型简介 Phi-3.5-mini-instruct 是一个轻量级的开放模型,属于Phi-3模型家族。它基于高质量的数据集构建,特别关注推理密集型任务。该模型支持128K令牌的上下文长度…...

Ai2Psd终极指南:彻底解决Illustrator到Photoshop无损转换难题

Ai2Psd终极指南:彻底解决Illustrator到Photoshop无损转换难题 【免费下载链接】ai-to-psd A script for prepare export of vector objects from Adobe Illustrator to Photoshop 项目地址: https://gitcode.com/gh_mirrors/ai/ai-to-psd 你是否曾为Illustra…...

UE5蓝图驱动:从零构建角色移动与动态行走动画系统

1. 从零搭建UE5角色移动系统 第一次打开虚幻引擎5的时候,看着满屏的英文界面和专业术语,我完全不知道从哪里下手。直到后来发现蓝图系统这个神器,才真正打开了游戏开发的大门。今天我就用最直白的语言,手把手教你如何用蓝图实现角…...

深入AudioService:从Java到Native,图解Android音频录制/播放监控的完整链路

深入AudioService:从Java到Native,图解Android音频录制/播放监控的完整链路 在移动应用开发中,音频功能的实现往往涉及复杂的系统级交互。当用户插入耳机、切换蓝牙设备或同时运行多个录音应用时,Android系统如何确保音频事件准确…...

别再手动写卷积了!用Matlab FDA插件+Verilog快速搞定FPGA FIR滤波器(附4MHz低通/100MHz带通完整代码)

从Matlab到FPGA:可视化FIR滤波器设计全流程实战 在数字信号处理领域,FIR滤波器因其稳定性、线性相位特性而广受欢迎。但传统手工计算系数的方式不仅耗时耗力,还容易出错。本文将展示如何利用Matlab的Filter Designer & Analysis工具快速生…...

BetaFlight PID调参实战:从新手到高手,详解TPA、反重力等高级模式的实际应用

BetaFlight PID调参实战:从新手到高手,详解TPA、反重力等高级模式的实际应用 穿越机飞手们常说:"PID调参是门玄学"。但当你真正掌握BetaFlight中那些高级PID模式的实战应用技巧后,这种"玄学"就会变成可量化的…...

终极Windows安装指南:如何用MediaCreationTool.bat轻松绕过硬件限制

终极Windows安装指南:如何用MediaCreationTool.bat轻松绕过硬件限制 【免费下载链接】MediaCreationTool.bat Universal MCT wrapper script for all Windows 10/11 versions from 1507 to 21H2! 项目地址: https://gitcode.com/gh_mirrors/me/MediaCreationTool.…...

【Docker 27安全沙箱增强配置终极指南】:20年运维专家亲授生产环境零漏洞落地实践

第一章:Docker 27安全沙箱增强配置的核心演进与生产意义Docker 27 引入了基于 Linux 内核 eBPF 和 seccomp v2 的细粒度系统调用拦截机制,显著强化容器运行时的隔离边界。其安全沙箱不再仅依赖传统的 capabilities 剥离与 user namespace 映射&#xff0…...

创业者必读:AI Agent Harness Engineering 赛道融资趋势与 VC 关注点分析

创业者必读:AI Agent Harness Engineering 赛道融资趋势与 VC 关注点分析一、 引言 (Introduction) 1.1 钩子 (The Hook) 你见过这样的新闻发布会吗?没有PPT脚本撰写师、没有会议主持控场师、没有媒体问答梳理员、没有会后纪要速记与翻译分发——一场面向…...

保姆级教程:用STM32CubeMX+Keil5驱动AS5045磁编码器(附Modbus调试精灵配置)

基于STM32CubeMX与Keil5的AS5045磁编码器全流程开发指南 在工业自动化与机器人控制领域,高精度角度检测是不可或缺的基础功能。AS5045作为一款通过RS485接口输出绝对位置信息的磁旋转编码器,以其12位分辨率(4096步/转)和Modbus通信…...

从 AIGC 到 AIGS:AI 重新定义软件服务

在企业级软件开发与数字化转型进程中,AI 技术正在从内容生产工具,逐步走向对软件服务体系的深度重构。过去大家普遍关注 AIGC 带来的效率提升,而面向企业级场景、尤其基于 Java 技术体系的业务系统,真正具备长期价值的是 AIGS 范式…...

制造业AI化改造路径与JBoltAI SOP赋能实践

一、政策引领:制造业AI化改造已成必然趋势当前,我国制造业正从“量的积累”向“质的飞跃”转型,国家密集出台《中国制造2025》《“人工智能制造”专项行动实施意见》等政策,明确推动“人工智能制造”深度融合,为制造业…...

Jinger独自勇闯Microsoft AI TourShanghai

研究生凌晨奔赴上海✨ 赴一场Microsoft AI Tour之约 收获一枚纪念冰箱贴 简餐也意外合口味🍜 最惊喜的是! 终于和鱼皮老师合影圆梦📸 打卡了上次错过的武康大楼 虽没抽到心仪大奖 但此行已是满满收获 两次赴沪皆是匆匆步履 却都藏着独一份的欢…...

Halcon模板匹配实战:如何像保存游戏存档一样保存你的形状模板(附完整代码)

Halcon模板匹配实战:如何像保存游戏存档一样保存你的形状模板(附完整代码) 想象一下你在玩一款高难度游戏,每次击败Boss后系统都会自动存档——这种"进度持久化"机制让你随时可以回到最佳状态继续挑战。Halcon的模板匹配…...

DJI Osmo Nano 4/5评测:小巧便携功能强,成冒险家与vlogger新宠!

优点- 设计紧凑轻便:适合冒险和日常使用。- 出色的视频录制:支持 4K/120fps 录制,搭配 D-Log M 配置文件,提供卓越的视频质量和编辑灵活性。- 内置存储与快充电池:内置存储方便使用,快充电池节省时间。缺点…...

别再死记硬背了!用这3个生活化比喻,彻底搞懂Unity UI锚点(Anchors)

橡皮筋、磁铁与家具:用生活常识破解Unity锚点之谜 第一次接触Unity的UI系统时,那个神秘的锚点(Anchors)功能总让人摸不着头脑。为什么调整四个小三角就能控制界面元素的布局?为什么有些按钮在不同屏幕上会自动拉伸&…...

Vivado 2017下Zynq-7000 PS端UDP通信实战:从lwIP配置到性能调优全记录

Vivado 2017环境下Zynq-7000 PS端UDP通信全流程实战指南 在嵌入式系统开发中,网络通信功能的实现往往面临工具链版本限制的挑战。本文将深入探讨如何在Vivado 2017这一相对陈旧的开发环境中,为Zynq-7000系列芯片的PS端构建完整的UDP通信功能。不同于新版…...

推荐一些可以用于论文降重的软件:哪些可以同时降低查重与AIGC率?2026年爆款TOP5深度评测!

CSDN学术极客专栏 / 2026届毕业生抢救指南: 各位C站的科研同行、学弟学妹们,晚上好。临近毕业季,我的主页几乎被同一个问题刷爆:“博主,推荐一些可以用于论文降重的软件吧!我用常规工具降完了重&#xff0c…...

Jenkins与Gerrit深度联动:配置Gerrit Trigger插件实现提交即构建

1. 为什么需要Jenkins与Gerrit联动? 在团队协作开发中,代码质量把关是个让人头疼的问题。我见过太多团队因为缺乏自动化验证机制,导致低级错误频繁流入主分支。想象一下:每次代码提交都要手动触发构建,不仅效率低下&am…...

高效论文降重方案:2026年TOP5平台极限功能对比,实测AIGC率降至5%以下!

CSDN 极客专栏 | AI与学术大撞击2026毕业季终极自救指南 博主前言: 距离今年各大高校的最终盲审提交只剩不到20天,每天都有同门私信问我:“学长,知网现在不仅查重,还查AIGC疑似率,我用降重软件改完后被判定…...

《RocketMQ实战与进阶》08 结合实际场景顺序消费、消息过滤实战

顺序消费 业务场景描述 现在开发一个银行类项目,对用户的每一笔余额变更都需要发送短信通知到用户。如果用户同时在电商平台下单,转账两个渠道在同一时间进行了余额变更,此时用户收到的短信必须顺序的,例如先网上购物,…...

海思ISP实战:从sensor标定到图像优化的完整流程解析

海思ISP全流程实战:从硬件标定到算法调优的深度指南 在嵌入式视觉系统的开发中,图像信号处理(ISP)流水线的质量直接决定了最终成像效果。作为国产芯片的代表,海思系列SoC的ISP模块凭借其高度可定制性和出色的性能表现…...

保姆级教程:用宝塔面板+EMQX Cloud,零服务器搭建物联网数据中台(MQTT到MySQL)

零服务器架构实战:基于EMQX Cloud与宝塔面板的物联网数据中台搭建指南 物联网技术的普及让数据采集与分析变得触手可及,但对于资源有限的个人开发者或初创团队来说,传统服务器架构的高成本和运维复杂度仍是难以跨越的门槛。本文将介绍一种无需…...

终极指南:如何用EverythingToolbar实现Windows文件搜索效率翻倍 [特殊字符]

终极指南:如何用EverythingToolbar实现Windows文件搜索效率翻倍 🚀 【免费下载链接】EverythingToolbar Everything integration for the Windows taskbar. 项目地址: https://gitcode.com/gh_mirrors/eve/EverythingToolbar 你是否厌倦了在Windo…...

告别.bat文件!用更稳定的环境变量法配置Abaqus2019子程序开发环境(VS2019+Intel Fortran)

永久环境变量配置:Abaqus2019子程序开发环境的高效搭建指南 在Abaqus子程序开发中,传统的.bat脚本配置方式虽然简单直接,但存在路径依赖性强、容易失效等问题。本文将介绍一种基于系统环境变量的配置方法,通过永久性设置VS2019与I…...

德州扑克GTO求解器Desktop Postflop:如何用开源工具提升你的扑克决策水平

德州扑克GTO求解器Desktop Postflop:如何用开源工具提升你的扑克决策水平 【免费下载链接】desktop-postflop [Development suspended] Advanced open-source Texas Holdem GTO solver with optimized performance 项目地址: https://gitcode.com/gh_mirrors/de/d…...

OAK-D vs OAK-D-Lite怎么选?从项目需求出发,聊聊我的选购心得和避坑指南

OAK-D vs OAK-D-Lite实战选型指南:从参数表到真实项目落地的深度解析 当你在机器人导航系统中需要精准的深度感知,或在AR/VR项目中追求轻量化的3D视觉方案时,OAK-D和OAK-D-Lite这两款明星产品总会同时出现在选购清单上。作为深度参与过仓储机…...

鸿蒙 Electron 跨平台应用开发:文字战斗系统与英雄系统进阶开发详解——自定义英雄参战

欢迎加入开源鸿蒙PC社区: https://harmonypc.csdn.net/ atomgit开源仓库地址: https://atomgit.com/feng8403000/electron_TextGame_DIVBOSS 示例效果 项目背景 在游戏开发中,玩家对游戏的定制化需求越来越高。为了满足玩家的个性化需求&am…...

Seaborn的sns.load_dataset()不灵了?别急,这里有本地化数据集的终极解决方案(附GitHub仓库地址)

Seaborn数据集本地化实战:解决sns.load_dataset()访问难题的完整指南 当你兴致勃勃地打开Jupyter Notebook准备复现Seaborn的示例代码时,突然遭遇ConnectionError或HTTPError——这可能是数据科学工作者最熟悉的挫败感之一。本文将彻底解决这个看似简单…...

Phi-3.5-mini-instruct部署教程:WSL2环境下Windows本地运行vLLM+Chainlit全步骤

Phi-3.5-mini-instruct部署教程:WSL2环境下Windows本地运行vLLMChainlit全步骤 1. 环境准备与快速部署 在开始之前,请确保你的Windows系统已启用WSL2并安装了Ubuntu发行版。本教程将指导你完成从零开始的完整部署流程。 1.1 系统要求 Windows 10/11 …...