当前位置: 首页 > article >正文

Phi-3-mini-128k-instruct企业部署:Docker Compose编排vLLM+Chainlit服务

Phi-3-mini-128k-instruct企业部署Docker Compose编排vLLMChainlit服务1. 模型简介Phi-3-Mini-128K-Instruct是一个38亿参数的轻量级开放模型属于Phi-3系列的最新成员。这个模型经过精心训练特别适合需要高效推理能力的应用场景。核心特点支持128K超长上下文处理能力训练数据包含高质量合成数据和精选公开网站数据经过监督微调和直接偏好优化确保指令遵循能力在常识、数学、编码等基准测试中表现优异与同类模型相比Phi-3-Mini-128K-Instruct在保持轻量级的同时提供了接近大模型的性能表现特别适合企业级部署。2. 部署准备2.1 系统要求在开始部署前请确保您的服务器满足以下最低配置操作系统Ubuntu 20.04/22.04 LTSCPU至少8核内存32GB以上GPUNVIDIA显卡推荐RTX 3090或A10G以上存储至少50GB可用空间Docker20.10.0及以上版本NVIDIA驱动470.82.01及以上2.2 环境检查运行以下命令检查基础环境# 检查Docker版本 docker --version # 检查NVIDIA驱动 nvidia-smi # 检查Docker Compose版本 docker-compose --version3. Docker Compose部署3.1 准备部署文件创建项目目录并准备必要的配置文件mkdir phi3-deployment cd phi3-deployment创建docker-compose.yml文件version: 3.8 services: vllm: image: vllm/vllm:latest deploy: resources: reservations: devices: - driver: nvidia count: 1 capabilities: [gpu] volumes: - ./models:/models command: --model /models/Phi-3-mini-128k-instruct --tensor-parallel-size 1 ports: - 8000:8000 restart: unless-stopped chainlit: image: chainlit/chainlit:latest depends_on: - vllm volumes: - ./app:/app working_dir: /app command: chainlit run app.py -h 0.0.0.0 -p 7860 ports: - 7860:7860 restart: unless-stopped创建Chainlit应用文件app/app.pyimport chainlit as cl import requests cl.on_message async def main(message: cl.Message): response requests.post( http://vllm:8000/v1/completions, json{ model: Phi-3-mini-128k-instruct, prompt: message.content, max_tokens: 2048, temperature: 0.7 } ) result response.json() await cl.Message(contentresult[choices][0][text]).send()3.2 启动服务执行以下命令启动服务docker-compose up -d服务启动后可以通过以下命令查看日志# 查看vLLM服务日志 docker-compose logs -f vllm # 查看Chainlit服务日志 docker-compose logs -f chainlit4. 服务验证4.1 检查模型加载模型加载完成后日志中会显示类似以下信息INFO 05-10 09:15:32 llm_engine.py:72] Initializing an LLM engine with config... INFO 05-10 09:16:45 model_runner.py:84] Model weights loaded in 73.21s4.2 测试API接口可以使用curl测试vLLM API是否正常工作curl http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d { model: Phi-3-mini-128k-instruct, prompt: 介绍一下你自己, max_tokens: 256 }4.3 访问Chainlit界面在浏览器中打开以下地址访问Chainlit界面http://服务器IP:7860在界面中输入问题如请用中文介绍一下Phi-3模型的特点即可获得模型的回答。5. 生产环境优化建议5.1 性能调优对于生产环境建议调整以下参数# 在docker-compose.yml中vLLM服务的command部分添加 command: --model /models/Phi-3-mini-128k-instruct --tensor-parallel-size 1 --max-num-seqs 256 --max-num-batched-tokens 40965.2 安全配置建议添加以下安全措施为API添加认证限制访问IP启用HTTPS设置请求速率限制5.3 监控与日志建议配置Prometheus监控Grafana仪表盘ELK日志收集6. 常见问题解决6.1 模型加载失败问题现象日志中出现Failed to load model错误解决方案检查模型文件是否完整确认存储空间足够检查GPU内存是否充足6.2 API响应慢优化建议增加--max-num-batched-tokens参数值使用更高性能的GPU减少并发请求数6.3 Chainlit无法连接vLLM检查步骤确认vLLM服务已正常启动检查网络连接验证端口映射是否正确7. 总结通过本文介绍的Docker Compose部署方案企业可以快速搭建Phi-3-mini-128k-instruct模型的推理服务并配合Chainlit提供友好的交互界面。这种部署方式具有以下优势快速部署一键启动所有服务组件资源隔离各服务运行在独立容器中易于扩展可根据需求灵活调整资源配置维护简单通过Docker统一管理服务生命周期对于需要更高性能或更大规模部署的场景可以考虑使用Kubernetes进行集群化管理或结合模型并行技术提升推理效率。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

Phi-3-mini-128k-instruct企业部署:Docker Compose编排vLLM+Chainlit服务

Phi-3-mini-128k-instruct企业部署:Docker Compose编排vLLMChainlit服务 1. 模型简介 Phi-3-Mini-128K-Instruct是一个38亿参数的轻量级开放模型,属于Phi-3系列的最新成员。这个模型经过精心训练,特别适合需要高效推理能力的应用场景。 核…...

谷歌破局:iPhone 与安卓跨系统文件共享新突破

Pixel 10 开启跨系统文件共享新时代谷歌近期宣布安卓和 iPhone 用户可实现快速文件共享,不过目前仅 Pixel 10 系列手机支持该功能。此前,iPhone 用户依赖苹果的 AirDrop 功能,只能在苹果设备间共享文件,安卓用户则借助 Quick Shar…...

【硬件】络石SR系列协作机械臂:商用场景下的高性价比之选

1. 为什么商用场景需要协作机械臂? 最近两年,我走访了超过50家中小型制造企业,发现一个共同痛点:人工成本越来越高,但传统工业机器人又太"笨重"。要么需要专门的围栏隔离,要么编程复杂到必须请工…...

【Python】Mu编辑器中安装Python库

今天按着《Python编程快速上手-第三版》编写程序,第8章的时候需要安装pyperclip库,以便读取剪贴板的内容,我在CMD上使用pip按照了pyperclip库,但在Mu编辑器中仍然导入不了pyperclip库,报错说找不到这库名。我尝试在IDL…...

office卸载工具教程!微软官方office卸载工具,怎么解决office卸载不干净怎么弄?Office2021家庭和学生版卸载不干净怎么办?

简介 今天介绍微软官方office卸载工具SetupProd_OffScrub,用这个卸载后直接重装就可以了! 这款由微软官方提供的SetupProd OffScrub工具,是重装Office前的最佳助手。它能一键清除电脑中顽固的Office残留数据,为你提供一个干净的安…...

从0到1构建可扩展的企业级视频平台:wvp-GB28181-pro快速部署指南

从0到1构建可扩展的企业级视频平台:wvp-GB28181-pro快速部署指南 【免费下载链接】wvp-GB28181-pro 项目地址: https://gitcode.com/GitHub_Trending/wv/wvp-GB28181-pro 在当今智能化监控系统建设中,基于GB28181协议(国家颁布的视频…...

5分钟快速部署:基于YOLO和多模态大语言模型的电动车安全检测系统(含完整源码)

5分钟极速搭建:融合YOLO与多模态大语言的电动车安全监测平台(附全栈源码) 在智慧交通和城市安全管理中,电动车违规行为检测一直是技术落地的难点。传统方案往往面临部署复杂、响应延迟和误报率高的问题。今天我们将用前沿的YOLOv8…...

PDF-Extract-Kit-1.0与Elasticsearch集成:构建文档搜索引擎

PDF-Extract-Kit-1.0与Elasticsearch集成:构建文档搜索引擎 1. 引言 想象一下,你手头有成千上万份PDF文档——可能是公司历年报告、技术文档库或者研究论文。当你想找某个特定内容时,却像大海捞针一样困难。传统的关键词搜索只能匹配文字&a…...

YOLO X Layout效果展示:精准识别文档11类元素,实测效果惊艳

YOLO X Layout效果展示:精准识别文档11类元素,实测效果惊艳 1. 开篇:文档布局分析的革命性突破 想象一下,当你面对一份复杂的PDF文档时,如何快速识别其中的表格、图片、标题等元素?传统方法往往需要人工标…...

Qwen2.5-72B开源模型教程:模型输出合规性过滤与敏感词拦截配置

Qwen2.5-72B开源模型教程:模型输出合规性过滤与敏感词拦截配置 1. 引言:为什么我们需要关注模型输出的合规性? 想象一下,你刚刚部署了一个强大的AI助手,它能帮你写代码、做分析、甚至创作故事。但某天,一…...

如何在AndroidStudio里面接入你的AI助手

1 寻找AndroidStudio的model接口处 在最左侧栏你会发现它自带的一个AI chat/agent 模型,点进去后 右下角有一个切换模型,默认的是Genimi,在Manage Model里面我们可以管理AI模型,也就是我们的接口处 不过细心的你也可以从这里的左…...

算法复杂度估算的渐进模型与统计验证的技术6

引言算法复杂度分析的重要性渐进模型与统计验证的关系文章结构与目标渐进模型基础大O符号(Big-O Notation)的定义与性质常见复杂度分类(常数、线性、对数、多项式、指数)最坏、平均与最好情况分析渐进模型的局限性理论假设与实际运…...

从实验室到产线:基于ADS1220的PT1000温度监测系统,我是如何把精度做到±0.1°C的?

从实验室到产线:基于ADS1220的PT1000温度监测系统,我是如何把精度做到0.1C的? 在工业自动化领域,温度监测的精度往往直接关系到产品质量与生产安全。去年接手某生物制药企业恒温仓储改造项目时,客户提出的0.1C监测精度…...

EasyAnimateV5应用场景:电商产品动态展示视频一键生成方案

EasyAnimateV5应用场景:电商产品动态展示视频一键生成方案 1. 电商视频制作的市场痛点与解决方案 电商行业正面临一个普遍难题:如何高效制作吸引眼球的产品展示视频?传统视频制作流程需要专业摄影师、剪辑师,从拍摄到后期至少需…...

代码审计实战

SQL注入转义函数文件上传文件包含请求头也可以插入一句话木马然后在文件包含时传入x参数即可。文件写入代码执行命令执行无回显的输出可以重定向到某个文件中,然后访问文件去查看文件读取...

KGFX嵌入式图形库:面向ESP32 Kublet设备的轻量级UI框架

1. KGFX嵌入式图形库深度解析:面向Kublet设备的轻量级UI框架 1.1 库定位与工程价值 KGFX(Kublet Graphics Library)是一个专为Kublet系列嵌入式设备设计的轻量级图形用户界面库,其核心目标是在资源受限的微控制器平台上实现高效、…...

MAA助手技术问题解决方案:从问题定位到安全规范

MAA助手技术问题解决方案:从问题定位到安全规范 【免费下载链接】MaaAssistantArknights 一款明日方舟游戏小助手 项目地址: https://gitcode.com/GitHub_Trending/ma/MaaAssistantArknights 问题定位:常见故障诊断与解决方案 程序启动无响应的系…...

DASD-4B-Thinking提示工程:思维链(CoT)模板设计与应用

DASD-4B-Thinking提示工程:思维链(CoT)模板设计与应用 1. 引言 你是不是经常遇到这样的情况:向AI提问时,它要么答非所问,要么给出过于简单的答案?特别是在处理复杂问题时,模型往往…...

DDColor老照片修复:ComfyUI环境快速部署,一键上色体验

DDColor老照片修复:ComfyUI环境快速部署,一键上色体验 1. 老照片修复的新选择 翻开泛黄的相册,那些黑白老照片承载着珍贵的记忆。传统的人工上色方法不仅耗时费力,而且效果难以保证。现在,借助DDColor和ComfyUI的组合…...

Cogito-V1-Preview-Llama-3B长文本总结效果对比:技术论文与会议纪要

Cogito-V1-Preview-Llama-3B长文本总结效果对比:技术论文与会议纪要 面对动辄几十页的技术文档、冗长的会议记录,你是不是也常常感到头疼?信息量太大,关键点淹没在细节里,想要快速抓住核心,往往需要花费大…...

R语言实战:5种组间多重比较方法全解析(附代码示例)

R语言实战:5种组间多重比较方法全解析(附代码示例) 在科研数据分析和商业决策支持中,我们常常需要比较多个组别之间的差异。方差分析(ANOVA)虽然能告诉我们各组均值是否存在显著差异,但它无法具体指出哪些组之间存在差…...

从‘看懂’到‘动手’:DINOv3和SAM3如何悄悄改变AI产品经理的PRD写法?

DINOv3与SAM3:AI产品经理的下一代PRD设计指南 当视觉AI从"识别物体"进化到"理解场景语义并执行交互操作",产品设计的底层逻辑正在被重构。作为AI产品经理,我们不再只是描述功能按钮和流程图,而是需要思考如何…...

计算机毕业设计hadoop+spark股票行情预测系统 量化交易分析 股票推荐系统 股票爬虫 大数据毕业设计(源码+文档 +PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 技术范围:Sprin…...

Qwen-Image-Edit-F2P在MySQL数据库中的图像存储方案

Qwen-Image-Edit-F2P在MySQL数据库中的图像存储方案 1. 引言 当你用Qwen-Image-Edit-F2P生成了一张惊艳的人像图片后,接下来会遇到一个很实际的问题:这些图片该怎么存?特别是当生成数量越来越多,手动保存和管理就变得非常麻烦。…...

手把手教你用RM500Q-GL模块搭建5G通信电路(含M.2 B Key接口详解)

从零构建5G通信硬件:RM500Q-GL模块与M.2 B Key接口实战指南 在物联网和边缘计算爆发的今天,5G通信能力已成为智能硬件产品的标配。但对于大多数嵌入式开发者而言,从选型到实现仍存在诸多技术门槛。本文将带您深入RM500Q-GL模块的应用实践&…...

AEGIS:无工具调用可免检——AI代理的预执行防火墙与审计层

大家读完觉得有帮助记得有帮助记得关注和点赞!!!摘要。​ AI代理越来越多地通过外部工具采取行动:它们查询数据库、执行shell命令、读写文件以及发送网络请求。然而,在当前大多数代理技术栈中,模型生成的工…...

5分钟掌握airPLS:零配置智能基线校正终极指南

5分钟掌握airPLS:零配置智能基线校正终极指南 【免费下载链接】airPLS baseline correction using adaptive iteratively reweighted Penalized Least Squares 项目地址: https://gitcode.com/gh_mirrors/ai/airPLS 在光谱分析、色谱检测和信号处理领域&…...

Rust + WebAssembly 新手完全入门指南

Rust WebAssembly 新手完全入门指南 这篇文章面向前端、Rust 开发者,只要跟着步骤就能跑通你的第一个 WebAssembly 前端组件。 WebAssembly 是什么 WebAssembly(简称 Wasm)是一种可在现代浏览器中运行的低级、紧凑、高效的二进制指令格式…...

MySQL——事务管理

一、认识事务1.引入若MySQL的CURD不加控制会出现的问题:对于以上的问题,CURD 满足以下条件买票的过程是原子的买票互相不能影响买完票要永久有效买前,和买后都要是确定的状态而事务就是来解决这种问题的2.事务的概念事务的定义事务是由一组逻…...

终极原神帧率解锁指南:简单三步突破60FPS限制

终极原神帧率解锁指南:简单三步突破60FPS限制 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 还在为《原神》的60FPS帧率限制感到困扰吗?你的高性能硬件是否被游戏…...