当前位置：首页 > article >正文

ERNIE-4.5-0.3B-PT开源大模型部署教程：Kubernetes集群中vLLM弹性扩缩容实践

article 2026/3/15 2:13:33

ERNIE-4.5-0.3B-PT开源大模型部署教程Kubernetes集群中vLLM弹性扩缩容实践想快速在Kubernetes集群里部署一个能自动伸缩的文本生成模型吗今天我就带你一步步搞定ERNIE-4.5-0.3B-PT这个轻量级大模型用vLLM做推理引擎再用chainlit做个漂亮的前端界面。你可能听说过很多大模型部署起来很麻烦要么需要大量GPU资源要么配置复杂。但ERNIE-4.5-0.3B-PT只有3亿参数在保持不错生成能力的同时对硬件要求友好很多。更重要的是我们结合vLLM和Kubernetes能让这个模型根据实际负载自动伸缩既节省资源又保证服务稳定。这篇文章我会手把手教你从零开始搭建整个系统。即使你对Kubernetes不太熟悉跟着步骤走也能顺利完成。我们主要做三件事在K8s集群里部署vLLM服务、配置自动伸缩策略、搭建chainlit前端界面。整个过程大概需要30-40分钟完成后你就能拥有一个可以处理文本生成任务的弹性服务了。1. 环境准备与快速部署1.1 你需要准备什么开始之前确保你有这些基础环境Kubernetes集群可以是云服务商的托管集群也可以是本地用minikube或k3s搭建的测试环境。我建议至少有2个节点每个节点4GB以上内存。kubectl命令行工具用来管理Kubernetes集群版本最好在1.24以上。Docker环境用于构建和推送镜像如果你用云服务的容器镜像仓库本地Docker不是必须的。基本的Linux命令行操作经验会使用cd、ls、cat这些基本命令就行。如果你还没有Kubernetes集群我推荐先用minikube在本地搭一个测试环境。安装minikube很简单官网有详细的安装指南这里就不展开了。1.2 快速部署vLLM服务我们先在Kubernetes里部署vLLM服务。vLLM是一个专门为大模型推理优化的引擎它的PagedAttention技术能显著提升推理速度减少内存占用。创建一个文件叫vllm-deployment.yaml内容如下apiVersion: apps/v1 kind: Deployment metadata: name: ernie-vllm-deployment namespace: default spec: replicas: 1 selector: matchLabels: app: ernie-vllm template: metadata: labels: app: ernie-vllm spec: containers: - name: vllm-container image: vllm/vllm-openai:latest command: [python3, -m, vllm.entrypoints.openai.api_server] args: - --model - ernie-4.5-0.3b-pt - --host - 0.0.0.0 - --port - 8000 - --tensor-parallel-size - 1 resources: limits: memory: 4Gi cpu: 2 requests: memory: 2Gi cpu: 1 ports: - containerPort: 8000 env: - name: HF_HOME value: /root/.cache/huggingface volumeMounts: - name: model-volume mountPath: /models volumes: - name: model-volume persistentVolumeClaim: claimName: model-pvc --- apiVersion: v1 kind: Service metadata: name: ernie-vllm-service spec: selector: app: ernie-vllm ports: - protocol: TCP port: 8000 targetPort: 8000 type: ClusterIP这个配置文件做了几件事创建了一个Deployment运行vLLM的OpenAI兼容API服务指定了使用ERNIE-4.5-0.3B-PT模型设置了资源限制防止服务占用过多资源创建了一个Service让其他服务能访问vLLM保存文件后执行部署命令kubectl apply -f vllm-deployment.yaml等个一两分钟用下面的命令检查部署状态kubectl get pods -l appernie-vllm看到状态显示Running就说明部署成功了。如果卡在ContainerCreating可能是镜像下载慢耐心等一会儿。2. 配置自动伸缩策略2.1 为什么需要自动伸缩大模型推理有个特点请求量可能忽高忽低。白天工作时间请求多晚上请求少。如果一直保持很多副本运行资源浪费如果副本太少高峰期又可能响应慢。Kubernetes的HPAHorizontal Pod Autoscaler能帮我们解决这个问题。它根据CPU使用率、内存使用率或者自定义指标自动调整Pod的数量。2.2 创建HPA配置创建一个新文件hpa-config.yamlapiVersion: autoscaling/v2 kind: HorizontalPodAutoscaler metadata: name: ernie-vllm-hpa spec: scaleTargetRef: apiVersion: apps/v1 kind: Deployment name: ernie-vllm-deployment minReplicas: 1 maxReplicas: 5 metrics: - type: Resource resource: name: cpu target: type: Utilization averageUtilization: 70 - type: Resource resource: name: memory target: type: Utilization averageUtilization: 80 behavior: scaleDown: stabilizationWindowSeconds: 300 policies: - type: Percent value: 50 periodSeconds: 60 scaleUp: stabilizationWindowSeconds: 60 policies: - type: Percent value: 100 periodSeconds: 60这个配置的意思是最少1个副本最多5个副本当CPU平均使用率超过70%时自动扩容当内存平均使用率超过80%时自动扩容缩容时比较保守等5分钟稳定后再缩每次最多缩50%扩容时比较积极等1分钟就扩可以100%增加应用这个配置kubectl apply -f hpa-config.yaml检查HPA状态kubectl get hpa ernie-vllm-hpa你会看到类似这样的输出NAME REFERENCE TARGETS MINPODS MAXPODS REPLICAS AGE ernie-vllm-hpa Deployment/ernie-vllm-deployment 0%/70%, 0%/80% 1 5 1 30s2.3 测试自动伸缩现在我们来模拟一下负载看看自动伸缩是否生效。创建一个测试脚本load-test.pyimport requests import json import time import threading import random def send_request(): url http://ernie-vllm-service.default.svc.cluster.local:8000/v1/completions headers {Content-Type: application/json} prompts [ 写一篇关于人工智能未来发展的短文, 用Python写一个快速排序算法, 解释一下什么是机器学习, 写一首关于春天的诗, 如何学习编程给一些建议 ] while True: prompt random.choice(prompts) data { model: ernie-4.5-0.3b-pt, prompt: prompt, max_tokens: 100, temperature: 0.7 } try: response requests.post(url, headersheaders, jsondata, timeout10) if response.status_code 200: result response.json() print(f请求成功: {prompt[:30]}...) else: print(f请求失败: {response.status_code}) except Exception as e: print(f请求异常: {e}) time.sleep(random.uniform(0.1, 0.5)) # 启动10个线程模拟并发请求 threads [] for i in range(10): t threading.Thread(targetsend_request) t.daemon True threads.append(t) t.start() # 运行5分钟 time.sleep(300) print(测试结束)在另一个终端运行这个脚本然后观察Pod数量的变化# 每隔10秒查看一次Pod数量 watch -n 10 kubectl get pods -l appernie-vllm你会看到随着请求增加Pod数量从1个逐渐增加到多个。停止测试脚本后过几分钟Pod数量又会自动减少到1个。3. 部署chainlit前端界面3.1 chainlit是什么chainlit是一个专门为AI应用设计的聊天界面框架它比直接调用API更友好适合给非技术人员使用。界面漂亮支持流式输出还能显示历史对话。3.2 创建chainlit应用先创建一个目录存放chainlit应用mkdir chainlit-app cd chainlit-app创建两个文件第一个是app.pyimport chainlit as cl import requests import json # vLLM服务的地址 VLLM_URL http://ernie-vllm-service.default.svc.cluster.local:8000 cl.on_chat_start async def start_chat(): await cl.Message( content你好我是基于ERNIE-4.5-0.3B-PT模型的AI助手可以帮你处理各种文本生成任务。 ).send() cl.on_message async def handle_message(message: cl.Message): # 显示正在思考的提示 msg cl.Message(content) await msg.send() # 调用vLLM API try: response requests.post( f{VLLM_URL}/v1/chat/completions, headers{Content-Type: application/json}, json{ model: ernie-4.5-0.3b-pt, messages: [ {role: user, content: message.content} ], stream: True, max_tokens: 500, temperature: 0.7 }, streamTrue, timeout30 ) response.raise_for_status() # 流式输出 full_response for line in response.iter_lines(): if line: line line.decode(utf-8) if line.startswith(data: ): data line[6:] if data ! [DONE]: try: chunk json.loads(data) if choices in chunk and len(chunk[choices]) 0: delta chunk[choices][0].get(delta, {}) if content in delta: content delta[content] full_response content await msg.stream_token(content) except json.JSONDecodeError: continue await msg.update() except requests.exceptions.RequestException as e: await cl.Message( contentf请求出错{str(e)}请检查vLLM服务是否正常运行。 ).send() except Exception as e: await cl.Message( contentf处理消息时出错{str(e)} ).send()第二个是chainlit.md这是chainlit的配置文件# 欢迎使用ERNIE助手这是一个基于ERNIE-4.5-0.3B-PT模型的聊天应用部署在Kubernetes集群中使用vLLM进行推理。 ## 功能特点 - 支持流式对话 - 自动保存对话历史 - 响应速度快 - 部署在弹性伸缩的K8s集群中 ## 使用提示 1. 输入你的问题或指令 2. 模型会实时生成回复 3. 对话历史会自动保存 4. 可以问各种文本相关的问题3.3 创建Docker镜像创建DockerfileFROM python:3.9-slim WORKDIR /app # 安装依赖 COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt # 复制应用代码 COPY . . # 暴露端口 EXPOSE 8000 # 启动命令 CMD [chainlit, run, app.py, --host, 0.0.0.0, --port, 8000]创建requirements.txtchainlit1.0.0 requests2.28.0构建并推送镜像如果你有容器镜像仓库docker build -t your-registry/chainlit-ernie:latest . docker push your-registry/chainlit-ernie:latest3.4 在K8s中部署chainlit创建chainlit-deployment.yamlapiVersion: apps/v1 kind: Deployment metadata: name: chainlit-deployment spec: replicas: 1 selector: matchLabels: app: chainlit template: metadata: labels: app: chainlit spec: containers: - name: chainlit-container image: your-registry/chainlit-ernie:latest ports: - containerPort: 8000 resources: limits: memory: 1Gi cpu: 0.5 requests: memory: 512Mi cpu: 0.2 --- apiVersion: v1 kind: Service metadata: name: chainlit-service spec: selector: app: chainlit ports: - protocol: TCP port: 80 targetPort: 8000 type: LoadBalancer --- apiVersion: networking.k8s.io/v1 kind: Ingress metadata: name: chainlit-ingress annotations: nginx.ingress.kubernetes.io/rewrite-target: / spec: rules: - host: ernie-chat.your-domain.com http: paths: - path: / pathType: Prefix backend: service: name: chainlit-service port: number: 80部署chainlitkubectl apply -f chainlit-deployment.yaml等Service获取到外部IP后就可以通过浏览器访问了kubectl get svc chainlit-service4. 验证部署效果4.1 检查模型服务状态部署完成后我们需要确认一切正常。首先检查vLLM服务# 查看vLLM Pod日志 kubectl logs -l appernie-vllm --tail50你应该能看到模型加载成功的日志类似这样Loading model ernie-4.5-0.3b-pt... Model loaded successfully Starting OpenAI API server on 0.0.0.0:8000...4.2 测试API接口用curl测试一下vLLM的API是否正常工作# 获取一个vLLM Pod的名称 POD_NAME$(kubectl get pods -l appernie-vllm -o jsonpath{.items[0].metadata.name}) # 在Pod内测试API kubectl exec $POD_NAME -- curl -X POST http://localhost:8000/v1/completions \ -H Content-Type: application/json \ -d { model: ernie-4.5-0.3b-pt, prompt: 你好请介绍一下你自己, max_tokens: 50 }如果返回了生成的文本说明API工作正常。4.3 访问chainlit界面获取chainlit服务的外部访问地址# 如果是LoadBalancer类型 kubectl get svc chainlit-service -o jsonpath{.status.loadBalancer.ingress[0].ip} # 或者如果是NodePort类型 kubectl get svc chainlit-service -o wide在浏览器中打开对应的地址你应该能看到chainlit的聊天界面。试着问几个问题写一首关于秋天的诗用Python实现二分查找解释一下什么是深度学习观察响应速度和生成质量。ERNIE-4.5-0.3B-PT虽然参数不多但在很多常见任务上表现不错。4.4 监控自动伸缩打开另一个终端监控整个系统的资源使用情况# 查看所有Pod的资源使用 kubectl top pods # 查看HPA状态 kubectl describe hpa ernie-vllm-hpa # 查看事件了解伸缩过程 kubectl get events --sort-by.lastTimestamp你可以看到当有多个用户同时使用chainlit界面时vLLM的Pod数量会增加当使用量下降时Pod数量会减少。5. 实用技巧与优化建议5.1 性能调优参数vLLM有很多可以调整的参数能影响推理速度和资源使用。这里是一些常用的# 在vLLM启动参数中添加这些 args: - --model - ernie-4.5-0.3b-pt - --host - 0.0.0.0 - --port - 8000 - --tensor-parallel-size - 1 - --block-size - 16 # 块大小影响内存使用 - --gpu-memory-utilization - 0.9 # GPU内存使用率 - --max-num-batched-tokens - 2048 # 最大批处理token数 - --max-num-seqs - 256 # 最大并发序列数对于ERNIE-4.5-0.3B-PT这种小模型--block-size 16和--gpu-memory-utilization 0.9是比较合适的设置。5.2 资源监控与告警在生产环境中建议设置监控和告警。可以用Prometheus和Grafana安装Prometheus监控# 添加Prometheus仓库 helm repo add prometheus-community https://prometheus-community.github.io/helm-charts helm repo update # 安装kube-prometheus-stack helm install prometheus prometheus-community/kube-prometheus-stack创建ServiceMonitor监控vLLMapiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: vllm-monitor spec: selector: matchLabels: app: ernie-vllm endpoints: - port: 8000 path: /metrics interval: 30s设置告警规则apiVersion: monitoring.coreos.com/v1 kind: PrometheusRule metadata: name: vllm-alerts spec: groups: - name: vllm rules: - alert: HighRequestLatency expr: histogram_quantile(0.95, rate(vllm_request_duration_seconds_bucket[5m])) 1 for: 2m labels: severity: warning annotations: summary: vLLM请求延迟高 description: vLLP服务的95%分位请求延迟超过1秒5.3 成本优化策略在云环境中运行成本是需要考虑的因素。这里有几个省钱技巧使用Spot实例如果对服务可用性要求不是极高可以用Spot实例运行工作节点能节省60-70%成本。设置合理的伸缩边界根据实际使用模式调整minReplicas和maxReplicas。如果夜间基本没人用可以设置minReplicas0用CronJob在上班时间前启动服务。选择合适的节点类型ERNIE-4.5-0.3B-PT不需要顶级GPU中端GPU甚至CPU都能跑。测试不同配置找到性价比最高的。5.4 常见问题解决问题1模型加载失败Error loading model: File not found解决检查模型路径是否正确确保PersistentVolume里有模型文件。问题2内存不足OutOfMemoryError: CUDA out of memory解决减少--max-num-batched-tokens增加--block-size或者给Pod分配更多内存。问题3响应速度慢请求超时解决检查网络延迟调整vLLM的批处理参数或者增加Pod副本数。问题4chainlit无法连接vLLM连接被拒绝解决检查Service名称和端口是否正确确保两个服务在同一个Namespace。6. 总结通过这篇文章我们完成了一个完整的ERNIE-4.5-0.3B-PT模型部署方案。从在Kubernetes中部署vLLM服务到配置自动伸缩策略再到搭建用户友好的chainlit前端每一步都有详细的操作指南。这个方案有几个明显的优点弹性伸缩根据实际负载自动调整资源既保证服务稳定又节省成本。你不用担心半夜没人用时还浪费资源也不用担心突然来大量请求时服务崩溃。易于维护全部用Kubernetes管理部署、升级、回滚都很方便。用kubectl几个命令就能完成操作不需要登录到每台服务器。性能不错vLLM的优化让这个小模型也能有不错的推理速度。ERNIE-4.5-0.3B-PT虽然参数不多但在很多常见任务上够用而且对硬件要求低。用户体验好chainlit提供了漂亮的聊天界面比直接调用API友好得多。支持流式输出用户能实时看到生成过程。如果你想要更进一步的优化可以考虑这些方向模型量化把模型从FP16量化到INT8甚至INT4能进一步减少内存使用和提升速度。多模型支持在同一个集群里部署多个模型根据请求动态选择。请求队列在vLLM前面加一个请求队列更好地处理突发流量。A/B测试同时部署不同版本的模型对比效果。最重要的是这个方案是可复制的。你可以用同样的方法部署其他模型只需要改一下模型名称和配置参数。希望这个教程对你有帮助如果你在实践过程中遇到问题或者有更好的建议欢迎交流讨论。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

ERNIE-4.5-0.3B-PT开源大模型部署教程：Kubernetes集群中vLLM弹性扩缩容实践

相关文章：

ERNIE-4.5-0.3B-PT开源大模型部署教程：Kubernetes集群中vLLM弹性扩缩容实践

HY-MT1.5-7B翻译模型实战：快速部署与LangChain集成

LongCat-Image-Editn部署教程：低配环境（8G RAM+16G GPU）稳定运行实录

黑丝空姐-造相Z-Turbo实战：Java开发者集成AIGC应用开发指南

C语言基础项目：编写简易图像格式转换器预处理DeOldify输入

3分钟上手！AI驱动的视频背景智能替换工具

革新性开源实验室管理系统：SENAITE LIMS全流程解决方案

Qwen3.5-27B跨平台调用：Windows/macOS/Linux三端API客户端统一方案

Youtu-Parsing多模态文档解析实战：基于Python的自动化信息提取教程

AudioSeal部署案例：AI语音API服务商在响应头中嵌入水印校验码方案

卡证检测矫正模型效果对比：不同光照与角度下的鲁棒性测试

Qwen2.5-72B-Instruct-GPTQ-Int4保姆级教学：GPTQ量化模型加载参数详解

OpenCore配置管理新范式：OCAuxiliaryTools提升多系统引导效率的全攻略

StructBERT文本相似度模型效果深度评测：多领域数据集对比分析

文墨共鸣大模型快速开发：.NET后端集成与API封装

探索DAIR-V2X：构建车路协同自动驾驶的开源生态系统

千问3.5-27B多场景：食品包装标签图像识别与营养成分结构化

3步根治开源工具性能瓶颈，核心指标提升200%的技术优化指南

Nanobot+Unity3D联动：智能NPC对话系统开发

Super Qwen Voice World部署教程：GPU显存监控Dashboard集成Prometheus+Grafana

Java后端集成MogFace-large：构建高并发人脸检测微服务

#第七届立创电赛#【2022暑训营】基于N32G430C8L7的模块化USB电压电流功率表设计与开源分享

CLIP ViT-H-14 GPU推理性能对比：TensorRT加速前后吞吐量与延迟实测数据

FLUX.1-dev旗舰版终极体验：无需复杂配置，享受开箱即用的顶级AI绘画

GME多模态向量模型Java集成指南：SpringBoot服务调用与向量管理

构建智能知识网络：MaxKB知识图谱关联检索技术全解析

图纸转换与预览：Python-Altium的零代码Altium文件处理指南

【Dify多智能体协同架构设计终极指南】：20年架构师亲授高可用、低延迟工作流落地的5大核心原则

Stable Yogi Leather-Dress-Collection部署教程：Docker镜像构建与CUDA版本兼容说明

避坑指南：Jenkins+Git仓库配置时遇到的‘fatal: not in a git directory‘错误全解析