当前位置：首页 > article >正文

Vllm快速入门

article 2026/3/17 22:45:47

背景vLLM 是一个用于 LLM 推理和服务的快速易用的库。vLLM 最初是在加州大学伯克利分校的 Sky Computing Lab 开发的现已发展成为一个社区驱动的项目融合了学术界和工业界的贡献。核心细节参考官网https://docs.vllm.com.cn/en/latest/快速入门这里仅仅介绍cuda其他显卡请参考官网uv venv --python 3.12 --seed source .venv/bin/activate uv pip install vllm --torch-backendauto离线批量推理# SPDX-License-Identifier: Apache-2.0 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project from vllm import LLM, SamplingParams # Sample prompts. prompts [ Hello, my name is, The president of the United States is, The capital of France is, The future of AI is, ] # Create a sampling params object. sampling_params SamplingParams(temperature0.8, top_p0.95) def main(): # Create an LLM. llm LLM(modelfacebook/opt-125m) # Generate texts from the prompts. # The output is a list of RequestOutput objects # that contain the prompt, generated text, and other information. outputs llm.generate(prompts, sampling_params) # Print the outputs. print(\nGenerated Outputs:\n - * 60) for output in outputs: prompt output.prompt generated_text output.outputs[0].text print(fPrompt: {prompt!r}) print(fOutput: {generated_text!r}) print(- * 60) if __name__ __main__: main()采样温度设置为0.8 nucleus sampling 概率设置为0.95分别控制着“抽奖的随机程度”和“候选词的范围”。兼容 OpenAI 的服务器from vllm import LLM llm LLM(modelmeta-llama/Meta-Llama-3-8B-Instruct) conversation [ { role: system, content: You are a helpful assistant, }, { role: user, content: Hello, }, { role: assistant, content: Hello! How can I assist you today?, }, { role: user, content: Write an essay about the importance of higher education., }, ] outputs llm.chat(conversation) for output in outputs: prompt output.prompt generated_text output.outputs[0].text print(fPrompt: {prompt!r}, Generated text: {generated_text!r})如果模型没有聊天模板或您想指定另一个您可以显式地传递一个聊天模板。from vllm.entrypoints.chat_utils import load_chat_template # You can find a list of existing chat templates under examples/ custom_template load_chat_template(chat_templatepath_to_template) print(Loaded chat template:, custom_template) outputs llm.chat(conversation, chat_templatecustom_template)Ray Serve LLM¶Ray Serve LLM 实现了 vLLM 引擎的可扩展、生产级服务。它与 vLLM 紧密集成并增加了自动扩展、负载均衡和反压等功能。主要功能提供与 OpenAI 兼容的 HTTP API 和 Pythonic API。可从单个 GPU 扩展到多节点集群无需更改代码。通过 Ray Dashboard 和指标提供可观测性和自动扩展策略。以下示例展示了如何使用 Ray Serve LLM 部署 DeepSeek R1 等大型模型 examples/online_serving/ray_serve_deepseek.py。通过官方 Ray Serve LLM 文档了解更多关于 Ray Serve LLM 的信息。

Vllm快速入门

相关文章：

Vllm快速入门

Aurogen：告别命令行，纯 Web 可视化快速上手 Claw 养殖，零基础也能轻松配置 Claw

【京东云云服务器部署Openclaw】简单、傻瓜三步部署成功流程

Linux系统密码破解

k8s问答题----初始化版

计科-软工13-计算实例「整理」

GTE中文-large惊艳效果展示：事件抽取+关系识别双任务高精度输出案例

鸿蒙智能WiFi开关硬件与分布式控制实现

Qwen2-VL-2B-Instruct与卷积神经网络结合：提升图像特征提取与描述精度

Phi-3-vision-128k-instruct效果展示：表格截图→结构化数据提取→趋势分析文字生成

Phi-3-vision-128k-instruct入门必看：128K上下文多模态模型快速上手教程

Phi-3-vision-128k-instruct镜像免配置：Docker一键拉起+Chainlit前端自动对接

亚洲美女-造相Z-Turbo效果对比：Z-Image-Turbo基模 vs LoRA微调版亚洲特征强化分析

通义千问3-Reranker-0.6B优化电商产品评论分析

Face Analysis WebUI模型微调指南：定制化人脸识别系统开发

在线式UPS设计：双输入无感切换与数字模拟混合控制

BV电视版 0.3.14.r877 | 纯净好用的第三方B站TV，支持8K视频

酷9多线 1.7.7.8（内置35源） | 魔改版，内置35条直播源，频道非常丰富

USRP设备选型指南：为什么你的MATLAB总是检测不到B210/N310？（含UHD驱动优化方案）

一文搞懂接口幂等性：从原理到工程实践（含唯一索引详解）

Dify Rerank插件一键部署教程：从零下载、5步安装、实测QPS提升2.3倍的完整链路

内网安全部署方案：Qwen3-VL:30B在内网穿透环境下的加密通信实现

Docker 27正式版工业部署实战指南：从CI/CD流水线到OT网络隔离的7大关键配置

Nano-Banana与SolidWorks结合：智能CAD设计

Qwen3-4B-Thinking模型数据库课程设计助手：SQL优化与ER图生成

妙算MANIFOLD 2-G实战：用Ubuntu18.04双系统快速搭建机器人开发环境

WSL2+内网穿透：5分钟搞定远程SSH开发环境（避坑指南）

Windows计划任务终极指南：从schtasks命令到taskschd.msc的完整实战手册

为什么你的电脑需要14.318MHz晶振？揭秘主板时钟频率的冷知识

Phi-3-vision-128k-instruct实战落地：跨境电商多语言商品图理解与翻译辅助