当前位置：首页 > news >正文

大模型框架：vLLM

news 2025/7/18 23:34:40

一、vLLM 介绍

二、安装 vLLM

2.1 使用 GPU 进行安装

2.2 使用CPU进行安装

2.3 相关配置

三、使用 vLLM

3.1 离线推理

3.2 适配OpenAI-API的API服务

一、vLLM 介绍

vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAttention」，提供易用、快速、便宜的LLM服务。

二、安装 vLLM

2.1 使用 GPU 进行安装

vLLM 是一个Python库，同时也包含预编译的C++和CUDA（12.1版本）二进制文件。

1. 安装条件：

OS: Linux
Python: 3.8 – 3.11
GPU: compute capability 7.0 or higher (e.g., V100, T4, RTX20xx, A100, L4, H100, etc.)

2.使用 pip 安装：

# 使用conda创建python虚拟环境（可选）
conda create -n vllm python=3.11 -y
conda activate vllm

# Install vLLM with CUDA 12.1.
pip install vllm

2.2 使用CPU进行安装

vLLM 也支持在 x86 CPU 平台上进行基本的模型推理和服务，支持的数据类型包括 FP32 和 BF16。

1.安装要求：

OS: Linux
Compiler: gcc/g++>=12.3.0 (recommended)
Instruction set architecture (ISA) requirement: AVX512 is required.

2.安装编译依赖：

yum install -y gcc gcc-c++

3.下载源码：

git clone https://github.com/vllm-project/vllm.git

4.安装python依赖：

pip install wheel packaging ninja setuptools>=49.4.0 numpy psutil

# 需要进入源码目录
pip install -v -r requirements-cpu.txt --extra-index-url https://download.pytorch.org/whl/cpu

5.执行安装：

VLLM_TARGET_DEVICE=cpu python setup.py install

2.3 相关配置

1. vLLM默认从HuggingFace下载模型，如果想从ModelScope下载模型，需要配置环境变量：

export VLLM_USE_MODELSCOPE=True

三、使用 vLLM

3.1 离线推理

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams# Initialize the tokenizer
tokenizer = AutoTokenizer.from_pretrained("/data/weisx/model/Qwen1.5-4B-Chat")# Pass the default decoding hyperparameters of Qwen1.5-4B-Chat
# max_tokens is for the maximum length for generation.
sampling_params = SamplingParams(temperature=0.7, top_p=0.8, repetition_penalty=1.05, max_tokens=512)# Input the model name or path. Can be GPTQ or AWQ models.
llm = LLM(model="Qwen/l/Qwen1.5-4B-Chat", trust_remote_code=True)# Prepare your prompts
prompt = "Tell me something about large language models."
messages = [{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True
)# generate outputs
outputs = llm.generate([text], sampling_params)# Print the outputs.
for output in outputs:prompt = output.promptgenerated_text = output.outputs[0].textprint(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

3.2 适配OpenAI-API的API服务

借助vLLM，构建一个与OpenAI API兼容的API服务十分简便，该服务可以作为实现OpenAI API协议的服务器进行部署。默认情况下，它将在 http://localhost:8000 启动服务器。您可以通过 --host 和 --port 参数来自定义地址。请按照以下所示运行命令：

python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen1.5-4B-Chat

使用curl与Qwen对接：

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{
"model": "Qwen/Qwen1.5-4B-Chat",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Tell me something about large language models."}
]
}'

使用python客户端与Qwen对接：

from openai import OpenAI
# Set OpenAI's API key and API base to use vLLM's API server.
openai_api_key = "EMPTY"
openai_api_base = "http://localhost:8000/v1"client = OpenAI(api_key=openai_api_key,base_url=openai_api_base,
)chat_response = client.chat.completions.create(model="Qwen/Qwen1.5-4B-Chat",messages=[{"role": "system", "content": "You are a helpful assistant."},{"role": "user", "content": "Tell me something about large language models."},]
)
print("Chat response:", chat_response)

大模型框架：vLLM

目录一、vLLM 介绍二、安装 vLLM 2.1 使用 GPU 进行安装 2.2 使用CPU进行安装 2.3 相关配置三、使用 vLLM 3.1 离线推理 3.2 适配OpenAI-API的API服务一、vLLM 介绍 vLLM是伯克利大学LMSYS组织开源的大语言模型高速推理框架。它利用了全新的注意力算法「PagedAtten…...

编程日记 2024/5/25 20:43:16

SQL 使用心得【持续更新】

COUNT（字段） 不会统计 NULL 值，但是COUNT（*）会只要有子查询，就需要给子查询定义别名！where 后面的条件表达式中不能存在聚合函数，但是 Having 可以聚合函数基本上都是需要配合 group…...

编程日记 2024/5/25 20:42:16

基于Spring Boot的高校图书馆管理系统

项目和论文都有企鹅号2583550535 基于Spring Boot的图书馆管理系统||图书管理系统_哔哩哔哩_bilibili 第1章绪论... 1 1.1 研究背景和意义... 1 1.2 国内外研究现状... 1 第2章相关技术概述... 2 2.1 后端开发技术... 2 2.1.1 SpringBoot 2 2.1.2 MySQL.. 2 2.1.3 My…...

编程日记 2024/5/25 20:41:15

python(4) : pip安装使用国内源

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests...

编程日记 2024/5/25 20:40:14

让写书人勇敢穿越纸海的迷雾

坚守纸海：让写书人勇敢穿越纸海的迷雾你作为一位写书人，在创作过程中你需要坚守初心是非常重要的。在创作的过程中，你会遇到各种挑战和困难，你要勇敢面对迷雾中的挑战，并通过不懈的努力和决心，成功地穿越…...

编程日记 2024/5/25 20:36:11

ROS2学习——节点话题通信（2）

目录一、ROS2节点 1.概念 2.实例 （1）ros2 run （2）ros2 node list （3）remapping重映射 （4）ros2 node info 二、话题 （1） ros2 topic list &#xf…...

编程日记 2024/5/25 20:35:10

【Spring Boot】深度复盘在开发搜索引擎项目中重难点的整理，以及遇到的困难和总结

💓 博客主页：从零开始的-CodeNinja之路 ⏩ 收录文章：【Spring Boot】深度复盘在开发搜索引擎项目中重难点的整理，以及遇到的困难和总结 🎉欢迎大家点赞👍评论📝收藏⭐文章目录什么是搜索引…...

编程日记 2024/5/25 20:34:08

一、安装docker的步骤： 1.yum install -y yum-utils 2.yum-config-manager --add-repo http://mirrors.aliyun.com/docker- ce/linux/centos/docker-ce.repo --配置阿里云仓库3.yum makecache fast4.yum install docker-ce -y5.docker version …...

编程日记 2024/5/25 20:32:07

ICML 2024 Mamba 论文总结

2024ICML（International Conference on Machine Learning，国际机器学习会议）在2024年7月21日-27日在奥地利维也纳举行 🌟【紧跟前沿】“时空探索之旅”与你一起探索时空奥秘！🚀 欢迎大家关注时空探索之旅 …...

编程日记 2024/5/25 20:29:04

Sass详解

Sass简介 Sass（Syntactically Awesome Stylesheets）是一种CSS预处理器，它在CSS的语法基础上添加了一些功能和语法糖，提供了更强大和灵活的样式表语言。 Sass可以通过定义变量、嵌套规则、混合、继承等功能，帮助开发者…...

编程日记 2024/5/25 20:28:02

如何实现一个高效的排序算法？

要实现一个高效的排序算法，可以考虑以下几个方面： 1.选择合适的排序算法：根据数据规模和特点选择合适的排序算法。例如，对于小规模的数据可以选择插入排序或选择排序，而对于大规模数据可以选择归并排序或快速排序。 …...

编程日记 2024/5/25 20:27:01

Linux--10---安装JDK、MySQL

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录安装JDK[Linux命令--03----JDK .Nginx. 数据库](https://blog.csdn.net/weixin_48052161/article/details/108997148) 第一步查询系统中自带的JDK第二步卸载系统中…...

编程日记 2024/5/25 20:24:59

【大数据】MapReduce JAVA API编程实践及适用场景介绍

目录 1.前言 2.mapreduce编程示例 3.MapReduce适用场景 1.前言本文是作者大数据系列专栏的其中一篇，前文我们依次聊了大数据的概论、分布式文件系统、分布式数据库、以及计算引擎mapreduce核心概念以及工作原理。书接上文，本文将会继续聊一下mapr…...

编程日记 2024/5/25 20:23:58

图像分类和文本分类（传统机器学习和深度学习）

1. 传统机器学习—决策树 1.1 图像分类代码 from sklearn import tree from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split# 加载数据集 iris load_iris() X, y iris.data, iris.target# 划分数据集 X_train, X_test, y_train,…...

编程日记 2024/5/25 20:22:57

基于SpringBoot和Hutool工具包实现的验证码案例

目录验证码案例 1. 需求 2. 准备工作 3. 约定前后端交互接口需求分析接口定义 4. Hutool 工具介绍 5. 实现验证码后端代码前端代码 6. 运行测试验证码案例随着安全性的要求越来越高，目前项目中很多都会使用验证码，只要涉及到登录&…...

编程日记 2024/5/25 20:21:56

python-找出四位数中的玫瑰花数

【问题描述】玫瑰花数指一个n位数（n>4),其每位上的数字的n次幂之和等于本身。请求出所有四位数中的玫瑰花数【输入形式】【输出形式】【样例输入】【样例输出】1634 8208 9474 【样例说明】【评分标准】完整代码如下： for n in ra…...

编程日记 2024/5/25 20:20:55

Linux-命令上

at是一次性的任务，crond是循环的定时任务如果 cron.allow 文件存在，只有在文件中出现其登录名称的用户可以使用 crontab 命令。root 用户的登录名必须出现在 cron.allow 文件中，如果这个文件存在的话。系统管理员可以明确的停止一个用户&am…...

编程日记 2024/5/25 20:18:53

青鸟云报修系统：实现高效、便捷的维修申请处理

在日常生活和工作中，故障报修难免会遇到，售后报修服务则成为了解决问题的关键。纸质化售后报修维修申请单，作为报修流程中的重要一环，在一定程度上能够记录和追踪售后报修维修流程，但在实际操作过程中却存在着诸多弊端…...

编程日记 2024/5/25 20:17:51

Python解析网页

目录 1、Beautiful Soup 2、解析数据 3、遍历文档树 4、搜索文档树一、Beautiful Soup 1、什么是Beautiful Soup 定义：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库. 功能：它能够通过你喜欢的转换器实现惯用的文档导航,查找,修…...

编程日记 2024/5/25 20:14:49

IDEA连接MySQL后如何管理数据库

上一节讲解了IDEA如何连接MySQL数据库管理系统，接下来我们就可以在IDEA里使用MySQL来管理数据库了。那么如果我们现在还没有创建需要的数据库怎么办？本节就来教大家如何在IDEA连接MySQL后管理数据库(创建/修改/删除数据库、创建/修改/删除表、插入/更新/…...

编程日记 2024/5/25 20:12:47

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

编程新知 2025/6/18 5:34:10

《Playwright：微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络，将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具，支持 Chrome、Firefox、Safari 等主流浏览器，提供多语言 API（Python、JavaScript、Java、.NET）。它的特点包括&a…...

编程新知 2025/7/12 23:08:16

Java多线程实现之Callable接口深度解析

Java多线程实现之Callable接口深度解析一、Callable接口概述1.1 接口定义1.2 与Runnable接口的对比1.3 Future接口与FutureTask类二、Callable接口的基本使用方法2.1 传统方式实现Callable接口2.2 使用Lambda表达式简化Callable实现2.3 使用FutureTask类执行Callable任务三、…...

编程新知 2025/7/10 16:35:40

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术，可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势，还能有效评价重大生态工程…...

编程新知 2025/7/6 4:52:27

企业大模型服务合规指南：深度解析备案与登记制度

伴随AI技术的爆炸式发展，尤其是大模型（LLM）在各行各业的深度应用和整合，企业利用AI技术提升效率、创新服务的步伐不断加快。无论是像DeepSeek这样的前沿技术提供者，还是积极拥抱AI转型的传统企业，在面向公众…...

编程新知 2025/7/18 10:17:30

Java 与 MySQL 性能优化：MySQL 慢 SQL 诊断与分析方法详解

文章目录一、开启慢查询日志，定位耗时SQL1.1 查看慢查询日志是否开启1.2 临时开启慢查询日志1.3 永久开启慢查询日志1.4 分析慢查询日志二、使用EXPLAIN分析SQL执行计划2.1 EXPLAIN的基本使用2.2 EXPLAIN分析案例2.3 根据EXPLAIN结果优化SQL 三、使用SHOW PROFILE…...

编程新知 2025/7/6 15:47:36

2025年- H71-Lc179--39.组合总和(回溯,组合）--Java版

1.题目描述 2.思路当前的元素可以重复使用。 （1）确定回溯算法函数的参数和返回值（一般是void类型） （2）因为是用递归实现的，所以我们要确定终止条件 （3）单层搜索逻辑二…...

编程新知 2025/7/18 4:12:51

简单介绍C++中 string与wstring

在C中，string和wstring是两种用于处理不同字符编码的字符串类型，分别基于char和wchar_t字符类型。以下是它们的详细说明和对比： 1. 基础定义 string 类型：std::string 字符类型：char（通常为8位&#xff09…...

编程新知 2025/7/7 23:00:44

k8s从入门到放弃之Pod的容器探针检测

k8s从入门到放弃之Pod的容器探针检测在Kubernetes（简称K8s）中，容器探测是指kubelet对容器执行定期诊断的过程，以确保容器中的应用程序处于预期的状态。这些探测是保障应用健康和高可用性的重要机制。Kubernetes提供了两种种类型…...

编程新知 2025/7/7 22:24:22

大模型框架：vLLM

一、vLLM 介绍

二、安装 vLLM

2.1 使用 GPU 进行安装

2.2 使用CPU进行安装

2.3 相关配置

三、使用 vLLM

3.1 离线推理

3.2 适配OpenAI-API的API服务

相关文章：

大模型框架：vLLM

SQL 使用心得【持续更新】

基于Spring Boot的高校图书馆管理系统

python(4) : pip安装使用国内源

让写书人勇敢穿越纸海的迷雾

ROS2学习——节点话题通信（2）

【Spring Boot】深度复盘在开发搜索引擎项目中重难点的整理，以及遇到的困难和总结

配置docker阿里云镜像地址

ICML 2024 Mamba 论文总结

Sass详解

如何实现一个高效的排序算法？

Linux--10---安装JDK、MySQL

【大数据】MapReduce JAVA API编程实践及适用场景介绍

图像分类和文本分类（传统机器学习和深度学习）

基于SpringBoot和Hutool工具包实现的验证码案例

python-找出四位数中的玫瑰花数

Linux-命令上

青鸟云报修系统：实现高效、便捷的维修申请处理

Python解析网页

IDEA连接MySQL后如何管理数据库

ssc377d修改flash分区大小

《Playwright：微软的自动化测试工具详解》

Java多线程实现之Callable接口深度解析

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测；从基础到高级，涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

企业大模型服务合规指南：深度解析备案与登记制度

热门Chrome扩展程序存在明文传输风险，用户隐私安全受威胁

Java 与 MySQL 性能优化：MySQL 慢 SQL 诊断与分析方法详解

2025年- H71-Lc179--39.组合总和(回溯,组合）--Java版

简单介绍C++中 string与wstring

k8s从入门到放弃之Pod的容器探针检测