当前位置：首页 > news >正文

使用vllIm部署大语言模型

news 2026/2/11 4:14:41

使用vllm部署大语言模型一般需要以下步骤：

一、准备工作

1. 系统要求

- 操作系统：常见的 Linux 发行版（如 Ubuntu、CentOS）或 Windows（通过 WSL）。

- GPU 支持：NVIDIA GPU 并安装了适当的驱动程序。

- 足够的内存和存储空间。

2. 安装依赖

- Python 3.8 及以上版本。

- CUDA 工具包（根据 GPU 型号选择合适的版本）。

二、安装 vllm

1. 创建虚拟环境（推荐）

- 使用 Conda：

复制

conda create -n vllm_env python=3.9 -y

conda activate vllm_env

2. 安装 vllm

- 通过 pip：

复制

pip install vllm

- 如果要使用 fast-attn 库以提高性能（需满足特定硬件和软件条件）：

复制

pip install flash-attn

三、下载大语言模型

您需要从合法的来源获取您想要部署的大语言模型文件，并将其放置在指定的目录中。

四、部署模型

1. 启动模型服务

- 假设模型文件位于 /path/to/your/model ，可以使用以下命令启动服务（在终端中执行）：

复制

CUDA_VISIBLE_DEVICES=0 nohup python -m vllm.entrypoints.openai.api_server --model /path/to/your/model --served-model-name your_model_name --dtype=half > vllm.log &

- 上述命令中：

- CUDA_VISIBLE_DEVICES=0 指定使用的 GPU 设备索引，如果有多块 GPU 可根据需要修改。

- --served-model-name 用于自定义模型在 API 中的名称。

- --dtype=half 表示以半精度加载模型以节省显存。

- > vllm.log 将服务的输出重定向到 vllm.log 文件，方便查看日志。

2. 确认服务启动成功

- 查看终端输出，如果看到类似以下的信息，则表示启动成功：

复制

(info 04-26 13:08:05 selector.py:28) using flash attention backend.

五、调用模型

1. 使用 curl 命令

- 以下是一个简单的示例，向模型发送请求：

复制

curl http://localhost:8000/v1/chat/completions \

-H "Content-Type: application/json" \

-d '{

"model":"your_model_name",

"messages": [

{"role":"system","content":"You are a helpful assistant."},

{"role":"user","content":"What is the meaning of life?"}

]

2. 使用 Python 代码

- 首先安装 openai 库：

复制

pip install openai

- 然后使用以下代码发送请求：

python 复制

import openai

openai.api_key = "empty"

openai.api_base = "http://localhost:8000/v1"

response = openai.ChatCompletion.create(

model="your_model_name",

messages=[

{"role":"system","content":"You are a helpful assistant."},

{"role":"user","content":"Explain quantum mechanics in simple terms."}

]

)

print(response)

六、监控和优化

1. 监控资源使用

- 可以使用 nvidia-smi 命令监控 GPU 的使用情况。

- 查看系统的内存使用情况，确保没有出现内存不足的情况。

2. 性能优化

- 根据模型和硬件的特点，调整 --dtype 参数或其他相关配置。

- 尝试不同的 batch 大小以找到最佳性能。

七、注意事项

1. 版权和许可

- 确保您拥有合法使用和部署所选大语言模型的权限。

2. 资源限制

- 密切关注系统资源的使用情况，避免因资源不足导致服务崩溃或性能下降。

3. 安全考虑

- 如果将服务暴露在公网，请注意采取适当的安全措施，如访问控制和加密。

希望以上内容能为您提供更详细和全面的帮助，如果您在部署过程中遇到任何问题，请参考 vllm 的官方文档和相关的技术论坛以获取更多支持。

使用vllIm部署大语言模型

使用vllm部署大语言模型一般需要以下步骤： 一、准备工作 1. 系统要求 - 操作系统：常见的 Linux 发行版（如 Ubuntu、CentOS）或 Windows（通过 WSL）。 - GPU 支持：NVIDIA GPU 并安装了适当的驱动程…...

编程日记 2024/7/13 16:16:07

静态搜索iOS动态链接函数的调用位置

静态搜索iOS动态链接函数的调用位置可执行文件格式mach-O,是在苹果的操作系统 macOS 和 iOS 上使用的一种二进制文件格式。在一些iOS安全扫描中，可能存在需要获取函数具体调用位置的需求，能指导用户更精确的定位漏洞。现在以NSLog函数为例&#xff…...

编程日记 2024/7/13 16:15:04

【鸿蒙学习笔记】尺寸设置・layoutWeight・对子组件进行重新布局

官方文档：尺寸设置目录标题 layoutWeight：对子组件进行重新布局 layoutWeight：对子组件进行重新布局设置了layoutWeight属性的子元素与兄弟元素占主轴尺寸按照权重进行分配，忽略元素本身尺寸设置。 // 引入包名 import { http…...

编程日记 2024/7/13 16:13:02

vue实现表单输入框数字类型校验功能

vue实现表单输入框数字类型校验功能 1. 样式代码 <el-form-item label"订单总价"><el-input size"small" v-model"form.totalPrice" placeholder"请输入订单总价正整数或者2位数小数" input"check(form.totalPric…...

编程日记 2024/7/13 16:08:58

前期回顾 https://blog.csdn.net/m0_57904695/article/details/139838176?spm1001.2014.3001.5501https://blog.csdn.net/m0_57904695/article/details/139838176?spm1001.2014.3001.5501 登录页预览效果 <!DOCTYPE html> <html lang"en"><head…...

编程日记 2024/7/13 16:05:56

Kithara与OpenCV （一）

Kithara使用 OpenCV 库目录 Kithara使用 OpenCV 库简介需求和支持的环境构建 OpenCV 库使用 CMake 进行配置以与 Kithara 一起工作使用 OpenCV 库设置项目运行 OpenCV 代码图像采集和 OpenCV自动并行化限制和局限性1.系统建议2.实时限制3.不支持的功能和缺失的功能4.显示 Ope…...

编程日记 2024/7/13 16:02:52

什么是软件定义安全SDSec

一、软件定义安全SDSec产生的背景软件定义安全（Software Defined Security，SDSec）的产生背景主要源于传统网络安全防护方法在面对复杂网络环境时的不适应性，以及软件定义网络（SDN）技术的发展和应用。 SD…...

编程日记 2024/7/13 16:01:51

【C语言】C语言可以做什么？

目录 1. 操作系统开发1.1 操作系统内核1.2 设备驱动程序1.3 系统工具和实用程序 2. 嵌入式系统2.1 微控制器编程2.2 传感器和执行器控制2.3 消费电子产品 3. 应用程序开发3.1 图形用户界面应用3.2 游戏开发3.3 多媒体处理 4. 网络编程4.1 网络协议实现4.2 服务器和客户端程序4.…...

编程日记 2024/7/13 16:00:50

WordPress 主题技巧：给文章页增加“谁来过”模块。

模块功能： 我个人目前在做一个电影类的网站，在开发文章页的模版时候，突然觉得给文章页增加一个“谁对本电影感兴趣”的功能模块可能会比较有趣，这个功能有点类似于‘足迹’的感觉，用户可以通过这个功能，发…...

编程日记 2024/7/13 15:59:49

【vue组件库搭建07】Vitest单元测试

vitest官网 vue-test-utils 我们的测试框架选择的是 Vitest 和 vue-test-utils。两者的关系为： Vitest 提供测试方法：断言、Mock 、SpyOn 等方法。vue-test-utils: 挂载和渲染组件： Vue Test Utils 允许您在隔离中挂载组件，这意…...

编程日记 2024/7/13 15:57:46

JSONObject和Map＜String, Object＞的转换

一、前言 Java开发中出参返回和入参传入更灵活的方法是使用Map<String, Object>入参或出参，或者使用JSONObject。 1、好处，参数可变，对接口扩展性很友好。 public ResponseData<WXModelDTO> getUserInfo(RequestBody Map<…...

编程日记 2024/7/13 15:52:41

C# 建造者模式（Builder Pattern）

建造者模式（Builder Pattern），也被称为生成器模式，是一种对象构建模式，旨在将复杂对象的构建过程与表示分离，使得同样的构建过程可以创建不同的表示。这种模式特别适用于构建具有多个组成部分的复杂对象&am…...

编程日记 2024/7/13 15:51:40

初阶数据结构速成

本篇文章算是对初阶数据结构的总结，内容较多，请耐心观看基础概念部分顺序表线性表（ linear list ）是n个具有相同特性的数据元素的有限序列。线性表是⼀种在实际中⼴泛使⽤的数据结构，常⻅的线性表：…...

编程日记 2024/7/13 15:49:37

nx上darknet的使用-目标检测-在python中的使用

1 内置的代码在darknet中已经内置了两个py文件 darknet_video.py与darknet_images.py用法类似，都是改一改给的参数就行了，我们说一下几个关键的参数 input 要预测哪张图像weights 要使用哪个权重config_file 要使用哪个cfg文件data_file 要使用哪个da…...

编程日记 2024/7/13 15:45:34

Python高级（四）_内存管理

Python高级-内存管理第四章内存管理 1、对象池小整数池系统默认创建好的，等着你使用概述：整数在程序中的使用非常广泛，Python为了优化速度，使用了小整数对象池,避免为整数频繁申请和销毁内存空间。Python 对小整数的定义是 [-5, 256] ,这些整数对象是提前建立好的…...

编程日记 2024/7/13 15:43:32

关键路径-matlab

路径上边的数目称为路径长度图的基本知识求最短路径（Dijkstra算法） 2. 待继续尝试 ①Dijkstra ②floyd_all.m 一二 ③ LeetCode [329. 矩阵中的最长递增路径]...

编程日记 2024/7/13 15:42:30

JavaDS —— 单链表与 LinkedList

顺序表和链表区别 ArrayList ： 底层使用连续的空间，可以随机访问某下标的元素，时间复杂度为O（1） 但是在插入和删除操作的时候，需要将该位置的后序元素整体往前或者向后移动，时间复杂度为O&…...

编程日记 2024/7/13 15:36:25

LangChain —— Message —— how to filter messages

文章目录一、概述二、基本使用三、连成链一、概述在更复杂的链和代理中，我们可能会使用消息列表跟踪状态。此列表可以开始累积来自多个不同模型、说话者、子链等的消息，我们可能只想将此完整消息列表的子集传递给链/代理中的每个模型调用。 filter_me…...

编程日记 2024/7/13 15:30:19

conda install问题记录

最近想用代码处理sar数据，解放双手。看重了isce这个处理平台，在安装包的时候遇到了一些问题。这一步持续了非常久，然后我就果断ctrlc了后面再次进行尝试，出现一大串报错，不知道是不是依赖项的问题后面看到说mam…...

编程日记 2024/7/13 15:26:15

【python】IPython的使用技巧

IPython使用技巧一、魔法命令 %timeit 用途：用于测量一段代码的执行时间，这对于评估代码的性能非常有帮助，尤其适用于需要进行性能优化和比较不同实现方式效率的场景。示例：%timeit [x**2 for x in range(1000)]扩展&#xf…...

编程日记 2024/7/13 15:25:14

观成科技：隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具，该工具基于TUN接口实现其功能，利用反向TCP/TLS连接建立一条隐蔽的通信信道，支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式，适应复杂网…...

编程新知 2026/2/8 4:37:24

springboot 百货中心供应链管理系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，百货中心供应链管理系统被用户普遍使用，为方…...

编程新知 2026/2/8 20:41:49

抖音增长新引擎：品融电商，一站式全案代运营领跑者

抖音增长新引擎：品融电商，一站式全案代运营领跑者在抖音这个日活超7亿的流量汪洋中，品牌如何破浪前行？自建团队成本高、效果难控；碎片化运营又难成合力——这正是许多企业面临的增长困局。品融电商以「抖音全案代运营…...

编程新知 2026/2/1 5:45:17

MMaDA: Multimodal Large Diffusion Language Models

CODE ： https://github.com/Gen-Verse/MMaDA Abstract 我们介绍了一种新型的多模态扩散基础模型MMaDA，它被设计用于在文本推理、多模态理解和文本到图像生成等不同领域实现卓越的性能。该方法的特点是三个关键创新:(i) MMaDA采用统一的扩散架构&#xf…...

编程新知 2026/2/3 15:24:36