当前位置：首页 > news >正文

sglang 部署Qwen2VL7B，大模型部署，速度测试，深度学习

news 2026/2/11 0:46:28

sglang

项目github仓库：

https://github.com/sgl-project/sglang

项目说明书：

https://sgl-project.github.io/start/install.html

资讯：

https://github.com/sgl-project/sgl-learning-materials?tab=readme-ov-file#the-first-sglang-online-meetup

快得离谱：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

[外链图片转存中…(img-E3n1Ivz9-1731913508383)]

图来源：https://lmsys.org/blog/2024-09-04-sglang-v0-3/

Docker使用：


docker run --gpus device=0 \--shm-size 32g \-p 30000:30000 \-v /root/xiedong/Qwen2-VL-7B-Instruct:/Qwen2-VL \--env "HF_TOKEN=abc-1234" \--ipc=host \-v /root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4:/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4 \lmsysorg/sglang:latest \python3 -m sglang.launch_server --model-path /Qwen2-VL --host 0.0.0.0 --port 30000 --chat-template qwen2-vl --context-length 8192 --log-level-http warning

启动成功：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

接口文档：

http://101.136.22.140:30000/docs

速度测试代码

import time
from openai import OpenAI# 初始化OpenAI客户端
client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:30000/v1')# 定义图像路径
image_paths = ["/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo256.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo512.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo768.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1024.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1280.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo2560.jpeg"
]# 设置请求次数
num_requests = 10# 存储每个图像的平均响应时间
average_speeds = {}# 遍历每张图片
for image_path in image_paths:total_time = 0# 对每张图片执行 num_requests 次请求for _ in range(num_requests):start_time = time.time()# 发送请求并获取响应response = client.chat.completions.create(model="/Qwen2-VL",messages=[{'role': 'user','content': [{'type': 'text','text': 'Describe the image please',}, {'type': 'image_url','image_url': {'url': image_path,},}],}],temperature=0.8,top_p=0.8)# 记录响应时间elapsed_time = time.time() - start_timetotal_time += elapsed_time# 打印当前请求的响应内容（可选）print(f"Response for {image_path}: {response.choices[0].message.content}")# 计算并记录该图像的平均响应时间average_speed = total_time / num_requestsaverage_speeds[image_path] = average_speedprint(f"Average speed for {image_path}: {average_speed} seconds")# 输出所有图像的平均响应时间
for image_path, avg_speed in average_speeds.items():print(f"{image_path}: {avg_speed:.2f} seconds")

速度测试结果

sglang 测试结果：

Model	显存占用 (MiB)	分辨率	处理时间 (秒)
Qwen2-VL-7B-Instruct	70G	256 x 256	1.71
		512 x 512	1.52
		768 x 768	1.85
		1024 x 1024	2.05
		1280 x 1280	1.88
		2560 x 2560	3.26

纯transformer，不用加速框架，我之前的测了一张图的速度是：5.22 seconds，很慢。

附录-vllm速度测试

启动：

docker run --gpus device=0 \-v /root/xiedong/Qwen2-VL-7B-Instruct:/Qwen2-VL \-v /root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4:/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4 \-p 30000:8000 \--ipc=host \vllm/vllm-openai:latest \--model /Qwen2-VL --gpu_memory_utilization=0.9

代码：

import time
import base64
from openai import OpenAI# 初始化OpenAI客户端
client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:30000/v1')# 定义图像路径
image_paths = ["/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo256.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo512.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo768.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1024.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo1280.jpeg","/root/xiedong/Qwen2-VL-72B-Instruct-GPTQ-Int4/demo2560.jpeg"
]# 设置请求次数
num_requests = 10# 存储每个图像的平均响应时间
average_speeds = {}# 将图片转换为 Base64 编码的函数
def image_to_base64(image_path):with open(image_path, "rb") as img_file:return base64.b64encode(img_file.read()).decode('utf-8')# 遍历每张图片
for image_path in image_paths:total_time = 0# 将图片转换为 Base64 编码image_base64 = image_to_base64(image_path)# 对每张图片执行 num_requests 次请求for _ in range(num_requests):start_time = time.time()# 发送请求并获取响应response = client.chat.completions.create(model="/Qwen2-VL",messages=[{'role': 'user','content': [{'type': 'text','text': 'Describe the image please',}, {'type': 'image_url','image_url': {'url': f"data:image/jpeg;base64,{image_base64}",  # 使用Base64编码的图片},}],}],temperature=0.8,top_p=0.8)# 记录响应时间elapsed_time = time.time() - start_timetotal_time += elapsed_time# 打印当前请求的响应内容（可选）print(f"Response for {image_path}: {response.choices[0].message.content}")# 计算并记录该图像的平均响应时间average_speed = total_time / num_requestsaverage_speeds[image_path] = average_speedprint(f"Average speed for {image_path}: {average_speed} seconds")# 输出所有图像的平均响应时间
for image_path, avg_speed in average_speeds.items():print(f"{image_path}: {avg_speed:.2f} seconds")

速度：

Model	显存占用 (MiB)	分辨率	处理时间 (秒)
Qwen2-VL-72B-Instruct-GPTQ-Int4	70G	256 x 256	1.50
		512 x 512	1.59
		768 x 768	1.61
		1024 x 1024	1.67
		1280 x 1280	1.81
		2560 x 2560	1.97

https://www.dong-blog.fun/post/1856

sglang 部署Qwen2VL7B，大模型部署，速度测试，深度学习

sglang 项目github仓库： https://github.com/sgl-project/sglang 项目说明书： https://sgl-project.github.io/start/install.html 资讯： https://github.com/sgl-project/sgl-learning-materials?tabreadme-ov-file#the-first-sglang…...

编程日记 2024/11/19 22:14:29

fastadmin操作数据库字段为json、查询遍历each、多级下拉、union、php密码设置、common常用函数的使用小技巧

数据库中遇到的操作查询字段是json的某个值 //获取数据库中某个字段是json中得某个值，进行查询，goods是表中字段，brand_id是json中要查詢的字段。//数据类型一定要对应要不然查询不出来。$map[json_extract(goods, "$.brand_id")]…...

编程日记 2024/11/19 22:12:28

UniApp在Vue3的setup语法糖下自定义组件插槽详解

UniApp在 Vue3的 setup 语法糖下自定义组件插槽详解 UniApp 是一个基于 Vue.js 的跨平台开发框架，可以用来开发微信小程序、H5、App 等多种平台的应用。Vue 3 引入了 <script setup> 语法糖，使得组件的编写更加简洁和直观。本文将详细介绍如何在 …...

编程日记 2024/11/19 22:09:19

springboot上传下载文件

RequestMapping(“bigJson”) RestController Slf4j public class TestBigJsonController { Resource private BigjsonService bigjsonService;PostMapping("uploadJsonFile") public ResponseResult<Long> uploadJsonFile(RequestParam("file")Mul…...

编程日记 2024/11/19 22:08:19

Python学习从0到1 day29 Python 高阶技巧 ⑦ 正则表达式

目录一、正则表达式二、正则表达式的三个基础方法 1.match 从头匹配 2.search（匹配规则，被匹配字符串） 3.findall（匹配规则，被匹配字符串） 三、元字符匹配单字符匹配： 注： 示例&a…...

编程日记 2024/11/19 22:03:14

机器学习-web scraping

Web Scraping，通常称为网络抓取或数据抓取，是一种通过自动化程序从网页中提取数据的技术。以下是对Web Scraping的详细解释： 一、定义与原理 Web Scraping是指采用技术手段从大量网页中提取结构化和非结构化信息，并按照一定的规…...

编程日记 2024/11/19 21:59:09

移远通信5G RedCap模组RG255C-CN通过中国电信5G Inside终端生态认证

近日，移远通信5G RedCap模组RG255C-CN荣获中国电信颁发的5G Inside终端生态认证证书。这表明，该产品在5G基本性能、网络兼容性、安全特性等方面已经过严格评测且表现优异，将进一步加速推动5G行业终端规模化应用。中国电信5G Inside终端生态认…...

编程日记 2024/11/19 21:58:08

Javaweb梳理17——HTMLCSS简介

Javaweb梳理17——HTML&CSS简介 17 HTML&CSS简介17.1 HTML介绍17.2 快速入门17.3 基础标签17.3 .1 标题标签17.3.2 hr标签17.3.3 字体标签17.3.4 换行17.3.8 案例17.3.9 图片、音频、视频标签17.3.10 超链接标签17.3.11 列表标签17.3.12 表格标签17.3.11 布局标签17.3.…...

编程日记 2024/11/19 21:56:05

【Android、IOS、Flutter、鸿蒙、ReactNative 】自定义View

Android Java 自定义View 步骤创建一个新的Java类，继承自View、ViewGroup或其他任何一个视图类。如果需要，重写构造函数以支持不同的初始化方式。重写onMeasure方法以提供正确的测量逻辑。重写onDraw方法以实现绘制逻辑。根据需要重写其他方法&…...

编程日记 2024/11/19 21:54:03

win11跳过联网激活步骤

win11跳过联网激活步骤 win11跳过联网激活步骤方法一：使用Shift F10快捷键（推荐）1. 启动Windows 112. 选择键盘布局或输入法3. 是否想要添加第二种键盘布局4. 让我们为你连接到网络5. 调出管理员模式CMD6. 耐心等待自动重启7. 启动Windows 1…...

编程日记 2024/11/19 21:52:02

利用c语言详细介绍下冒泡排序

软件开发过程中，排序算法是常规且使用众多的方法之一，而冒泡算法又是排序算法中最常规且基本的算法。今天我们利用c语言，图文详细介绍下冒泡算法。一、图文介绍我们输入一个数组，数组为【10，5，3&#xf…...

编程日记 2024/11/19 21:47:54

C# 面向对象

C# 面向对象编程面向过程：一件事情分成多个步骤来完成。把大象装进冰箱 (面向过程化设计思想)。走一步看一步。 1、打开冰箱门 2、把大象放进冰箱 3、关闭冰箱门面向对象：以对象作为主体把大象装进冰箱 1、抽取对象大象冰箱门 &#xff0…...

编程日记 2024/11/19 21:46:53

android wifi扫描的capability

混合型加密android11 8155与普通linux设备扫描到的安全字段差别 android应用拿到关于wifi安全的字段： systembar-WifiBroadcastReceiver---- scanResult SSID: Redmi_697B, BSSID: a4:39:b3:70:8c:20, capabilities: [WPA-PSK-TKIPCCMP][WPA2-PSK-TKIPCCMP][RSN-PSK…...

编程日记 2024/11/19 21:44:51

datawhale 2411组队学习：模型压缩4 模型量化理论（数据类型、int8量化方法、PTQ和QWT）

文章目录一、数据类型1.1 整型1.2 定点数1.3 浮点数1.3.1 正规浮点数（fp32）1.3.2 非正规浮点数（fp32）1.3.3 其它数据类型1.3.4 浮点数误差1.3.5 浮点数导致的模型训练问题二、量化基本方法2.1 int8量化2.1.1 k-means 量化2.1.2 …...

编程日记 2024/11/19 21:39:46

数据分析-48-时间序列变点检测之在线实时数据的CPD

文章目录 1 时间序列结构1.1 变化点的定义1.2 结构变化的类型1.2.1 水平变化1.2.2 方差变化1.3 变点检测1.3.1 离线数据检测方法1.3.2 实时数据检测方法2 模拟数据2.1 模拟恒定方差数据2.2 模拟变化方差数据3 实时数据CPD3.1 SDAR学习算法3.2 Changefinder模块3.3 恒定方差CPD3…...

编程日记 2024/11/19 21:35:42

POD-Transformer多变量回归预测（Matlab）

目录效果一览基本介绍程序设计参考资料效果一览基本介绍 1.Matlab实现POD-Transformer多变量回归预测，本征正交分解数据降维融合Transformer多变量回归预测，使用SVD进行POD分解（本征正交分解）； 2.运行环境Matlab20…...

编程日记 2024/11/19 21:34:41

Hadoop生态圈框架部署（七）- MySQL安装与配置教程

文章目录前言一、MySQL安装与配置（手动部署）1. 下载MySQL2. 上传安装包3. 解压HBase安装包4. 配置4.1 配置 MySQL 的主配置文件 my.cnf4.2 配置 MySQL 服务的脚本 5. 初始化MySQL数据库6. 创建快捷方式7. 启动MySQL服务8. 修改MySQL登录密码8.1 使用临时…...

编程日记 2024/11/19 21:30:36

视频直播5G CPE解决方案：ZX7981PG/ZX7981PMWIFI6网络覆盖

方案背景视频直播蓬勃发展的当下，传统直播网络联网方式的局限性越来越明显。目前传统直播的局限性主要集中在以下几个方面： 传统直播间网络架构条件有限，可连接WIFI数量少，多终端同时直播难以维持；目前4G网络带宽有限…...

编程日记 2024/11/19 21:27:33

技术周刊｜Google 2024 年首届 Web AI 峰会回顾

大家好，我是童欧巴。见字如面，万事胜意，欢迎来到第 134 期周刊。大厨推荐 Google 2024 年首届 Web AI 峰会回顾不仅包括来自谷歌团队的演讲者，如 Chrome 和 MediaPipe，还包括第三方代表，如英特尔、Hug…...

编程日记 2024/11/19 21:26:32

web——upload-labs——第十二关——%00截断

查看源码分析源码我们可以知道，这里是基于白名单过滤，只允许上传jpg,png,gif，但是这里注意第八行，上传路径是可以控制的，所以可以利用%00截断，来达到上传木马的目的。这里要注意一下，%00截断想…...

编程日记 2024/11/19 21:24:30

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2026/2/8 20:43:02

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

HoST框架核心实现方法详解 - 论文深度解读（第二部分）《Learning Humanoid Standing-up Control across Diverse Postures》系列文章：论文深度解读 + 算法与代码分析（二）作者机构：上海AI Lab, 上海交通大学, 香港大学, 浙江大学, 香港中文大学论文主题：人形机器人…...

编程新知 2026/2/9 0:12:12

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする

日语学习-日语知识点小记-构建基础-JLPT-N4阶段（33）：にする 1、前言（1）情况说明（2）工程师的信仰2、知识点（1）　にする1，接续：名词＋にする2，接续：疑问词＋にする3，（A）は（B）にする。（2）復習：（1）复习句子（2）ために　＆　ように（３）そう（４）にする3、…...

编程新知 2025/11/20 7:52:01

关于iview组件中使用 table , 绑定序号分页后序号从1开始的解决方案

问题描述：iview使用table 中type: "index",分页之后 ，索引还是从1开始，试过绑定后台返回数据的id, 这种方法可行，就是后台返回数据的每个页面id都不完全是按照从1开始的升序，因此百度了下，找到了…...

编程新知 2026/1/29 20:58:41

【快手拥抱开源】通过快手团队开源的 KwaiCoder-AutoThink-preview 解锁大语言模型的潜力

引言： 在人工智能快速发展的浪潮中，快手Kwaipilot团队推出的 KwaiCoder-AutoThink-preview 具有里程碑意义——这是首个公开的AutoThink大语言模型（LLM）。该模型代表着该领域的重大突破，通过独特方式融合思考与非思考…...

编程新知 2026/2/6 19:29:20

C++.OpenGL （14/64）多光源（Multiple Lights）

多光源（Multiple Lights）多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

编程新知 2025/6/11 3:15:20

BLEU评分：机器翻译质量评估的黄金标准

BLEU评分：机器翻译质量评估的黄金标准 1. 引言在自然语言处理(NLP)领域，衡量一个机器翻译模型的性能至关重要。BLEU (Bilingual Evaluation Understudy) 作为一种自动化评估指标，自2002年由IBM的Kishore Papineni等人提出以来，…...

编程新知 2026/1/13 7:39:19

关于uniapp展示PDF的解决方案

在 UniApp 的 H5 环境中使用 pdf-vue3 组件可以实现完整的 PDF 预览功能。以下是详细实现步骤和注意事项： 一、安装依赖安装 pdf-vue3 和 PDF.js 核心库： npm install pdf-vue3 pdfjs-dist二、基本使用示例 <template><view class"con…...

编程新知 2025/9/18 20:16:52

系统掌握PyTorch：图解张量、Autograd、DataLoader、nn.Module与实战模型

本文较长，建议点赞收藏，以免遗失。更多AI大模型应用开发学习视频及资料，尽在聚客AI学院。本文通过代码驱动的方式，系统讲解PyTorch核心概念和实战技巧，涵盖张量操作、自动微分、数据加载、模型构建和训练全流程&#…...

编程新知 2026/2/7 23:15:50

[论文阅读]TrustRAG: Enhancing Robustness and Trustworthiness in RAG

TrustRAG: Enhancing Robustness and Trustworthiness in RAG [2501.00879] TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation 代码：HuichiZhou/TrustRAG: Code for "TrustRAG: Enhancing Robustness and Trustworthin…...

编程新知 2026/2/4 17:33:27

sglang

速度测试代码

速度测试结果

附录-vllm速度测试

相关文章：