当前位置: 首页 > article >正文

Qwen2.5-72B-Instruct-GPTQ-Int4部署教程:vLLM Token统计+成本核算接口

Qwen2.5-72B-Instruct-GPTQ-Int4部署教程vLLM Token统计成本核算接口1. 模型简介Qwen2.5-72B-Instruct-GPTQ-Int4是Qwen大语言模型系列的最新版本具有72.7亿参数规模采用GPTQ 4-bit量化技术。这个指令调优模型在多个方面实现了显著提升知识量与能力提升编程和数学能力大幅增强文本处理能力支持长达128K tokens的上下文理解可生成最多8K tokens的文本结构化数据处理在表格理解和JSON生成方面表现优异多语言支持覆盖29种语言包括中文、英语等主要语种模型架构特点采用RoPE、SwiGLU、RMSNorm等技术80层网络结构64个查询注意力头和8个键值注意力头2. 环境准备与部署2.1 系统要求建议使用以下环境配置Ubuntu 20.04或更高版本NVIDIA GPU建议A100 80GB或更高CUDA 11.8Python 3.92.2 快速部署步骤克隆vLLM仓库git clone https://github.com/vllm-project/vllm.git cd vllm安装依赖pip install -e .下载模型权重wget [模型下载链接]启动vLLM服务python -m vllm.entrypoints.api_server \ --model Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4 \ --quantization gptq \ --dtype half3. 服务验证与调用3.1 检查服务状态使用以下命令查看服务日志cat /root/workspace/llm.log成功部署后日志中会显示类似信息INFO: Uvicorn running on http://0.0.0.0:8000 INFO: Started server process [1234]3.2 使用Chainlit前端调用安装Chainlitpip install chainlit创建调用脚本app.pyimport chainlit as cl from openai import OpenAI client OpenAI(base_urlhttp://localhost:8000/v1, api_keynone) cl.on_message async def main(message: cl.Message): response client.chat.completions.create( modelQwen/Qwen2.5-72B-Instruct-GPTQ-Int4, messages[{role: user, content: message.content}] ) await cl.Message(contentresponse.choices[0].message.content).send()启动Chainlit服务chainlit run app.py4. Token统计与成本核算4.1 vLLM Token统计接口vLLM提供了内置的Token统计功能可以通过API获取import requests response requests.post( http://localhost:8000/v1/completions, json{ model: Qwen/Qwen2.5-72B-Instruct-GPTQ-Int4, prompt: 介绍一下Qwen2.5模型的特点, max_tokens: 100 } ) print(f输入Token数: {response.json()[usage][prompt_tokens]}) print(f输出Token数: {response.json()[usage][completion_tokens]})4.2 成本核算方法基于Token统计可以计算推理成本def calculate_cost(input_tokens, output_tokens): # 假设每百万输入Token成本为$0.5输出为$1.5 input_cost (input_tokens / 1_000_000) * 0.5 output_cost (output_tokens / 1_000_000) * 1.5 return input_cost output_cost # 示例计算 cost calculate_cost(150, 300) print(f预估成本: ${cost:.4f})5. 性能优化建议5.1 批处理请求vLLM支持批处理可以显著提高吞吐量responses [] for prompt in prompts: responses.append( client.chat.completions.create( modelQwen/Qwen2.5-72B-Instruct-GPTQ-Int4, messages[{role: user, content: prompt}], streamTrue ) )5.2 长文本处理优化对于长文本输入建议使用--max-model-len参数调整最大上下文长度启用--enable-prefix-caching缓存常见前缀6. 总结本教程详细介绍了Qwen2.5-72B-Instruct-GPTQ-Int4模型的部署流程和使用方法重点包括模型特点72B参数规模4-bit量化支持128K上下文部署步骤vLLM服务部署和Chainlit前端集成成本控制Token统计接口和成本核算方法性能优化批处理和长文本处理建议通过本教程您可以快速搭建一个高性能的Qwen2.5模型服务并有效监控和管理推理成本。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关文章:

Qwen2.5-72B-Instruct-GPTQ-Int4部署教程:vLLM Token统计+成本核算接口

Qwen2.5-72B-Instruct-GPTQ-Int4部署教程:vLLM Token统计成本核算接口 1. 模型简介 Qwen2.5-72B-Instruct-GPTQ-Int4是Qwen大语言模型系列的最新版本,具有72.7亿参数规模,采用GPTQ 4-bit量化技术。这个指令调优模型在多个方面实现了显著提升…...

杰理之A2DP解码去除开头杂音数据【篇】

添加淡入效果...

SAP ABAP长文本读取性能瓶颈诊断与批量优化实战:从READ_TEXT到READ_TEXT_TABLE

1. 当SAP报表遇上长文本:性能噩梦的开始 相信每个ABAP开发者都遇到过这样的场景:一个原本运行良好的物料报表,突然因为增加了长文本显示需求而变得奇慢无比。我去年就接手过这样一个项目,用户抱怨说点击报表后可以去泡杯咖啡&…...

解决easyExcel写入Excel时遇到的cglib与asm版本冲突问题

1. 当easyExcel遇上cglib与asm:一场版本冲突引发的血案 最近在项目中使用easyExcel导出数据时,突然遇到了一个让人头疼的报错:ExcelGenerateException伴随着ExceptionInInitializerError。作为一名Java开发者,看到这种嵌套异常第一…...

雷达信号处理实战:当SDIF算法遇到脉冲丢失和TOA重叠时,我是如何调试和优化的?

雷达信号处理实战:SDIF算法在脉冲丢失与TOA重叠场景下的调试优化 1. 问题背景与挑战 在电子侦察和雷达对抗系统中,信号分选算法的可靠性直接决定了后续分析的准确性。SDIF(Sequential Difference Histogram)作为CDIF算法的改进版本…...

第X篇:COZE实战指南 【基于COZE工作流打造智能视频素材提取引擎】全流程解析

1. 为什么需要智能视频素材提取引擎 最近两年短视频内容爆发式增长,我身边很多做自媒体的朋友每天都要花大量时间处理视频素材。有个做科普视频的团队告诉我,他们剪辑一个5分钟的视频,光是找素材、截取片段就要耗费大半天。这种重复性工作不仅…...

章二 直通心灵的窗口

我们常说字如其人,一定程度上就是想表达每一个人从他身上透出的气质或行为能够勾勒出他有一个怎样的内心世界,能抽象出他给人群留下的映像(此处我真的笑出了猪叫,因为我的字特别丑,但我并不觉得本人特别丑哈哈&#xf…...

“支持向量”不等于“真AI原生”:2026奇点大会技术委员会揭幕5层认证标准(含3项未公开专利检测项)

第一章:2026奇点智能技术大会:AI原生数据库选型 2026奇点智能技术大会(https://ml-summit.org) AI原生数据库正从概念验证迈向生产级部署的关键拐点。在2026奇点智能技术大会上,主流厂商与开源社区共同展示了面向大模型训练缓存、推理状态管…...

圆柱状螺旋时空几何框架下引力与电磁力的统一关系初探完整定稿版

圆柱状螺旋时空几何框架下引力与电磁力的统一关系初探完整定稿版圆柱状螺旋时空几何框架下引力与电磁力的统一关系初探完整定稿版计立伟,张祥前(1. 独立物理研究所,深圳 518000;2. 独立物理研究者,安徽 庐江 231500&am…...

自动化脚本ui开发基础入门

自动化脚本ui采用XML 描述界面 JS 处理逻辑的模式,零基础也能快速上手自定义可视化界面,本文结合官方文档,从核心概念、开发规则、基础控件、全局函数到完整 Demo,全面讲解冰狐 UI 开发入门知识,助力开发者快速搭建实…...

如何在Windows上轻松安装APK文件:APK-Installer完整指南

如何在Windows上轻松安装APK文件:APK-Installer完整指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上运行安卓应用&#xf…...

悄咪咪升级!Ollama v0.20.4藏大招,本地大模型速度狂飙

文章目录前言一、MLX 性能大爆发:M5 芯片这回真的起飞了1.1 啥是 MLX?为啥苹果用户得盯着它?1.2 NAX 到底是个啥黑科技?1.3 实测体验:真的有那么神吗?二、Gemma4 全面进化:闪光注意力终于来了&a…...

苹果手机HEIC图片怎么转JPG?苹果用户必看的4种方法

一、为什么需要HEIC格式转换?1 HEIC格式的优势与局限HEIC(高效图像编码)是苹果在iOS 11系统中推出的新一代图像格式,采用HEVC编码技术,在相同画质下比传统JPG格式文件体积减少约50%。这意味着用iPhone拍摄的照片能节省…...

从Prompt Engineering到Agent Engineering:2026奇点大会定义的AI原生研发能力图谱(含6级评估矩阵)

第一章:AI原生软件研发:2026奇点智能技术大会核心议题 2026奇点智能技术大会(https://ml-summit.org) AI原生软件研发已从概念验证迈入工程化落地深水区。2026奇点智能技术大会将AI原生软件定义为“以大模型为运行时、以提示与工具调用为基本指令单元、…...

别再写CompletableFuture了!Loom时代响应式编程新范式:结构化并发+协程式错误传播(附可运行Demo仓库)

第一章:Loom时代响应式编程的范式跃迁Project Loom 的正式落地标志着 JVM 并发模型的根本性重构——虚拟线程(Virtual Threads)将轻量级协程原生引入 Java 生态。这一变革不再仅是“提升吞吐量”的工程优化,而是直接重塑响应式编程…...

别再让后端背锅了!前端独立搞定文件上传:华为云OBS + Vue/Element-UI保姆级配置

前端独立实现文件上传:华为云OBS与Vue/Element-UI实战指南 在快速迭代的现代Web开发中,前端工程师常常需要独立处理文件上传功能,而不再依赖后端接口。本文将详细介绍如何利用华为云OBS和Vue/Element-UI构建一个完整的前端文件上传解决方案。…...

手把手教你用STM32F303和LAN9252搭建EtherCAT从站(附IO、AD、DA完整代码)

从零构建EtherCAT从站:STM32F303与LAN9252实战指南 引言 第一次接触EtherCAT协议时,我被它那毫秒级的同步精度和灵活的拓扑结构所吸引,但随之而来的是一连串的困惑:如何选择合适的硬件平台?协议栈移植有哪些坑&#xf…...

告别烂大街的教程,一文讲清楚XDMA:Windows如何识别你的FPGA板卡为PCIe设备

作为一名FPGA开发或者高速采集领域的工程师,你大概率遇到过这种场景:辛辛苦苦综合好FPGA工程,把板子插到PCIE插槽上,装好官方驱动,设备管理器里不是弹出黄色叹号就是直接写着“未知设备”。 这个时候你去网上找教程&am…...

手把手教你用USB转TTL给STM32小蓝板烧录Arduino程序(无需BootLoader)

手把手教你用USB转TTL给STM32小蓝板烧录Arduino程序(无需BootLoader) 1. 准备工作:硬件与软件环境搭建 当你拿到一块STM32 Blue Pill开发板(小蓝板)时,最迫切的需求可能就是让它跑起来。传统方法需要复杂的…...

ESP32-CAM无线图像传输系统:从硬件搭建到远程拍照控制

1. ESP32-CAM无线图像传输系统入门指南 第一次接触ESP32-CAM时,我被这个小巧的模块惊艳到了——它集成了摄像头和WiFi功能,价格却不到百元。这个火柴盒大小的设备,完全可以实现远程监控、智能门铃等物联网应用。很多朋友问我怎么快速上手&…...

分享 种 .NET 桌面应用程序自动更新解决方案云

一、Actor 模型:不是并发技巧,而是领域单元 Actor 模型的本质是: Actor 是独立运行的实体 Actor 之间只通过消息交互 Actor 内部状态不可被外部直接访问 Actor 自行决定如何处理收到的消息 Actor 模型真正解决的是: 如何在不共享状…...

如何用计算机视觉技术让原神效率提升300%:BetterGI智能辅助实战指南

如何用计算机视觉技术让原神效率提升300%:BetterGI智能辅助实战指南 【免费下载链接】better-genshin-impact 📦BetterGI 更好的原神 - 自动拾取 | 自动剧情 | 全自动钓鱼(AI) | 全自动七圣召唤 | 自动伐木 | 自动刷本 | 自动采集/挖矿/锄地 | 一条龙 |…...

YApi本地部署后,接口测试插件cross-request装不上?手把手教你解决Chrome扩展加载难题

YApi本地部署后cross-request插件安装难题的终极解决方案 当你终于完成YApi的本地部署,准备大展拳脚进行接口测试时,却发现cross-request插件怎么都装不上——这可能是最令人抓狂的时刻之一。别担心,这绝不是你一个人的问题。本文将深入剖析这…...

百度网盘直链解析:突破限速实现10倍下载加速的终极指南

百度网盘直链解析:突破限速实现10倍下载加速的终极指南 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 在当今数字化时代,百度网盘已成为国内用户最常用…...

2026年佛山GEO优化公司哪家好?推荐评测口碑对比知名七家排名

随着生成式AI全面渗透商业决策,企业获取客户的核心入口正从传统搜索转向豆包、DeepSeek等AI助手。中国互联网络信息中心发布的行业报告显示,生成式AI用户规模持续高速增长,这直接催生了生成引擎优化这一全新营销赛道。品牌能否在AI的答案中被…...

5个实战技巧:如何高效使用x64dbg调试工具进行逆向分析

5个实战技巧:如何高效使用x64dbg调试工具进行逆向分析 【免费下载链接】x64dbg An open-source user mode debugger for Windows. Optimized for reverse engineering and malware analysis. 项目地址: https://gitcode.com/gh_mirrors/x6/x64dbg x64dbg是一…...

别再只会adb disable-verity了!深入拆解Android dm-verity如何守护你的system分区安全

深入拆解Android dm-verity:系统分区安全的最后防线 当你在调试Android系统时,是否遇到过这样的场景:修改了/system分区的某个关键文件,重启后却发现改动神奇地"消失"了?或者尝试刷入自定义ROM时&#xff0c…...

三维重建在自动驾驶和数字孪生中的应用实战:聊聊PointNet++与KITTI数据集那些事儿

三维重建在自动驾驶和数字孪生中的应用实战:PointNet与KITTI数据集的深度解析 当激光雷达扫描的数十万个点云数据如暴雨般倾泻而来时,工程师们面临的第一个问题往往是:如何让机器真正"看懂"这些三维空间中的离散信息?这…...

如何从丢失或被盗的iPhone恢复数据?[完整指南]

如果你的 iPhone 不幸丢失或被盗,你可能会感到极度焦虑,这不仅是因为硬件的价值,还因为里面包含着宝贵的信息,例如照片、联系人、短信、应用数据等等。用户丢失 iPhone 后最常见的担忧之一是:“我能从被盗的 iPhone 中…...

如何通过4种解决方案将OnePlus联系人导出到Excel

联系人是 OnePlus 手机上存储的最有价值的数据之一。无论您是更换设备、创建备份,还是管理大量商务联系人信息,将联系人导出到 Excel 都能让流程更加轻松。Excel 文件让您无需仅依靠手机即可整理、编辑和共享联系人详细信息。如果您想知道如何将 OnePlus…...