当前位置: 首页 > article >正文

推理引擎系列(六)《vLLM-Ascend 大模型推理》

目录vLLMvLLM-ascend 整体规划和架构社区演进概述华为昇腾技术路线昇腾推理架构解析vLLM 核心技术推理精度分析方法精度分析工具常见问题与解决方案Badcase 分析推理性能分析方法性能分析工具性能问题定位性能数据分析PD 分离场景调优vLLM-ascend 推理部署流程环境准备模型下载与安装离线与在线推理常用特性与入参介绍注意事项总结本文主要讲解 vLLM-ascend 整体规划和架构以及核心技术内容。vLLMvLLM-ascend 整体规划和架构社区演进概述• 回顾社区在推理引擎领域的发展历程。• 强调开源与性能并重的重要性。华为昇腾技术路线• 以开源为基础与社区紧密配合回馈社区。昇腾推理架构解析架构概览• 华为MindIE推理引擎与业界开源生态引擎如LLM、TensorFlow TGI、Triton的对比。计算架构层• 对标 CUDA 的计算架构设计。框架 Plugin 层• 介绍 vLLM-Ascend 作为 vLLM 框架的 Plugin实现硬件层适配。vLLM 核心技术1. Paged Attention• 解决内存碎片与显存浪费问题通过分页内存分配提高资源利用率。2. Continuous Batching• 与 Paged Attention 配套使用提高 GPU/NPU 算力和显存利用率。3. vLLM-Ascend 插件• 硬件层适配屏蔽 GPU 与 NPU 差异支持无缝迁移。• 降低二次开发门槛支持模型零拷贝。4. 安装与调用流程5. ACL Graph与性能优化1ACL Graph 概念• 对标CUDA graph实现一次捕获、多次重放减少空泡。2性能优化策略• 提高系统并行度减少无法并行部分。• 介绍 vLLM 如何通过提高应用层系统并行度实现性能提升。推理精度分析方法精度分析工具1. 介绍 OpenCampass、EvalScope、AISBench 等工具。2. 强调通过跑数据集获取精度指标的方法。常见问题与解决方案• 介绍如何通过调整参数和模型设计提高精度。Badcase 分析1. 如何定位和分析 Badcase找出精度不达标的原因。2. 基于MSProbe工具的精度数据采集推理性能分析方法性能分析工具使用 AISBench 进行性能测评• 配置随机数据集• 指定模型和数据集• 通过命令行启动性能测评性能问题定位性能数据分析•op_statistic.csv•trac_view.jsonPD 分离场景调优• PD 分离场景调优通过解耦预填充Prefill与生成Decode阶段突破 KV Cache 导致的吞吐瓶颈。• 介绍如何通过调整 PD 配比和预期 TPS 来优化系统性能。vLLM-ascend 推理部署流程环境准备• 使用npu-smi info检查 NPU 驱动固件安装情况。• 推荐使用 Docker 进行部署。模型下载与安装• 介绍如何通过 ModelScope 下载模型。强调安装 vLLM 与 vLLM-Ascend 的步骤。离线与在线推理• 介绍离线与在线推理的使用方式与区别。• 强调 vLLM-Ascend 与 vLLM 使用方式的一致性。常用特性与入参介绍•环境变量•推理参数注意事项总结本文系统介绍了vLLM-ascend推理引擎的整体架构与技术实现。重点包括1基于开源生态的昇腾推理架构通过vLLM插件实现GPU/NPU硬件适配2核心技术创新如PagedAttention内存管理和ContinuousBatching批处理优化3性能优化策略包括ACLGraph应用和PD阶段解耦4完整的精度分析与性能评估方法体系5从环境准备到模型部署的全流程实践指南。该方案通过技术创新和工具链整合显著提升了AI推理的效率和易用性为昇腾生态提供了高性能的推理解决方案。

相关文章:

推理引擎系列(六)《vLLM-Ascend 大模型推理》

目录 vLLMvLLM-ascend 整体规划和架构 社区演进概述 华为昇腾技术路线 昇腾推理架构解析 vLLM 核心技术 推理精度分析方法 精度分析工具 常见问题与解决方案 Badcase 分析 推理性能分析方法 性能分析工具 性能问题定位 性能数据分析 PD 分离场景调优 vLLM-ascen…...

国产数据库TiDB使用dumpling卸数与tidb-lightning导娄

一、使用dumpling卸数: –filetype csv指定导入格式 -o指定导出存储路径 -r按行数切分导出文件 -F按文件大小切分导出文件 1)、使用dumpling根据表清单卸数: nohup /home/ap/nas/tools/Tidb_dumpling/dumpling -h数据库ip地址 -P4900 -u数据库…...

使用VSCode编写LaTeX(latex+vscode+SumatraPDF

许多人都是用 texstudio 或者 winedt 配合 texlive 编写 文档,很长一段时间内 texstudio 是我唯一的编辑器,然而,颜控的我受不了那原始的界面,于是我看上了 VSCode。漂亮、免费、开源是我选择 VSCode 的主要原因。 网上有很多介绍…...

win10下驱动进程保护

网上可以查到很多WIN7下的驱动后台进程保护代码,而那些代码在WIN10下并不适用,故写此篇来文章来总结我在编写WIN10下后台进程保护驱动程序的过程与经验,因为源码文件结构比较杂乱,在此文章里我粘部分代码,在最后再给出完整项目的g…...

PyCharm测试功能太烦人?3种方法彻底关闭自动检测(附避坑指南)

PyCharm测试功能太烦人?3种方法彻底关闭自动检测(附避坑指南) 如果你正在使用PyCharm进行Python开发,可能会遇到一个令人头疼的问题:每当你的代码中包含test_开头的文件时,PyCharm就会自动将其识别为测试文…...

LIN总线帧结构:从字节域到完整报文解析

1. LIN总线帧结构入门:从字节域说起 第一次接触LIN总线时,我被它的"字节域"概念卡住了好几天。当时在调试一个车窗控制模块,明明示波器上能看到波形,但从机就是没反应。后来才发现是没吃透这个最基础的数据单元。字节域…...

「开源者行」开源社高校宣讲:复旦大学站

由开源社及上海复旦大学计算机学院研究生团学联共同主办的高校巡回宣讲活动-「开源者行」#06 复旦大学站将在11月27日(周四)晚18:00 - 20:30 于复旦大学张江校区软件楼105室开启沙龙。 第六站沙龙得到了上海复旦大学计算机学院研究生团学联的…...

腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!

Penguin-VL团队 投稿量子位 | 公众号 QbitAI打破多模态视觉语言拼接套路!腾讯开源Penguin-VL,直接用纯文本LLM训视觉编码器。这项研究跳出了先有传统视觉 backbone,再接语言模型的常规路径,直接从text-only LLM初始化vision encod…...

Java并发编程终极指南:RedSpider社区concurrent项目深度解析 [特殊字符]

Java并发编程终极指南:RedSpider社区concurrent项目深度解析 🚀 【免费下载链接】concurrent 这是RedSpider社区成员原创与维护的Java多线程系列文章。 项目地址: https://gitcode.com/gh_mirrors/co/concurrent 想要掌握Java并发编程的核心原理吗…...

优质学术论文平台推荐:六大权威站点提供智能降重与自然语言处理功能,有效规避查重标红问题

开头总结工具对比(技能4) �� 为帮助学生们快速选出最适合的AI论文工具,我从处理速度、降重效果和核心优势三个维度,对比了6款热门网站,数据基于实际使用案例: 工具名称 处理速度 降…...

龙虾的应用商店挂牌了!北大开源MagicSkills,让Agent Skill可自由安装组合同步

Narwhal-lab 投稿量子位 | 公众号 QbitAIAI Agent世界的npm来了!最近,北京大学Narwhal-Lab的开源项目MagicSkills,通过把AI Agent所需的技能(Skill)统一管理、安装、组合和同步,实现了“写一次、到处用”的…...

探索 Awesome GPT Agents:解锁AI助手在网络安全领域的无限可能

探索 Awesome GPT Agents:解锁AI助手在网络安全领域的无限可能 【免费下载链接】Awesome-GPT-Agents A curated list of GPT agents for cybersecurity 项目地址: https://gitcode.com/GitHub_Trending/aw/Awesome-GPT-Agents Awesome GPT Agents 是一个精心…...

如何快速突破微信网页版限制:wechat-need-web完整解决方案指南

如何快速突破微信网页版限制:wechat-need-web完整解决方案指南 【免费下载链接】wechat-need-web 让微信网页版可用 / Allow the use of WeChat via webpage access 项目地址: https://gitcode.com/gh_mirrors/we/wechat-need-web 在远程办公和跨平台协作日益…...

稳定扩散WebUI本地化中文版安装与使用教程

稳定扩散WebUI本地化中文版安装与使用教程 【免费下载链接】stable-diffusion-webui-localization-zh_CN Simplified Chinese translation extension for AUTOMATIC1111s stable diffusion webui 项目地址: https://gitcode.com/gh_mirrors/st/stable-diffusion-webui-locali…...

【亲测免费】 smartParsePro 项目快速入门教程

smartParsePro 项目快速入门教程 【免费下载链接】smartParsePro 地址智能识别Pro(支持省市区街道/电话/邮编/姓名/身份证号识别) 项目地址: https://gitcode.com/gh_mirrors/smar/smartParsePro 1. 项目目录结构及介绍 smartParsePro/ ├── s…...

StructBERT语义相似度工具5分钟部署:一键解决中文句子匹配难题

StructBERT语义相似度工具5分钟部署:一键解决中文句子匹配难题 1. 项目简介:你的中文句子“找不同”神器 想象一下这个场景:你正在审核用户提交的客服对话记录,需要快速判断“我的订单怎么还没发货?”和“请问我的包…...

测试 Elasticsearch,现在变得更简单了

作者:来自 Elastic Piotr Przybyl 解释由于 Elasticsearch 9.x、现代 Java 客户端以及 Testcontainers 2.x 的改进,Elasticsearch 集成测试如何变得更加简单。 上手体验 Elasticsearch:深入了解我们在 Elasticsearch Labs 仓库中的示例 noteb…...

30-seconds-of-python 项目教程:掌握Python高效编程的终极秘籍

30-seconds-of-python 项目教程:掌握Python高效编程的终极秘籍 【免费下载链接】30-seconds-of-python 项目地址: https://gitcode.com/gh_mirrors/30s/30-seconds-of-python 30-seconds-of-python 是一个专为Python开发者打造的实用代码片段库,…...

计算机毕业设计springboot基于的洗衣店服务管理系统 SpringBoot驱动的智能洗衣服务平台设计与实现 基于Java微服务架构的衣物洗护订单管理系统

计算机毕业设计springboot基于的洗衣店服务管理系统0oc89212 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。 随着都市生活节奏的不断加快,人们对便捷服务的需求日益…...

华为:智慧交管感知解决方案及产品手册 2023

这份华为 2023 年智慧交管感知解决方案及产品手册,聚焦城市道路交通管理中的各类痛点,依托云计算、大模型、AI、机器视觉等技术,推出全场景的智慧交管感知产品与解决方案,通过环保化、高清化、智能化的技术升级,解决交…...

采购订单增强避坑指南:二代增强MM06E005 vs 三代增强ME_GUI_PO_CUST如何选?

采购订单增强技术选型实战:二代增强与三代增强深度对比 在SAP系统实施过程中,采购订单(Purchase Order)作为企业采购流程的核心单据,其定制化需求层出不穷。当标准功能无法满足业务需求时,增强(Enhancement)便成为开发人员的首选方…...

uboot之do_bootm_linux启动内核函数源码解析

当配置了CONFIG_PPC时将调用common/cmd_bootm.c中的do_bootm_linux。本处是调用libarm/armlinux.c中的。 u-boot.h中 static struct tag params; typedef struct bd_info { int bi_baudrate; / serial console baudrate /波特率 unsigned long bi_ip_addr; / IP Address /即服务…...

头歌平台实战:如何通过预防性维护避免斐波那契数列计算的性能陷阱

头歌平台实战:斐波那契数列计算的性能优化与预防性维护 在编程学习与算法实践中,斐波那契数列计算是一个经典案例。它不仅帮助我们理解递归与迭代的区别,更是性能优化和代码维护的绝佳教材。本文将从头歌平台的实际任务出发,深入探…...

**开源项目教程:探索`awesome-campus-expert`**

开源项目教程:探索awesome-campus-expert 【免费下载链接】awesome-campus-expert 🕶 An awesome list of resources for campus experts! 🕶 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-campus-expert 1. 项目目录结构及介…...

Invest模型年产水量计算:从数据获取到结果导出的全流程实战

1. Invest模型年产水量计算入门指南 刚接触Invest模型的朋友们可能对这个强大的生态系统服务评估工具既好奇又困惑。作为一款由斯坦福大学自然资本项目组开发的免费开源工具,Invest模型能够帮助我们量化生态系统的各项服务价值,其中年产水量计算是最基础…...

GitHub_Trending/we/WeChatMsg常见错误排查:导出失败解决方案

GitHub_Trending/we/WeChatMsg常见错误排查:导出失败解决方案 【免费下载链接】WeChatMsg 提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告 项目地址: https://gitcode.com/GitHub_Trending/w…...

明道云Webhook与ERP双向同步:手把手教你实现发货状态实时更新

明道云与ERP系统深度集成:Webhook双向同步实战指南 在数字化转型浪潮中,企业系统间的数据孤岛问题日益凸显。明道云作为国内领先的低代码平台,与ERP系统的无缝对接成为众多企业提升运营效率的关键需求。本文将聚焦发货状态实时同步这一典型场…...

PC-DMIS最佳拟合坐标系实战:四种算法选择与避坑指南

PC-DMIS最佳拟合坐标系实战:四种算法选择与避坑指南 在精密制造领域,三坐标测量机(CMM)的测量精度直接影响产品质量控制的有效性。而坐标系作为测量的基准框架,其建立的准确性更是重中之重。当面对复杂零件或存在装配关系的特征组时&#xff…...

运用长尾关键词提升SEO效果与关键词优化策略解析

本文将深入探讨长尾关键词在提升SEO效果和关键词优化策略中的重要性。长尾关键词不仅帮助网站更好地匹配用户的搜索意图,还能在竞争激烈的市场中脱颖而出。我们会分析当前最佳实践,让您了解到如何高效地挖掘与应用这些关键词,从而提升您的内容…...

uboot网络配置避坑指南:为什么你的tftpserver总是ping不通?

U-Boot网络配置深度解析:从Ping不通到高效TFTP传输的终极指南 在嵌入式开发的世界里,U-Boot作为系统启动的"第一道门",其网络配置的稳定性直接影响着开发效率。当你在深夜加班调试,准备通过TFTP快速加载内核镜像时&…...