当前位置: 首页 > article >正文

MindStudio组合技,让Host Bound问题看得见、调得准

背景介绍Host Bound问题在NPU训练和推理场景中Host侧CPU的任务下发如算子调度、内存分配与Device侧NPU的任务执行是异步进行的。当Host侧任务下发耗时超过Device侧任务执行耗时Device会因等待新任务而处于空闲状态形成性能瓶颈即Host Bound问题。Host Bound问题现象整体表现为FreeNPU空闲占比高注意Free占比高不一定是Host Bound问题其细分现象包含但不限于Host侧某算子下发耗时长Host侧出现大量长耗时空泡Host侧流水中断Host Bound问题的根因大多数归结为Host侧线程抢占Host侧某算子/函数等待计算结果返回Host侧长时间等待资源如锁资源或资源未及时释放导致阻塞Host侧下发队列满H2D数据传输异常。其中比较常见的是Host侧线程抢占问题。此类问题通常通过ftraceLinux内核内置的一种跟踪工具来排查但是存在较大的困难调优人员难以将ftrace数据和Profiling对齐联合分析CPU与NPU的协同情况。针对这个问题MindStudio Insight推出了基于ftrace的采集解析脚本解析结果可导入Insight可视化界面联合Profiling展示帮助用户实现ftrace数据和Profiling数据联合分析优化Host瓶颈。Host Bound问题分析与解决思路利用MindStudio Insight分析Host Bound问题时可以根据以下思路使用MindStudio Insight集群分析功能进行整体分析初步确定是否存在下发慢卡同步采集Profiling和ftrace数据联合分析CPU与NPU协同情况根据分析结果进行针对性优化例如绑核优化、核隔离等方式减少进程抢占现象。Host Bound优化实战案例问题背景某Linux服务器已经发现了性能膨胀和Host侧空泡问题但是仅仅从Profiling数据无法判断真实原因缺少对于Host侧的性能分析手段。使用MindStudio Insight的集群分析功能看到卡3的Free占比明显过高为下发慢卡。图1 集群分析初步确定是否存在下发慢卡Profiling结合ftrace分析抢占情况Profiling分析Device侧现象通过Profiling数据对Device侧分析下图可以很明显的看到卡3、卡5在黄色框选部分存在空泡没有充分利用硬件性能。图2 总体Device侧执行情况以卡3为例其Host To Device连线坡度逐渐垂直说明卡3 Host侧下发任务较慢Device侧出现空转导致硬件资源浪费。图3 卡3 Host To Device下发连线经过以上分析基本可以确认Host Bound下发慢卡降低了NPU利用率。但此时仅通过Profiling数据已经不足够分析Host侧问题根因了。接下来需要结合ftrace数据分析当时CPU的行为有哪些异常。采集ftrace数据利用MindStudio Insight提供的采集脚本trace_record.py采集ftrace数据。运行结束后在当前目录下生成ftrace.txt文件。然后使用转换脚本trace_convert.py将ftrace数据格式转换为能够导入MindStudio Insight的格式。以上脚本可以在MindStudio Insight的开源代码仓中获取https://gitcode.com/Ascend/msinsight/tree/master/scripts/ftrace_toolsProfiling与ftrace联合分析发现问题一ACLThread被CANN线程抢占如下图4所示可以看到async_task_queue连线用于关联Python至CANN的任务下发关系坡度非常大这说明Python层的下发队列中有任务但是一直没有下发造成大约3.2ms的空泡。进一步定位问题原因。该环境已经使用过绑核绑核策略中对应卡4的ACLThread绑在CPU 90上。因此将泳道名称为CPU 90的ftrace泳道置顶区域框选后发现卡4下发慢时对应的Host侧CPU被dev14_sq_task进程抢占。图4 卡4有大约 3.2ms的空泡定位结论与解决措施dev_sq_task责将任务传输到Device上任务优先级较高抢占了ACLThread。在此期间ACLThread一直处于就绪但未被调度的状态导致了3.2ms空泡。因此需要将ACLThread、dev_sq_task分别绑核。发现问题二ACLThread被系统级线程systemctl抢占如下图5所示在两个标记绿色旗帜和红色旗帜之间区域对应CPU被systemctl线程抢占并打断导致Host Bound问题。图6可以看得更清楚。systemctl线程是内核线程主要用来做Linux上各种服务的调度和更新优先级高于用户线程。图5 卡4分析系统线程抢占图6 系统线程抢占 ACLThread解决措施启用/etc/systemd/system.conf中的CPU亲和性配置属性将系统线程绑定在某几个特定的CPU核心上以避免对用户线程的抢占。发现问题三频繁唤醒休眠导致CPU空转如下图7所示发现慢卡主进程虽然没有被抢占但是主进程频繁在sched_waking状态。图7 frace.txt的sched_waking状态频繁解决措施使用CANN包提供的下发流水优化特性开启二级流水优化以避免主进程过快进入休眠状态而被频繁唤醒。可通过export TASK_QUEUE_ENABLE2环境变量使能该特性详见https://www.hiascend.com/document/detail/zh/canncommercial/83RC1/acce/ascendtb/ascendtb_0032.html优化结果通过Profiling结合ftrace分析进程抢占和频繁调度问题并且针对问题完成绑核、使能下发流水优化等方法最终将Free占比从18%降低到0.38%Host Bound问题得到极大缓解。图8 优化前Free占比图9 优化后Free占比总结Host Bound问题已经成为模型训练与推理部署中的高频问题但是一直以来调优人员都缺乏有效手段能够同时观测Host侧和Device侧的执行情况。MindStudio提供了一种将Profiling数据与ftrace数据联合分析的方案打开了Host侧黑盒让下发问题看得准调得快。工具链接如下MindStudio Insight可视化工具https://gitcode.com/Ascend/msinsightftrace数据采集与解析脚本https://gitcode.com/Ascend/msinsight/tree/master/scripts/ftrace_toolsProfiling采集工具https://gitcode.com/Ascend/msprof

相关文章:

MindStudio组合技,让Host Bound问题看得见、调得准

背景介绍:Host Bound问题在NPU训练和推理场景中,Host侧(CPU)的任务下发(如算子调度、内存分配)与Device侧(NPU)的任务执行是异步进行的。当Host侧任务下发耗时超过Device侧任务执行耗…...

【免费下载】 Gmsh 4.11.1 资源包

Gmsh 4.11.1 资源包 【下载地址】Gmsh4.11.1资源包 Gmsh 4.11.1 资源包本仓库提供了一个包含 Gmsh 4.11.1 版本及相关资源的下载包 项目地址: https://gitcode.com/open-source-toolkit/804a2 本仓库提供了一个包含 Gmsh 4.11.1 版本及相关资源的下载包。Gmsh 是一款开源…...

别再只盯着RRT了!关节空间六次多项式规划,可能是更简单的机械臂避障方案

关节空间六次多项式规划:机械臂避障的优雅解法 在工业机器人领域,路径规划一直是核心挑战之一。当机械臂需要在充满障碍物的环境中工作时,传统基于笛卡尔空间的规划方法常常面临逆运动学奇异、轨迹不平滑等问题。而基于关节空间的六次多项式规…...

【亲测免费】 TC8协议一致性测试文档

TC8协议一致性测试文档 【下载地址】TC8协议一致性测试文档 本仓库提供了一个重要的资源文件,即**TC8协议一致性测试文档**。该文档详细描述了汽车以太网ECU(电子控制单元)在不同网络层的一致性测试规范。具体包括以下三个部分:1.…...

初创团队如何利用Taotoken的Token Plan实现AI成本优化

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 初创团队如何利用Taotoken的Token Plan实现AI成本优化 对于资源有限的初创团队而言,在产品开发中引入大模型能力已成为…...

STK Connectors接口函数全解析:如何用MATLAB脚本自动化你的航天仿真流程

STK Connectors接口函数全解析:如何用MATLAB脚本自动化你的航天仿真流程 航天仿真领域的工作者常常面临一个矛盾:STK提供了强大的轨道计算和场景可视化能力,但手动操作界面进行复杂任务时效率低下;MATLAB擅长处理复杂逻辑和批量计…...

【亲测免费】 普冉PY32F002A移植FreeRTOS资源文件

普冉PY32F002A移植FreeRTOS资源文件 【下载地址】普冉PY32F002A移植FreeRTOS资源文件 本资源文件提供了将FreeRTOS V9.0移植到普冉M0芯片PY32F002A的完整示例。开发环境基于KEIL,并使用了LL库进行移植。该示例展示了如何在PY32F002A芯片上运行四个任务,并…...

终极网盘直链下载解决方案:LinkSwift完全指南,告别限速烦恼

终极网盘直链下载解决方案:LinkSwift完全指南,告别限速烦恼 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国…...

【亲测免费】 sapi5.inf下载 - 解决微软语音注册表问题 0x80040154

sapi5.inf下载 - 解决微软语音注册表问题 0x80040154 【下载地址】sapi5.inf下载-解决微软语音注册表问题0x80040154 sapi5.inf下载 - 解决微软语音注册表问题 0x80040154如果你在进行语音应用开发或者配置微软语音引擎时遇到了著名的错误代码0x80040154,这个资源正…...

别再只刷固件了!深入Proxmark3硬件层:AT91SAM7S512芯片与Bootrom.bin的救砖原理详解

深入Proxmark3硬件层:AT91SAM7S512芯片与Bootrom.bin的救砖原理详解 当你的Proxmark3设备突然"四灯全亮",USB连接失效,变成一块"砖头"时,大多数教程只会告诉你"短接测试点,用J-Link烧录bootr…...

从Windows迁移者的视角:中兴新支点NewStartOS上手初体验与软件兼容性实测

从Windows迁移者的视角:中兴新支点NewStartOS上手初体验与软件兼容性实测 作为一名长期使用Windows系统的普通用户,第一次接触国产操作系统时难免会有诸多疑虑:界面是否熟悉?常用软件能否运行?外设驱动是否完善&#…...

告别HAL库:用GD32标准库为RT-Thread打造轻量级驱动(以F4系列为例)

告别HAL库:用GD32标准库为RT-Thread打造轻量级驱动(以F4系列为例) 在嵌入式开发领域,HAL库因其跨平台兼容性和易用性广受欢迎,但对于追求极致性能和精简代码的开发者而言,标准库往往能带来更直接的硬件控制…...

北京房山区浇筑阁楼测评:天顺诚达工艺佳但价格略高,适合这类

为了避免违反规则,以下内容去除了联系方式等违规信息。随着对居住空间利用需求的增加,在北京房山区浇筑阁楼成为不少人的选择。本次测评旨在为对北京房山区浇筑阁楼服务感兴趣的人群,客观呈现相关服务的情况。参与本次测评的是北京天顺诚达建…...

【亲测免费】 VisionPro培训文档全中文版

VisionPro培训文档全中文版 【下载地址】VisionPro培训文档全中文版 VisionPro培训文档全中文版欢迎使用VisionPro培训文档全中文版!本资源是专为机器视觉领域从业者及学习者精心准备的一套全面指南,旨在帮助您快速掌握VisionPro软件的强大功能与应用技巧…...

折叠表达式:左折叠,右折叠

关于何为左右折叠表达式可以直接通过 C Insights (C Insights) 来进行查看原理。左折叠template <typename... Args> auto getSum(Args... args) {return (args ...); }int main() {getSum(1, 2, 3, 4, 5); } template <typename... Args> auto getSum(Args... ar…...

告别Office安装烦恼:3分钟搞定微软办公套件自动部署

告别Office安装烦恼&#xff1a;3分钟搞定微软办公套件自动部署 【免费下载链接】LKY_OfficeTools 一键自动化 下载、安装、激活 Office 的利器。 项目地址: https://gitcode.com/GitHub_Trending/lk/LKY_OfficeTools 还在为繁琐的Office安装流程而头疼吗&#xff1f;一…...

STM32 ADS1115接口文件(HAL库+硬件IIC)

STM32 ADS1115接口文件&#xff08;HAL库硬件IIC&#xff09; 【下载地址】STM32ADS1115接口文件HAL库硬件IIC 本资源包专为STM32系列微控制器设计&#xff0c;旨在简化通过HAL库利用硬件IIC接口与ADS1115高精度模拟到数字转换器(ADC)交互的过程。ADS1115是一款高性能的16位ΔΣ…...

Labelme版本不兼容报错?手把手教你修改源码和JSON文件(附3.18.0与4.5.6对比)

Labelme版本兼容性实战&#xff1a;从源码修改到JSON批量处理的完整指南 当你正专注于一个重要的数据标注项目&#xff0c;突然遭遇"Error opening file lineColor"的红色报错框&#xff0c;整个团队的标注进度被迫停滞——这种场景对于使用Labelme进行图像标注的开发…...

AI 系统多模型路由与降级架构设计:从流量调度到无感切换的工程实践

背景 / 现象 在一个典型的 AI 应用系统中&#xff0c;主模型&#xff08;如 GPT-4o、Claude 3.5 等&#xff09;通常承担核心推理任务。但在生产环境中&#xff0c;主模型可能因额度耗尽、响应超时、服务不可用或突发限流等原因导致调用失败。此时&#xff0c;用户侧可能表现为…...

C 读取RAW文件程序

C# 读取RAW文件程序 【下载地址】C读取RAW文件程序 本仓库提供了一个简单的C#程序&#xff0c;用于读取RAW文件。该程序已经过调试&#xff0c;确保功能正常运行。需要注意的是&#xff0c;此程序仅提供基本的RAW文件读取功能&#xff0c;不包含任何图像处理或转换功能 项目地…...

别再乱调了!Unity Shader中ZWrite的‘开’与‘关’,一份给程序员的避坑实践指南

Unity Shader深度写入实战&#xff1a;ZWrite的正确打开方式 1. 深度写入的底层逻辑 在计算机图形学中&#xff0c;深度缓冲&#xff08;Depth Buffer&#xff09;是一个至关重要的概念。它本质上是一个二维数组&#xff0c;存储了每个像素距离摄像机的深度值。当Unity渲染场景…...

C++ TinyWebServer项目实战:手把手教你用阻塞队列实现高性能异步日志(附完整代码)

C TinyWebServer项目实战&#xff1a;手把手教你用阻塞队列实现高性能异步日志&#xff08;附完整代码&#xff09; 在构建高并发服务器时&#xff0c;日志系统往往成为容易被忽视却至关重要的组件。想象这样一个场景&#xff1a;当服务器每秒处理上万请求时&#xff0c;如果每…...

3步高效下载抖音无水印视频:douyin_downloader专业解决方案完整指南

3步高效下载抖音无水印视频&#xff1a;douyin_downloader专业解决方案完整指南 【免费下载链接】douyin_downloader 抖音短视频无水印下载 win编译版本下载&#xff1a;https://www.lanzous.com/i9za5od 项目地址: https://gitcode.com/gh_mirrors/dou/douyin_downloader …...

1990-2023年 全国省市县耕地面积数据 xlsx+tif

01、数据概述 本数据集详尽记录了1990年至2023年间&#xff0c;中国各省市县的耕地面积变化情况。原始数据以Tif栅格格式存储&#xff0c;后经专业处理转化为结构化的省市县面板数据&#xff0c;直观呈现了各地区耕地面积的年度总和。1990-2023年全国省市县耕地面积数据xlsxti…...

保姆级教程:在华大HC32L136上驱动SPI屏,用DMA发送提升刷屏效率

华大HC32L136单片机SPI屏DMA驱动实战指南 在物联网设备和智能硬件开发中&#xff0c;流畅的图形界面往往能大幅提升用户体验。而实现这一目标的关键&#xff0c;在于高效稳定的显示驱动设计。本文将深入探讨如何利用华大半导体HC32L136单片机的SPI接口与DMA控制器&#xff0c;构…...

【免费下载】 MobaXterm 汉化版资源文件下载

MobaXterm 汉化版资源文件下载 资源文件介绍 文件名: MobaXterm_CHS.zip 文件类型: 压缩包 文件描述: 该资源文件为 MobaXterm 的汉化版本&#xff0c;提供了增强型终端、X 服务器和 Unix 命令集&#xff08;GNU/Cygwin&#xff09;工具箱的功能。 MobaXterm 简介 MobaXterm 又…...

Bilibili-Evolved离线缓存架构解析:构建无网络依赖的现代Web增强脚本

Bilibili-Evolved离线缓存架构解析&#xff1a;构建无网络依赖的现代Web增强脚本 【免费下载链接】Bilibili-Evolved 强大的哔哩哔哩增强脚本 项目地址: https://gitcode.com/gh_mirrors/bi/Bilibili-Evolved 在Web应用日益复杂的今天&#xff0c;离线能力已成为衡量用户…...

别再只用DS18B20了!用51单片机和ADC0804做个PT100温度计,从硬件接线到代码调试全流程

从DS18B20到PT100&#xff1a;用51单片机打造工业级温度监测系统 在嵌入式开发领域&#xff0c;温度测量是一个永恒的话题。当大多数初学者还停留在使用DS18B20这类数字温度传感器时&#xff0c;工业领域早已广泛采用PT100铂电阻作为温度测量的主力军。本文将带你跨越数字传感器…...

Linux应用配置分层实战指南

Linux应用配置分层实战指南本文面向具备一定 Linux 基础的技术人员&#xff0c;围绕应用配置分层展开&#xff0c;重点讨论默认配置、环境覆盖和敏感参数隔离。在中级运维和系统管理工作中&#xff0c;这类主题常常与配置变更、资源状态、权限边界、自动化任务和业务影响交织在…...

面试官最爱阴人的滑动窗口题,为啥你总是写崩?

面试官最爱阴人的滑动窗口题,为啥你总是写崩? 很多人刷算法的时候,都有一种错觉: 动态规划最难。 图论最恶心。 回溯最容易超时。 结果真正到了大厂面试现场。 面试官笑眯眯来一句: 给你一个字符串,求: 至多包含 K 个不同字符的最长子串然后。 一堆人开始原地去世…...