当前位置: 首页 > article >正文

AI 编译器系列(七)《(MLIR)AscendNPU IR 编译堆栈》

目录AscendNPU IR 架构概述Triton-Ascend AscendNPU IRMLIR 简介1. 定义2. 特点AscendNPU IR 引入AscendNPU IR 架构详解整体架构HFusion 方言关键 Pass昇腾硬件架构HFusion 方言 OP 设计HFusion 预处理层HIVM 方言关键 PassHIVM OP 设计原则HIVM OP 属性设计HIVM OP Interface 设计HIVM CV 融合编译优化HIVM 片上内存映射调优选项及 Hint毕昇调优编译选项细粒度调优 Compiler hint总结本文主要讲解 AscendNPU IR 架构。AscendNPU IR 架构概述Triton-Ascend AscendNPU IRMLIR 简介1. 定义• MLIRMulti-Level Intermediate Representation是一种开源的编译基础设施旨在通过统一且可扩展的中间表示解决软件碎片化和编译效率问题。2. 特点• 多层方言Dialects支持从高层计算图到低层硬件指令的全栈抽象。AscendNPU IR 引入• 背景为了支持更多前端编程语言和硬件平台特别是在NPU如昇腾NPU上的优化。• 目标通过 AscendNPU IR 实现高效编译和硬件优化。AscendNPU IR 架构详解整体架构1. 方言层级• AscendNPU IR 采用多层方言设计主要包括 Hfusion 和 HIVM 两层核心方言辅以Annotation、HACC、Scope等辅助方言。2. 转换流程• 从前端 DSL 到 Triton IR再到 TritonGPU IR或 MLIR 公共方言如 Linalg最终转换为AscendNPU IR并编译成二进制文件。3. 核心方言解析•Hfusion•设计原理基于 Linalg 的扩展采用命名 OP 保留高层语义信息。•功能数据预处理、OP 简化、类型转换等不直接涉及硬件细节。•优化合法性检查、冗余操作消除、高层 OP 分解等。•HIVM•设计原则轻量化抽象硬件表达能力每个 OP 处理一个单元操作。•功能支持硬件特定操作如 Cube 类算子的快速构建通过 Microop 封装复杂操作。•优化内存分配、指令映射、流水并行等。4. 辅助方言•Annotation传递属性信息如内存优化提示。•HACC定义异构硬件相关信息如函数类型、硬件单元信息。•Scope代码区域标记支持代码分块和函数提取。HFusion 方言关键 Pass昇腾硬件架构• AIC核与AIV核分离各自拥有专属内存和计算单元。• 核间数据交互通过Global MemoryGM进行。HFusion 方言 OP 设计HFusion 预处理层1. Legalize BF162. OP Simplification3. DecompositionHIVM 方言关键 PassHIVM OP 设计原则• 基础 OP根据每条芯片指令自底向上轻量化抽象根据芯片能力校验 OP 约束。• Macro OP根据业务场景抽象由多个处理单元操作复合组成。HIVM OP 属性设计HIVM OP Interface 设计HIVM CV 融合编译优化HIVM 片上内存映射1. 片上内存空间推导2. 片上内存格式推导3. 片上内存自动对齐调优选项及 Hint毕昇调优编译选项• 控制多层编译灵活选择对接层• 进行功能调试排查精度• 细粒度调优性能细粒度调优 Compiler hint总结AscendNPU IR 作为 MLIR 的开源编译组件通过多层方言设计和丰富的优化技术有效支持了多种前端编程语言和昇腾 NPU 的硬件优化。未来将吸引更多开发者和研究者参与共同推动编译器技术和高性能计算的发展。

相关文章:

AI 编译器系列(七)《(MLIR)AscendNPU IR 编译堆栈》

目录 AscendNPU IR 架构概述 Triton-Ascend AscendNPU IR MLIR 简介: 1. 定义: 2. 特点: AscendNPU IR 引入: AscendNPU IR 架构详解 整体架构: HFusion 方言关键 Pass 昇腾硬件架构: HFusion …...

AI 写代码越来越快,但谁来定义代码的架构标准?

AI Coding市场爆发背后的结构性缺失,以及 Oinone “AI负责速度,Oinone负责尺度”的解题思路2025年,AI Coding已经不是概念。全球超过70%的开发者已在日常工作中使用AI编码工具,GitHub Copilot、Cursor、Trae、Qoder等产品正以前所…...

优化SEO效果的长尾关键词运用与关键词调整策略分析

本文将围绕优化SEO效果的长尾关键词运用与关键词调整策略进行深入探讨。首先,长尾关键词在提高网站可见性和搜索引擎排名中扮演着关键角色,能够帮助目标用户找到相关内容。其次,通过分析长尾关键词的特点,可以发现其相较于短尾关键…...

AI提升SEO关键词策略的创新应用与实践指南

本文将全面探讨AI在SEO关键词策略中的应用,重点分析智能技术如何提升关键词挖掘和优化效率。AI工具的有效运用,不仅能快速识别趋势关键词,还能分析用户搜索行为,帮助企业更好地调整内容策略。接下来的章节将结合多个案例&#xff…...

foundationstereo模型的安装部署与运行

硬件:RTX5060(8GB显存) Intel(R) Core(TM) i7-14650HX 32GB内存nvidia环境:驱动 580.126.09 CUDA Version 12.81. 安装torch由于显卡架构 sm_120 原因,官方提供的包在后续编译第三方库时会有环境兼容问题,仍然采用nightly 支持…...

三电平半桥LLC谐振变换器:频率控制与移相角度下的仿真研究

三电平半桥LLC谐振变换器电路仿真 采用频率控制方式 引入一定的移相角度(比较小) 驱动信号采用CMPA CMPB方式产生 增计数模式(参照DSP PWM生成) 相比普通半桥LLC开关管电压应力小 输出电压闭环控制 输出特性好,几乎无超…...

给我搞个python虚拟环境

先搞个出来python -m venv myenv然后用:win下:myenv\Scripts\activatelinux:source myenv/bin/activate...

萤石开放平台 音视频| 如何使用Web端带宽检测工具?

带宽检测操作文档 为什么要进行带宽检测? 带宽检测是检测设备的上行带宽、下行带宽、丢包以及网络延迟情况,可以验证设备的实时带宽是否超出套餐额度,以及网络的速度、延迟性和稳定性。阅读本文带宽检测操作文档,您将学会如何运…...

红外与RGB相机标定实战:不用标定板也能搞定外参对齐(附Python采集脚本)

红外与RGB相机无标定板标定实战:环境特征点替代方案与Python实现 在工业检测、安防监控等需要多光谱数据融合的场景中,红外相机与RGB相机的联合标定一直是技术难点。传统标定板方案虽然成熟,但在实际工程部署中常常遇到距离限制、成本高昂和灵…...

LizzieYzy:面向围棋爱好者的AI辅助全攻略

LizzieYzy:面向围棋爱好者的AI辅助全攻略 【免费下载链接】lizzieyzy LizzieYzy - GUI for Game of Go 项目地址: https://gitcode.com/gh_mirrors/li/lizzieyzy LizzieYzy是一款专为围棋爱好者打造的AI辅助工具,它通过多引擎协作系统、智能棋局分…...

保姆级教程:在Ubuntu 22.04上为ARM板卡交叉编译hostapd 2.10(附openssl/libnl依赖处理)

深度实战:在Ubuntu 22.04上为ARM设备构建hostapd 2.10的完整指南 在嵌入式开发领域,为ARM架构设备交叉编译软件是开发者必须掌握的技能之一。当我们需要在树莓派、RK系列开发板等ARM设备上部署WiFi热点功能时,hostapd无疑是最可靠的选择。本…...

AI电影解说工具推荐:实测对比剪映手动流程,效率到底差多少?

做电影解说推荐用AI解说大师这类AI电影解说工具,实测从选片到成片全流程只要5分钟,而用剪映手动做完同样一条视频至少需要2-3小时。很多刚入行的朋友一上来就被"DeepSeek剪映"的教程种草了,觉得这套组合已经够用。确实够用&#xf…...

技术人的反算法人格:故意制造认知偏差保命

第一章 算法围城:测试工程师的认知危机1.1 算法暴政的三大特征黑箱化决策:推荐系统/AI模型的不可解释性(如深度学习模型的梯度消失问题)数据偏见固化:训练集偏差引发的连锁反应(Amazon招聘AI性别歧视事件复…...

Windows本地宝塔面板部署与内网穿透实战:从局域网到公网访问

1. 为什么要在Windows本地部署宝塔面板? 很多刚接触服务器管理的朋友都会有这样的疑问:为什么不在云服务器上直接安装宝塔面板,而是要在本地Windows电脑上折腾?这里面的门道还真不少。我自己刚开始用宝塔面板时也走过弯路&#xf…...

TurMass™ Link 无线覆盖组网方案详解

随着数字化转型的深入,智慧园区已不再局限于基础的物业管理,而是向着感知敏捷、决策智能、服务主动的深度融合方向演进。然而,面对园区内复杂的电磁环境、密集的设备接入以及广泛的覆盖需求,传统的通信技术往往面临穿透力弱、功耗…...

人味护盾:软件测试工程师在AI时代的价值重构与晋升路径

一、AI重构测试生态:危机中的转机2026年的测试领域正经历三重颠覆:工具层:AI测试脚本生成覆盖率突破80%(Gartner 2025报告)流程层:DevOps流水线实现需求→用例→执行的秒级闭环决策层:缺陷预测模…...

大多数人以为越努力越能做好,但其实拼命想“完美发挥”才是最快搞砸一件事的方法

你有没有过这种体验?私下准备得滚瓜烂熟,口若悬河,一到正式场合面对镜头或人群,大脑却突然一片空白,手脚都不听使唤。明明是最拿手的事,却在关键时刻彻底崩盘。 这不是你能力的问题,而是你打输了…...

新增智能问数执行详情与实时仪表板,SQLBot开源智能问数系统v1.7.0版本发布

2026年3月19日,SQLBot开源智能问数系统正式发布v1.7.0版本。 本次版本更新主要实现了智能问数执行监控、图表显示优化、实时数据展示等核心功能。在新增功能方面,SQLBot v1.7.0版本新增了智能问数执行详情、图表数据标签显示、MySQL SSL支持、数据表启停…...

FireRedASR-AED-L惊艳效果:同一模型对吴语、闽南语、客家话的跨方言识别对比

FireRedASR-AED-L惊艳效果:同一模型对吴语、闽南语、客家话的跨方言识别对比 1. 方言识别的重要性与挑战 方言识别是语音识别领域最具挑战性的任务之一。中国各地的方言在发音、语调、词汇上存在巨大差异,甚至同一方言区内也有不同口音。传统的语音识别…...

AD20铺铜避坑指南:解决‘unable to locate any suitable location netgnd’错误的3个关键步骤

AD20铺铜避坑实战:从报错到完美GND网络的完整解决方案 在PCB设计过程中,铺铜操作看似简单却暗藏玄机。特别是当AD20弹出"unable to locate any suitable location netgnd"这样的错误提示时,很多新手工程师往往会陷入困惑。这个错误…...

深入浅出:辐射骚扰RE

辐射骚扰测试(RE测试)是电磁兼容(EMC)测试的核心项目之一,它直接关系到你的产品是否会干扰周围的其他电子设备。一、什么是辐射骚扰测试?辐射骚扰测试,全称是辐射发射测试,英文为Rad…...

WebGL开发数字孪生项目

WebGL开发数字孪生项目已从单纯的“视觉还原”演进为“实时决策中心”。随着 WebGPU 在企业级浏览器中达到约70%的普及率,高性能数字孪生正处于从 WebGL 向 WebGPU 过渡的阶段,但 WebGL 凭借其成熟的生态(Three.js/Cesium)依然是当…...

Beyond Compare 5本地密钥生成解决方案:技术实践与授权验证指南

Beyond Compare 5本地密钥生成解决方案:技术实践与授权验证指南 【免费下载链接】BCompare_Keygen Keygen for BCompare 5 项目地址: https://gitcode.com/gh_mirrors/bc/BCompare_Keygen Beyond Compare作为业界领先的文件比较工具,在试用期结束…...

Qwen3结合Transformer架构优化:提升视觉对话推理效率

Qwen3结合Transformer架构优化:提升视觉对话推理效率 最近在折腾大模型推理优化的时候,我发现一个挺有意思的现象:很多开发者拿到一个像Qwen3这样强大的视觉对话模型,第一反应就是直接跑起来用。这当然没问题,但当你真…...

C++20实战:如何用std::ranges::views::split高效处理字符串分割(附5个常见坑点)

C20实战:用std::ranges::views::split重构字符串处理的5个关键场景与避坑指南 在文本解析领域,字符串分割堪称代码中的"面包与黄油"操作。传统C开发者往往依赖boost::split或手写循环,但这些方法在C20标准面前突然显得笨拙——就像…...

MOOTDX:Python量化投资的终极通达信数据接口解决方案

MOOTDX:Python量化投资的终极通达信数据接口解决方案 【免费下载链接】mootdx 通达信数据读取的一个简便使用封装 项目地址: https://gitcode.com/GitHub_Trending/mo/mootdx MOOTDX是一个纯Python开发的通达信数据读取接口,为量化投资和金融数据…...

【研报241】豪恩汽电深度研究报告:智能驾驶感知龙头,机器人开启新增长曲线

本报告提供限时下载,请查看文后提示 以下仅为报告部分内容: 摘要:本报告系统讲解了豪恩汽电的核心业务、技术布局与增长潜力,让行业从业者与投资者深入了解其作为智能驾驶感知龙头的核心价值。公司深耕车载摄像、超声波雷达等产…...

Qwen3-32B-Chat百度搜索关键词布局:围绕‘Qwen3‘ ‘4090D‘ ‘私有部署‘构建内容网络

Qwen3-32B-Chat百度搜索关键词布局:围绕Qwen3 4090D 私有部署构建内容网络 1. Qwen3-32B私有部署镜像介绍 Qwen3-32B-Chat是一款专为RTX 4090D 24GB显存显卡优化的私有部署镜像,基于CUDA 12.4和驱动550.90.07深度优化。这个镜像内置了完整的运行环境和…...

【研报240】敏实集团深度研究报告:品类持续迭代的全球汽配龙头,AI时代迎来业务拓展

本报告提供限时下载,请查看文后提示以下仅为报告部分内容:摘要:本报告系统讲解了敏实集团的核心业务、全球化布局与新赛道潜力,让行业从业者与投资者深入了解其作为全球汽配龙头的核心价值。公司是全球最大电池盒及车身结构件供应…...

文脉定序系统Prompt工程指南:如何撰写指令优化排序结果

文脉定序系统Prompt工程指南:如何撰写指令优化排序结果 你是不是遇到过这种情况:让一个智能系统帮你排序或筛选信息,比如整理技术文档、筛选新闻,或者给搜索结果排个先后,但出来的结果总是不太对劲?要么是…...