TVM前端研究--Relay
文章目录
- 深度学习IR梳理
- 1. IR属性
- 2. DL前端发展
- 3. DL编译器
- 4. DL编程语言
- Relay的主要内容
- 一、Expression in Relay
- 1. Dataflow and Control Fragments
- 2. 变量
- 3. 函数
- 3.1 闭包
- 3.2 多态和类型关系
- 3.3. Call
- 4. 算子
- 5. ADT Constructors
- 6. Moudle和Global Function
- 7. 常量和元组
- 8. Let Binding
- 9. Graph Bindings
- 10. If-Then-Else
- 11. ADT Matching
- 12. TempExprs
- 二、Type System in Relay
- 1. Algebrabic Data Type
- 2. Pattern Matching in Match Expressions
- 三、Relay Core Tensor Operators
- Relay Matching in Relay
- 四、优化
- 算子融合
- 量化
- 加速器相关优化
- 编译和执行
- 1)编译流程
- 2)部分执行
TVM前端之前用的NNVM,现在用的Relay,后面会往Relax和Unity方向转。先简单介绍一下Relay: A High-Level Compiler for Deep Learning。Relay的解释比较杂乱,按照论文和官方文档的解释它算是一个编译器框架或着IR(Intermediate Representation)。说是编译器框架有些大,说是IR他不单单可以做算子表示,还可以支持函数、类型等编程逻辑。简单来说,Relay作为TVM的前端表示是一种高阶的IR,不仅对算子和类型做了表示外还支持复杂的编程逻辑,类似于DSL(Domain-specific language),这是不同于其他简单的IR。Relay中定义了许多节点类型和函数类型,支持闭包,方便地对计算图进行描述。在TVM的运行过程中,用户会提供各种不同格式的模型如ONNX,TorchScript或者TFlite等,然后由解析器将这些类型转化为Relay格式,TVM提供的所有图优化操作会在Relay这种IR上进行操作,然后在将Relay转化为TIR来描述硬件相关的信息,Relay是后端无关的IR,不描述硬件信息。
深度学习IR梳理
1. IR属性
深度学习IR有三个挑战:1)表达能力,IR应该可以直接表示带有控制流、一阶函数、数据结构。2)兼容性,IR应该可以直接添加和整合新的优化操作。3)拓展性,他应该可以直接接入到新的设备中。Relay提供如下设计解决如上问题。首先,Relay IR是一个面向Tensor、静态类型的函数式IR,可以表达控制流、数据结构和一阶函数,提高表达能力。其二,将ML框架中的通用操作转化为编译Pass,这样就可以把传统编译器中的研究结果作为优化Pass利用起来,提高兼容性。其三,Relay提供了一种硬件无关的算子表示和领域相关的优化操作,确保了硬件之间的拓展性。
2. DL前端发展
DL早期是通过一些科学计算库如Numpy提供的低阶算子辅助编程的。模型会被表示为计算图,图中节点表示算子,边表示算子之间的数据流向。随着DL的发展,各大公司有了自己的开发框架如Tensorflow,Pyorch和编译器如XLA、Glow和TVM。这些框架可以分为支持静态图(static computation graphs)和支持动态图(dynamic computation graphs)两类。支持静态图的框架可以叫做先定义后运行(define-and-run),支持动态图的框架叫做边定义边运行(define-by-run)。支持静态图的框架对控制流和动态维度的模型支持不太友好,支持动态图的框架如Pytorch是借助python的特性边执行边构建计算图的,具有较高的表达能力,但是每次执行时都会重新构图,重新优化消耗巨大。
3. DL编译器
早期低阶的tensor编译器重点在于编写高性能算子如计算密集型的算子。对于代码的生成,比较新颖的设计就是计算分离架构,由TVM采用和多面体框架,由Tensor Comprehension等编译器采用。早期算子编译器的代码生成局限于标量循环嵌套,只能表示整个程序的一部分,忽视了内存管理、数据结构、闭包、控制流等细节。
现在的深度学习框架采用了编译器来处理性能和拓展性的问题,如XLA,GLow,nGraph和ONNC。这些图编译器通过计算图IRs,只做高阶的优化操作然后降阶到各种硬件或厂商指定的库上。降阶过程TF采用了MLIR,Pytorch引入了TorchScript。MLIR是一个共享的框架用于构建一组IR方言来实现编译器的的功能。Tensorflow通过为MLIR引入TF IR方言实现优化过程。TorchScript是一种类似于python语法的高阶IR,并作为Pytorch JIT编译器的的首层使用。PyTorch可以将程序改写为TorchScript格式,该格式可以由TorchScript VM执行或着通过JIT方式编译到目标平台。对于动态行为,TorchScript有一个分析JIT模式,可以在执行期间识别一个稳定的程序运行轨迹,这些稳定的静态轨迹可以进一步被一些低阶编译器优化。
4. DL编程语言
目前,针对机器学习的编程语言越来越多如JAX,Swift for Tensorflow和Lantern。Lantern是最接近Relay的编程语言,是一个深度学习DSL,可以作为代码生成器将代码降阶为C++或者CUDA代码。但是Lantern还不支持硬件加速器,也不专注于完整的程序优化。这些编程语言都是面向用户的DL编程环境的,并通过编译器IR生成代码。
Relay的主要内容
Relay是一个函数式的可微的编程语言,作为机器学习系统的IR使用。Relay支持代数数据类型、闭包、控制流和递归,相较于基于计算图的IR可以直接表示复杂的模型。Relay还包括一种使用类型关系的依赖类型,以便处理对参数形状有复杂要求的运算符的形状分析。

一、Expression in Relay</
相关文章:
TVM前端研究--Relay
文章目录 深度学习IR梳理1. IR属性2. DL前端发展3. DL编译器4. DL编程语言Relay的主要内容一、Expression in Relay1. Dataflow and Control Fragments2. 变量3. 函数3.1 闭包3.2 多态和类型关系3.3. Call4. 算子5. ADT Constructors6. Moudle和Global Function7. 常量和元组8.…...
STM32外设应用
STM32是基于ARM Cortex-M系列内核的微控制器,具有高性能、低功耗和丰富的外设资源。其广泛应用于物联网、工业控制、智能家居和嵌入式系统等领域。本文将简要介绍STM32常用外设的功能及应用实例,帮助大家更好地理解和使用STM32外设。 1. GPIO࿰…...
Docker 部署 Jaeger
Jaeger 的主要作用如下: 分布式追踪 Jaeger 是一个开源的分布式追踪系统,用于监控和排查微服务架构中的复杂问题。它可以跟踪请求在不同服务之间的传播路径,帮助开发者理解系统中各个组件之间的调用关系。 性能分析 通过收集和分析请求的执行…...
使用Python和OpenCV实现火焰检测
使用Python和OpenCV实现火焰检测 项目解释: 此 Python 代码是使用 OpenCV、线程、声音和电子邮件功能的火灾探测系统的简单示例。 以下是它的功能的简单描述: 导入库:代码首先导入必要的库: cv2:用于图像和视频处理…...
uniapp基础笔记
与html区别 uni-app简单来说是 vue的语法 小程序的api。 文件结构 html <!DOCTYPE html> <html><head><meta charset"utf-8" /><title></title><script type"text/javascript"></script><style t…...
函数基础,定义与调用。作用域,闭包函数
一、函数的定义与调用 函数是一段可重复使用的代码块,用于执行特定任务或计算等功能。它可以接受输入参数(形参),并根据参数执行操作后返回结果。 函数的定义 例如在 JavaScript 中可以这样定义函数: function fun…...
【Linux网络编程】 --- Linux权限理解
Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: Linux网络编程 🏠 shell命令以及运行原理 📌 引入例子理解shell 假设八里村有一个人叫张三,他的父亲是这个村的村长…...
Qt/C++ 调用迅雷开放下载引擎(ThunderOpenSDK)下载数据资源
目录导读 前言ThunderOpenSDK 简介参考 xiaomi_Thunder_Cloud 示例ThunderOpenSDK 下载问题 前言 在对以前老版本的exe执行程序进行研究学习的时候,发现以前的软件是使用的ThunderOpenSDK这个迅雷开放下载引擎进行的项目数据下载,于是在网上搜索一番找到…...
深入详解 Java - Spring MVC
在 Java 企业级开发领域,Spring MVC 是一个极为重要的框架,它为构建强大、灵活且高效的 Web 应用程序提供了坚实的基础。本文将深入详解 Java 之 Spring MVC,带你领略其强大之处。 一、Spring MVC 概述 Spring MVC 是 Spring 框架的一个重要模块,全称为 Spring Web Model-V…...
Spring Boot技术中小企业设备管理系统设计与实践
6系统测试 6.1概念和意义 测试的定义:程序测试是为了发现错误而执行程序的过程。测试(Testing)的任务与目的可以描述为: 目的:发现程序的错误; 任务:通过在计算机上执行程序,暴露程序中潜在的错误。 另一个…...
动态渲染组件
引言 在现代前端开发中,动态渲染组件是一种常见的需求,特别是在构建复杂的应用程序时。动态渲染组件允许我们在运行时根据不同的条件或数据来决定渲染哪个组件,从而提高代码的灵活性和可维护性。本文将详细介绍如何在 Vue.js 中实现动态渲染…...
一个神秘的新图像生成模型red_panda出现 轻松击败Midjourney与OpenAI
一个神秘的新图像生成模型在众包人工分析基准测试中击败了 Midjourney、黑森林实验室和 OpenAI 的模型。这个名为"red_panda"的模型在人工分析的文本到图像排行榜上领先排名第二的黑森林实验室的 Flux1.1 Pro 约 40 个 Elo 分数。 Artificial Analysis 使用 Elo&…...
云计算平台上的DevOps实践
文章目录 什么是DevOps云计算平台上的DevOps优势自动化部署弹性伸缩地理分布 实施DevOps的关键组件版本控制系统持续集成/持续交付工具配置管理工具监控和日志管理 实践案例使用AWS CodePipeline进行持续集成/持续交付利用AWS Auto Scaling实现弹性使用AWS CloudFormation进行基…...
JS新功能之:全新 Set 方法
JavaScript 的内置Set类将新增一些方法,以便执行集合论中常见的操作,包括: Set.prototype.intersection(other):返回两个集合的交集。 Set.prototype.union(other):返回两个集合的并集。 Set.prototype.difference(o…...
Flume的安装配置
一、上传解压 tar -zxvf apache-flume-1.9.0-bin.tar.gz -C /usr/local/soft/#***在环境变量中增加如下命令,可以使用 soft 快速切换到 /usr/local/soft***alias softcd /usr/local/soft/ 二、配置环境变量 soft #重命名 mv apache-flume-1.9.0-bin/ flume-1.9.0…...
3.1.3 虚存页面的映射
3.1.3 虚存页面的映射 文章目录 3.1.3 虚存页面的映射3.1.3 虚存页面的映射MmCreateVirtualMapping()MmCreateVirtualMappingUnsafe()MiFlushTlb()MmDeleteVirtualMapping()MmPageOu…...
【SSM详细教程】-14-SpringAop超详细讲解
精品专题: 01.《C语言从不挂科到高绩点》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12753294.html?spm1001.2014.3001.5482 02. 《SpringBoot详细教程》课程详细笔记 https://blog.csdn.net/yueyehuguang/category_12789841.html?spm1001.20…...
虚拟机桥接模式连不上,无法进行SSH等远程操作
说明:以下情况在window10上遇到,解决后顺便做了个笔记,以防后续再次用到,也给同道中人提供一个解决方案 一、首先按照以下步骤进行检查 1、是否连接了对应的wifi 2、是否设置了桥接模式 3、上述1、2确认无误的情况下请查看右上…...
jmeter基础01-1_环境准备-windows系统安装jdk
课程大纲 一、步骤解说 step1. jdk官网下载 Java Downloads | Oracle step2. 安装/解压(二选一) 1. 安装包格式(后缀.exe/.msi/.dmg):双击跟随界面向导安装,可以指定安装位置等。 2. 压缩包格式(后缀.z…...
第六天: C语言核心概念与实战技巧全解析
1 主函数(main) 大家好,今天我们来深入探讨一下C语言中非常特殊的一个函数——main函数。虽然大家对它并不陌生,但是它的重要性和特殊性值得我们再次回顾。 main函数的定义 main函数是我们整个C源程序的入口点。计算机在运行程…...
GPU内核优化技术:R3框架原理与实践
1. GPU内核优化基础与挑战在HPC和科学计算领域,GPU内核优化是提升计算效率的核心技术。内核(Kernel)作为GPU上执行的基本计算单元,其性能直接影响整个应用的运行时间。典型的优化手段包括循环展开、内存访问优化、指令级并行等&am…...
液态硅胶注塑加工供应商推荐
随着液态硅胶(LSR)在医疗、母婴、电子、汽车等多个领域的广泛应用,选择一个可靠的液态硅胶注塑加工供应商变得至关重要。作为天沅智能制造科技有限公司(简称TYM),我们不仅深耕于液态硅胶注射成型机械的设计…...
K8s原生ML编排进入“编译期优化”时代(SITS 2026首次披露:eBPF驱动的模型感知调度器Alpha版已交付头部5家云厂商)
更多请点击: https://intelliparadigm.com 第一章:AI原生Kubernetes编排:SITS 2026 K8s for ML工作负载 SITS 2026 引入了专为机器学习工作负载深度优化的 AI-native Kubernetes 编排层,突破传统 K8s 在资源弹性、异构设备调度与…...
别再花钱买服务器了!手把手教你用Sakura Frp免费搞定内网穿透(Windows保姆级教程)
零成本实现内网穿透:Windows平台实战指南 在个人开发和小型项目测试阶段,许多开发者都面临一个共同难题——如何将本地服务暴露到公网供临时访问?传统解决方案往往需要租用云服务器,不仅成本高昂,配置过程也相当复杂。…...
从业者必看:医药资质认证服务核心知识梳理
如果你是初创医疗器械贸易商创始人、医美诊所创业者、连锁药店负责人或是医药电商运营人员,正面临缺证无法入驻平台、自行办理流程繁琐反复被驳回、赶大促节点急需下证等问题,想要了解医药资质认证服务相关内容,这篇科普内容会为你梳理清楚全…...
从CelebA数据集到落地应用:一份给新手的MTCNN训练数据制作与模型训练全指南
从CelebA数据集到落地应用:MTCNN训练数据制作与模型训练全指南 人脸检测作为计算机视觉的基础任务,其精度直接影响后续的人脸识别、表情分析等应用效果。MTCNN(Multi-task Cascaded Convolutional Networks)作为经典的多任务级联人…...
可口可乐AI印相私密工作流首次公开(含内部CMYK预置包、罐体反光建模提示词库与印刷出血校准表)
更多请点击: https://intelliparadigm.com 第一章:可口可乐AI印相私密工作流的起源与战略价值 可口可乐AI印相私密工作流并非源于通用大模型的简单套用,而是其全球数字创新实验室在2022年启动的“Project Chroma”中孵化出的端到端隐私增强…...
Linux I2C设备驱动避坑指南:以MPU6050为例,解决i2c_transfer返回EIO错误
Linux I2C设备驱动深度排障:MPU6050的EIO错误全解析 调试嵌入式设备时,最令人沮丧的莫过于那些间歇性出现的错误。它们像幽灵一样时隐时现,让开发者陷入无尽的猜测和试错循环。MPU6050作为一款广泛使用的运动传感器,其I2C接口的稳…...
Linux下Cursor IDE智能安装器:企业级Bash脚本设计与实践
1. 项目概述:一个为Linux而生的Cursor IDE智能安装器如果你是一名在Linux环境下工作的开发者,并且对Cursor这款集成了AI辅助编程能力的现代IDE感兴趣,那么你很可能已经遇到过那个经典难题:如何优雅地在Linux上安装它?官…...
AI建站工具推荐:能建站只是开始,实测“全链路变现”才是关键
AI建站工具推荐:能建站只是开始,实测“全链路变现”才是关键 【引言:95%的建站工具都搞错了一件事】 最近我们拆解了市面上17款AI建站工具,发现一个扎心的数据: 超过80%的外贸网站,在上线3个月后依然没有…...
