【TVM教程】使用 TVMC Micro 执行微模型
Apache TVM是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →https://tvm.hyper.ai/
作者:Andrew Reusch, Mehrdad Hessar
本教程介绍如何用 C runtime 自动调优模型。
安装 microTVM Python 依赖项
TVM 不包含用于 Python 串行通信包,因此在使用 microTVM 之前我们必须先安装一个。我们还需要TFLite来加载模型。
pip install pyserial==3.5 tflite==2.1# 如果下面的标志为 False,可以跳过下一节(安装 Zephyr)
# 安装 Zephyr 约花费20分钟
import osuse_physical_hw = bool(os.getenv("TVM_MICRO_USE_HW"))
安装 Zephyr
# 安装 west 和 ninja
python3 -m pip install west
apt-get install -y ninja-build# 安装 ZephyrProject
ZEPHYR_PROJECT_PATH="/content/zephyrproject"
export ZEPHYR_BASE=${ZEPHYR_PROJECT_PATH}/zephyr
west init ${ZEPHYR_PROJECT_PATH}
cd ${ZEPHYR_BASE}
git checkout v3.2-branch
cd ..
west update
west zephyr-export
chmod -R o+w ${ZEPHYR_PROJECT_PATH}# 安装 Zephyr SDK
cd /content
ZEPHYR_SDK_VERSION="0.15.2"
wget "https://github.com/zephyrproject-rtos/sdk-ng/releases/download/v${ZEPHYR_SDK_VERSION}/zephyr-sdk-${ZEPHYR_SDK_VERSION}_linux-x86_64.tar.gz"
tar xvf "zephyr-sdk-${ZEPHYR_SDK_VERSION}_linux-x86_64.tar.gz"
mv "zephyr-sdk-${ZEPHYR_SDK_VERSION}" zephyr-sdk
rm "zephyr-sdk-${ZEPHYR_SDK_VERSION}_linux-x86_64.tar.gz"# 安装 python 依赖
python3 -m pip install -r "${ZEPHYR_BASE}/scripts/requirements.txt"
导入 Python 依赖项
import json
import numpy as np
import pathlibimport tvm
from tvm.relay.backend import Runtime
import tvm.micro.testing
定义模型
首先在 Relay 中定义一个要在设备上执行的模型,然后从 Relay 模型中创建一个 IRModule,并用随机数填充参数。
data_shape = (1, 3, 10, 10)
weight_shape = (6, 3, 5, 5)data = tvm.relay.var("data", tvm.relay.TensorType(data_shape, "float32"))
weight = tvm.relay.var("weight", tvm.relay.TensorType(weight_shape, "float32"))y = tvm.relay.nn.conv2d(data,weight,padding=(2, 2),kernel_size=(5, 5),kernel_layout="OIHW",out_dtype="float32",
)
f = tvm.relay.Function([data, weight], y)relay_mod = tvm.IRModule.from_expr(f)
relay_mod = tvm.relay.transform.InferType()(relay_mod)weight_sample = np.random.rand(weight_shape[0], weight_shape[1], weight_shape[2], weight_shape[3]
).astype("float32")
params = {"weight": weight_sample}
定义 target
下面定义描述执行环境的 TVM target,它与其他 microTVM 教程中的 target 定义非常相似。不同之处是用 C Runtime 来生成模型。
在物理硬件上运行时,选择一个 target 和一个描述硬件的单板。在本教程的 PLATFORM 列表中可以选择多个硬件目标。运行本教程时用 –platform 参数来选择平台。
RUNTIME = Runtime("crt", {"system-lib": True})
TARGET = tvm.micro.testing.get_target("crt")# 为物理硬件编译
# --------------------------------------------------------------------------
# 在物理硬件上运行时,选择描述硬件的 TARGET 和 BOARD。
# 下面的示例中选择 STM32L4R5ZI Nucleo。
if use_physical_hw:BOARD = os.getenv("TVM_MICRO_BOARD", default="nucleo_l4r5zi")SERIAL = os.getenv("TVM_MICRO_SERIAL", default=None)TARGET = tvm.micro.testing.get_target("zephyr", BOARD)
提取调优任务
并非上面打印的 Relay 程序中的所有算子都可以调优,有些算子不是很重要,所以只定义了一个实现;其他的作为调优任务没有意义。用 extract_from_program,可以生成可调优任务列表。
因为任务提取涉及到运行编译器,所以首先配置编译器的转换 pass;之后在自动调优过程中应用相同的配置。
pass_context = tvm.transform.PassContext(opt_level=3, config={"tir.disable_vectorize": True})
with pass_context:tasks = tvm.autotvm.task.extract_from_program(relay_mod["main"], {}, TARGET)
assert len(tasks) > 0
配置 microTVM
自动调优前,要定义一个模块加载器,然后将它传递给 tvm.autotvm.LocalBuilder。创建一个 tvm.autotvm.LocalBuilder,并用 builder 和 runner 为自动调优器生成多个测试值。
本教程中可以选择用 x86 主机作为示例,或用来自 Zephyr RTOS 的不同 targets。若用 x86,则传递 –platform=host,也可以从 PLATFORM 列表中选择其他选项。
module_loader = tvm.micro.AutoTvmModuleLoader(template_project_dir=pathlib.Path(tvm.micro.get_microtvm_template_projects("crt")),project_options={"verbose": False},
)
builder = tvm.autotvm.LocalBuilder(n_parallel=1,build_kwargs={"build_option": {"tir.disable_vectorize": True}},do_fork=True,build_func=tvm.micro.autotvm_build_func,runtime=RUNTIME,
)
runner = tvm.autotvm.LocalRunner(number=1, repeat=1, timeout=100, module_loader=module_loader)measure_option = tvm.autotvm.measure_option(builder=builder, runner=runner)# 为物理硬件编译
if use_physical_hw:module_loader = tvm.micro.AutoTvmModuleLoader(template_project_dir=pathlib.Path(tvm.micro.get_microtvm_template_projects("zephyr")),project_options={"board": BOARD,"verbose": False,"project_type": "host_driven","serial_number": SERIAL,},)builder = tvm.autotvm.LocalBuilder(n_parallel=1,build_kwargs={"build_option": {"tir.disable_vectorize": True}},do_fork=False,build_func=tvm.micro.autotvm_build_func,runtime=RUNTIME,)runner = tvm.autotvm.LocalRunner(number=1, repeat=1, timeout=100, module_loader=module_loader)measure_option = tvm.autotvm.measure_option(builder=builder, runner=runner)
运行自动调优
下面在 microTVM 设备上对每个提取的任务单独运行自动调优。
autotune_log_file = pathlib.Path("microtvm_autotune.log.txt")
if os.path.exists(autotune_log_file):os.remove(autotune_log_file)num_trials = 10
for task in tasks:tuner = tvm.autotvm.tuner.GATuner(task)tuner.tune(n_trial=num_trials,measure_option=measure_option,callbacks=[tvm.autotvm.callback.log_to_file(str(autotune_log_file)),tvm.autotvm.callback.progress_bar(num_trials, si_prefix="M"),],si_prefix="M",)
为未调优的程序计时
为了方便比较,编译并运行不实施任何自动调优 schedule 的计算图,TVM 会为每个算子选择一个随机调优的实现,其性能不如调优的算子。
with pass_context:lowered = tvm.relay.build(relay_mod, target=TARGET, runtime=RUNTIME, params=params)temp_dir = tvm.contrib.utils.tempdir()
project = tvm.micro.generate_project(str(tvm.micro.get_microtvm_template_projects("crt")),lowered,temp_dir / "project",{"verbose": False},
)# 为物理硬件编译
if use_physical_hw:temp_dir = tvm.contrib.utils.tempdir()project = tvm.micro.generate_project(str(tvm.micro.get_microtvm_template_projects("zephyr")),lowered,temp_dir / "project",{"board": BOARD,"verbose": False,"project_type": "host_driven","serial_number": SERIAL,"config_main_stack_size": 4096,},)project.build()
project.flash()
with tvm.micro.Session(project.transport()) as session:debug_module = tvm.micro.create_local_debug_executor(lowered.get_graph_json(), session.get_system_lib(), session.device)debug_module.set_input(**lowered.get_params())print("########## Build without Autotuning ##########")debug_module.run()del debug_module
输出结果:
/workspace/python/tvm/driver/build_module.py:268: UserWarning: target_host parameter is going to be deprecated. Please pass in tvm.target.Target(target, host=target_host) instead."target_host parameter is going to be deprecated. "
########## Build without Autotuning ##########
Node Name Ops Time(us) Time(%) Shape Inputs Outputs Measurements(us)
--------- --- -------- ------- ----- ------ ------- ----------------
tvmgen_default_fused_nn_contrib_conv2d_NCHWc tvmgen_default_fused_nn_contrib_conv2d_NCHWc 310.0 98.73 (1, 2, 10, 10, 3) 2 1 [310.0]
tvmgen_default_fused_layout_transform_1 tvmgen_default_fused_layout_transform_1 3.031 0.965 (1, 6, 10, 10) 1 1 [3.031]
tvmgen_default_fused_layout_transform tvmgen_default_fused_layout_transform 0.958 0.305 (1, 1, 10, 10, 3) 1 1 [0.958]
Total_time - 313.988 - - - - -
为调优程序计时
自动调优完成后,用 Debug Runtime 为整个程序的执行计时:
with tvm.autotvm.apply_history_best(str(autotune_log_file)):with pass_context:lowered_tuned = tvm.relay.build(relay_mod, target=TARGET, runtime=RUNTIME, params=params)temp_dir = tvm.contrib.utils.tempdir()
project = tvm.micro.generate_project(str(tvm.micro.get_microtvm_template_projects("crt")),lowered_tuned,temp_dir / "project",{"verbose": False},
)# 为物理硬件编译
if use_physical_hw:temp_dir = tvm.contrib.utils.tempdir()project = tvm.micro.generate_project(str(tvm.micro.get_microtvm_template_projects("zephyr")),lowered_tuned,temp_dir / "project",{"board": BOARD,"west_cmd": "west","verbose": False,"project_type": "host_driven","serial_number": SERIAL,"config_main_stack_size": 4096,},)project.build()
project.flash()
with tvm.micro.Session(project.transport()) as session:debug_module = tvm.micro.create_local_debug_executor(lowered_tuned.get_graph_json(), session.get_system_lib(), session.device)debug_module.set_input(**lowered_tuned.get_params())print("########## Build with Autotuning ##########")debug_module.run()del debug_module
输出结果:
/workspace/python/tvm/driver/build_module.py:268: UserWarning: target_host parameter is going to be deprecated. Please pass in tvm.target.Target(target, host=target_host) instead."target_host parameter is going to be deprecated. "
########## Build with Autotuning ##########
Node Name Ops Time(us) Time(%) Shape Inputs Outputs Measurements(us)
--------- --- -------- ------- ----- ------ ------- ----------------
tvmgen_default_fused_nn_contrib_conv2d_NCHWc tvmgen_default_fused_nn_contrib_conv2d_NCHWc 193.2 98.657 (1, 6, 10, 10, 1) 2 1 [193.2]
tvmgen_default_fused_layout_transform_1 tvmgen_default_fused_layout_transform_1 1.778 0.908 (1, 6, 10, 10) 1 1 [1.778]
tvmgen_default_fused_layout_transform tvmgen_default_fused_layout_transform 0.851 0.435 (1, 3, 10, 10, 1) 1 1 [0.851]
Total_time - 195.83 - - - - -
下载 Python 源代码:micro_autotune.py
下载 Jupyter notebook:micro_autotune.ipynb
相关文章:
【TVM教程】使用 TVMC Micro 执行微模型
Apache TVM是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →https://tvm.hyper.ai/ 作者:Andrew Reusch, Mehrdad Hessar 本教程介绍如何用 C runtime 自动调优模型。 安装 microTVM Python 依赖项…...
spring boot 整合redis
1.在pom文件中添加spring-boot-starter-data-redis依赖启动器 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </dependency> 2.编写三个实体类 RedisHash("p…...
进程间信号
进程间信号 信号的认识信号的产生进程对信号的处理机制普通信号的处理机制实时信号的处理机制 信号集操作函数信号的捕捉 信号的认识 信号的概念: 信号是一种软件中断,它用于通知进程一个异步事件的发生。 这些事件可能来自系统内部(如硬…...
2011-2019年各省地方财政国债还本付息支出数据
2011-2019年各省地方财政国债还本付息支出数据 1、时间:2007-2019年 2、来源:国家统计局、统计年鉴 3、指标:行政区划代码、地区、年份、地方财政粮油物资储备管理等事务 4、范围:31省 5、指标说明:地方财政的国债…...
2025华为软件精英挑战赛2600w思路分享
这里写自定义目录标题 得分展示对象定义请求价值计算时间同步删除操作完整思路 得分展示 对象定义 // 将一个磁盘划分为多个基于标签聚合的区块 class Block{ public:int tag 0; // 区块标签int start_pos;int end_pos;int id;int use_size 0;int v;// 为区块确定范围Bloc…...
WEB安全-CTF中的PHP反序列化漏洞
什么是序列化? 简单来说序列化是将数组或对象转换成字符串的过程,这样的好处是利于对象存储与传输,在PHP中,序列化函数是serialize(),反序列化是unserialize() 无类序列化 无类序列化顾名思义就是不包含class的序列…...
【论文阅读】Co2l: Contrastive continual learning
原文链接:[2106.14413] Co$^2$L: Contrastive Continual Learning 阅读本文前,需要对持续学习的基本概念以及面临的问题有大致了解,可参考综述: Wang L, Zhang X, Su H, et al. A comprehensive survey of continual learning: …...
OpenMCU(五):STM32F103时钟树初始化分析
概述 本文主要描述了STM32F103初始化过程系统时钟的初始化,主要描述了系统时钟的初始化,AHB总线时钟,APB总线时钟等的初始化。 硬件板卡3d图 时钟树 STM32F103的时钟树,如下所示: 时钟源选择 从STM32F103的时钟树框图,我们可以…...
ISIS报文
IS-IS 报文 目录 IS-IS 报文 一、报文类型与功能 二、报文结构解析 三、核心功能特性 四、典型应用场景 五、抓包数据分析 六、总结 IS-IS(中间系统到中间系统)协议报文是用于链路状态路由协议中网络设备间交换路由信息的关键载体,其设…...
【Android】BluetoothSocket.connect () 的实现与协议栈交互源码解析
本文以 Android 蓝牙框架中的BluetoothSocket.connect()方法为切入点,深入剖析 Android 设备与远程蓝牙设备建立连接的全流程。从 Java 层的 API 调用出发,逐步追踪至 JNI 层的接口转发,最终进入 Buedroid 协议栈(RFCOMM/L2CAP 层),揭示蓝牙连接的核心机制。重点解析了权…...
首屏加载时间优化解决
🤖 作者简介:水煮白菜王(juejin/csdn同名) ,一位前端劝退师 👻 👀 文章专栏: 高德AMap专栏 ,记录一下平时学习在博客写作中记录,总结出的一些开发技巧✍。 感…...
RabbitMQ--延迟队列事务消息分发
目录 1.延迟队列 1.1应用场景 1.2利用TTL死信队列模拟延迟队列存在的问题 1.3延迟队列插件 1.4常见面试题 2.事务 2.1配置事务管理器 3.消息分发 3.1概念 3.2应用场景 3.2.1限流 3.2.2负载均衡 1.延迟队列 延迟队列(Delayed Queue),即消息被发送以后, 并…...
Linux服务器组建与管理
#!/bin/bash #判断是否是root用户if [ "$USER" ! "root" ]; then echo "不是root用户,无法进行安装操作" exit 1 fi#关闭防火墙systemctl stop firewalld && systemctl disable firewalld && echo "防火墙已经关…...
程序化广告行业(48/89):DSP与外部平台对接的关键要点解析
程序化广告行业(48/89):DSP与外部平台对接的关键要点解析 大家好!在之前的博客中,我们逐步深入了解了程序化广告行业的诸多知识。一直以来,我都希望能和大家一起在这个领域探索,不断进步&#…...
设计模式 Day 2:工厂方法模式(Factory Method Pattern)详解
继 Day 1 学习了单例模式之后,今天我们继续深入对象创建型设计模式——工厂方法模式(Factory Method)。工厂方法模式为对象创建提供了更大的灵活性和扩展性,是实际开发中使用频率极高的一种设计模式。 一方面,我们将简…...
自动驾驶浪潮下,HMI 设计如何保障安全与便捷?
自动驾驶系统与 HMI 设计的关联性 自动驾驶系统涵盖了一系列复杂的传感器技术、算法以及执行机构。从激光雷达、摄像头等环境感知传感器,到用于处理海量数据的人工智能算法,再到控制车辆行驶的动力与转向执行系统,各部分协同工作,…...
瑞昱RTD2556QR显示器驱动芯片
一、概述 RTD2556QR芯片是由Realtek公司精心研发的一款高性能显示驱动芯片,专为满足现代显示设备对高分辨率、多功能接口及稳定性能的需求而设计。该芯片凭借其卓越的技术特性和广泛的应用领域,在显示驱动市场中占据重要地位。它集成了多种先进的功能模…...
复合缩放EfficientNet原理详解
1. 为什么复合缩放更高效? (1)单维度缩放的瓶颈 增加深度(层数): 更深的网络可以学习更复杂特征,但容易导致梯度消失/爆炸问题,且计算量随深度线性增长。 问题:深层网络…...
线程等待与唤醒的几种方法与注意事项
写在前面:无论是调用哪种等待和唤醒的方法,都必须是当前线程所持有的对象,否则会导致 java.lang.IllegalMonitorStateException 等并发安全问题。 以三个线程循环打印 XYZ 为例。 一、方法 1.1 Object 对象锁 可以通过 synchronized 对方…...
rustdesk 客户端使用
配置中继服务器 RustDesk 搭建-CSDN博客 配置客户端,服务端(控制方,被控方) 1.下载rustdesk.exe(windows为例) 2.完成后如下 3.配置...
react+antd封装一个可回车自定义option的select并且与某些内容相互禁用
需求背景 一个select框 现在要求可多选 并且原有一个any的选项 其他选项为输入后回车自己增加 若选择了any 则其他选项不可选择反之选择其他选项any不可选择 并且回车新增时也不可直接加入到选中数组只加入到option内 并且不可重复添加新内容 实现过程 <Form.Item …...
碳化硅 MOSFET三相逆变电路损耗新算法
基 于 碳 化 硅 MOSFET三相逆变电路损耗新算法 摘 要 提出了一种三相逆变电路功率开关器件损耗计算的新方法.为了达到将高频电力电子电路和实时仿真算 法 相 结 合 应 用 于 嵌 入 式 实 时 仿 真 平 台 的 目 的 ,针 对 工 程 应 用 中 逆 变 器 损 耗 计 算 的 实…...
增加等IO状态的唤醒堆栈打印及缺页异常导致iowait分析
一、背景 在之前的博客 在计算进程D状态持续时间及等IO的时间遇到的一处问题-CSDN博客 里,我们修复了一处在抓取D状态及等IO状态堆栈的监控程序的一处时间计算bug,在这篇博客里,我们进一步丰富监控程序,在进程iodelay被唤醒时&am…...
nodejs:midi-writer-js 将基金净值数据转换为 midi 文件
开放式基金是没有公布每日交易量的。 /funds/data/660008.csv 文件开头: date,jz,ljjz 2016-01-04,1.1141,1.1141 2016-01-05,1.1161,1.1161 2016-01-06,1.1350,1.1350 这是一个将开放式基金数据转换为 MIDI音乐的 js 程序示例。该程序将基金净值映射为 MIDI音符的…...
新能源汽车空调系统(R134A)性能评估(一)
国内外主流空调系统厂家:贝尔、德尔福、空调国际、法雷奥、电装、松芝、杰信、新电、豫新等 泛亚汽车的空调电子部是比较优秀的整车空调研发团队。 空调系统综合试验台架是一套由试验室、风量测定装置、空气调和器、空气温度测定装置、湿度测定装置、加热器试验辅助…...
Oracle 数据库中优化 INSERT INTO 操作的性能
在 Oracle 数据库中优化 INSERT INTO 操作的性能,尤其是在处理大批量数据时,可以通过以下方法显著提升效率。 使用直接路径插入(Direct-Path Insert) 通过 APPEND 提示绕过缓冲区缓存,直接写入数据文件,减…...
Ubuntu 22.04安装MongoDB:GLM4模型对话数据收集与微调教程
在Ubuntu 22.04安装MongoDB Community Edition的教程请点击下方链接进行参考: 点击这里获取MongoDB Community Edition安装教程 今天将为大家带来如何微调GLM4模型并连接数据库进行对话的教程。快跟着小编一起试试吧~ 1. 大模型 ChatGLM4 微调步骤 1.1 从 github…...
Java 中的继承与多态:面向对象编程的核心特性
继承和多态是面向对象编程中最重要的两个概念,它们使代码结构更加清晰、灵活,并极大地提高了代码复用性。本文将深入探讨 Java 中的继承与多态,帮助你更好地理解这些核心概念。 1. 继承 1.1 为什么需要继承 在实际编程中,我们经…...
可编程增益放大器(PGA)在智能传感器自调节系统中的角色
在电子电路设计中,放大器芯片作为信号处理的核心器件,其性能直接影响系统整体表现。然而面对运算放大器、功率放大器、仪表放大器等众多类型,工程师常陷入选型困惑。作为国内领先的半导体解决方案提供商,华芯邦深耕放大器芯片领域…...
微信登录、商品浏览前瞻
一.业务效果 二.所需技术...
