当前位置: 首页 > news >正文

tensorrt官方int8量化方法汇总

原理及操作

量化的基本原理及流程可参看懂你的神经网络量化教程:第一讲、量化番外篇、TensorRT中的INT8、tensorRT int8量化示例代码

Tensorrt

方式1:trtexec(PTQ的一种)

  1. int8量化
trtexec --onnx=XX.onnx --saveEngine=model.plan --int8 --workspace=4096
  • 精度损失很大,不建议直接采用;
  • trtexec 有提供 --calib=接口进行校正,但需要对中间特征进行cache文件保存,比较麻烦,官方文档也是采用上述方式进行int8量化;
  • 与fp16的模型在测试集上测试指标,可以看到精度下降非常严重;
  1. int8 fp16混合量化
trtexec --onnx=XX.onnx --saveEngine=model.plan --int8 --fp16 --workspace=4096
  • 测试集上统计指标:相比纯int8量化,效果要好,但是相比fp16,精度下降依然非常严重

方式2:PTQ

  1. engine序列化时执行

注:属于隐式量化

1.1 python onnx转trt

  • 操作流程:按照常规方案导出onnx,onnx序列化为tensorrt engine之前打开int8量化模式并采用校正数据集进行校正;

  • 优点:1. 导出onnx之前的所有操作都为常规操作;2. 相比在pytorch中进行PTQ int8量化,所需显存小;

  • 缺点:1. 量化过程为黑盒子,无法看到中间过程;2. 校正过程需在实际运行的tensorrt版本中进行并保存tensorrt engine;3.量化过程中发现,即使模型为动态输入,校正数据集使用时也必须与推理时的输入shape[N, C, H, W]完全一致,否则,效果非常非常差,动态模型慎用

  • 操作示例参看onnx2trt_ptq.py

1.2 polygraphy工具:应该是对1.1量化过程的封装

  • 操作流程,按照常规方案导出onnx,onnx序列化为tensorrt engine之前打开int8量化模式并采用校正数据集进行校正;

  • 优点:1. 相较于1.1,代码量更少,只需完成校正数据的处理代码;

  • 缺点:1. 同上所有; 2. 动态尺寸时,校正数据需与–trt-opt-shapes相同;3.内部默认最多校正20个epoch;

  • 安装polygraphy

    pip install colored polygraphy --extra-index-url https://pypi.ngc.nvidia.com
    
  • 量化

polygraphy convert XX.onnx --int8 --data-loader-script loader_data.py --calibration-cache XX.cache -o XX.plan --trt-min-shapes images:[1,3,384,1280] --trt-opt-shapes images:[26,3,384,1280] --trt-max-shapes images:[26,3,384,1280] #量化
  • loader_data.py为较正数据集加载过程,自动调用脚本中的load_data()函数:
  1. pytorch中执行(推荐)

注:在pytorch中执行导出的onnx将产生一个明确量化的模型,属于显示量化

  • 操作流程:安装pytorch_quantization库->加载校正数据->加载模型(在加载模型之前,启用quant_modules.initialize() 以保证原始模型层替换为量化层)->校正->导出onnx;

  • 优点:1. 通过导出的onnx能够看到每层量化的过程;2. onnx导出为tensort engine时可以采用trtexec(注:命令行需加–int8,需要fp16和int8混合精度时,再添加–fp16),比较简单;3. pytorch校正过程可在任意设备中进行;4.相较上述方法,校正数据集使用shape无需与推理shape一致,也能获得较好的结果,动态输入时,推荐采用此种方式。

  • 缺点:导出onnx时,显存占用非常大;

  • 操作示例参看:pytorch模型进行量化导出yolov5_pytorch_ptq.py

方式3:QAT(追求精度时推荐)

注:在pytorch中执行导出的onnx将产生一个明确量化的模型,属于显式量化

  • 操作流程:安装pytorch_quantization库->加载训练数据->加载模型(在加载模型之前,启用quant_modules.initialize() 以保证原始模型层替换为量化层)->训练->导出onnx;

  • 优点:1. 模型量化参数重新训练,训练较好时,精度下降较少; 2. 通过导出的onnx能够看到每层量化的过程;2. onnx导出为tensort engine时可以采用trtexec(注:命令行需加–int8,需要fp16和int8混合精度时,再添加–fp16),比较简单;3.训练过程可在任意设备中进行;

  • 缺点:1.导出onnx时,显存占用非常大;2.最终精度取决于训练好坏;3. QAT训练shape需与推理shape一致才能获得好的推理结果;4. 导出onnx时需采用真实的图片输入作为输入设置

  • 操作示例参看yolov5_pytorch_qat.py感知训练,参看export_onnx_qat.py

总结

  • int8量化对小目标检测影响较大;
  • int8量化相比fp16量化推理时间并不会节省一半,需实测;
  • 当fp16推理时间满足要求时,请采用fp16量化;

相关文章:

tensorrt官方int8量化方法汇总

原理及操作 量化的基本原理及流程可参看懂你的神经网络量化教程:第一讲、量化番外篇、TensorRT中的INT8、tensorRT int8量化示例代码 Tensorrt 方式1:trtexec(PTQ的一种) int8量化 trtexec --onnxXX.onnx --saveEnginemodel.…...

21、p6spy输出执行SQL日志

文章目录 1、背景2、简介3、接入3.1、 引入依赖3.2、修改database参数:3.3、 创建P6SpyLogger类,自定义日志格式3.4、添加spy.properties3.5、 输出样例 4、补充4.1、参数说明 1、背景 在开发的过程中,总希望方法执行完了可以看到完整是sql语…...

实力认证!TDengine 入选 Gartner 中国数据分析与人工智能技术成熟度曲线

近日,国际权威研究机构 Gartner 发布了《2023 年中国数据分析及人工智能技术成熟度曲线》(即《Hype Cycle for Data, Analytics and AI in China, 2023》)报告,TDengine 成功入选实时数据管理领域代表产品。 作为评估全球新技术成…...

如何将jar包部署到宝塔

尝试多种方式上传,但启动一直失败,这种方式亲测是好使的 项目内修改位置 在pom.xml文件中将mysql的scope改成provided,如果是固定的版本号会出现问题 之后就可以打包啦,直接点击maven中的package 找到打包文件的位置&#xff…...

el-tree-select那些事

下拉菜单树形选择器 用于记录工作及日常学习涉及到的一些需求和问题 vue3 el-tree-select那些事 1、获取el-tree-select选中的任意层级的节点对象 1、获取el-tree-select选中的任意层级的节点对象 1-1数据集 1-2画面 1-3代码 1-3-1画面代码 <el-tree-selectv-model"s…...

分布式任务调度框架之开山鼻祖:Quartz

1.简介 最近我司上线使用了分布式任务调度框架&#xff1a;XXL-JOB&#xff0c;方便对任务的管理控制。本来一开始就想讲述一下该框架&#xff0c;但是在学习了解过程中发现该框架式基于Quartz思想开发实现的&#xff0c;Quartz 是一个很火的开源任务调度框架&#xff0c;完全…...

Django实现音乐网站 ⑺

使用Python Django框架制作一个音乐网站&#xff0c; 本篇主要是后台对歌手原有实现功能的基础上进行优化处理。 目录 新增编辑 表字段名称修改 隐藏单曲、专辑数 姓名首字母 安装xpinyin 获取姓名首字母 重写保存方法 列表显示 图片显示处理 引入函数 路径改为显示…...

PO、DTO和VO的区别

PO&#xff1a;Persistence Object&#xff0c;是持久化对象&#xff0c;也叫实体对象&#xff08;Entity&#xff09;&#xff0c;是对象到关系表的映射。在关系型数据库中&#xff0c;每张表对应着一个PO&#xff0c;PO 中的属性值与表中数据一一对应&#xff0c;通过数据访问…...

ReadableStream流的js处理

需求 今天接了一个gpt的项目。需要对接接口。后端返回的数据是ReadableStream类型的。记录下如何处理ReadableStream类型的数据 代码 const response ... // response 是服务端返回的数据// 创建了一个数据读取器 const reader response.getReader(); // 创建了一个文本解…...

图扑软件入选 2023 中国信通院“铸基计划”全景图

7 月 27 日&#xff0c;由中国信通院主办的“2023 数字生态发展大会”暨中国信通院“铸基计划”年中会议在北京召开。本次大会重磅发布了《高质量数字化转型产品及服务全景图&#xff08;2023 上半年度&#xff09;》。图扑软件凭借自研 HT for Web 数字孪生可视化产品成功入选…...

Go Fyne:一种现代的,跨平台的 GUI 开发工具集

Fyne 是一个用 Go 语言写的&#xff0c;提供丰富&#xff0c;现代化的用户界面&#xff08;UI&#xff09;的开发工具集。Fyne 提供了一种简单而直观的方式来构建应用程序&#xff0c;并且注意到它是跨平台的&#xff0c;可以在 Windows&#xff0c;macOS&#xff0c;Linux&…...

React Dva 操作models中的subscriptions讲述监听

接下来 我们来看一个models的属性 之前没有讲到的subscriptions 我们可以在自己有引入的任意一个models文件中这样写 subscriptions: {setup({ dispatch, history }) {console.log(dispatch);}, },这样 一进来 这个位置就会触发 这里 我们可以写多个 subscriptions: {setup…...

标准化归一化 batch norm, layer norm, group norm, instance norm

Layer Normalization - EXPLAINED (in Transformer Neural Networks) Layer Normalization - EXPLAINED (in Transformer Neural Networks) 0~4min:什么是multi-head attention 5~7min:layer norm图示 7~9min:公式举例layer norm 9:54-end:layer norm的代码示例 group n…...

Zabbix监控系统详解及配置

前言 作为一个运维&#xff0c;需要会使用监控系统查看服务器状态以及网站流量指标&#xff0c;利用监控系统的数据去了解上线发布的结果&#xff0c;和网站的健康状态。利用一个优秀的监控软件&#xff0c;我们可以&#xff1a; 通过一个友好的界面进行浏览整个网站所有的服务…...

【100天精通python】Day29:文件与IO操作_XML文件处理

目录 专栏导读 一、XML文件概述 1. 标签和元素 2. 嵌套结构 3. 属性 4. 命名空间 5. CDATA节 6. 注释 7. 验证与验证语言 8. 扩展性 二、XML文件处理常见操作 1. 解析XML文件 2. 创建和编辑XML文件 3. 修改XML文件 4. 查询XML元素 5 遍历XML元素 6. 删除XML元…...

人工智能的未来:探索下一代生成模型

推荐&#xff1a;使用 NSDT场景编辑器 助你快速搭建可编辑的3D应用场景 生成式 AI 目前能够做什么&#xff0c;以及探索下一波生成式 AI 模型需要克服的当前挑战&#xff1f; 如果你跟上科技世界的步伐&#xff0c;你就会知道生成式人工智能是最热门的话题。我们听到了很多关于…...

C++ 运算符重载为非成员函数

运算符也可与重载为非成员函数。这时运算所需要的操作数都需要通过函数的形参表来传递&#xff0c;在形参表中形参从左到右的顺序就是运算符操作数的顺序。如果需要访问运算符参数对象的私有成员&#xff0c;可以将该函数声明为友元函数。 【提示】不用机械地将重载运算符的非…...

[国产MCU]-BL602开发实例-定时器

定时器 文章目录 定时器1、BL602定时器介绍2、定时器驱动API介绍3、定时器使用实例3.1 单次计时3.2 持续计时通用定时器,用于定时,当时间到达我们所设置的定时时间会产生定时中断,可以用来完成定时任务。本文将详细介绍如何使用BL602的定时器功能。 1、BL602定时器介绍 BL6…...

re学习(29)攻防世界-CatFly(复原反汇编)

因为这是一个.dll文件&#xff0c;在Linux上运行一下&#xff1a; 找到主要函数&#xff1a;&#xff08;以及由上面三部分对应的代码部分&#xff09; __int64 __fastcall main(int a1, char **a2, char **a3) {size_t v3; // rbx__int16 v5[4]; // [rsp10h] [rbp-4B0h] B…...

Android WIFI-概率性不能自连

1.连上wifi时同步保存wifi密码,避免连上wifi后马上断电重启由于密码没保存导致不能自动重连wifi packages/modules/Wifi/service/java/com/android/server/wifi/SupplicantStaIfaceHal.java @@ -66,6 +66,7 @@ import com.android.server.wifi.WifiNative.SupplicantDeathEve…...

书匠策AI官网www.shujiangce.com|别再熬夜抠格式了!这个AI工具让期刊论文写起来像“开外挂“

各位还在论文苦海里挣扎的宝子们&#xff0c;我是你们的论文老司机。 今天不聊选题&#xff0c;不聊开题&#xff0c;咱们来聊一个被90%的研究生忽略的神器——书匠策AIhttp://ww 官网直达&#xff1a;www.shujiangce.com里的期刊论文功能。 你是不是也经历过这种崩溃时刻&a…...

【独家首发】ElevenLabs尚未官方支持的希伯来文增强模式:基于phoneme-level微调的48小时快速部署方案

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;希伯来文语音合成的技术挑战与ElevenLabs生态定位 希伯来文是一种自右向左&#xff08;RTL&#xff09;书写的辅音音素文字&#xff0c;其语音合成面临多重语言学与工程学挑战&#xff1a;元音符号&…...

终极Windows多任务解决方案:悬浮透明浏览器如何提升300%工作效率?

终极Windows多任务解决方案&#xff1a;悬浮透明浏览器如何提升300%工作效率&#xff1f; 【免费下载链接】glass-browser A floating, always-on-top, transparent browser for Windows. 项目地址: https://gitcode.com/gh_mirrors/gl/glass-browser 你是否厌倦了在多个…...

从零构建高性能内存键值存储:Memvault架构设计与实现详解

1. 项目概述&#xff1a;一个为内存数据打造的“保险箱”最近在折腾一些需要处理大量临时数据的项目&#xff0c;比如实时计算、缓存中间层&#xff0c;还有那种对延迟极其敏感的游戏服务器。这类场景下&#xff0c;Redis这类内存数据库是首选&#xff0c;但总感觉有点“杀鸡用…...

轻量级AI工具库aiclublight:从零解析微型深度学习框架的设计与实现

1. 项目概述&#xff1a;一个轻量级AI工具库的诞生最近在GitHub上闲逛&#xff0c;发现了一个挺有意思的项目&#xff0c;叫aiclublight&#xff0c;作者是Dimks777。光看名字&#xff0c;大概就能猜到&#xff0c;这应该是一个和人工智能俱乐部或者AI相关的、主打轻量化的工具…...

跨越网络鸿沟:Qt Creator配置CDB实现远程调试实战

1. 为什么需要远程调试&#xff1f; 在嵌入式开发或者跨平台开发中&#xff0c;我们经常会遇到这样的场景&#xff1a;开发环境在本地PC上&#xff0c;但目标程序需要运行在远程设备上。比如开发一个工业控制软件&#xff0c;本地使用Qt Creator开发&#xff0c;但最终程序要部…...

欢迎使用Marp CLI

欢迎使用Marp CLI 【免费下载链接】marp-cli A CLI interface for Marp and Marpit based converters 项目地址: https://gitcode.com/gh_mirrors/ma/marp-cli 第二页幻灯片 列表项1列表项2列表项3 代码演示 def hello_world():print("Hello from Marp CLI!"…...

纸张计数技术深度解析:基于STM32与FDC2214的高精度电容传感系统架构剖析

纸张计数技术深度解析&#xff1a;基于STM32与FDC2214的高精度电容传感系统架构剖析 【免费下载链接】2019-Electronic-Design-Competition 【电赛】2019 全国大学生电子设计竞赛 &#xff08;F题&#xff09;纸张数量检测装置 &#xff08;基于STM32F407 & FDC2214 & …...

ElevenLabs 2024定价突变预警(附迁移成本计算器):Voice Cloning商用授权条款升级对SaaS产品的3重合规冲击

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;ElevenLabs定价策略分析 核心订阅层级与功能边界 ElevenLabs 当前采用三层订阅模型&#xff08;Starter、Creator、Professional&#xff09;&#xff0c;各层级在语音生成时长、并发请求、自定义声音…...

基于全志T527开发板的手势识别:OpenCV部署与轮廓匹配实战

1. 项目概述与硬件平台选择最近在做一个嵌入式视觉项目&#xff0c;需要在一块开发板上实现实时的手势识别功能。选型时&#xff0c;我重点考察了算力、接口丰富度和社区支持。最终&#xff0c;米尔电子的MYD-LT527开发板进入了我的视线。这块板子核心是全志T527处理器&#xf…...