当前位置：首页 > news >正文

模型部署笔记

news 2026/2/9 18:07:32

目录

模型部署工作
ONNX存在的意义
ONNX（Open Neural Network Exchange）
- ONNX示例
- 模型推理示例
- Batch调整
- 量化
- 量化方式
常见问题

模型部署工作

训练好的模型在特定软硬件平台下推理
针对硬件优化和加速的推理代码

训练设备平台：
CPU、GPU、DSP

ONNX存在的意义

模型与硬件之间的对应关系适配复杂度mxn的结果，导致开发复杂化、效率较低等问题

在这里插入图片描述
使用一种模型表达结构将训练框架的输出结构统一化，将模型部署复杂度从mxn转变为m+n

在这里插入图片描述
ONNX变身是一种模型格式，属于文本，不是程序，无法直接在设备上运行。因此，需要软件栈去加载ONNX模型，使其在硬件设备上高效推理。这个软件栈指的是模型的推理框架。推理框架分类硬件商自研和通用推理框架。自研推理框架底层优化较好，推理的计算效率较高，不具备普适性，无法应用到其他的芯片上。而通用推理框架是具备通用性，可应用在不同的软硬件平台下，降低开发难度，提升开发的效率，不需要用户关注底层框架，只需要将接口对应完成即可。
在这里插入图片描述整体推理过程：先使用模型框架训练完成模型后，转换为ONNX模型结构，在使用推理框架，将ONNX模型高效地运行在软硬件平台下。

ONNX（Open Neural Network Exchange）

一种针对机器学习所设计的开放式的文件格式，用于存储训练好的模型。不同的训练框架可采用相同格式存储模型并交互。由微软，亚马逊，Facebook和IBM等公司共同发起。
在这里插入图片描述

ONNX示例

使用torch.onnx.export进行onnx模型导出。
在这里插入图片描述
导出的onnx模型之后，进入netron.app进行模型结构可视化操作

在这里插入图片描述
ResNet的ONNX模型导出

参数讲解

模型推理示例

使用mmdeploy中示例，应用ONNX Runtime进行模型推理
在这里插入图片描述
使用TensorRT对ONNX模型进行推理

Batch调整

上述生成ONNX时，是使用（1, X,X,X）图像输入是1维度，导致模型推理时也为一张图一张图的推理，效率较慢，使用多张图进行模型推理，使用dynamic_axes参数即可实现。

在这里插入图片描述

在TensorRT模型数据格式转换中进行修改，minShapes和maxShapes参数设置

量化

除了使用Batch增加模型推理速度外，还可以使用量化进行加速。一般而言，使用float16不会影响模型的精度变化，而使用int8存储格式后模型精度会略有下降。
在这里插入图片描述

量化方式

训练后量化：Post-training quantization（PTQ）
训练时量化：Quantization-aware training（QAT）

如果使用的是QAT的话，是在模型训练过程中已经实现了模型精度的转换，使用onnx数据结构转换即可，而如果使用的是PTQ的话，需要在对应的计算平台上进行精度转换。

对称量化：取模型的数值对称区间，对应到INT8（-127，127）中，可以得到一个量化系数（简单理解为比例系数，127/6），从而将FP32中的数值与INT8进行对应。
在这里插入图片描述
在TensorRT中被称为calibration

常见问题

在这里插入图片描述

相关文章：

模型部署笔记

目录模型部署工作ONNX存在的意义ONNX（Open Neural Network Exchange）ONNX示例模型推理示例Batch调整量化量化方式常见问题模型部署工作训练好的模型在特定软硬件平台下推理针对硬件优化和加速的推理代码训练设备平台： CPU、GPU、DSP ONN…...

编程日记 2023/2/27 16:43:38

多线程之wait和notify

目录 1.wait()方法 2. notify方法因为线程之间是抢占式执行的，所以线程之间执行的先后顺序难以预知。但是实际开发中，我们希望线程之间的执行顺序是能被掌控的，比如线程2开始之前，需要线程1的某个任务先被执行。也就是说,很多时…...

编程日记 2023/2/27 16:42:32

MVCC 当前读快照读 RC read view RR下事务更新不会丢失

MVCC(multi-version-concurrent-control) MVCC是行锁的一个变种，但MVCC在很多情况下它避免了加锁。不是buffer块，而是buffer中的记录行。 MVCC (Multi-Version Concurrency Control) (注：与MVCC相对的，是基于锁的并发控制&#x…...

编程日记 2023/2/27 16:41:24

NCRE计算机等级考试Python真题（二）

第二套试题1、关于算法的描述，以下选项中错误的是A.算法具有可行性、确定性、有穷性的基本特征B.算法的复杂度主要包括时间复杂度和数据复杂度C.算法的基本要素包括数据对象的运算和操作及算法的控制结构D.算法是指解题方案的准确而完整的描述正确答案： …...

编程日记 2023/2/27 16:40:17

借助IBM Spectrum LSF为芯片行业大幅提升算力，预测未来

IBM Spectrum LSF 客户案例——上海开赟软件服务有限公司借助IBM Spectrum LSF为芯片行业大幅提升算力，预测未来业务影响中国芯片市场作为全球消费芯片市场重要组成部分，近年来发展迅猛。据国家统计局统计，2019年中国集成电路产量突破200…...

编程日记 2023/2/27 16:39:10

力扣-换座位

大家好，我是空空star，本篇带大家了解一道简单的力扣sql练习题。文章目录前言一、题目：626. 换座位二、解题1.正确示范①提交SQL运行结果2.正确示范②提交SQL运行结果3.正确示范③提交SQL运行结果4.正确示范④提交SQL运行结果5.其他总结前言 …...

编程日记 2023/2/27 16:38:00

DFT基本入门介绍

1.什么是DFT？2.为什么要做DFT？3.“测试”与“验证”的区别4.DFT的核心技术1)扫描路径设计（Scan Design）2)内建自测试（Bist）3)JTAG4)ATPG5.DFT工程师的岗位职责随着芯片的制程越来小(5nm), 芯片的规模越来越…...

编程日记 2023/2/27 16:36:54

做「增长」必须懂的6大关键指标

无论你所从事的是哪个行业，增长都不是一件易事，SaaS公司想要维持长期的增长更是难上加难。这是因为SaaS公司对未来回报的依赖程度更大，反观那些传统商业模式的公司，主要的收入来源都集中在产品购买交付的时点上，而客户…...

编程日记 2023/2/27 16:35:46

Linux：soft lockup 检测机制

1. 前言限于作者能力水平，本文可能存在谬误，因此而给读者带来的损失，作者不做任何承诺。 2. 分析背景本文分析基于 linux-4.14.132 内核代码分析，运行环境 Ubuntu 16.04.4 LTS QEMU ARM vexpress-a9 ，rootfs 基…...

编程日记 2023/2/27 16:33:35

天线理论知识4——非频变天线

目录简介自补结构巴比涅原理天线的描述常见的非频变天线简介所谓的非频变天线指的是天线的参数几乎不随着频率的改变而发生变化。自补结构天线的自补结构指的是：由无限大且无厚度的理想导电区域的自由空间中的非导电区域放置一起的结构称为自补结构。包含金属部分和非金…...

编程日记 2023/2/27 16:31:16

基础架构组件选型及服务化

常见的分布式基础架构组件分布式服务化框架，业界开源产品比如 Dubbo、Spring Cloud 这样的框架；分布式缓存及框架，业界如 Redis、Memcached，框架如 Codis 和 Redis Cluster；数据库及分布式数据库框架，这两…...

编程日记 2023/2/27 16:30:09

leetcode-每日一题-1247(中等，数学逻辑)

这道题当理解清了意思之后，只要是s1和s2的某位置的字母一样时我们就可以忽视比如s1"xxxxxxyyyy"; 就可以看成s1"xxxyyyy";s2"xxxyyyxxxx"; s2"yyyxxxx";其次就是只有当x和y位置差异产生的数量同奇偶的时候才可以构成相等字…...

编程日记 2023/2/27 16:28:57

前端面试题 —— 计算机网络（一）

目录一、常见的HTTP请求头和响应头二、HTTP状态码304是多好还是少好？ 三、OPTIONS请求方法及使用场景四、对keep-alive的理解五、HTTP协议的优点和缺点六、URL有哪些组成部分？ 七、HTTPS通信（握手）过程八、HTTPS的特…...

编程日记 2023/2/27 16:27:48

分布式-分布式缓存笔记

分布式系统缓存缓存分类前端缓存前端缓存包括页面和浏览器缓存，如果是 App，那么在 App 端也会有缓存。当你打开商品详情页，除了首次打开以外，后面重复刷新时，页面上加载的信息来自多种缓存。页面缓存属于客户端…...

编程日记 2023/2/27 16:26:41

【反序列化漏洞-01】为什么要序列化

为什么要序列化百度百科上关于序列化的定义是，将对象的状态信息转换为可以存储或传输的形式(字符串)的过程。在序列化期间，对象将其当前状态写入到临时或持久性存储区(非关系型键值对形式的数据库Redis，与数组类似)。以后，可以通过…...

编程日记 2023/2/27 16:25:33

用c语言模拟实现常用字符串函数

目录一.常用字符串函数介绍 1.strlen 2. strcpy 3.strcmp 4.strcat 5.strstr 二.模拟实现常用字符串函数 1.strlen 2.strcpy 3.strcmp 4.strcat 5.strstr 一.常用字符串函数介绍 1.strlen 字符串strlen是用来求字符串长度的，我们可以打开cpp网站查看有关…...

编程日记 2023/2/27 16:24:26

在 Flutter 中使用 webview_flutter 4.0 | 基础用法与事件处理

大家好，我是 17。 Flutter WebView 一共写了四篇文章在 Flutter 中使用 webview_flutter 4.0 | 基础用法与事件处理在 Flutter 中使用 webview_flutter 4.0 | js 交互Flutter WebView 性能优化，让 h5 像原生页面一样优秀，已入选掘金一周 …...

编程日记 2023/2/27 16:23:22

JavaWeb--Servlet

Servlet1 简介2 快速入门3 执行流程4 生命周期5 方法介绍6 体系结构7 urlPattern配置8 XML配置目标： 理解Servlet的执行流程和生命周期掌握Servlet的使用和相关配置 1 简介 Servlet是JavaWeb最为核心的内容，它是Java提供的一门动态web资源开发技术。使…...

编程日记 2023/2/27 16:22:15

Linux启动过程

theme: channing-cyan 两种启动方式传统启动方式（LEGACYMBR） 指传统BIOS启动方式，存在一些不足：比如最大只支持2TB磁盘，磁盘最多四个分区，且不支持图形操作 UEFIGPT方式是新式的启动方式&#xff0c…...

编程日记 2023/2/27 16:21:09

面试资料整理——C++

C/C难题的高赞回答「中文版」 https://mp.weixin.qq.com/s/KBEnrRVb1T6LfwHgaB4jiQ C/C难题的高赞回答「中文版」，帮你整理好了 https://mp.weixin.qq.com/s/o9MdENiasolVT-Fllag2_Q C语言与C面试知识总结 https://mp.weixin.qq.com/s/MGSoPqPv_OzyWBS5ZdnZgw 程…...

编程日记 2023/2/27 16:20:01

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中，iftop是网络管理的得力助手，能实时监控网络流量、连接情况等，帮助排查网络异常。接下来从多方面详细介绍它。目录【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

编程新知 2025/10/10 17:03:53

springboot 百货中心供应链管理系统小程序

一、前言随着我国经济迅速发展，人们对手机的需求越来越大，各种手机软件也都在被广泛应用，但是对于手机进行数据信息管理，对于手机的各种软件也是备受用户的喜爱，百货中心供应链管理系统被用户普遍使用，为方…...

编程新知 2026/2/8 20:41:49

23-Oracle 23 ai 区块链表（Blockchain Table）

小伙伴有没有在金融强合规的领域中遇见，必须要保持数据不可变，管理员都无法修改和留痕的要求。比如医疗的电子病历中，影像检查检验结果不可篡改行的，药品追溯过程中数据只可插入无法删除的特性需求；登录日志、修改日志…...

编程新知 2026/1/27 3:40:30

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2026/1/31 15:00:15

渗透实战PortSwigger靶场-XSS Lab 14：大多数标签和属性被阻止

<script>标签被拦截我们需要把全部可用的 tag 和 event 进行暴力破解 XSS cheat sheet： https://portswigger.net/web-security/cross-site-scripting/cheat-sheet 通过爆破发现body可以用再把全部 events 放进去爆破这些 event 全部可用 <body onres…...

编程新知 2026/1/24 13:05:24

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

编程新知 2026/1/26 21:57:45

【机器视觉】单目测距——运动结构恢复

ps：图是随便找的，为了凑个封面前言在前面对光流法进行进一步改进，希望将2D光流推广至3D场景流时，发现2D转3D过程中存在尺度歧义问题，需要补全摄像头拍摄图像中缺失的深度信息，否则解空间不收敛&#xf…...

编程新知 2026/2/8 3:03:01

【项目实战】通过多模态+LangGraph实现PPT生成助手

PPT自动生成系统基于LangGraph的PPT自动生成系统，可以将Markdown文档自动转换为PPT演示文稿。功能特点 Markdown解析：自动解析Markdown文档结构PPT模板分析：分析PPT模板的布局和风格智能布局决策：匹配内容与合适的PPT布局自动…...

编程新知 2026/2/3 22:50:07

[Java恶补day16] 238.除自身以外数组的乘积

给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。题目数据保证数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位整数范围内。请不要使用除法，且在 O(n) 时间复杂度…...

编程新知 2025/10/3 13:53:38

基于IDIG-GAN的小样本电机轴承故障诊断

目录 🔍 核心问题一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) 梯度归一化（Gradient Normalization） (2) 判别器梯度间隙正则化（Discriminator Gradient Gap Regularization） (3) 自注意力机制（Self-Attention） 3. 完整损失函数二…...

编程新知 2026/1/31 10:58:46