当前位置：首页 > news >正文

YOLOv8模型ONNX格式INT8量化轻松搞定

news 2026/2/10 11:27:37

ONNX格式模型量化

深度学习模型量化支持深度学习模型部署框架支持的一种轻量化模型与加速模型推理的一种常用手段，ONNXRUNTIME支持模型的简化、量化等脚本操作，简单易学，非常实用。

ONNX 模型量化常见的量化方法有三种：动态量化、静态量化、感知训练量化，其中ONNXRUNTIME支持的动态量化机制非常简单有效，在保持模型精度基本不变的情况下可以有效减低模型的计算量，可以轻松实现INT8量化。


1. 动态量化：此方法动态计算激活的量化参数（刻度和零点）。
2. 静态量化：它利用校准数据来计算激活的量化参数。
3. 量化感知训练量化：在训练时计算激活的量化参数，训练过程可以将激活控制在一定范围内。

当前ONNX支持的量化操作主要有：

Opset版本最低不能低于10，低于10不支持，必须重新转化为大于opset>10的ONNX格式。模型量化与图结构优化有些是不能叠加运用的，模型开发者应该意识这点，选择适当的模型优化方法。

ONNXRUNTIME提供的模型量化接口有如下三个：

1. quantize_dynamic：动态量化
2. quantize_static：静态量化
3. quantize_qat：量化感知训练量化

FP16量化

首先需要安装好ONNX支持的FP16量化包，然后调用相关接口即可实现FP16量化与混合精度量化。安装FP16量化支持包命令行如下：

pip install onnx onnxconverter-common

实现FP16量化的代码如下：

import onnx
from onnxconverter_common import float16model = onnx.load("path/to/model.onnx")
model_fp16 = float16.convert_float_to_float16(model)
onnx.save(model_fp16,"path/to/model_fp16.onnx")

INT8量化

最简单的量化方式是动态量化与静态量化。选择感知训练量化机制，即可根据输入ONNX格式模型生成INT8量化模型，代码如下：

import onnx
from onnxruntime.quantization import quantize_qat, QuantTypemodel_fp32 = "path/to/model.onnx"
model_quant = "path/to/model.quant.onnx"# 加载FP32模型
onnx_model = onnx.load(model_fp32)# 进行量化
quantized_model = quantize_qat(model=onnx_model,quantization_type=QuantType.QInt8,force_fusions=True
)# 保存量化模型
onnx.save_model(quantized_model, model_quant)

案例说明

YOLOv8自定义模型ONNXINT8量化版本对象检测演示

以作者训练自定义YOLOv8模型为例，导出DM检测模型大小为，对比导出FP32版本与INT8版本模型大小，相关对比信息如下：

使用INT8版本实现DM码检测，运行截图如下：

ONNXRUNTIME更多演示

YOLOv8 对象检测 C++

YOLOv8实例分割模型 C++ 推理：

UNet语义分割模型 C++ 推理：

Mask-RCNN实例分割模型 C++ 推理：

YOLOv8姿态评估模型 C++ 推理：

人脸关键点检测模型 C++ 推理：

人脸关键点检测模型 Python SDK 推理：

学会用C++部署YOLOv5与YOLOv8对象检测，实例分割，姿态评估模型，TorchVision框架下支持的Faster-RCNN，RetinaNet对象检测、MaskRCNN实例分割、Deeplabv3 语义分割模型等主流深度学习模型导出ONNX与C++推理部署，轻松解决Torchvision框架下模型训练到部署落地难题。

YOLOv8模型ONNX格式INT8量化轻松搞定

ONNX格式模型量化

FP16量化

INT8量化

案例说明

ONNXRUNTIME更多演示

相关文章：

YOLOv8模型ONNX格式INT8量化轻松搞定

揭秘南卡开放式耳机创新黑科技，核心技术剑指用户痛点

ChatRule：基于知识图推理的大语言模型逻辑规则挖掘11.10

6.4翻转二叉树（LC226—送分题，前序遍历）

【斗罗二】霍雨浩拿下满分碾压戴华斌，动用家族力量，海神阁会议

通义千问, 文心一言, ChatGLM, GPT-4, Llama2, DevOps 能力评测

一键创建PDF文档，高效管理您的文件资料

React在 JSX 中进行条件渲染和循环，并使用条件语句和数组的方法（如 map）来动态生成组件或元素

数据结构-二叉树的遍历及相关应用

机器人入门（五）—— 仿真环境中操作TurtleBot

G2406C是一款高效的直流-直流降压开关稳压器，能够提供高达1A输出电流。

HTB——常见端口及协议总结

Spring Boot中处理简单的事务

source activate my_env 和conda activate my_env 有什么区别

机器学习模型超参数优化最常用的5个工具包！

出口美国操作要点汇总│走美国海运拼箱的注意事项│箱讯科技

Gateway网关

Python Opencv实践 - 车牌定位（纯练手，存在失败场景，可以继续优化）

U盘插在电脑上显示要格式化磁盘怎么办

Python使用腾讯云SDK实现对象存储（上传文件、创建桶）

第19节 Node.js Express 框架

地震勘探——干扰波识别、井中地震时距曲线特点

以下是对华为 HarmonyOS NETX 5属性动画（ArkTS）文档的结构化整理，通过层级标题、表格和代码块提升可读性：

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中，手势开发全攻略：

1.3 VSCode安装与环境配置

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

【AI学习】三、AI算法中的向量

浅谈不同二分算法的查找情况

【开发技术】.Net使用FFmpeg视频特定帧上绘制内容

Mac下Android Studio扫描根目录卡死问题记录