当前位置：首页 > news >正文

使用预训练的 ONNX 格式的目标检测模型（基于 YOLOv8n-pose）姿态监测

news 2025/7/13 22:14:46

具体步骤如下：

加载图像：
- 从指定路径读取一张图像（这里假设图像名为bus.jpg）。
- 将图像从 BGR 颜色空间转换为 RGB 颜色空间。
图像预处理：
- 计算图像的高度、宽度，并确定其中的最大值作为新图像的边长。
- 创建一个全零的新图像，大小为最长边的正方形，将原始图像复制到新图像中，确保图像的边长是最长边的长度。
- 将新图像调整为640x640的大小，并进行转置和像素值归一化处理，最后添加一个维度以满足模型输入要求。
模型推理：
- 使用onnxruntime加载预训练的 ONNX 模型。
- 将预处理后的图像输入模型进行推理，得到模型的输出结果。
结果筛选：
- 对模型输出结果进行转置操作，然后根据置信度阈值筛选出置信度大于 0.8 的检测结果。
- 提取这些结果中的边界框信息和置信度，并使用 OpenCV 的非极大值抑制算法去除重叠的边界框，得到最终的检测结果。
绘制结果：
- 遍历最终的检测结果，对于每个检测结果，计算边界框的四个顶点坐标，并在原始图像上绘制矩形框。
- 将检测结果中除边界框和置信度之外的部分按照每三个元素一组进行分割，得到关键点信息。对于每个关键点，根据缩放比例计算其在原始图像中的坐标，并在图像上绘制一个红色的小圆点。
显示图像：
- 显示绘制了检测结果的图像。
- 等待用户按下任意键退出程序，并关闭所有窗口。

import cv2
import numpy as np
import onnxruntime as ort
from ultralytics import YOLO

导入了所需的库，包括 OpenCV（cv2）用于图像处理，numpy用于数值计算，onnxruntime用于加载和运行 ONNX 模型，以及ultralytics的YOLO类用于对象检测。

# model = YOLO('yolov8n-pose.pt')
# model.export(format='onnx')
img_path = ''
frame = cv2.imread('bus.jpg')

使用ultralytics的YOLO模型加载一个名为yolov8n-pose.pt的预训练模型，并将其导出为 ONNX 格式。随后，使用cv2.imread读取一张名为bus.jpg的图像，并将其存储在frame变量中。

rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
h, w, c = rgb_frame.shape
max_slide = max(h, w)
bg_img = np.zeros((max_slide, max_slide, 3), dtype=np.float32)
bg_img[:h, :w] = rgb_frame

将读取的图像从 BGR 颜色空间转换为 RGB 颜色空间。然后计算图像的高度、宽度和通道数，并找到高度和宽度中的较大值作为max_slide。创建一个全零的图像，大小为max_slide x max_slide x 3，然后将原始图像复制到这个新图像中，确保新图像的边长是图像最长边的长度。

image = cv2.resize(bg_img, dsize=(640, 640))
image = np.transpose(image, (2, 0, 1)) / 255
image = np.expand_dims(image, 0)
scale = max_slide / 640

将处理后的图像调整为640x640的大小。接着，对图像进行转置操作并将像素值归一化到[0, 1]范围，然后使用np.expand_dims在第一个维度上添加一个维度，以便符合模型输入的要求。同时，计算图像缩放比例。

session = ort.InferenceSession('yolov8n-pose.onnx', providers=['CPUExecutionProvider'])
input_name = session._inputs_meta[0].name
session_out = session.run(None, {input_name: image})[0][0]

使用onnxruntime加载名为yolov8n-pose.onnx的模型，并指定使用 CPU 进行推理。获取模型输入的名称，并将预处理后的图像输入模型进行推理，得到输出结果。

result = np.transpose(session_out, (1, 0))
result = result[result[:, 4] > 0.8]
bboxes = result[:, 0:4]
confs = result[:, 4]

对模型输出结果进行转置操作，然后筛选出置信度大于 0.8 的检测结果。提取出这些结果中的边界框信息和置信度。

idx = cv2.dnn.NMSBoxes(bboxes, confs, score_threshold=0.5, nms_threshold=0.3)
res = result[idx]

使用 OpenCV 的非极大值抑制（NMS）算法，对检测结果进行筛选，去除重叠的边界框。得到最终的检测结果。

for re in res:cx, cy, w, h = re[:4]x1 = (cx - w // 2) * scaley1 = (cy - h // 2) * scalex2 = (cx + w // 2) * scaley2 = (cy + h // 2) * scalex1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)conf = re[5]cv2.rectangle(frame, (x1, y1),( x2, y2), color=(0, 255, 1), thickness=3, lineType=cv2.LINE_AA)kpoints = np.split(re[5:], re[5:].shape[0] // 3)for kpoint in kpoints:x_, y_, visibility = kpointx_ = int(x_ * scale)y_ = int(y_ * scale)cv2.circle(frame, center=(x_, y_), radius=2, color=(0, 0, 255), thickness=2)

遍历最终的检测结果，对于每个检测结果，计算边界框的四个顶点坐标，并在原始图像上绘制矩形框。然后，将检测结果中除边界框和置信度之外的部分按照每三个元素一组进行分割，得到关键点信息。对于每个关键点，根据缩放比例计算其在原始图像中的坐标，并在图像上绘制一个红色的小圆点。

cv2.imshow('win', frame)
cv2.waitKey(0)
cv2.destroyAllWindows()

最后，显示处理后的图像，并等待用户按下任意键退出程序，关闭所有窗口。

完整代码如下：

import cv2
import numpy as np
import onnxruntime as ortfrom ultralytics import YOLO# model=YOLO('yolov8n-pose.pt')
# model.export(format='onnx')
img_path=''
frame=cv2.imread('bus.jpg')
rgb_frame = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
#
h, w, c = rgb_frame.shape
max_slide = max(h, w)
bg_img = np.zeros((max_slide, max_slide, 3), dtype=np.float32)
bg_img[:h, :w] = rgb_frame
# 640*640*3
image = cv2.resize(bg_img, dsize=(640, 640))
image = np.transpose(image, (2, 0, 1)) / 255
image = np.expand_dims(image, 0)
scale=max_slide/640
session=ort.InferenceSession('yolov8n-pose.onnx',providers=['CPUExecutionProvider'])
input_name=session._inputs_meta[0].name
session_out = session.run(None, {input_name:image})[0][0]
result=np.transpose(session_out,(1,0))
result=result[result[:,4]>0.8]
bboxes=result[:,0:4]
confs=result[:,4]
idx = cv2.dnn.NMSBoxes(bboxes, confs, score_threshold=0.5, nms_threshold=0.3)
res=result[idx]
for re in res:cx, cy, w, h = re[:4]x1 = (cx - w // 2) * scaley1 = (cy - h // 2) * scalex2 = (cx + w // 2) * scaley2 = (cy + h // 2) * scalex1, y1, x2, y2 = int(x1), int(y1), int(x2), int(y2)conf=re[5]#置信度cv2.rectangle(frame,(x1,y1),(x2,y2),color=(0,255,1),thickness=3,lineType=cv2.LINE_AA)kpoints=np.split(re[5:],re[5:].shape[0]//3)for kpoint in kpoints:x_,y_,visibility=kpointx_=int(x_*scale)y_=int(y_*scale)cv2.circle(frame, center=(x_, y_), radius=2, color=(0, 0, 255), thickness=2)
cv2.imshow('win',frame)
cv2.waitKey(0)
cv2.destroyAllWindows()

结果如下：

使用预训练的 ONNX 格式的目标检测模型（基于 YOLOv8n-pose）姿态监测

具体步骤如下：

加载图像：

图像预处理：

模型推理：

结果筛选：

绘制结果：

显示图像：

相关文章：

使用预训练的 ONNX 格式的目标检测模型（基于 YOLOv8n-pose）姿态监测

matlab实现模拟退火算法

【Prettier】代码格式化工具Prettier的使用和配置介绍

【计算机网络】网络基础

MFC在对话框中实现打印和打印预览

移动端页面出现闪屏

elasticsearch的高亮查询三种模式查询及可能存在的问题

【精品实战项目】深度学习预测、深度强化学习优化、附源码数据手把手教学

JavaScript 手写仿深拷贝

spring低版本设置cookie的samesite属性

GPT4o编写步进电机控制代码

关于Spring Boot的自动配置

## 已解决：`java.sql.SQLSyntaxErrorException: SQL语法错误` 异常的正确解决方法，亲测有效！！！ ###

备战秋招60天算法挑战，Day22

在Linux下搭建go环境

738.单调递增的数字

近年国际重大网络安全事件深度剖析：安全之路任重道远

Windows C++控制台菜单库开发与源码展示

ARM——驱动——Linux启动流程和Linux启动

Docker和虚拟机的区别详细讲解

家政维修平台实战20：权限设计

el-switch文字内置

基于数字孪生的水厂可视化平台建设：架构与实践

MySQL账号权限管理指南：安全创建账户与精细授权技巧

【生成模型】视频生成论文调研

回溯算法学习

Python Ovito统计金刚石结构数量

深度学习水论文：mamba＋图像增强

【Linux】Linux 系统默认的目录及作用说明

Golang——9、反射和文件操作