当前位置：首页 > article >正文

YOLO26-Pose端到端部署：告别NMS！人体与工业部件关键点检测实战

article 2026/3/23 20:34:21

做关键点检测的同学肯定都被NMS后处理折腾过尤其是边缘部署的时候NMS不仅耗时占比能到30%不同框架的NMS实现还不一样很容易出现精度对齐问题改半天都对不齐训练时的效果。上个月做消费电子厂的连接器引脚平整度检测项目我用了YOLO26-Pose第一次体会到什么叫部署爽完全不需要NMS后处理只需要做个阈值过滤10行代码就能写完推理逻辑在RK3588上跑到68FPS比之前用的YOLOv8-Pose快了32%引脚关键点的检测精度还高了2.1%。今天就把YOLO26-Pose的实战部署流程分享给大家不管是人体关键点还是工业部件关键点检测部署效率至少提升一倍。一、YOLO26-Pose的核心优势真·端到端无NMS之前的YOLO-Pose系列虽然也是端到端训练但推理的时候还是需要用NMS去重检测框本质上还是Anchor-based的思路而YOLO26-Pose做了两个核心改进彻底干掉了NMSOne-to-One标签分配每个GT目标只分配一个正样本不会出现多个预测框对应同一个目标的情况自然不需要NMS去重检测框关键点联合预测每个输出头同时预测检测框坐标、置信度和关键点坐标后处理只需要过滤置信度低于阈值的结果就行这个改进对部署太友好了后处理逻辑从几十行变成10行以内不需要适配不同框架的NMS插件边缘端部署的时候速度提升特别明显而且不会出现NMS导致的精度损失。二、实战场景1人体关键点检测先拿大家最熟悉的COCO人体关键点检测举例从训练到部署全流程。2.1 训练YOLO26的官方库已经内置了Pose的配置直接用就行训练命令和普通YOLO一样# 训练人体关键点模型yolo trainmodelyolov26n-pose.yamldatacoco-pose.yamlepochs100batch32imgsz640我训练的YOLO26n-Pose在COCO val上的mAP是68.2%比YOLOv8n-Pose高1.5%推理速度还快了20%。2.2 模型导出重点来了导出的时候不需要任何NMS插件直接导出纯ONNX模型就行yoloexportmodelyolov26n-pose.ptformatonnxsimplifyTrueopset11导出的ONNX模型输出只有一个Tensor形状是(1, 20160, 17*35)其中20160是预测框的数量前5个值是x1,y1,x2,y2,conf后面是17个关键点的x,y,conf2.3 推理代码实现推理代码特别简单10行就能搞定后处理importcv2importnumpyasnpimportonnxruntimeasrtclassYOLO26Pose:def__init__(self,model_path,conf_thres0.5):self.sessionrt.InferenceSession(model_path,providers[CPUExecutionProvider])self.conf_thresconf_thres self.input_size(640,640)self.num_kpts17# COCO人体关键点数量defpreprocess(self,img_path):imgcv2.imread(img_path)self.org_h,self.org_wimg.shape[:2]# 等比例缩放填充scalemin(self.input_size[0]/self.org_h,self.input_size[1]/self.org_w)new_h,new_wint(self.org_h*scale),int(self.org_w*scale)img_resizedcv2.resize(img,(new_w,new_h))pad_h,pad_w(self.input_size[0]-new_h)//2,(self.input_size[1]-new_w)//2img_paddedcv2.copyMakeBorder(img_resized,pad_h,self.input_size[0]-new_h-pad_h,pad_w,self.input_size[1]-new_w-pad_w,cv2.BORDER_CONSTANT,value(114,114,114))# 归一化img_inputimg_padded.transpose(2,0,1)[np.newaxis,:,:,:].astype(np.float32)/255.0returnimg_input,scale,pad_h,pad_wdefpredict(self,img_path):img_input,scale,pad_h,pad_wself.preprocess(img_path)outputsself.session.run(None,{self.session.get_inputs()[0].name:img_input})[0][0]# 后处理只过滤置信度不需要NMSresultsoutputs[outputs[:,4]self.conf_thres]keypoints_results[]forresinresults:# 还原检测框坐标x1int((res[0]-pad_w)/scale)y1int((res[1]-pad_h)/scale)x2int((res[2]-pad_w)/scale)y2int((res[3]-pad_h)/scale)confres[4]# 还原关键点坐标kpts[]foriinrange(self.num_kpts):kxint((res[5i*3]-pad_w)/scale)kyint((res[5i*31]-pad_h)/scale)kconfres[5i*32]kpts.append((kx,ky,kconf))keypoints_results.append({box:[x1,y1,x2,y2],conf:conf,keypoints:kpts})returnkeypoints_results看到没完全没有NMS的代码直接过滤置信度就行后处理耗时不到1ms比YOLOv8-Pose的后处理快了5倍以上。三、实战场景2工业部件关键点检测我做的连接器引脚平整度检测项目需要检测连接器上12个引脚的坐标计算引脚之间的高度差要求精度误差小于1像素速度大于50FPS。3.1 数据集标注用LabelMe标注每个引脚的关键点标注格式和COCO-Pose一样每个目标12个关键点总共收集了1200张训练集300张测试集。3.2 模型配置修改复制yolov26n-pose.yaml修改关键点数量nc:1# 只有连接器一个类别kpt_shape:[12,3]# 12个关键点每个点x,y,conf三个值scales:n:[0.33,0.25,1024]3.3 训练与结果训练命令和人体关键点一样yolo trainmodelyolov26n-pose-connector.yamldataconnector-pose.yamlepochs80batch32最终测试集的关键点精度是98.7%坐标误差小于0.8像素完全满足要求。3.4 部署到RK3588导出ONNX之后转成RKNN模型部署到RK3588上实测速度是68FPS比之前用YOLOv8-Pose的51FPS快了32%后处理耗时从1.2ms降到了0.2ms边缘端的优势特别明显。四、性能对比我做了几个主流Pose模型的对比测试硬件是RK3588输入分辨率640×640模型精度mAP推理速度FPS后处理耗时是否需要NMSYOLOv8n-Pose66.7%511.2ms是YOLOv11n-Pose67.4%561.1ms是YOLO26n-Pose68.2%680.2ms否YOLO26s-Pose73.5%420.2ms否可以看到YOLO26-Pose在精度更高的情况下速度快了20%-30%后处理耗时几乎可以忽略部署起来特别省心。五、落地避坑指南关键点标注要严格对齐工业场景的关键点检测对标注要求特别高同一个部件的关键点顺序不能乱不然模型学不到正确的特征我最开始就是有几百张图标注顺序反了精度一直上不去改了标注之后精度直接涨了8%不要对关键点坐标做归一化训练的时候关键点坐标直接用像素值就行不要归一化到0-1不然边缘的关键点精度会掉很多导出模型的时候不要加NMS插件很多人习惯导出的时候加NMSYOLO26-Pose完全不需要加了反而会出错因为本来就没有重复框小目标关键点选高分辨率特征层如果检测的是小部件的关键点可以把输出头改到P2层分辨率更高关键点精度更高当然速度会稍微慢一点我做引脚检测的时候就是用的P2层输出精度涨了3%速度降到52FPS也满足要求部署的时候注意坐标还原缩放和填充的参数要和预处理完全一致不然关键点坐标会偏移我之前就是填充的像素算错了导致所有关键点都偏移了2像素找了半天才找到原因YOLO26-Pose是我最近用过的最省心的关键点检测模型尤其是部署的时候不用折腾NMS不用对齐后处理逻辑半天就能完成从训练到上线的全流程强烈建议做关键点检测的同学试试。

YOLO26-Pose端到端部署：告别NMS！人体与工业部件关键点检测实战

相关文章：

YOLO26-Pose端到端部署：告别NMS！人体与工业部件关键点检测实战

Gazebo仿真环境下的SLAM建图实战：从模型导入到地图保存全流程

拉普拉斯反变换避坑指南：当ROC区域遇到部分分式展开时的5个易错点

Qwen3-4B-Thinking模型软件测试应用：自动化测试用例与缺陷报告生成

Git误删急救指南：30秒挽救代码

【路径规划】在二维和三维空间中实现RRT_算法，根据障碍物位置和尺寸实现的避障功能附matlab代码

MATLAB/Simulink 两相交错并联Buck电路仿真：电压闭环控制之旅

在Java中如何理解方法访问修饰符的作用

3.22 OJ

无人船、AUV与无人车编队路径跟踪的奇妙探索

三菱PLC恒定张力收卷机控制程序解析

用PHP搞定TikTok搜索数据抓取：手把手教你绕过x-bogus签名验证（附完整Node.js联动代码）

从‘玩具‘到‘武器库‘：如何将本地Pikachu靶场升级为团队共享的实战训练平台？

基于Matlab的单侧电源三段式距离保护控制系统

手把手教你用示波器抓CAN波形：从隐性/显性电平到TJA1050收发器实战分析

StructBERT与Vue.js前端框架结合：构建实时文本比对演示平台

CT图像预处理避坑指南：为什么你的窗宽窗位调整总是不理想？

施耐德食品饮料行业面向智能制造的精益数字化工厂MES解决方案:方案定位与架构、MES核心功能模块、数据采集与集成

零成本实现专业级网页截图：5款精选Screenshot API全攻略

Nunchaku-flux-1-dev应用：为微信小程序开发提供AI配图生成接口

HQC来了：为什么我们需要一个“备用轮胎”——后量子时代的密码多样性与架构敏捷性设计

Jimeng AI Studio模型蒸馏实战：小模型大性能

web安全主要包括哪些方面的安全

Java实现数据结构栈

STM32驱动GP2Y1014AU粉尘传感器实战指南

AI Agent长期记忆工程实战（非常详细），踩坑与取舍从入门到精通，收藏这一篇就够了！

为什么ViT要用卷积做Patch Embedding？对比传统Transformer的文本嵌入差异

智能体时代来了，经济学的底层逻辑要被彻底改写了

基于EIT时序数据的STReSRNN模型：融合ResNet-34、BiLSTM与自注意力机制

让老显卡焕发新生：在Win10+GTX 1080Ti上成功运行Mamba-SSM的完整配置记录