当前位置：首页 > article >正文

【重温YOLOV5】第四章检测头（Head）与损失计算

article 2026/3/20 3:03:13

目录第四章检测头Head与损失计算4.1 YOLOv5 Head 结构剖析解耦头的雏形1×1卷积的分类/定位分支三个检测层的Anchor分配策略输出张量解析4.2 Anchor 机制与AutoAnchor预设Anchor的尺寸设计逻辑AutoAnchor算法K-means聚类自适应数据集Anchor与特征层匹配规则IoU0.25阈值机制自定义数据集的Anchor重计算实战4.3 损失函数深度拆解4.4 标签分配与正负样本匹配跨网格匹配策略正样本扩展到相邻网格0.5阈值中心点偏移量xy与宽高wh的计算多Anchor匹配一个GT可匹配多个Anchor的规则代码解读build_targets() 函数实现第四章检测头Head与损失计算4.1 YOLOv5 Head 结构剖析检测头Detection Head作为YOLOv5网络的终端组件负责将Neck网络融合后的多尺度特征转换为最终的目标检测结果。该模块在功能上实现了特征到预测参数的映射在结构上体现了分类与定位任务的联合优化策略。解耦头的雏形1×1卷积的分类/定位分支YOLOv5的检测头可视为解耦头Decoupled Head设计的早期形态。传统耦合检测头将分类与定位任务共享同一组卷积特征通过单一输出层同时预测类别概率与边界框坐标。这种设计在计算效率上具有优势但忽略了分类与定位任务在特征需求上的本质差异分类任务关注物体的高级语义特征对空间位置信息的敏感度较低定位任务则依赖精确的空间边界信息对语义抽象程度的要求相对较低。YOLOv5通过1×1卷积层隐式实现了初步的特征分离。在每个检测层融合后的特征首先经过1×1卷积调整通道数随后分支为两个并行路径分别处理分类与定位预测。虽然这两个路径在物理上仍共享前层特征但独立的1×1卷积层为各自任务提供了专属的特征变换空间使网络能够学习到更适合特定任务的特征表示。以COCO数据集为例检测头的输出张量维度为(batch_size, 3, H, W, 85)。其中3表示每个网格单元预设的三个Anchor框H和W表示特征图的空间维度对于P3、P4、P5层分别为80、40、2085表示每个Anchor的预测参数维度5个边界框参数80个类别概率。边界框参数包含中心点x偏移量相对于网格单元左上角中心点y偏移量相对于网格单元左上角宽度缩放系数相对于Anchor宽度高度缩放系数相对于Anchor高度目标置信度表示该Anchor包含物体的概率三个检测层的Anchor分配策略YOLOv5在三个检测层共预设9个Anchor框每个检测层分配3个Anchor。这种分配策略基于感受野与目标尺寸的匹配原则浅层特征图P3层80×80具有较高的空间分辨率负责检测小尺寸目标因此分配尺寸较小的Anchor深层特征图P5层20×20具有较大的感受野负责检测大尺寸目标分配尺寸较大的Anchor。COCO数据集上的预设Anchor尺寸如下P3层80×80[10,13], [16,30], [33,23] —— 负责小目标检测P4层40×40[30,61], [62,45], [59,119] —— 负责中等目标检测P5层20×20[116,90], [156,198], [373,326] —— 负责大目标检测每个Anchor的尺寸表示为[width, height]单位是相对于输入图像尺寸的像素值。在640×640的输入分辨率下P5层最大的Anchor[373,326]覆盖了约58%×51%的图像区域足以检测占据图像大部分区域的大型物体。输出张量解析检测头的输出张量在不同层级具有不同的空间维度但通道结构保持一致。以COCO数据集80个类别为例P3层输出维度(batch, 3, 80, 80, 85)总网格数80×80 6,400每个网格3个Anchor共19,200个预测框每个预测框85个参数x, y, w, h, objectness 80类概率P4层输出维度(batch, 3, 40, 40, 85)总网格数40×40 1,600每个网格3个Anchor共4,800个预测框P5层输出维度(batch, 3, 20, 20, 85)总网格数20×20 400每个网格3个Anchor共1,200个预测框三层合计每个图像产生25,200个预测框经过置信度阈值过滤与非极大值抑制NMS后最终保留高质量的检测结果。输出参数的物理意义与计算方式如下Pythondef decode_predictions(raw_predictions, anchors, stride): 解码检测头原始输出为边界框坐标 raw_predictions: [batch, 3, H, W, 85] batch_size, num_anchors, height, width, num_params raw_predictions.shape # 提取各维度预测值 x_pred raw_predictions[:, :, :, :, 0] # 中心x偏移 y_pred raw_predictions[:, :, :, :, 1] # 中心y偏移 w_pred raw_predictions[:, :, :, :, 2] # 宽度缩放 h_pred raw_predictions[:, :, :, :, 3] # 高度缩放 obj_pred raw_predictions[:, :, :, :, 4] # 目标置信度 cls_pred raw_predictions[:, :, :, :, 5:] # 类别概率 # 应用sigmoid激活将偏移量限制在0-1范围 x_offset sigmoid(x_pred) y_offset sigmoid(y_pred) # 计算实际中心坐标相对于输入图像 # grid_x, grid_y表示网格单元的左上角坐标 center_x (grid_x x_offset) * stride center_y (grid_y y_offset) * stride # 计算实际宽高相对于输入图像 anchor_w anchors[:, 0].view(1, 3, 1, 1) anchor_h anchors[:, 1].view(1, 3, 1, 1) box_w exp(w_pred) * anchor_w box_h exp(h_pred) * anchor_h # 目标置信度与类别概率 objectness sigmoid(obj_pred) class_probs sigmoid(cls_pred) return center_x, center_y, box_w, box_h, objectness, class_probs4.2 Anchor 机制与AutoAnchorAnchor机制是YOLOv5实现多尺度目标检测的核心组件通过预设一组具有不同长宽比的参考框将边界框回归问题转换为相对于参考框的偏移量预测问题显著降低了网络的学习难度。预设Anchor的尺寸设计逻辑YOLOv5的预设Anchor基于COCO数据集的边界框分布统计设计。设计过程遵循以下原则Anchor的尺寸应覆盖数据集中绝大多数目标的尺寸分布同时不同Anchor之间应具有足够的区分度以避免冗余匹配。COCO数据集中的目标尺寸分布呈现明显的多峰特性小目标面积32²像素占比约41%中等目标32²-96²像素占比约34%大目标面积96²像素占比约25%。预设Anchor通过K-means聚类算法在训练集边界框上自动学习得到聚类距离采用IoU-based度量相较于欧氏距离IoU距离对边界框尺寸不敏感能够确保大尺寸与小尺寸的边界框在聚类过程中具有同等重要性。聚类结果生成9个Anchor按面积从小到大排列后分配至三个检测层。AutoAnchor算法K-means聚类自适应数据集当YOLOv5应用于自定义数据集时预设Anchor可能与目标尺寸分布不匹配导致检测性能下降。AutoAnchor算法通过自适应聚类自动计算最优Anchor尺寸。算法流程如下Pythondef autoanchor_kmeans(dataset, k9, max_iter300): 基于K-means的Anchor自动聚类 # 提取数据集中所有边界框的宽高 boxes extract_boxes(dataset) # [N, 2] - width, height # 随机初始化k个聚类中心 centroids initialize_centroids(boxes, k) for iteration in range(max_iter): # 计算每个边界框到各聚类中心的IoU距离 distances compute_iou_distance(boxes, centroids) # 分配边界框到最近的聚类中心 assignments argmin(distances, axis1) # 更新聚类中心为所属边界框的中位数 new_centroids update_centroids(boxes, assignments, k) # 检查收敛 if converged(centroids, new_centroids): break centroids new_centroids # 按面积排序并分配至检测层 sorted_anchors sort_by_area(centroids) p3_anchors sorted_anchors[0:3] # 小Anchor p4_anchors sorted_anchors[3:6] # 中等Anchor p5_anchors sorted_anchors[6:9] # 大Anchor return p3_anchors, p4_anchors, p5_anchors def compute_iou_distance(boxes, centroids): 计算IoU距离矩阵 boxes: [N, 2] centroids: [k, 2] # 计算两两之间的IoU iou_matrix bbox_iou(boxes[:, None], centroids[None, :]) # 转换为距离 distance 1 - iou_matrix return distance聚类质量通过平均IoUAvg IoU评估即每个边界框与其最近聚类中心的IoU平均值。实验表明当Avg IoU超过0.6时Anchor与数据集的匹配度良好模型收敛速度显著加快。Anchor与特征层匹配规则IoU0.25阈值机制在训练阶段每个真实边界框Ground Truth需要匹配到最适合的Anchor。YOLOv5采用基于IoU阈值的多对一匹配策略计算真实框与所有9个Anchor的IoU选择IoU大于阈值默认0.25的所有Anchor作为正样本若单个真实框匹配到多个Anchor则这些Anchor均负责预测该目标未匹配的Anchor标记为负样本仅参与置信度损失计算Python复制def match_anchors(gt_boxes, anchors, iou_threshold0.25): 将真实框与Anchor匹配 gt_boxes: [num_gt, 4] - x, y, w, h anchors: [9, 2] - width, height num_gt gt_boxes.shape[0] num_anchors anchors.shape[0] # 计算每个真实框与每个Anchor的IoU ious compute_anchor_iou(gt_boxes, anchors) # [num_gt, num_anchors] # 选择IoU大于阈值的匹配 positive_matches ious iou_threshold # 布尔矩阵 # 对于每个真实框获取匹配的Anchor索引 matches [] for gt_idx in range(num_gt): matched_anchors where(positive_matches[gt_idx])[0] if len(matched_anchors) 0: # 若无Anchor满足阈值选择IoU最大的Anchor best_anchor argmax(ious[gt_idx]) matched_anchors [best_anchor] matches.append({ gt_idx: gt_idx, anchor_indices: matched_anchors, ious: ious[gt_idx, matched_anchors] }) return matches这种多对一匹配策略增加了正样本数量缓解了正负样本不平衡问题。实验表明相较于严格的一对一匹配仅选择IoU最大的AnchorIoU0.25的宽松匹配策略可使正样本数量增加约30%小目标检测精度提升约5%。自定义数据集的Anchor重计算实战对于自定义数据集建议重新计算Anchor尺寸以获得最优检测性能。计算流程包括数据统计分析统计数据集中所有边界框的宽高分布计算长宽比、面积分布等统计量聚类计算运行K-means聚类k9距离度量采用1-IoU分层分配将9个Anchor按面积从小到大分配至P3、P4、P5三层配置更新将计算得到的Anchor尺寸更新至模型配置文件YAML以纺织品缺陷检测为例由于缺陷区域通常呈现细长形态长宽比1.2-2.5重新聚类后的Anchor与默认COCO Anchor差异显著。实验表明使用自定义Anchor后平均IoU从58.3%提升至76.5%模型收敛速度加快约40%。4.3 损失函数深度拆解YOLOv5的损失函数由三个组成部分构成分别对应边界框回归、目标置信度预测与类别分类三个子任务Pythondef ciou_loss(pred_boxes, target_boxes): 计算CIoU Loss pred_boxes: [N, 4] - x, y, w, h target_boxes: [N, 4] - x, y, w, h # 计算IoU iou bbox_iou(pred_boxes, target_boxes, formatxywh) # 计算中心点距离 pred_center_x, pred_center_y pred_boxes[:, 0], pred_boxes[:, 1] target_center_x, target_center_y target_boxes[:, 0], target_boxes[:, 1] center_distance_sq (pred_center_x - target_center_x)**2 \ (pred_center_y - target_center_y)**2 # 计算最小闭包框的对角线长度平方 pred_left pred_center_x - pred_boxes[:, 2] / 2 pred_right pred_center_x pred_boxes[:, 2] / 2 pred_top pred_center_y - pred_boxes[:, 3] / 2 pred_bottom pred_center_y pred_boxes[:, 3] / 2 target_left target_center_x - target_boxes[:, 2] / 2 target_right target_center_x target_boxes[:, 2] / 2 target_top target_center_y - target_boxes[:, 3] / 2 target_bottom target_center_y target_boxes[:, 3] / 2 c_left minimum(pred_left, target_left) c_right maximum(pred_right, target_right) c_top minimum(pred_top, target_top) c_bottom maximum(pred_bottom, target_bottom) c_w c_right - c_left c_h c_bottom - c_top c_diag_sq c_w**2 c_h**2 # 中心点距离惩罚项 distance_penalty center_distance_sq / (c_diag_sq 1e-7) # 长宽比一致性 pred_w, pred_h pred_boxes[:, 2], pred_boxes[:, 3] target_w, target_h target_boxes[:, 2], target_boxes[:, 3] v (4 / (math.pi**2)) * \ (torch.atan(target_w / (target_h 1e-7)) - \ torch.atan(pred_w / (pred_h 1e-7)))**2 alpha v / ((1 - iou) v 1e-7) # CIoU Loss ciou iou - distance_penalty - alpha * v loss 1 - ciou return loss.mean()CIoU Loss的优势在于当预测框与真实框不重叠时IoU0仍能提供有效的梯度信号而原始IoU Loss在此情况下梯度消失同时优化位置、尺寸与形状实现更精确的框回归收敛速度比GIoU和DIoU更快最终检测精度更高4.4 标签分配与正负样本匹配标签分配Label Assignment是目标检测训练的核心环节负责将真实边界框Ground Truth与预测Anchor匹配生成监督信号。YOLOv5采用基于中心点与Anchor尺度的多层匹配策略显著增加了正样本数量改善了小目标检测性能。跨网格匹配策略正样本扩展到相邻网格0.5阈值传统YOLO仅将目标中心点所在的网格单元作为正样本这种严格匹配导致正样本数量稀少每个目标仅1个正样本。YOLOv5引入跨网格匹配策略若目标中心点距离相邻网格中心的偏移小于0.5个网格单元则相邻网格也被标记为正样本负责预测该目标。这种策略的理论基础是边界框回归允许预测中心点相对于网格单元左上角偏移0.5个单元通过Sigmoid函数限制在0-1范围。因此当目标中心靠近网格边界时相邻网格完全有能力准确预测该目标。Python复制def assign_grid_targets(gt_boxes, grid_size, stride, center_radius0.5): 跨网格标签分配 gt_boxes: [num_gt, 4] - x, y, w, h (图像坐标) grid_size: (H, W) - 特征图尺寸 num_gt gt_boxes.shape[0] H, W grid_size # 将边界框坐标转换为网格坐标 gt_x gt_boxes[:, 0] / stride # 中心x网格坐标 gt_y gt_boxes[:, 1] / stride # 中心y网格坐标 # 获取中心点所在的网格索引 gt_grid_x floor(gt_x).long() gt_grid_y floor(gt_y).long() # 计算相对于网格单元左上角的偏移 offset_x gt_x - gt_grid_x.float() offset_y gt_y - gt_grid_y.float() assigned_grids [] for gt_idx in range(num_gt): cx, cy gt_grid_x[gt_idx], gt_grid_y[gt_idx] ox, oy offset_x[gt_idx], offset_y[gt_idx] # 当前网格始终为正样本 grids [(cx, cy)] # 若x偏移 0.5左侧相邻网格也为正样本 if ox center_radius and cx 0: grids.append((cx - 1, cy)) # 若x偏移 0.5右侧相邻网格也为正样本 if ox (1 - center_radius) and cx W - 1: grids.append((cx 1, cy)) # 若y偏移 0.5上方相邻网格也为正样本 if oy center_radius and cy 0: grids.append((cx, cy - 1)) # 若y偏移 0.5下方相邻网格也为正样本 if oy (1 - center_radius) and cy H - 1: grids.append((cx, cy 1)) assigned_grids.append({ gt_idx: gt_idx, grids: grids, offsets: [(gt_x[gt_idx] - g[0], gt_y[gt_idx] - g[1]) for g in grids] }) return assigned_grids该策略使每个目标可匹配至最多3个网格单元中心网格相邻网格正样本数量增加约200%显著改善了小目标与密集目标的检测性能。中心点偏移量xy与宽高wh的计算预测目标相对于Anchor的参数化表示中心点偏移宽高缩放多Anchor匹配一个GT可匹配多个Anchor的规则在YOLOv5中单个真实框可同时匹配多个Anchor跨层与层内。匹配规则如下层间匹配计算真实框与所有9个Anchor的IoUIoU0.25的Anchor均参与匹配层内匹配在同一检测层若多个Anchor均满足阈值则这些Anchor均为正样本网格扩展每个匹配的Anchor在其负责的网格单元及相邻网格若满足中心偏移条件均生成正样本这种宽松匹配策略导致单个真实框可能匹配6-9个正样本3层×每层1-3个Anchor×每层1-3个网格正样本总数约为目标数量的8-10倍有效缓解了正负样本不平衡代码解读build_targets() 函数实现build_targets()函数是YOLOv5训练流程的核心负责批量生成标签张量。其伪代码实现如下Pythondef build_targets(preds, targets, anchors, strides): 构建训练目标 preds: 模型预测输出列表 [p3_pred, p4_pred, p5_pred] targets: 真实标签 [num_targets, 6] - img_idx, cls, x, y, w, h (归一化坐标) anchors: Anchor列表 [9, 2] strides: 步长列表 [8, 16, 32] num_layers len(preds) # 3层 num_targets targets.shape[0] # 初始化目标张量 tcls, tbox, indices, anch [], [], [], [] # 将归一化坐标转换为绝对坐标假设输入640x640 targets_abs targets.clone() targets_abs[:, 2:] * 640 # 计算目标与所有Anchor的IoU anchor_wh anchors.view(1, 9, 2) # [1, 9, 2] gt_wh targets_abs[:, 4:6].view(num_targets, 1, 2) # [N, 1, 2] # IoU计算仅考虑宽高忽略位置 inter_wh minimum(gt_wh, anchor_wh) inter_area inter_wh[:, :, 0] * inter_wh[:, :, 1] union_area gt_wh[:, :, 0] * gt_wh[:, :, 1] \ anchor_wh[:, :, 0] * anchor_wh[:, :, 1] - inter_area iou inter_area / (union_area 1e-16) # [num_targets, 9] # 选择最佳匹配的Anchor best_iou, best_anchor_idx iou.max(dim1) # [num_targets] for layer_idx in range(num_layers): # 获取当前层的Anchor索引 layer_anchor_start layer_idx * 3 layer_anchor_end layer_anchor_start 3 # 筛选匹配到当前层的目标 layer_mask (best_anchor_idx layer_anchor_start) \ (best_anchor_idx layer_anchor_end) \ (best_iou 0.25) if not layer_mask.any(): tcls.append(torch.zeros(0)) tbox.append(torch.zeros(0, 4)) indices.append((torch.zeros(0), torch.zeros(0), torch.zeros(0))) anch.append(torch.zeros(0, 2)) continue layer_targets targets_abs[layer_mask] layer_anchors anchors[best_anchor_idx[layer_mask]] # 计算网格坐标 stride strides[layer_idx] grid_x (layer_targets[:, 2] / stride).long() grid_y (layer_targets[:, 3] / stride).long() # 跨网格扩展 expanded_targets [] for gt_idx in range(len(layer_targets)): cx, cy grid_x[gt_idx], grid_y[gt_idx] ox layer_targets[gt_idx, 2] / stride - cx.float() oy layer_targets[gt_idx, 3] / stride - cy.float() # 添加中心网格 expanded_targets.append((gt_idx, cx, cy)) # 添加相邻网格若满足条件 if ox 0.5 and cx 0: expanded_targets.append((gt_idx, cx - 1, cy)) if ox 0.5 and cx preds[layer_idx].shape[3] - 1: expanded_targets.append((gt_idx, cx 1, cy)) if oy 0.5 and cy 0: expanded_targets.append((gt_idx, cx, cy - 1)) if oy 0.5 and cy preds[layer_idx].shape[2] - 1: expanded_targets.append((gt_idx, cx, cy 1)) # 构建最终目标张量 # ...收集所有扩展目标计算偏移量等 return tcls, tbox, indices, anch该函数的核心逻辑包括Anchor匹配计算目标与所有Anchor的IoU筛选IoU0.25的匹配层分配根据最佳匹配Anchor将目标分配至对应检测层网格分配计算目标中心所在网格并进行跨网格扩展参数编码将绝对坐标转换为中心偏移与宽高缩放系数通过上述标签分配策略YOLOv5实现了高效的正负样本匹配为损失计算提供了高质量的监督信号是模型达到优异检测性能的关键保障

【重温YOLOV5】第四章检测头（Head）与损失计算

相关文章：

【重温YOLOV5】第四章检测头（Head）与损失计算

Cosmos-Reason1-7B在数学建模中的应用：从理论到实践

IGBT开关特性深度剖析：从实验台到Simulink模型验证

开源能源管理系统OpenEMS：您的智能能源管家入门指南

实时编译革新：无缝跨平台Java开发的零配置解决方案

Leather Dress Collection部署案例：中小企业低成本皮革服装视觉内容生产流水线

从入门到专家的中文语义嵌入实战指南：bge-large-zh-v1.5全解析

阿里大动作

别再死记硬背了！用Python+Matplotlib动画演示曼彻斯特编码与差分曼彻斯特编码的区别

imx6ull开发板emmc启动全攻略：从zImage编译到mfgtools避坑指南

3种方案解决老旧Mac蓝牙失效问题：从根源修复到性能优化

如何快速掌握MTKClient：联发科设备刷机与调试终极指南

嵌入式开发必备：Nanopb与Protobuf在STM32上的实战指南（附完整工程）

ChatGPT润色指令实战：如何高效优化办公文档处理流程

告别复杂配置！MogFace高精度人脸检测一键部署指南，小白也能快速上手

保姆级教程：用Arduino IDE和RC522分析Mifare卡内存数据格式（附NAT-G213对比）

PX4仿真新姿势：Xbox手柄控制Gazebo无人机的5个实用技巧

Qwen2.5-1.5B GPU显存优化教程：torch.no_grad+清空对话按钮双策略详解

Dify混合RAG召回率优化终极对照表：BM25 vs SPLADE vs bge-reranker-v2 vs 自研Hybrid Scorer（含Latency/Recall/F1三维热力图）

个性化地图样式设置避坑指南：为什么你的百度地图会出现白块？

从类型体操到生产应用：C++模板元编程在开源项目中的7种经典用法

避开这个坑！MATLAB读取CSV表头时90%人会犯的索引错误

通义千问3-VL-Reranker-8B新手必看：图文视频混合检索，保姆级使用指南

卡尔曼滤波入门指南：从数据融合到Matlab仿真（避坑版）

MCP接入OAuth 2026究竟值不值得升级？2024Q3真实压测数据告诉你答案

ChatGLM3-6B开源大模型部署案例：跨境电商多语言客服系统构建

如何为安卓自动化与逆向工程选择最适配的框架？

VMware虚拟机实战：Windows11安装与汉化全流程指南

WSL2下Ubuntu用户管理全攻略：从创建到权限分配（附常用命令清单）

Memcached 教程