当前位置：首页 > article >正文

QYOLO: Lightweight Object Detection viaQuantum Inspired Shared Channel Mixing——基于量子启发式共享通道混合的轻量化目标检测

article 2026/5/7 17:38:19

一、研究问题目标检测模型如YOLOv8中深层骨干网络的C2f瓶颈模块由于通道数大512/1024参数数量呈二次增长导致模型体积大、计算量大不利于边缘设备部署。二、核心创新提出QYOLO一个量子启发的轻量化目标检测框架核心包括1. QMixBlock模块用正弦通道混合机制替代传统C2f模块中的3×3卷积包含5个阶段全局上下文聚合 → 流形投影 → 量子启发式混合 → 通道激励 → 特征重校准核心公式Hsin⁡(z⋅wΘ)2. 共享参数策略在两个深层骨干阶段P4/16和P5/32共享同一组可学习参数{w, Θ}减少参数量同时作为隐式正则化器3. 仅替换骨干网络只替换第6层和第8层的C2f模块保留颈部网络和检测头不变三、主要实验结果VisDrone2019模型参数减少GFLOPs减少mAP50下降QYOLOv8n20.2%12.3%0.4 ppQYOLOv8s21.8%—0.1 pp结合知识蒸馏可完全恢复精度训练效率提升约22%四、关键结论真正的架构压缩直接减少参数不同于剪枝方法只引入稀疏性相位偏移Θ至关重要消融实验证明其是可学习组件中最关键的仅替换骨干网络是最优设计扩展到颈部会带来更大精度损失对具有强全局特征的类别如公交车、面包车效果更好对依赖精细空间线索的类别如三轮车、行人略有下降五、局限性对小目标、密集遮挡场景如行人、三轮车精度略有下降全局平均池化会压缩空间信息限制精细空间分辨能力六、核心贡献首次将量子启发的正弦混合机制与跨阶段参数共享引入YOLO架构在保持精度的前提下实现了真正的参数量减少适用于边缘设备上的实时航拍目标检测。这里是自己的论文阅读记录感兴趣的话可以参考一下如果需要阅读原文的话可以看这里如下所示摘要目标检测架构的快速发展使单阶段检测器成为实时视觉感知的主流解决方案。这些模型中计算开销的主要来源在于深层骨干网络阶段其中高步长层的 C2f 瓶颈模块由于通道数的二次增长而积累了不成比例的参数份额。本文提出 QYOLO一个量子启发的通道混合框架通过将两个最深的骨干网络 C2f 模块位于 P4/16512 通道和 P5/321024 通道替换为紧凑的 QMixBlock实现了真正的架构压缩。所提出的模块通过正弦混合机制执行全局通道重校准并在两个骨干阶段共享可学习参数从而在不依赖独立每阶段参数集的情况下施加一致的通道重要性。颈部网络和检测头保持完全经典且不变。在 VisDrone2019 基准上的评估表明QYOLOv8n 实现了 20.2% 的参数减少从 3.01M 降至 2.40M和 12.3% 的 GFLOPs 减少mAP50 仅下降 0.4 个百分点。QYOLOv8s 实现了 21.8% 的参数减少性能下降仅 0.1 个百分点。当与知识蒸馏结合时在压缩比不变的情况下完全恢复了精度。一个扩展的骨干加颈部变体实现了 38–41% 的压缩但精度下降较大因此最终选择了仅替换骨干网络的设计。索引词目标检测量子机器学习模型压缩特征金字塔网络边缘人工智能I. 引言卷积神经网络的广泛应用使得目标检测成为现代自主系统的核心组成部分支持无人机平台、机器人感知和连续视觉监控等应用。在实时检测框架中单阶段范式因其良好的延迟特性而成为首选解决方案。近年来的检测架构通过日益复杂的骨干网络和特征聚合策略在精度上取得了显著提升 [1]。尽管取得了这些进展相关的计算成本也大幅增长限制了其在硬件受限的边缘设备上的实际部署。这种参数开销的主要来源在于单阶段检测器的深层骨干阶段。YOLOv8 等架构采用卷积骨干网络其中最高步长层P4/16512 通道和 P5/321024 通道的 C2f 瓶颈模块由于参数数量随通道数呈二次增长积累了不成比例的总参数份额。这些层编码高层语义特征并在压缩的空间分辨率下运行但仍然使用局部 3×3 空间卷积这带来了显著的内存和计算成本。后续执行多尺度融合的颈部网络和检测头在架构上很重要但计算量较轻因此在骨干网络层面解决冗余问题可以在不干扰空间融合逻辑的前提下获得更大的模型压缩杠杆。现有的模型压缩策略是从外部而非通过架构重新设计来解决这一问题。剪枝方法分为两个根本不同的类别对部署有不同影响。非结构化权重级剪枝 [2] 根据幅度将单个权重项置零产生稀疏张量而不修改网络图存储的参数数量不变推理加速需要大多数边缘平台不支持的稀疏执行硬件或库 [3]。真正的结构化剪枝会移除整个滤波器或通道产生一个可在标准硬件上运行的小型密集网络无需稀疏库 [3]。近期一项工作 [5] 在 YOLOv8 上展示了这种方法通过稀疏感知训练、通道剪枝和知识蒸馏的三阶段流程将参数从 25.85M 减少到 6.85M但精度下降不可忽略需要蒸馏来恢复。本文报告的实验中Pruned20 基线对 YOLOv8n 应用了基于幅值的权重稀疏化稀疏度为 20%得到的模型保留了与未剪枝基线相同的 3.01M 参数确认在此配置下未执行任何结构化的通道消除。知识蒸馏 [5] 可以将表示能力从大教师网络转移到小学生网络但它既不保证模型更小也无法避免多阶段监督带来的额外训练复杂性。通道重校准方法如挤压-激励网络 [6] 和高效通道注意力 [7] 动态调整特征响应但为每个尺度分配独立的参数集限制了其捕捉全局一致通道关系的能力并且不能减少底层参数数量。近期量子机器学习的发展为高效表示学习提供了补充视角。参数化量子电路的提出 [8] 表明具有纠缠参数结构的周期性变换可以用较少的自由度编码复杂分布。量子神经网络的早期工作证明了基于学习的量子模型的理论可行性 [9]。隐式神经表示的相关研究 [10] 进一步表明正弦激活函数数学上类似于量子旋转操作比分段线性非线性函数如 ReLU 或 SiLU更高效地捕捉高频细节。这种频谱优势对于 VisDrone2019 基准 [11] 尤其相关其中目标通常占据小于 32×32 像素的区域且缺乏强空间线索因此对每个参数的表示效率要求很高。受上述观察的启发本文提出了 QYOLO一个参数高效的目标检测框架引入了一个量子启发的通道混合模块QMixBlock作为 YOLOv8 深层骨干 C2f 瓶颈的直接架构替代。QMixBlock 通过紧凑的正弦函数计算通道重要性权重并用于在 P4 和 P5 步长层重校准骨干特征图。整个颈部网络、检测头和早期骨干阶段保持不变。一个设计变体将 QMixBlock 的替换扩展到颈部网络的三个融合层以及两个骨干阶段实现了 38–41% 的参数减少但精度下降明显且需要更长时间的训练才能收敛。最终的仅替换骨干网络的设计实现了约 20% 的参数减少mAP50 仅下降 0.4 个百分点——这对于边缘部署是一个更实际的权衡。本文的主要贡献如下针对骨干网络的量子启发式混合将骨干网络第 6 层P4/16, 512 通道和第 8 层P5/32, 1024 通道的 C2f 瓶颈模块替换为 QMixBlock一个具有共享可学习参数的正弦通道重校准模块。这种针对性的仅替换骨干网络的修改保留了颈部和检测头不变将压缩集中在参数最多的骨干阶段。跨骨干网络阶段的共享参数混合一个单一的 SharedQuantumMixer 模块包含可学习权重向量 w 和相位偏移 Θ被实例化一次并在两个骨干 QMixBlock 实例之间共享。这在 P4 和 P5 语义特征阶段之间强制执行一致的通道重要性模式充当隐式正则化器同时消除了冗余的每阶段参数集。真正的架构压缩与实证验证与基于剪枝的方法保留原始参数数量而引入权重稀疏性不同QMixBlock 实现了真正的架构参数消除。QYOLOv8n 在 VisDrone2019 上将参数从 3.01M 减少到 2.40M减少 20.2%GFLOPs 从 8.1 减少到 7.1mAP50 仅下降 0.4 个百分点。QYOLOv8s 实现了 21.8% 的参数减少性能下降仅 0.1 个百分点。当与知识蒸馏结合时在压缩比不变的情况下完全恢复了精度。图 1. 所提出的 QYOLO 架构概览。QMixBlock 替换了骨干网络 P4/16 和 P5/32 层的 C2f 模块。共享的量子启发式混合器通过全局上下文聚合、潜在投影和周期性混合执行正弦通道重校准。跨骨干网络阶段的共享参数混合一个单一的 SharedQuantumMixer 模块包含可学习权重向量 w 和相位偏移 Θ被实例化一次并在两个骨干 QMixBlock 实例之间共享。这在 P4 和 P5 语义特征阶段之间强制执行一致的通道重要性模式充当隐式正则化器同时消除了冗余的每阶段参数集。真正的架构压缩与实证验证与基于剪枝的方法保留原始参数数量而引入权重稀疏性不同QMixBlock 实现了真正的架构参数消除。QYOLOv8n 在 VisDrone2019 上将参数从 3.01M 减少到 2.40M减少 20.2%GFLOPs 从 8.1 减少到 7.1mAP50 仅下降 0.4 个百分点。QYOLOv8s 实现了 21.8% 的参数减少性能下降仅 0.1 个百分点。当与知识蒸馏结合时在压缩比不变的情况下完全恢复了精度。II. 提出的方法本节介绍了量子启发式通道混合框架的概念动机、数学基础和架构实现。该方法通过将两个参数最密集的骨干瓶颈模块替换为紧凑的正弦通道重校准设计基于量子信息论原理旨在解决单阶段目标检测中长期存在的计算效率与表示能力之间的权衡问题。图 1 提供了所提出的 QYOLO 架构概览展示了 QMixBlock 模块在骨干网络第 6 层P4/16和第 8 层P5/32的放置位置以及共享混合器的内部处理阶段。图 2 展示了特征金字塔网络中参数共享策略的概念比较。所提出的方法摒弃了最深骨干阶段的冗余密集局部空间卷积转而采用具有强频谱表达能力的全局协调通道混合机制同时保持颈部和检测头的架构不变。图 2. 特征金字塔网络中参数共享策略的概念比较A. 深层骨干瓶颈的计算局限性要理解所提出的设计需要仔细审视广泛采用的单阶段检测管道中存在的结构性约束。YOLOv8 等架构使用卷积骨干网络提取层次化空间表示随后采用特征金字塔网络和路径聚合网络颈部 [12][13] 进行多尺度融合最后由检测头进行预测。虽然颈部负责处理空间特征聚合且在架构上至关重要但最深的骨干阶段——步长 P4/16512 通道和 P5/321024 通道处的 C2f 模块——积累了最大的参数份额因为参数成本在这些位置随通道宽度呈二次增长。1) 深层骨干卷积瓶颈中的冗余性在骨干网络第 6 层和第 8 层C2f 模块对网络中通道数最高的特征图重复应用 3×3 卷积瓶颈变换。对于输入特征张量 X ∈ ℝ^{C×H×W}每个这样的变换表示为F_bottleneck(X) φ(W_2 * φ(W_1 * X)) X (1)其中 * 表示卷积W₁ 和 W₂ 是空间尺寸为 3×3 的可学习核φ(·) 是单调激活函数如 SiLU。每个卷积层的参数数量大致为N_params ∝ O(C_in · C_out · K²) (2)在 P4/16C512和 P5/32C1024的 small 配置中以及在 nano 配置中相应宽度缩放后这种二次依赖性将总模型参数的不成比例部分集中在这两个骨干阶段。实证压缩研究表明这些权重中有相当一部分对检测性能贡献甚微反映了深层局部卷积处理中的显著冗余。2) 骨干深度处局部感受野的局限性标准的 3×3 卷积在受限的空间邻域内操作编码全局通道级关系的能力有限。在 P4 和 P5 深层骨干阶段主要目标从局部边缘检测转向高层语义特征编码——在此作用中全局通道交互比局部空间模式携带更多语义信息。由于缺乏全局上下文聚合后续的颈部和检测头被迫通过更深或更宽的结构来补偿空间通道信息的缺失从而加剧了效率低下。受此启发所提出的方法引入了一个架构归纳偏置最深骨干阶段的通道重要性应通过全局通道感知来建立而不是局部空间卷积。B. 量子启发的设计原则所提出的框架从量子信息论中汲取概念灵感形成一个紧凑且可解释的通道混合机制。以下原则指导了 QMixBlock 的设计。1) 量子启发的神经元表示在量子计算中信息编码在量子比特的状态向量 |ψ⟩ 中。一个基本操作是绕布洛赫球 Y 轴的单位旋转 [8]R_y(θ) exp(-i(θ/2)Ŷ) I cos(θ/2) - iŶ sin(θ/2) (3)其中 Ŷ 表示泡利-Y 算符I 是单位矩阵θ 是可调参数。这突显了量子演化的一個定义性属性周期性。输出状态随 θ 变化而平滑振荡使得紧凑的参数化能够实现丰富的非线性行为。这激发了在所提出的通道混合机制中采用正弦变换——周期性函数提供 expressive 的特征调制而无需依赖深层或宽卷积堆叠。2) 频谱偏置与周期性激活函数基于单调激活函数如 ReLU、SiLU 或 Tanh的经典深度网络表现出频谱偏置 [14]它们在训练期间优先学习低频分量而编码高频模式则需要大幅增加网络深度或宽度 [14]。这一限制在 VisDrone [11] 等航拍图像基准中尤为突出因为目标通常占据小于 32×32 像素的区域高频边界线索携带关键的判别信息。正弦激活函数提供振荡响应能够在紧凑的参数空间内自然编码高频变化。单个正弦单元可以表示否则需要许多分段线性单元的模式从而提高每个参数的表示密度。3) 通过纠缠实现参数共享在量子物理学中纠缠将一个粒子的状态与另一个粒子内在联系起来与空间距离无关。这一原理被转化到骨干网络设计中将两个深层骨干阶段视为统一特征提取系统的组成部分。在基线架构中第 6 层和第 8 层维护独立的 C2f 参数集 Φ_{P4} 和 Φ_{P5}隐含假设通道重要性逻辑在不同深度层次上有根本不同。所提出的框架挑战了这一假设区分前景结构与背景噪声的通道关系在 P4 和 P5 之间预计保持广泛一致因为两者都编码高层语义特征主要区别在于空间尺度而非语义类别。因此单个共享混合参数集 {w, Θ} 被应用于两个骨干 QMixBlock 实例强制执行一致的通道重要性同时充当隐式正则化器。C. QMixBlock 的数学表述QMixBlock 被定义为一个模块化的、完全可微分的替代模块用于替换骨干网络第 6 层P4/16和第 8 层P5/32的 C2f 瓶颈模块。其内部计算分为五个顺序阶段。1) 阶段 1全局上下文聚合卷积算子对局部空间模式有效但捕捉全局语义上下文的能力有限。为了获得紧凑的全局通道描述符应用全局平均池化。给定输入特征张量 X ∈ ℝ^{B×C×H×W}通道描述符 g ∈ ℝ^{B×C} 计算如下g_c (1/(HW)) Σ_i Σ_j X_{c,i,j} (4)这在压缩空间维度的同时保留了全局每通道统计信息为每个通道的全局激活模式提供了紧凑的表示。2) 阶段 2流形投影通道描述符 g 使用线性压缩矩阵 W_compress ∈ ℝ^{r×C} 投影到一个较低维的潜在空间其中潜在维度 r 由缩减比率 R 控制r C / R, z W_compress · g (5)这减少了后续处理的计算负担同时保留了显著的语义信息。该投影保留了最具判别性的通道关系同时显著降低了正弦混合操作的维度。3) 阶段 3量子启发的混合潜在向量 z 由 SharedQuantumMixer 处理——这是 QMixBlock 的核心计算单元。混合器不使用传统的多层感知机而是应用单个正弦变换具有可学习的每维度权重和相位偏移如公式 6 所示。正弦函数的频率固定为单位 1表示表达能力来自于每维度权重 w 和自适应相位对齐 Θ而不是可学习的全局频率标量。混合 H 是单层操作在 r 维潜在空间上一次性完成。H sin(z · w Θ) (6)这一表述提供了多个优点。正弦函数具有所有阶的非零导数能够在潜在空间中对复杂曲率进行建模。权重向量 w 引入了每维度的频率敏感性而 Θ 能够使周期响应自适应地对齐到特征分布。所有计算保持实值确保与标准加速硬件的兼容性。4) 阶段 4通道激励混合后的潜在表示 H 使用线性扩展矩阵 W_expand ∈ ℝ^{C×r} 投影回原始通道维度随后通过 Sigmoid 门控生成归一化的通道重要性权重s σ(W_expand · H) (7)其中 s ∈ ℝ^{B×C} 为每个通道编码了 (0,1) 范围内的软重要性分数。5) 阶段 5特征重校准原始特征张量使用计算出的通道权重通过逐元素乘法进行缩放Y_out X ⊙ s (8)这选择性地放大信息丰富的通道同时抑制不太相关的响应提供由全局上下文驱动的骨干特征细化而没有任何局部空间卷积。输出 Y_out 保持与输入 X 相同的空间维度但每通道激活值已被重校准。D. 跨骨干阶段的共享参数混合该框架的一个核心贡献是应用于两个骨干 QMixBlock 实例的共享参数策略。在标准 YOLOv8 骨干网络中第 6 层和第 8 层各自维护独立的 C2f 参数集 Φ_{P4} 和 Φ_{P5}。这种独立性隐含地假设通道重要性逻辑在骨干深度层次之间根本不同。所提出的方法挑战了这一假设区分前景结构与背景噪声的通道关系在 P4 和 P5 之间预计保持广泛一致因为两者都编码高层语义特征主要区别在于空间尺度而非语义类别。在所提出的公式下单个 SharedQuantumMixer 模块被实例化参数集为Θ_shared {w, Θ}, w ∈ ℝ^{1×r}, Θ ∈ ℝ^{1×r} (9)这个共享参数集控制着两个骨干 QMixBlock 实例的正弦混合。在前向传播过程中来自每个实例的潜在表示由相同的变换处理z_{P4} → H_{P4} sin(z_{P4} · w Θ)z_{P5} → H_{P5} sin(z_{P5} · w Θ) (10)其中相同的 w 和 Θ由 Θ_shared 控制应用于每个阶段。颈部网络——包括第 12、15、18 和 21 层的 C2f 模块——不参与此共享机制并保留完全独立的经典 C2f 参数。这种共享参数化鼓励学习跨 P4 和 P5 的深度一致通道交互通过防止两个骨干层次之间不必要的分歧充当隐式正则化器并通过共享原本会是两组独立的混合器参数来减少总参数数量。E. 复杂度与效率分析为了量化用 QMixBlock 替换骨干 C2f 模块的效率收益进行了参数复杂度比较。1) 基线 C2f 瓶颈复杂度通道宽度为 C假设 C_in C_out C的标准 C2f 骨干模块由重复的 3×3 卷积瓶颈组成。对于每个瓶颈参数数量呈二次增长N_baseline ≈ 9C² (12)在 small 模型配置中P4/16 处 C512P5/32 处 C1024这导致仅两个骨干位置就集中了数百万参数。2) QMixBlock 复杂度QMixBlock 用线性投影和逐元素正弦混合取代了空间卷积。参数成本主要由压缩和扩展投影矩阵决定。SharedQuantumMixer 贡献参数 w 和 Θ每个维度为 r相对于投影矩阵可忽略不计。每个 QMixBlock 实例的总参数数为N_QMix C·r r·C 2r 2C²/R 2C/R (13)由于对于实际 C 值2C/R ≪ 2C²/R主导项为N_QMix ≈ 2C²/R (14)对于实验中使用的缩减比率 R4N_QMix ≈ 0.5C² (15)3) 效率比在 R4 时单个 C2f 瓶颈与 QMixBlock 之间的每模块参数减少因子为N_baseline / N_QMix ≈ 9C² / (0.5C²) 18 (16)这大约是每替换模块在层级别上的 18 倍减少应用于两个骨干位置产生了实验中观察到的约 20% 的总模型参数减少QYOLOv8n3.01M → 2.40M和 QYOLOv8s11.13M → 8.70M。剩余约 80% 的参数位于早期骨干层、颈部和检测头中完全不变。由于 w 和 Θ 在两个 QMixBlock 实例之间共享而非复制SharedQuantumMixer 在整个模型中总共只贡献 2r 个参数无论 QMixBlock 放置了多少个实例。F. 实现所提出的框架是在 Ultralytics 训练环境Ultralytics 8.4.26PyTorch 2.5.1Python 3.10.20CUDA 12.1内作为模块化扩展实现的。单个 SharedQuantumMixer 模块存储可学习参数 w 和 Θ两者均初始化为 w ∼ N(0,1) 和 Θ0分配在维度 dim1024 上并在运行时动态切片到实际的潜在大小 r。骨干网络第 6 层和第 8 层的各个 QMixBlock 实例在前向传播期间通过指针引用此共享模块确保来自两个实例的梯度在反向传播期间流入相同的 w 和 Θ 参数。通过将 YOLOv8 YAML 架构配置文件中的第 6 层和第 8 层的 C2f 模块条目替换为 QMixBlock 条目来实现集成而所有其余架构定义保持不变。不需要自定义 CUDA 内核或专门的编译器操作。QMixBlock 的所有五个阶段——全局平均池化、线性压缩、正弦变换、Sigmoid 门控和逐元素重校准——完全依赖于支持自动微分的标准 PyTorch 原语。这种设计确保了与常见部署工具链包括 ONNX、TensorRT 和 CoreML的兼容性除了通用 GPU 加速器外不需要专门的硬件。III. 实验设置本节描述了用于评估所提出的 QYOLO 框架有效性的实验设计。评估聚焦于模型大小、计算成本和检测精度。提供了有关数据集、基线模型、训练配置、硬件环境和评估标准的详细信息以确保透明度和可重复性。A. 数据集描述实验在 VisDrone2019-DET 基准 [11] 上进行这是一个大规模航拍目标检测数据集。选择该数据集是因为其具有挑战性的特点包括小目标尺寸通常 32×32 像素、高目标密度和频繁的遮挡以及类别不平衡。该数据集包含在不同条件下拍摄的 10,209 张图像。按照标准划分4,471 张图像用于训练548 张用于验证3,190 张用于测试。标注涵盖十个目标类别包括行人、汽车、自行车和公交车。B. 基线架构选择 YOLOv8 NanoYOLOv8n和 YOLOv8 SmallYOLOv8s配置作为主要基线 [1]涵盖了从极端边缘约束到中等能力嵌入平台的范围。YOLOv8 引入了 C2f 瓶颈模块通过增加特征分割来增强梯度传播。尽管有此改进最深的 C2f 模块在骨干网络第 6 层和第 8 层由于在 P4/16512 通道和 P5/321024 通道处通道宽度的二次增长而贡献了可观的参数开销。对于所有主要的 QYOLO 配置QMixBlock 仅在骨干网络第 6 层和第 8 层替换 C2f。所有颈部和检测头组件与标准 YOLOv8 配置保持相同。一个早期的设计变体QYOLO-v0还额外替换了三个颈部 C2f 模块实现了更高的压缩比但精度有所下降这作为压缩上限的参考进行报告。C. 实现与训练协议所有模型均使用 PyTorch 2.5.1CUDA 12.1、Python 3.10.20 和 Ultralytics 框架 8.4.26 版本实现。主要的基线和 QMixBlock 变体均在相同条件下从随机初始化开始训练。D. 训练配置所有实验中使用的训练配置组件设置优化器AdamW动量0.937权重衰减0.0005学习率0.001 → 0.00001线性衰减批量大小16轮数300输入分辨率640 × 640E. 数据增强应用了以下标准增强技术方法细节Mosaic启用概率1.0MixUp概率0.15几何变换缩放、平移、水平翻转F. 硬件环境实验在一台配备 NVIDIA RTX 6000 Ada GPU49 GB 显存、Intel Xeon W9-3595X CPU 和 512 GB RAM 的工作站上进行。G. 评估指标性能使用以下标准检测指标进行评估参数数量模型大小、GFLOPs计算复杂度、mAP50主要检测精度和 mAP50-95跨 IoU 阈值的严格定位性能。IV. 结果与讨论本节介绍了所提出的 QYOLO 框架在 VisDrone2019 DET 基准上的实验结果分析。讨论组织如下。第 IV-A 节报告主要结果并概述从 QYOLO-v0 到最终架构的设计演进。第 IV-B 节提供每类别性能分析。第 IV-C 节通过消融研究隔离各个设计组件的影响。最后第 IV-D 节通过将 QYOLO 与其他模型压缩策略进行比较来将结果置于背景中。A. 主要结果与设计演进表 I 报告了主要检测结果以及 v0 基线结果使得能够对开发过程中探索的两种架构配置进行直接比较。主要的 QMixBlock 和基线运行在固定的 300 轮预算内进行训练没有早停。相比之下v0 模型采用了早停耐心值100导致训练时间延长nano-v0446 轮small-v0263 轮表明在激进压缩下优化难度增加。表 IQYOLOv8 变体与 YOLOv8N 在 VisDrone2019 验证集上的主要结果与设计演进模型QMixBlock 数量参数参数减少GFLOPs训练时间mAP50mAP50-95YOLOv8n03.01M-8.14.44h34.920.1QYOLOv8n (v0)51.86M38.2%6.25.76h32.618.5QYOLOv8n22.40M20.2%7.13.46h34.519.9YOLOv8s011.13M-28.54.47h40.023.6QYOLOv8s (v0)56.54M41.2%21.03.56h39.723.2QYOLOv8s28.70M21.8%24.63.94h39.923.4表 II各变体中 QMixBlock 的逐层放置层角色基线QYOLOv0 / 本文第 6 层骨干P4/16C2fQMixBlock第 8 层骨干P5/32C2fQMixBlock第 12 层颈部P4 自顶向下C2fQMixBlock仅 v0第 18 层颈部P4 自底向上C2fQMixBlock仅 v0第 21 层颈部P5 自底向上C2fQMixBlock仅 v0QYOLOv8n 实现了 20.2% 的参数减少3.01M → 2.40M和 12.3% 的 GFLOPs 减少8.1 → 7.1mAP50 仅下降 0.4 个百分点mAP50-95 下降 0.2 个百分点。这些结果是在相同的训练条件下获得的确认性能差异仅源于用 QMixBlock 替换骨干 C2f 模块的架构变更。在 YOLOv8s 上观察到类似趋势证明了跨模型尺度的一致收益。训练效率也有所提高QYOLOv8n 由于骨干网络复杂度降低每轮训练速度约快 22%。v0 设计将 QMixBlock 替换扩展到颈部网络同时保留 P3 层以维持小目标检测性能。该配置实现了更高的压缩比38-41%但引入了精度下降和显著更难的优化。这些结果突显了一个关键的架构见解替换骨干 C2f 模块是有效的因为这些阶段主要编码高层语义信息其中通道关系占主导地位。相比之下颈部网络层执行空间特征融合并依赖局部卷积结构用全局通道混合替换它们会破坏空间整合。因此最终的仅替换骨干网络的设计通过针对参数密集层而不损害检测管道的空间推理能力实现了更有利的精度-压缩权衡。B. 每类别分析表 III 报告了 YOLOv8n 和 QYOLOv8n 在 VisDrone2019 验证集上的每类别 AP50。mAP50 总体变化 -0.4 个百分点反映了类别级别增益和损失的平衡聚合。值得注意的是面包车和公交车分别提高了 1.4 个百分点这表明具有强全局外观特征的类别受益于正弦通道混合机制。自行车和人等类别显示微小变化≤0.2 个百分点表明影响最小。表 IIIYOLOv8n 与 QYOLOv8n 的每类别 AP50%类别基线QYOLOΔ (pp)行人39.137.4-1.7人30.230.30.1自行车8.99.10.2汽车77.677.3-0.3面包车37.739.11.4卡车29.028.5-0.5三轮车24.422.4-2.0带篷三轮车12.711.9-0.8公交车47.949.31.4摩托车41.040.0-1.0全部34.934.5-0.4最大的回归出现在三轮车-2.0 pp和行人-1.7 pp这两个类别高度依赖精细的空间线索。这些类别通常涉及小、密集或部分遮挡的目标其中精确的空间边界信息至关重要。QMixBlock 中的全局平均池化阶段将空间信息压缩为通道描述符限制了其保留这些精细细节的能力。在摩托车类别上也观察到类似趋势。这些结果表明QMixBlock 对具有强全局特征特征的类别最为有效而对于依赖高分辨率空间辨别的类别性能会下降。C. 消融研究相位偏移 Θ 的作用移除相位项QMix-Sin导致 noticeable 的性能下降-0.5 mAP这表明可学习的相位对齐对于适应多样化的逐通道特征分布至关重要。相位项实现了灵活的特征偏移在不增加参数数量的情况下提高了表示能力。频率 α 的作用虽然引入可学习频率QMix-Scaled略微提高了早期性能但没有转化为更好的最终精度。这表明额外的频率灵活性增加了优化难度并可能引入训练不稳定性。相比之下固定的单位频率充当隐式正则化器促进了更稳定的收敛。空间卷积的作用加入 3×3 空间卷积QMix-Full提供了微小的精度增益但参数增加了 37%。尽管这一分支增强了局部空间建模但与轻量化设计目标相冲突提供的效率-精度权衡收益有限。最终的 QMixBlock 在精度和效率之间取得了最佳平衡优于所有变体且未增加参数数量。结果表明相位适应性是最关键的组件而额外的频率学习和空间增广引入了不必要的复杂性实际收益有限。表 IVQMixBlock 设计变体的消融研究YOLOv8n变体公式αΘ参数mAP50-95QMix-Sinsin(z·w)固定移除2.40M19.4QMix-Scaledsin(αz·wΘ)可学习可学习2.40M19.5QMix-Fullsin(z·wΘ) 3×3 卷积固定可学习3.29M19.6QMixBlocksin(z·wΘ)固定可学习2.40M19.9D. 与其他压缩方法的比较表 V 将 QYOLOv8n 与 VisDrone2019 验证集上的直接压缩基线进行了比较。剪枝基线应用了 20% 的非结构化稀疏化在不改变网络结构的情况下将单个权重置零导致存储参数没有减少3.01MmAP50 下降 1.1 个百分点 [3]。此外这种方法需要专门的稀疏执行支持才能获得运行时收益限制了其在标准边缘硬件上的实用性。相比之下QYOLOv8n 通过架构压缩实现了真正的 20.2% 参数减少mAP50 仅下降 0.4 个百分点产生了一个更小、完全兼容于常规部署框架的密集模型。当与使用 YOLOv8n [1] 作为教师网络的知识蒸馏 [5] 结合时精度差距被完全恢复尽管增加了额外的训练复杂性。与其他轻量化检测策略相比通道剪枝方法 [3][15] 和结构化剪枝管道 [4] 实现了强大的压缩但需要多阶段优化和仔细的调参。以精度为导向的变体如 DCS-YOLOv8 [16] 提高了检测性能但代价是增加了模型大小和延迟降低了其在边缘部署中的适用性。两阶段检测器如 Faster R-CNN [17] 及其边缘适配版本 [18] 仍然计算密集难以满足实时约束。总体而言QYOLOv8n 在效率和精度之间提供了有利的平衡它在单个训练阶段中实现了真正的压缩同时保持接近基线的性能非常适合实时航拍边缘应用。表 VYOLOv8n 的不同压缩策略比较方法参数减少mAP50YOLOv8n 基线3.01M-34.9非结构化剪枝 (20%)3.01M*0%33.8QYOLOv8n2.40M20.2%34.5QYOLOv8n KD2.40M†20.2%34.9*剪枝将单个权重置零而不改变网络图因此存储参数数量与未剪枝基线相同。†知识蒸馏使用 QYOLOv8n 作为学生网络完整的 YOLOv8n 作为教师网络部署模型的参数仅为学生网络的参数。V. 结论本文介绍了 QYOLO一个用于高效实时目标检测的量子启发式架构框架。所提出的设计将最深的骨干 C2f 瓶颈替换为共享的 QMixBlock由正弦函数定义应用于 P4/16 和 P5/32 层同时保持颈部和检测头不变。QYOLOv8n 实现了 20.2% 的参数减少和 12.3% 的 GFLOPs 减少mAP50 仅下降 0.4 个百分点而 QYOLOv8s 显示出类似的收益且精度损失可忽略不计。骨干网络复杂度的降低也提高了训练效率每轮训练速度更快。消融研究证实可学习的相位偏移 Θ 对表达能力至关重要而固定的单位频率比可学习的替代方案更稳定。将 QMixBlock 扩展到颈部的更激进变体实现了更高的压缩比但引入了显著的精度下降突显了仅替换骨干网络设计的有效性。与依赖稀疏性的剪枝方法不同QMixBlock 通过直接减少参数实现了真正的架构压缩。与需要额外训练复杂性的知识蒸馏相比QYOLO 在单阶段管道中实现了接近基线的精度非常适合部署。未来的工作将探索将 QMixBlock 选择性地扩展到颈部网络并评估低精度推理下的性能。

QYOLO: Lightweight Object Detection viaQuantum Inspired Shared Channel Mixing——基于量子启发式共享通道混合的轻量化目标检测

相关文章：

QYOLO: Lightweight Object Detection viaQuantum Inspired Shared Channel Mixing——基于量子启发式共享通道混合的轻量化目标检测

BayLing大模型：基于LLaMA的中文指令微调实战指南

别再为论文插图发愁了！用ArcMap+PPT搞定研究区域图（附南海十段线正确画法）

2026奇点大会未公开议程泄露：AISMM v1.2将强制嵌入6类实时监控API，开发者需在Q2前完成SDK升级

Ubuntu24.04 NVIDIA驱动安装 nvidia-smi报错及修复

AISMM不是ISO替代品——20年信息治理专家拆解其不可替代的7层风控价值

从开发者视角感受 Taotoken 标准协议接入的便捷性与低延迟

Cloudflare Workers邮件路由：零成本实现自定义域名邮箱转发

如何通过多模态AI构建智能视频内容解析系统：video-analyzer技术深度解析

AI网关与可观测性平台Helicone：统一管理LLM请求，实现成本与性能优化

OpenClaw智能诊断工具oc-doctor：自动化运维与AI助手健康管理

浪潮云洲×摩尔元数达成战略合作，以工业AI赋能区域数字产业发展

保姆级教程：在YOLOv5 6.x中手搓C3GC模块，从代码修改到训练调参的全流程记录

Python requests库调用公司接口报SSL版本错误？别急着改代码，先检查这个隐藏的‘元凶’

Doramagic：基于Python的图像处理自动化工具集设计与实践

mysql5.7开启主从配置

网络安全学习指南：从零基础到进阶的完整路径（附资源包，建议收藏）

运维工程师必看！我从11K到20K的网络安全转型之路，收藏这篇避免35岁危机

Obsidian Tasks 终极指南：6个优先级符号让任务管理效率提升300%

【干货收藏】网络安全岗位完全指南：从零开始了解行业需求与职业发展

PiliPlus实战手册：解锁纯净跨平台B站观影体验

w3x2lni：魔兽地图跨版本转换的完整解决方案

YOLO-World实战：手把手教你用‘先提示后检测’策略，把实时开放词汇检测部署到边缘设备

Nginx HTTPS 负载均衡的正确打开方式：低成本实现HTTPS负载均衡的Nginx方案

Cursor Free VIP：三步解锁AI编程助手Pro功能完整指南

数据原生流动技术：让AI与控制系统“零延迟握手“

低预算外贸独立站的工程化交付：模板复用、服务器打包与5天上线流程

优学宝在线课程小程序正式上线！主打多元化在线课程模式，涵盖视频、音频、图文、专题四大课程类型，全品类内容全覆盖，随时随地在线学习，一站式高效提升自我。

加入收藏！小白程序员也能抓住的AI高薪机遇，大厂都在布局！

基于Kubeadm与Ansible的Kubernetes集群自动化部署实战