当前位置: 首页 > article >正文

(论文速读)AFSS :防遗忘采样策略

论文题目Does YOLO Really Need to See Every Training Image in Every Epoch?YOLO真的需要查看每个epoch的每个训练图像吗?会议CVPR2026摘要YOLO检测器以其快速的推理速度而闻名但是训练它们仍然非常耗时因为它们的管道非常详尽即使在许多图像已经被充分学习的情况下也要处理每个epoch的每个训练图像。这与“你只看一次”的理念所建议的效率形成鲜明对比。这自然提出了一个重要的问题:YOLO真的需要查看每个时代的每个训练图像吗?为了探索这一点我们提出了一种防遗忘采样策略(AFSS)该策略动态地确定应该使用哪些图像哪些图像可以在每个epoch中跳过从而使检测器能够更有效地学习。具体而言AFSS将每个训练图像的学习充分性作为其检测召回率和精度的最小值并相应地动态地将训练图像分为简单、中等或困难级别。简单的训练图像在训练过程中以连续回顾的方式稀疏重采样优先考虑长时间未使用的图像以减少冗余防止遗忘。适度的训练图像被部分选择优先考虑最近未使用的图像并从未选择的图像中随机选择其余的图像以确保覆盖范围并防止遗忘。硬训练图像在每个epoch都被完全采样以确保充分的学习。每个训练图像的学习充分性定期更新使检测器能够自适应地将焦点转移到信息丰富的训练图像上同时逐步丢弃冗余的训练图像。在广泛使用的自然图像检测基准(MS COCO 2017和PASCAL VOC 2007)和遥感检测数据集(DOTA-v1.0和DIORR)上AFSS在提高准确率的同时为yolo系列探测器实现了超过1.43倍的训练加速。YOLO 真的需要每个 Epoch 都看遍全部训练图像吗——AFSS 论文详解一、背景被忽视的训练效率悖论YOLO 系列检测器以You Only Look Once为名以极快的推理速度闻名于世是工业界和学术界实时目标检测的事实标准。然而论文作者敏锐地发现了一个长期被忽视的矛盾YOLO 的推理很快但训练却出奇地慢。以 YOLO11s 为例在两张 RTX 4090 上其推理速度高达 200 FPS然而在 MS COCO 2017 数据集上完整训练一次却需要43.9 小时。与此形成鲜明对比的是Faster R-CNNResNet50在相同硬件下仅需6.5 小时速度是 YOLO11s 的6.9 倍。一个以只看一次为设计哲学的模型训练时却要把每张图像反复看几百遍——这难道不是一个巨大的矛盾吗【Figure 1(b)——YOLO11s 与 YOLO11sAFSS 的训练时间与精度对比曲线】二、问题根源全覆盖训练范式的低效性为了理解这种低效的根源论文作者从训练图像利用率的角度重新审视了 YOLO 的训练行为。YOLO 采用的是全覆盖训练范式Full-Coverage Training Paradigm在每一个 epoch 中训练集中的每一张图像都必须参与前向传播和反向传播。这意味着一个训练 600 个 epoch 的模型每张图像会被处理整整 600 次不论模型是否早已从这张图像中学到了足够的知识。这一范式存在两个根本性的问题收益递减当模型已经充分学会了某些简单图像后继续以相同频率处理它们对模型能力的提升几乎没有帮助却白白消耗了大量的计算资源。对所有图像一视同仁该范式隐含地假设所有训练图像在整个训练过程中贡献相同。然而随着模型不断演化每张图像的信息量informativeness会自然发生变化。早期困难的图像可能已经被充分学习而新的困难案例则需要更多关注。【此处配图Figure 1(a)——每个 Epoch 使用的训练图像数量对比展示 AFSS 逐渐减少图像用量的趋势】这一观察引出了论文的核心问题YOLO 真的需要在每个 Epoch 都看遍全部训练图像吗三、方法Anti-Forgetting Sampling StrategyAFSS为了回答上述问题论文提出了抗遗忘采样策略Anti-Forgetting Sampling StrategyAFSS。其核心思想是让训练变得自适应而非机械均匀——根据每张图像的学习状态动态决定哪些图像需要继续训练、哪些可以暂时跳过同时防止模型遗忘已经学好的知识。AFSS 的整体工作流程如下图所示【此处配图Figure 2——AFSS 在第 t 个 epoch 的整体工作流程图】3.1 学习充分性度量Learning Sufficiency MetricAFSS 的第一步是量化每张图像被学习的程度。作者认为一张图像只有在检测器既能正确分类其中所有目标又能完整定位它们时才算被可靠地学习了。因此定义图像 Ii 的学习充分性为其中 Pi 和 Ri 分别是该图像上的检测精度Precision和召回率Recall。取最小值的关键在于只要精度或召回率任意一项不可靠该图像就被认为学习不足。这种设计能有效聚焦于模型的薄弱环节而非被平均值掩盖。相比于基于 loss 或梯度的度量方式该指标直接对应检测任务目标且现代 YOLO 框架已经计算了这些统计数据几乎不引入额外计算开销。根据学习充分性分数AFSS 将图像分为三个难度级别难度级别含义Easy简单检测器已高置信度掌握Moderate中等部分稳定仍需精调Hard困难仍具挑战性遮挡、小目标等【此处配表Table 5(a)——不同学习充分性度量指标的对比消融实验】3.2 持续复习机制Continuous Review—— Easy 图像策略对于 Easy 图像完全跳过会导致模型遗忘已学知识但高频重复又是浪费。AFSS 引入持续复习机制每个 epoch 仅让2% 的 Easy 图像参与训练强制复习Forced Review从超过10 个 epoch未被使用的 Easy 图像中随机抽取一部分不超过总量的 1%强制纳入当前 epoch。这批图像专门用于防止长期遗忘。随机多样性Random Diversity从剩余 Easy 图像中再随机抽取一部分约 1%维持样本的多样性增强鲁棒性。两者共同构成一个轻量、高效的排练机制Rehearsal Mechanism在几乎不增加计算成本的前提下有效防止知识退化。3.3 短期覆盖机制Short-Term Coverage—— Moderate 图像策略Moderate 图像处于学习的不稳定区间预测置信度尚未充分稳定需要相对频繁的监督。AFSS 采用短期覆盖机制每个 epoch 参与约40% 的 Moderate 图像优先纳入超过 3 个 epoch 未被使用的图像强制覆盖防止遗忘从剩余图像中随机补充保证分布多样性。这一设计保证每张 Moderate 图像在不超过 3 个 epoch 的时间窗口内都会被复习一次兼顾了覆盖率与效率。【此处配表Table 5(b)(c)——持续复习间隔与短期覆盖间隔的消融实验】3.4 全量采样Full Coverage—— Hard 图像策略Hard 图像是模型尚未充分学习的困难案例通常涉及严重遮挡、小目标、密集排列等场景。对这类图像AFSS 维持与 vanilla YOLO 相同的策略每个 epoch 全部参与确保对困难样本持续、充分的梯度更新。3.5 状态更新机制State Update为避免每个 epoch 都重新评估所有图像的精度和召回率这本身会带来可观的计算开销AFSS 采用每 5 个 epoch 更新一次的策略在 warm-up 阶段结束后生效。每张图像的状态记录包含精度 $P_i$、召回率 $R_i$、最近一次被使用的 epoch 编号 $ep_i$。这份状态字典在每次更新后被传递到下一个 epoch使 AFSS 能够持续追踪每张图像的学习进展和使用历史。【此处配表Table 5(d)——状态更新间隔的消融实验】四、实验结果4.1 主实验自然图像数据集在 MS COCO 2017 和 PASCAL VOC 2007 上使用 YOLOv8、YOLOv10、YOLO11、YOLO12 的全系列规模n/s/m/l/x进行评估。核心结论AFSS 在所有模型和数据集上均实现超过1.43×的训练加速同时精度持平甚至小幅提升。【此处配表Table 1——不同模型在 MS COCO 2017 和 PASCAL VOC 2007 上加 AFSS 前后的精度与训练时间对比】以几个有代表性的数据点为例YOLO11s on COCO训练时间 43.9h → 28.4h加速1.54×AP 47.0 →47.2YOLO12x on COCO训练时间 260.6h → 154.8h加速1.68×AP 55.2 →55.4YOLOv8n on VOC训练时间 4.5h → 2.8h加速1.60×mAP 75.9 →76.0一个有趣的规律是模型越大AFSS 带来的加速比越高。这是因为更大的模型具有更强的学习能力能更快地将图像学到Easy级别从而更早开始跳过冗余样本。4.2 主实验遥感图像数据集在 DOTA-v1.0 和 DIOR-R 上使用 YOLOv8-OBB 和 YOLO11-OBB 进行定向目标检测评估。核心结论AFSS 实现超过1.63×的训练加速并伴随 mAP 的持续提升。遥感场景中目标密集、背景复杂困难样本比例更高这使得 AFSS 的自适应策略更能发挥作用。【此处配表Table 2——不同 OBB 模型在 DOTA-v1.0 和 DIOR-R 上加 AFSS 前后的对比】4.3 与其他训练策略的对比论文将 AFSS 与四种现有的训练效率提升方法进行了比较均使用 YOLO11s on COCO【配表Table 3——AFSS 与课程学习、自步学习、数据剪枝、数据集蒸馏的对比】其他方法普遍面临加速就掉点的两难困境课程学习/自步学习固定的由易到难调度导致困难样本在训练初期参与不足最终精度明显下降数据剪枝静态且不可逆地丢弃图像导致有偏梯度和遗忘问题数据集蒸馏合成数据缺乏真实场景的噪声和多样性精度损失最大35.6 AP。AFSS 是唯一一个在大幅提速的同时还能略微提升精度的方法。4.4 消融实验各模块的贡献【此处配表Table 4——LSM、CR、STC、SU 各模块的消融实验】逐步添加各模块的消融结果表明仅使用 LSM能实现 1.45× 加速但精度下降至 44.8 AP未加遗忘防护机制模型丢失了对 easy 图像的记忆LSM CR精度回升至 45.5 AP持续复习有效抑制了遗忘LSM CR STC精度进一步提升至 46.6 APLSM CR STC无 SU精度达到 47.2 AP但加速仅 1.26×每 epoch 都重新评估状态计算开销大完整 AFSS加入 SU精度 47.2 AP加速1.54×State Update 是实现高效率的关键。4.5 训练动态可视化【此处配图Figure 3——训练过程中 Easy/Moderate/Hard 图像数量的变化趋势】Figure 3 展示了训练过程中三个难度级别图像数量的动态变化Hard 图像数量持续减少Easy 和 Moderate 图像数量增加说明模型在 AFSS 的引导下更快地掌握了困难样本——这正是精度能够提升的根本原因。【此处配图Figure 4——在困难图像上YOLO11s 与 YOLO11sAFSS 在第 100、300、600 个 epoch 的检测效果对比】Figure 4 的定性对比也印证了这一点AFSS 训练的模型在同等训练轮次下对困难样本如遮挡、拥挤场景的检测明显优于 baselinemissed detection 和错误预测更少。五、总结与思考论文的核心贡献这篇论文的核心贡献可以用一句话概括用聪明地选择看哪些图像代替机械地看完所有图像让 YOLO 训练既快又好。具体而言AFSS 通过三点设计实现了这一目标精准的难度度量用 min(P, R) 识别哪些图像已被充分学习差异化的采样策略对 Easy/Moderate/Hard 图像分别制定截然不同的参与频率抗遗忘机制通过强制复习和短期覆盖防止跳过图像导致的知识退化。方法的意义AFSS 是一种架构无关的训练加速方法可以无缝集成到任何 YOLO 系列检测器中无需修改模型结构或超参数。在 1.43× 至 1.69× 的训练加速范围内它不仅没有牺牲精度还在大多数情况下实现了精度的小幅提升——这在训练加速领域是相当罕见的。更深层次的意义在于有效的检测器训练依赖的是信息量充足的样本而非对全数据集的机械重复。这一思想对未来的训练效率研究具有重要的启示价值。

相关文章:

(论文速读)AFSS :防遗忘采样策略

论文题目:Does YOLO Really Need to See Every Training Image in Every Epoch?(YOLO真的需要查看每个epoch的每个训练图像吗?)会议:CVPR2026摘要:YOLO检测器以其快速的推理速度而闻名,但是训练它们仍然非…...

零基础玩转CentOS:快马AI生成新手友好型系统管理教程

作为一个Linux新手,第一次接触CentOS系统确实有点手足无措。记得我刚安装完CentOS 8最小化系统时,面对那个黑乎乎的终端界面,完全不知道从哪里开始配置。好在最近发现了InsCode(快马)平台,它生成的CentOS入门教程特别适合我这样的…...

go语言里面实现并发安全扣减库存的几种方式

一、基本数据准备 1、数据表的创建 -- ---------------- -- 库存表 -- ---------------- DROP TABLE IF EXISTS inventory; CREATE TABLE inventory (id int NOT NULL AUTO_INCREMENT primary key COMMENT 主键id,goods_id int(11) default 1 comment 商品id,stocks int(11) de…...

基于RetinaFace的课堂考勤系统:人脸识别与数据分析

基于RetinaFace的课堂考勤系统:人脸识别与数据分析 1. 为什么传统点名方式正在被智能考勤替代 早上八点的教室里,老师站在讲台前翻着花名册,学生低头刷手机,后排有人悄悄把书包放在空座位上——这种场景在高校和职业院校并不少见…...

贾子科学定理(Kucius Science Theorem)的哲学批判与理论重构:从证伪主义到可持续运行的科学范式研究

贾子科学定理(Kucius Science Theorem)的哲学批判与理论重构:从证伪主义到可持续运行的科学范式研究1. 引言1.1 研究背景与问题提出当代科学哲学正处于深刻的范式转换期。传统的波普尔证伪主义面临着前所未有的理论困境和实践挑战&#xff0c…...

终端设备可靠性检测报告:读懂设备耐用密码

日常使用手机、智能手表、家用路由器等终端设备时,我们总希望它“扛造耐用”,不轻易出故障。这份终端设备可靠性检测报告,就用通俗的话拆解设备耐用的核心密码,让大家明白,一台靠谱的设备,背后都经过了哪些…...

HsMod:55+创新功能重新定义炉石传说体验

HsMod:55创新功能重新定义炉石传说体验 【免费下载链接】HsMod Hearthstone Modification Based on BepInEx 项目地址: https://gitcode.com/GitHub_Trending/hs/HsMod 🌟 项目核心价值概述 HsMod作为基于BepInEx框架的炉石传说模改插件&#xf…...

统计数据时,sql执行超时,如何处理

在工作中,除了开发,有时还需要做一些数据统计。 统计数据时,sql执行超时。 可以通过以下手段处理。 一、优化sql 首先,通过 EXPLAIN 查看执行计划,看有没有走索引,能加索引的加索引,没有走索引…...

windows系统部署funrec项目:安装WSL2

注意:WSL系统与Windows系统环境是完全隔离开的,只有代码文件可以互通 windows的anaconda、python、uv、torch、tensorflow等,WSL都不能用,都需要另外安装 WSL 可以访问 Windows 的项目文件(比如 /mnt/d/MyProject/……...

突破性方案:智能引擎助力黑苹果EFI自动生成

突破性方案:智能引擎助力黑苹果EFI自动生成 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 你是否曾在深夜对着满屏的ACPI补丁代码感到迷茫…...

C++ 子数组位运算结果 题型

或运算 898. 子数组按位或操作 - 力扣(LeetCode) 我们直接看题,意思很明显,就是找出所有子数组,然后将子数组各个数相或得到的结果有多少个不同。 这里我们首先想到的就是直接把所有子数组求出来在或起来&#xff0c…...

网站SEO推广需要多少钱_如何选择合适的网站 SEO 推广服务商

网站SEO推广需要多少钱_如何选择合适的网站 SEO 推广服务商 一、了解网站SEO推广的基本概念 在当今的数字时代,网站SEO推广(Search Engine Optimization,搜索引擎优化)已成为任何企业在互联网上获得流量和客户的关键手段之一。S…...

基于下垂控制的光储直流微电网模型 1.模型由光伏和储能以及直流负载组成 2.光伏采用扰动观测法...

基于下垂控制的光储直流微电网模型1.模型由光伏和储能以及直流负载组成 2.光伏采用扰动观测法实现最大功率输出,储能刚开始采用恒定电压控制,电压稳定在额定电压附近,2s之后采用下垂控制,母线电压降低,达到目标光伏板在…...

如何处理Java LocalDateTime与Oracle TIMESTAMP WITH TIME ZONE的时区对应

根本原因是LocalDateTime无时区信息,JDBC驱动按JVM时区(如Asia/Shanghai)将其解释为带偏移时间点;存UTC时间须用localDateTime.atZone(ZoneOffset.UTC).toOffsetDateTime()显式指定偏移。Oracle插入时TIMESTAMP WITH TIME ZONE字段…...

CSS移动端解决阴影遮挡效果_利用box-shadow设置外扩散距离

box-shadow外扩散失效主因是父容器overflow隐藏、层叠上下文触发或参数误设;需检查overflow/transform/filter影响,用translateZ(0)强制分层,伪元素移出阴影,合理组合inset与外扩,并控制扩散距离≤8px。box-shadow 外扩…...

实现鼠标滚轮在容器滚动到底部后无缝过渡到页面滚动

本文介绍如何通过 javascript 检测固定高度溢出容器的滚动边界,在用户滚至底部时立即触发页面滚动,消除原生行为中约1秒的延迟等待,实现平滑、无中断的滚动接力。 本文介绍如何通过 javascript 检测固定高度溢出容器的滚动边界&#xff…...

IndexTTS 2.0应用案例:如何用它快速生成有声书和播客内容

IndexTTS 2.0应用案例:如何用它快速生成有声书和播客内容 1. 引言:声音创作的新范式 在数字内容爆炸式增长的今天,有声书和播客市场正以每年20%以上的速度扩张。但高质量音频内容的制作却面临两大痛点:专业配音成本高昂&#xf…...

[具身智能-218]:针对不同编程语言和应用场景,AI自动编程擅长与不擅长之处?

AI自动编程的能力在不同编程语言和应用场景下表现出显著差异。选择合适组合,能让AI成为强大的“加速器”,反之则可能带来风险。 核心原则是:AI对主流语言和标准化任务的支持最好,而在处理底层、高性能或复杂业务逻辑时则需要人工…...

细说杨乃武与小白菜案

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录前言一、案件二、精神分析学---心理防御机制三、关于我自己总结前言 一、案件 略,后面补 二、精神分析学—心理防御机制 在这个案件我主要关注县令和小…...

5个步骤搭建P2P视频分发系统:PCDN实战指南

5个步骤搭建P2P视频分发系统:PCDN实战指南 【免费下载链接】PCDN PCDN is an Peer to peer CDN for video, its Hybrid CDN/P2P Architecture. HTTP Live Streaming, WebRTC, videojs and peerjs, HLS and Video for broadcasts 项目地址: https://gitcode.com/g…...

DDrawCompat:让经典软件重获新生的兼容性解决方案

DDrawCompat:让经典软件重获新生的兼容性解决方案 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirrors/dd/DDrawCompa…...

数字化转型架构下的数据安全治理指南:以数据安全为核心的安全立体防御体系、数据安全体系、数据安全现状评估报告···(附相关资料)

微信公众号:木木自由,更多数据分析,经营分析、财务分析、商业分析、数据治理、数据要素、数据资产干货以及资料分享木木自由 数据分析领地Digital Technology Summit在数字经济深度发展的今天,数字化转型已成为企业生存与发展的…...

C语言完美演绎6-21

/* 范例&#xff1a;6-21 */#include<stdio.h> #include<conio.h>int main(){int n;printf("这是nn乘法表&#xff0c;请输入一值>");scanf("%d",&n);int i1;for(;i<n;) /* i从1到n次循环*/{int j1;for(;j<n;) /…...

c语言完美演绎6-20

/* 范例&#xff1a;6-20 */#include<stdio.h> #include<conio.h>int main(){int a;printf("请输入你的分数0-100>");scanf("%d",&a);if((a>0) && (a<60))printf("你被当了");else if((a>60) && (a…...

seo关键词挖掘工具哪个好_seo数据分析工具哪个最强

选择最佳SEO关键词挖掘工具和SEO数据分析工具指南 SEO关键词挖掘工具哪个好 在当今数字营销的竞争激烈环境中&#xff0c;选择合适的SEO关键词挖掘工具至关重要。这不仅能帮助你找到最相关、最受欢迎的关键词&#xff0c;还能显著提升你的网站流量和搜索引擎排名。市面上哪些…...

Unity游戏插件加载器MelonLoader完全指南:从安装到精通

Unity游戏插件加载器MelonLoader完全指南&#xff1a;从安装到精通 【免费下载链接】MelonLoader The Worlds First Universal Mod Loader for Unity Games compatible with both Il2Cpp and Mono 项目地址: https://gitcode.com/gh_mirrors/me/MelonLoader 在Unity游戏…...

Godot 4 2D 物理引擎位置初始化踩坑:add_child() 和 position 到底谁先? (错误位置触发物理事件)

Godot 4 2D 物理引擎位置初始化踩坑&#xff1a;add_child() 和 position 到底谁先&#xff1f; 在 Godot 4 做 2D 游戏时&#xff0c;很多人都会遇到一个很诡异的问题&#xff1a; 我明明想把一个 PackedScene 实例生成在 B 点&#xff0c;结果它却会在默认位置 A 点 短暂触发…...

实战演练:基于快马平台与方锐理念构建短视频智能配乐应用

最近在做一个短视频创作的小工具&#xff0c;发现给视频配乐真是个技术活。正好看到网易方锐的AI音乐技术挺火的&#xff0c;就想着能不能用它的理念做个智能配乐助手。在InsCode(快马)平台上试了试&#xff0c;没想到还真搞出了一个能跑起来的demo&#xff0c;分享下我的实现思…...

Project AirSim避障实战:深度图分割与动态航向规划详解

1. 深度图避障的核心原理 深度图避障是无人机自主导航中最基础也最关键的环节之一。简单来说&#xff0c;它就像给无人机装上了一双能精确测距的"眼睛"。这双眼睛看到的不是普通照片&#xff0c;而是一张每个像素都带有距离信息的特殊图像——我们称之为深度图&#…...

告别编译噩梦:用VSCode + CMake Tools 在Windows上优雅地构建和调试ncnn项目

告别编译噩梦&#xff1a;用VSCode CMake Tools 在Windows上优雅地构建和调试ncnn项目 对于习惯使用轻量级现代编辑器的开发者来说&#xff0c;在Windows平台编译ncnn这类高性能神经网络框架往往意味着要在笨重的IDE和晦涩的命令行工具之间艰难抉择。本文将展示如何通过VSCode…...