当前位置：首页 > news >正文

目标检测 YOLOv5 - 推理时的数据增强

news 2026/2/9 11:48:38

flyfish

版本 YOLOv5 6.2

参考地址

https://github.com/ultralytics/yolov5/issues/303

在训练时可以使用数据增强，在推理阶段也可以使用数据增强
在测试使用数据增强有个名字叫做Test-Time Augmentation (TTA)

实际使用中使用了大中小三个不同分辨率，中间大小分辨率的图像进行了左右反转
大分辨率
480 * 640 宽度W 高度H 比例为1
在这里插入图片描述
中分辨率
416 * 544 宽度W 高度H 比例为0.83

在这里插入图片描述
小分辨率
352 * 448 宽度W 高度H 比例为0.67

在这里插入图片描述

命令

python detect.py --weights ./yolov5s.pt --source ./data/images/bus.jpg  --imgsz 640 --augment

--augment语法
推理时默认不使用增强

import argparse
parser = argparse.ArgumentParser()
parser.add_argument("-v", "--verbose", help="increase output verbosity",action="store_true")
args = parser.parse_args()
if args.verbose:print("verbosity turned on")
else:print("verbosity turned off")

假如上段代码是test.py

# python test.py
# 输出     verbosity turned off# python test.py -v
# 输出 verbosity turned on

验证图像大小是每个维度上的stride的倍数，默认是32的倍数
例如图像大小是1111 那么就是
--img-size [1111, 1111] 更新为 [1120, 1120]

def check_img_size(imgsz, s=32, floor=0):# Verify image size is a multiple of stride s in each dimensionif isinstance(imgsz, int):  # integer i.e. img_size=640new_size = max(make_divisible(imgsz, int(s)), floor)else:  # list i.e. img_size=[640, 480]imgsz = list(imgsz)  # convert to list if tuplenew_size = [max(make_divisible(x, int(s)), floor) for x in imgsz]if new_size != imgsz:LOGGER.warning(f'WARNING: --img-size {imgsz} must be multiple of max stride {s}, updating to {new_size}')return new_size

推理增强部分

def _forward_augment(self, x):img_size = x.shape[-2:]  # height, widths = [1, 0.83, 0.67]  # scalesf = [None, 3, None]  # flips (2-ud, 3-lr)y = []  # outputsfor si, fi in zip(s, f):xi = scale_img(x.flip(fi) if fi else x, si, gs=int(self.stride.max()))print("xi.shape[2:]:",xi.shape[2:])yi = self._forward_once(xi)[0]  # forwardprint("0 yi:",yi.shape)#cv2.imwrite(f'img_{si}.jpg', 255 * xi[0].cpu().numpy().transpose((1, 2, 0))[:, :, ::-1])  # saveyi = self._descale_pred(yi, fi, si, img_size)print("1 yi.shape:",yi.shape)y.append(yi)y = self._clip_augmented(y)  # clip augmented tailsreturn torch.cat(y, 1), None  # augmented inference, traindef _descale_pred(self, p, flips, scale, img_size):# de-scale predictions following augmented inference (inverse operation)if self.inplace:p[..., :4] /= scale  # de-scaleif flips == 2:p[..., 1] = img_size[0] - p[..., 1]  # de-flip udelif flips == 3:p[..., 0] = img_size[1] - p[..., 0]  # de-flip lrelse:x, y, wh = p[..., 0:1] / scale, p[..., 1:2] / scale, p[..., 2:4] / scale  # de-scaleif flips == 2:y = img_size[0] - y  # de-flip udelif flips == 3:x = img_size[1] - x  # de-flip lrp = torch.cat((x, y, wh, p[..., 4:]), -1)return pdef _clip_augmented(self, y):# Clip YOLOv5 augmented inference tailsnl = self.model[-1].nl  # number of detection layers (P3-P5)g = sum(4 ** x for x in range(nl))  # grid pointse = 1  # exclude layer counti = (y[0].shape[1] // g) * sum(4 ** x for x in range(e))  # indicesy[0] = y[0][:, :-i]  # largei = (y[-1].shape[1] // g) * sum(4 ** (nl - 1 - x) for x in range(e))  # indicesy[-1] = y[-1][:, i:]  # smallreturn y

关于翻转看

if self.inplace:p[..., :4] /= scale  # de-scaleif flips == 2:p[..., 1] = img_size[0] - p[..., 1]  # de-flip udelif flips == 3:p[..., 0] = img_size[1] - p[..., 0]  # de-flip lr

2表示上下翻转
3表示左右翻转
s = [1, 0.83, 0.67] 是缩放比例，且能被32整除

这里的顺序是HW

xi.shape[2:]: torch.Size([640, 480])
xi.shape[2:]: torch.Size([544, 416])
xi.shape[2:]: torch.Size([448, 352])yi.shape: torch.Size([1, 18900, 85])
yi.shape: torch.Size([1, 13923, 85])
yi.shape: torch.Size([1, 9702, 85])

合并去冗余之后再进NMS

torch.Size([1, 34233, 85])

原来推理一张图像，增强后是推理3张

目标检测 YOLOv5 - 推理时的数据增强

目标检测 YOLOv5 - 推理时的数据增强 flyfish 版本 YOLOv5 6.2 参考地址 https://github.com/ultralytics/yolov5/issues/303在训练时可以使用数据增强，在推理阶段也可以使用数据增强在测试使用数据增强有个名字叫做Test-Time Augmentation (TTA) 实际使用中使…...

编程日记 2024/1/5 17:50:45

篇二：springboot2.7 OAuth2 server使用jdbc存储RegisteredClient

上一篇 <<springboot 2.7 oauth server配置源码走读一>>中简单描述了oauth2 server的配置，其中使用了内存保存 RegisteredClient，本篇改用mysql存储。 db存储需要创建表，表结构应该是什么样的呢，从spring给我们封装好…...

编程日记 2024/1/5 17:47:42

卷积神经网络|导入图片

在学习卷积神经网络时，我们通常使用的就是公开的数据集，这里，我们不使用公开数据集，直接导入自己的图片数据，下面，就简单写个程序实现批量图片的导入。 import osfrom PIL import Imageimport numpy as np…...

编程日记 2024/1/5 17:46:41

关于unity的组件VerticalLayoutGroup刷新显示不正常的问题

先说明一下我是如何用到，有哪些处理的用到这个组件基本上都是将列表进行排版操作的，竖着，或者横着，横着用HorizontalLayoutGroup 还有一个和这个组件搭配的组件叫ContentSizeFitter 先说我是怎么发现这个组件不好用的 //本地读取…...

编程日记 2024/1/5 17:45:40

wait 和 notify 这个为什么要在synchronized 代码块中？

一个工作七年的小伙伴，竟然不知道” wait”和“notify”为什么要在 Synchronized 代码块中。好吧，如果屏幕前的你也不知道，请在公屏上刷”不知道“。对于这个问题，我们来看看普通人和高手的回答。一、问题解析 1. wait 和 n…...

编程日记 2024/1/5 17:44:39

大白话说区块链和通证

1 区块链简单地说，区块链其实就像是一个不可篡改的分布式数据库，该分布式数据库记录了一系列交易或事件。区块链运行在至少1个以上的节点上，每个节点都有自己的一个分布式数据库，也就是分布式账本。正常情况下，每个节…...

编程日记 2024/1/5 17:43:38

Jvm之垃圾收集器（个人见解仅供参考）

问：什么是垃圾收集算法中的分代收集理论？ 答：分代收集理论是垃圾收集算法的一种思想，根据对象存活周期的不同将内存分为几块，一般将java堆分为新生代和老年代。这种理论使得我们可以根据各个年代的特点选择合适的垃圾收…...

编程日记 2024/1/5 17:42:37

Minitab 21软件安装包下载及安装教程

Minitab 21下载链接：https://docs.qq.com/doc/DUkNHZVhwTXhtTFla 1.选中下载好的安装包，鼠标右键解压到”Minitab 21“文件夹 2.选中”Setup.exe“，鼠标右击选择“以管理员身份运行” 3.点击“下一步” 4.点击“是” 5.点击“下一步” 6.勾选…...

编程日记 2024/1/5 17:40:35

Java版商城：Spring Cloud+SpringBoot b2b2c电子商务平台，多商家入驻、直播带货及免费小程序商城搭建

随着互联网的快速发展，越来越多的企业开始注重数字化转型，以提升自身的竞争力和运营效率。在这个背景下，鸿鹄云商SAAS云产品应运而生，为企业提供了一种简单、高效、安全的数字化解决方案。鸿鹄云商SAAS云产品是一种基于云计算的…...

编程日记 2024/1/5 17:38:33

阿里云被拉入黑洞模式怎么办？该怎么换ip-速盾网络

被拉入黑洞模式（BGP黑洞路由）意味着所有进入目标IP的流量都会被丢弃，从而导致目标IP对外完全不可访问。这种情况通常发生在面对大规模DDoS攻击时，为了防止攻击流量对其他网络造成影响。如果你使用的是阿里云服务并遭受到这种攻击&…...

编程日记 2024/1/5 17:36:32

Android 13.0 recovery竖屏界面旋转为横屏

1.概述在13.0系统项目定制化开发中，由于平板固定横屏显示，而如果recovery界面竖屏显示就觉得怪怪的，所以需要recovery页面横屏显示的功能，所以今天就来解决这个问题 2.实现功能相关分析 Android的Recovery中，利用 bootable\recovery下的minui库作为基础，采用的是直接…...

编程日记 2024/1/5 17:35:31

异地环控设备如何远程维护？贝锐蒲公英解决远程互联难题

青岛某企业致力于孵化设备、养禽设备和养猪设备的研发、生产和服务，历经三十多年发展，目前已成长为行业主要的养殖装备及工程服务提供商，产品覆盖养殖产业链中绝大多数环节，涉及自动化设备、环控设备、整体解决方案等。在实际应用…...

编程日记 2024/1/5 17:34:30

flutter 判断是否是web环境

代码如下 import package:flutter/foundation.dart show kIsWeb;void main() {if (kIsWeb) {print(Running on the web!);} else {print(Not running on the web!);} } 如果是使用 Platform.isAndroid 会报错所以使用上面的方式...

编程日记 2024/1/5 17:33:29

视频智能分析/云存储平台EasyCVR接入海康SDK，通道名称未自动更新该如何解决？

视频监控GB28181平台EasyCVR能在复杂的网络环境中，将分散的各类视频资源进行统一汇聚、整合、集中管理，在视频监控播放上，TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放，可同时播放多路视频流，也能…...

编程日记 2024/1/5 17:31:27

后端开发——JDBC的学习（三）

本篇继续对JDBC进行总结： ①通过Service层与Dao层实现转账的练习； ②重点：由于每次使用连接就手动创建连接，用完后就销毁，这样会导致资源浪费，因此引入连接池，练习连接池的使用； …...

编程日记 2024/1/5 17:29:26

Redis 生产环境查找无过期时间的 key

在项目中，Redis 不应该被当作传统数据库来使用；储存大量没有过期时间的数据。如果储存大量无过期时间，而且无效的key的话；再加上 Redis 本身的过期策略没有被正确设置，就会大量占用内存。这样就会导致再多的内存资源也不够用。情况大致是这样，项目中采用 Redis 二级存储…...

编程日记 2024/1/5 17:26:23

Visual Studio 2017编译Python3.8.18源码

一直纠结Python的开发环境没有升级到最新版3.8.18。这是当前的最新版，正在用的版本3.8.10。他是官方制作出安装包的最新版。 1、准备Visual C 2017的开发环境包括但不限于使用C的桌面开发x64 2、在Python官网下载Python3.8.18的源码。 3、解压缩源码 4、进入控制…...

编程日记 2024/1/5 17:25:22

【mujoco】Ubuntu20.04中解决mujoco报错raise error.MujocoDependencyError

【mujoco】Ubuntu20.04中解决mujoco报错raise error.MujocoDependencyError 文章目录【mujoco】Ubuntu20.04中解决mujoco报错raise error.MujocoDependencyError1. 报错的具体情况2. 解决过程3. 其他问题3.1 ModuleNotFoundError: No module named OpenGL3.2 ModuleNotFoundEr…...

编程日记 2024/1/5 17:22:20

机器学习的三个方面

1 机器学习的三个方面 1.1 数据包括数据采集、增强和质量管理，相当于给人工智能模型学习什么样的知识第一、什么专业的知识； 第二、知识是否有体系，也就是说样本之间是否存在某种关联、差异等，这个涉及到样本选择等问题&#x…...

编程日记 2024/1/5 17:21:19

关于一名资深Java程序员在移动端的进阶之路

今天呢，就借此机会，跟大家聊一聊我的个人职业经历吧！ 那年刚毕业刚毕业时候，入职的第一家公司，进去后，说实话，没有太大成长吧！基本就是让我做一些可有可无的边缘性的工作&#xff…...

编程日记 2024/1/5 17:20:18

Docker 离线安装指南

参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性，不同版本的Docker对内核版本有不同要求。例如，Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本，Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...

编程新知 2026/2/7 6:10:30

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2026/1/26 13:21:10

vue3 定时器-定义全局方法 vue+ts

1.创建ts文件路径：src/utils/timer.ts 完整代码： import { onUnmounted } from vuetype TimerCallback (...args: any[]) > voidexport function useGlobalTimer() {const timers: Map<number, NodeJS.Timeout> new Map()// 创建定时器con…...

编程新知 2025/8/9 0:31:20

【JavaSE】绘图与事件入门学习笔记

-Java绘图坐标体系坐标体系-介绍坐标原点位于左上角，以像素为单位。在Java坐标系中,第一个是x坐标,表示当前位置为水平方向，距离坐标原点x个像素;第二个是y坐标，表示当前位置为垂直方向，距离坐标原点y个像素。坐标体系-像素 …...

编程新知 2025/12/19 20:46:15

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入（联动）2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

编程新知 2025/11/10 19:08:45

稳定币的深度剖析与展望

一、引言在当今数字化浪潮席卷全球的时代，加密货币作为一种新兴的金融现象，正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而，加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下，稳定…...

编程新知 2025/10/24 12:31:26

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

编程新知 2026/1/25 13:33:35

STM32HAL库USART源代码解析及应用

STM32HAL库USART源代码解析前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

编程新知 2026/1/31 13:18:46

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式，自动确定它们的类型。这一特性减少了显式类型注解的需要，在保持类型安全的同时简化了代码。通过分析上下文和初始值，TypeSc…...

编程新知 2025/11/2 1:48:43

MySQL：分区的基本使用

目录一、什么是分区二、有什么作用三、分类四、创建分区五、删除分区一、什么是分区 MySQL 分区（Partitioning）是一种将单张表的数据逻辑上拆分成多个物理部分的技术。这些物理部分（分区）可以独立存储、管理和优化，…...

编程新知 2026/2/2 18:52:32

相关文章：