当前位置：首页 > news >正文

目标检测之数据增强

news 2025/7/9 7:33:42

一、概述

数据增强是一种通过人工或自动方式对数据进行修改或变换，以增加数据集规模和多样性的技术。在机器学习中，数据增强被广泛应用于解决数据稀缺、数据不平衡、数据噪声等问题，提高模型的泛化能力和鲁棒性。

二、为什么需要数据增强

图像增强在深度学习卷积神经网络 (CNN) 背景下至关重要，因为它有助于满足有效模型训练对大型且多样化数据集的需求。 CNN 需要大量图像才能有效训练，而图像增强提供了一种人为扩展现有数据集的方法。通过缩放、旋转、剪切或裁剪等技术创建图像变化，图像增强有助于生成更全面的可能图像集。这种多样化的数据集使模型能够更好地泛化，减少过度拟合，并在测试或验证过程中对以前未见过的数据进行评估时提高其性能。因此，图像增强对于提高训练数据的质量和数量至关重要，最终导致更强大和更准确的 CNN 模型。

三、什么时候使用数据增强

图像增强可以作为训练模型之前的预处理步骤，也可以在训练过程中实时应用。当用作预处理步骤时，应用增强来增加数据集的大小，特别是在处理需要扩展的小型训练数据集时。这种方法称为离线或预处理增强，涉及生成现有图像的变体以创建更多样化的数据集。应用图像增强时仔细考虑问题领域非常重要，因为某些增强策略可能与特定任务无关或无用。例如，在对不同类型的汽车进行分类时，垂直翻转汽车可能不会为数据集增加价值。因此，图像增强的应用应根据问题领域的具体要求进行定制。

四、数据增强实战

原始图像及标签：

运行数据增强代码：

增强后的数据及标签：

关键代码：

数据增强：

import cv2
import numpy as np
from PIL import Image, ImageDrawdef rand(a=0, b=1):return np.random.rand()*(b-a) + adef get_random_data(annotation_line, input_shape, jitter=.3, hue=.1, sat=0.7, val=0.4, random=True):line    = annotation_line.split()#------------------------------##   读取图像并转换成RGB图像#------------------------------#image   = Image.open(line[0])image   = image.convert('RGB')#------------------------------##   获得图像的高宽与目标高宽#------------------------------#iw, ih  = image.sizeh, w    = input_shape#------------------------------##   获得预测框#------------------------------#box     = np.array([np.array(list(map(int,box.split(',')))) for box in line[1:]])if not random:scale = min(w/iw, h/ih)nw = int(iw*scale)nh = int(ih*scale)dx = (w-nw)//2dy = (h-nh)//2#---------------------------------##   将图像多余的部分加上灰条#---------------------------------#image       = image.resize((nw,nh), Image.BICUBIC)new_image   = Image.new('RGB', (w,h), (128,128,128))new_image.paste(image, (dx, dy))image_data  = np.array(new_image, np.float32)#---------------------------------##   对真实框进行调整#---------------------------------#if len(box)>0:np.random.shuffle(box)box[:, [0,2]] = box[:, [0,2]]*nw/iw + dxbox[:, [1,3]] = box[:, [1,3]]*nh/ih + dybox[:, 0:2][box[:, 0:2]<0] = 0box[:, 2][box[:, 2]>w] = wbox[:, 3][box[:, 3]>h] = hbox_w = box[:, 2] - box[:, 0]box_h = box[:, 3] - box[:, 1]box = box[np.logical_and(box_w>1, box_h>1)] # discard invalid boxreturn image_data, box#------------------------------------------##   对图像进行缩放并且进行长和宽的扭曲#------------------------------------------#new_ar = iw/ih * rand(1-jitter,1+jitter) / rand(1-jitter,1+jitter)scale = rand(.25, 2)if new_ar < 1:nh = int(scale*h)nw = int(nh*new_ar)else:nw = int(scale*w)nh = int(nw/new_ar)image = image.resize((nw,nh), Image.BICUBIC)#------------------------------------------##   将图像多余的部分加上灰条#------------------------------------------#dx = int(rand(0, w-nw))dy = int(rand(0, h-nh))new_image = Image.new('RGB', (w,h), (128,128,128))new_image.paste(image, (dx, dy))image = new_image#------------------------------------------##   翻转图像#------------------------------------------#flip = rand()<.5if flip: image = image.transpose(Image.FLIP_LEFT_RIGHT)image_data      = np.array(image, np.uint8)#---------------------------------##   对图像进行色域变换#   计算色域变换的参数#---------------------------------#r               = np.random.uniform(-1, 1, 3) * [hue, sat, val] + 1#---------------------------------##   将图像转到HSV上#---------------------------------#hue, sat, val   = cv2.split(cv2.cvtColor(image_data, cv2.COLOR_RGB2HSV))dtype           = image_data.dtype#---------------------------------##   应用变换#---------------------------------#x       = np.arange(0, 256, dtype=r.dtype)lut_hue = ((x * r[0]) % 180).astype(dtype)lut_sat = np.clip(x * r[1], 0, 255).astype(dtype)lut_val = np.clip(x * r[2], 0, 255).astype(dtype)image_data = cv2.merge((cv2.LUT(hue, lut_hue), cv2.LUT(sat, lut_sat), cv2.LUT(val, lut_val)))image_data = cv2.cvtColor(image_data, cv2.COLOR_HSV2RGB)#---------------------------------##   对真实框进行调整#---------------------------------#if len(box)>0:np.random.shuffle(box)box[:, [0,2]] = box[:, [0,2]]*nw/iw + dxbox[:, [1,3]] = box[:, [1,3]]*nh/ih + dyif flip: box[:, [0,2]] = w - box[:, [2,0]]box[:, 0:2][box[:, 0:2]<0] = 0box[:, 2][box[:, 2]>w] = wbox[:, 3][box[:, 3]>h] = hbox_w = box[:, 2] - box[:, 0]box_h = box[:, 3] - box[:, 1]box = box[np.logical_and(box_w>1, box_h>1)] return image_data, box

调用代码：

import os
from random import sampleimport numpy as np
from PIL import Image, ImageDrawfrom utils.random_data import get_random_data, get_random_data_with_MixUp
from utils.utils import convert_annotation, get_classes#-----------------------------------------------------------------------------------#
#   Origin_VOCdevkit_path   原始数据集所在的路径
#-----------------------------------------------------------------------------------#
Origin_VOCdevkit_path   = "VOCdevkit_Origin"
#-----------------------------------------------------------------------------------#
#   input_shape             生成的图片大小。
#-----------------------------------------------------------------------------------#
input_shape             = [640, 640]if __name__ == "__main__":Origin_JPEGImages_path  = os.path.join(Origin_VOCdevkit_path, "VOC2007/JPEGImages")Origin_Annotations_path = os.path.join(Origin_VOCdevkit_path, "VOC2007/Annotations")#---------------------------##   遍历标签并赋值#---------------------------#xml_names = os.listdir(Origin_Annotations_path)#------------------------------##   获取一个图像与标签#------------------------------#sample_xmls     = sample(xml_names, 1)unique_labels   = get_classes(sample_xmls, Origin_Annotations_path)jpg_name        = os.path.join(Origin_JPEGImages_path, os.path.splitext(sample_xmls[0])[0] + '.jpg')xml_name        = os.path.join(Origin_Annotations_path, sample_xmls[0])line = convert_annotation(jpg_name, xml_name, unique_labels)#------------------------------##   各自数据增强#------------------------------#image_data, box_data  = get_random_data(line, input_shape) img = Image.fromarray(image_data.astype(np.uint8))for j in range(len(box_data)):thickness = 3left, top, right, bottom  = box_data[j][0:4]draw = ImageDraw.Draw(img)for i in range(thickness):draw.rectangle([left + i, top + i, right - i, bottom - i],outline=(255, 255, 255))img.show()

目标检测之数据增强

一、概述数据增强是一种通过人工或自动方式对数据进行修改或变换，以增加数据集规模和多样性的技术。在机器学习中，数据增强被广泛应用于解决数据稀缺、数据不平衡、数据噪声等问题，提高模型的泛化能力和鲁棒性。二、为什么需要数据增强 …...

编程日记 2024/8/20 4:04:25

本地下载安装WampServer结合内网穿透配置公网地址远程访问详细教程

文章目录前言1.WampServer下载安装2.WampServer启动3.安装cpolar内网穿透3.1 注册账号3.2 下载cpolar客户端3.3 登录cpolar web ui管理界面3.4 创建公网地址 4.固定公网地址访问前言 Wamp 是一个 Windows系统下的 Apache PHP Mysql 集成安装环境，是一组常用来…...

编程日记 2024/8/20 4:02:23

一篇文章理清Java持久化脉络（关于JDBC、JPA、Hibernate、Spring Data JPA）

Java持久化一、JDBC、JPA、Spring Data JPA 的定义及关系二、JDBC（古老的东西，只需简单知道是啥）1.1 JDBC概念1.2 JDBC示例三、JPA（第二代持久化，代表是Hibernate等框架）3.1 JPA概念3.2 JPA示例四、Spri…...

编程日记 2024/8/20 3:59:20

【数学分析笔记】第2章第1节实数系的连续性（1）

2. 数列极限 2.1 实数系的连续性人类对数系认识的历史： 人类最早对数系的认识是自然数集合 N \mathbb{N} N，自然数系对加法和乘法是封闭的（这里的封闭是指：若 m ∈ N , n ∈ N ⇒ m n ∈ N , m n ∈ N m\in\mathbb{N},n\in\ma…...

编程日记 2024/8/20 3:56:16

Speech Synthesis (LASC11062)

大纲 Module 1 – introductionModule 2 - unit selectionModule 3 - unit selection target cost functionsModule 4 - the databaseModule 5 - evaluationModule 6 - speech signal analysis & modellingModule 7 - Statistical Parametric Speech Synthesis (SPSS)Modu…...

编程日记 2024/8/20 3:53:13

拟合与插值|线性最小二乘拟合|非线性最小二乘拟合|一维插值|二维插值

挖掘数据背后的规律是数学建模的重要任务，拟合与插值是常用的分析方法掌握拟合与插值的基本概念和方法熟悉Matlab相关程序实现能够从数据中挖掘数学规律拟合问题的基本提法拟合问题的概念已知一组数据(以二维为例)，即平面上n个点 ( x i , y i ) …...

编程日记 2024/8/20 3:52:12

《python语言程序设计》2018版第7章第05题几何：正n边形，一个正n边形的边都有同样的长度。角度同样设计RegularPolygon类

结果和代码这里只涉及一个办法方法部分 def main():rX, rY eval(input("Enter regular polygon x and y axis:"))regular_num eval(input("Enter regular number: "))side_long eval(input("Enter side number: "))a exCode07.RegularPol…...

编程日记 2024/8/20 3:51:10

使用Virtio Driver实现一个计算阶乘的小程序——QEMU平台

目录一、概述二、代码部分 1、Virtio 前端 (1) User Space (2) Kernel Space 2、Virtio 后端三、运行 QEMU Version：qemu-7.2.0 Linux Version：linux-5.4.239 一、概述本篇文章的主要内容是使用Virtio前后端数据传输的机制实现一个计算阶乘的…...

编程日记 2024/8/20 3:45:01

【PyCharm】配置“清华镜像”地址

文章目录前言一、清华镜像是什么？二、pip是什么？三、具体步骤1.复制镜像地址2.打开PyCharm，然后点击下图红框的选项3.在弹出的新窗口点击下图红框的选项进行添加4.在URL输入框中粘贴第一步复制的地址，名字可以不更改，…...

编程日记 2024/8/20 3:40:56

IO器件性能评估

整体逻辑：需要先了解到读写速率的差异，在明确使用场景。比如应用启动过程中的IO主要是属于随机读的io 评估逻辑： UFS 与 eMMC主要差别在io读写能力： 1，对比UFS、eMMC的规格书标注的io读写能力 ufs spec : sequentia…...

编程日记 2024/8/20 3:36:49

在js中判断对象是空对象的几种方法

使用 Object.keys() 方法 Object.keys() 方法返回对象自身的可枚举属性名称组成的数组。如果数组的长度为 0，那么对象是空的。 function isEmptyObject(obj) {return Object.keys(obj).length 0 && obj.constructor Object; }const obj1 {}; const obj2…...

编程日记 2024/8/20 3:35:48

【整理】后端接口设计和优化相关思路汇总

文章目录明确的接口定义和文档化使用RESTful设计规范分页和过滤合理使用缓存限流与熔断机制安全性设计异步处理与后台任务接口参数校验（入参和出参）接口扩展性考虑核心接口，线程池隔离关键接口，日志打印接口功能单一性原则接口查…...

编程日记 2024/8/20 3:34:47

docker 部署 sql server

众所周知，sql server不好装，本人之前装了两次，这个数据库简直是恶心。突然想到，用docker容器吧果然可以记得放开1433端口还有记得docker加速，不然拉不到镜像的最后工具还是要装的，这个就自己研究吧。 …...

编程日记 2024/8/20 3:31:43

微信云开发云存储下载全部文件

一、安装首先按照这个按照好依赖，打开cmd 安装 | 云开发 CloudBase - 一站式后端云服务 npm i -g cloudbase/cli 安装可能遇到的问题 ‘tcb‘ 不是内部或外部命令，也不是可运行的程序或批处理文件。-CSDN博客二、登录在cmd输入 tcb login 三、…...

编程日记 2024/8/20 3:30:42

1、巡线功能实现（7路数字循迹）

一、小车运行 1.PWM初始化函数 (pwm.c中编写) 包括四个轮子PWM通道使用的GPIO接口初始化、定时器初始化、PWM通道初始化。 void PWM_Init(uint16_t arr,uint16_t psc); 2.PWM占空比设置函数 (pwm.c中编写) 此函数调用了四个通道设置占空比的函数，作用是方便修改四…...

编程日记 2024/8/20 3:23:36

来了...腾讯内推的软件测试面试PDF 文档（共107页）

不多说，直接上干货（展示部分以腾讯面试纲要为例）完整版文末领取通过大数据总结发现，其实软件测试岗的面试都是差不多的。常问的有下面这几块知识点： 全网首发-涵盖16个技术栈第一部分，测试理论&#x…...

编程日记 2024/8/20 3:21:34

Android大脑--systemserver进程

用心坚持输出易读、有趣、有深度、高质量、体系化的技术文章，技术文章也可以有温度。本文摘要系统native进程的文章就先告一段落了，从这篇文章开始写Java层的文章，本文同样延续自述的方式来介绍systemserver进程，通过本文您将…...

编程日记 2024/8/20 3:20:33

python项目部署：Nginx和UWSGI认识

Nginx: HTTP服务器，反向代理，静态资源转发，负载均衡，SSL终端，缓存，高并发处理。 UWSGI: Python应用程序服务器，WSGI兼容，多进程管理，快速应用部署，多种协议支…...

编程日记 2024/8/20 3:19:31

【区块链+金融服务】农业大宗供应链线上融资平台 | FISCO BCOS应用案例

释放数据要素价值，FISCO BCOS 2024 应用案例征集粮食贸易受季节性影响显著。每年的粮收季节，粮食收储企业会根据下游订单需求，从上游粮食贸易商或粮农手里大量采购粮食，并分批销售给下游粮食加工企业（面粉厂、饲料厂…...

编程日记 2024/8/20 3:18:29

2025ICASSP Author Guidelines

Part I: General Information Procedure ICASSP 2025 论文提交与评审过程将与往届会议类似： 有意参加会议的作者需提交一份完整描述其创意和相关研究成果的文件，技术内容（包括图表和可能的参考文献）最多为4页&…...

编程日记 2024/8/20 3:17:28

7.4.分块查找

一.分块查找的算法思想： 1.实例： 以上述图片的顺序表为例， 该顺序表的数据元素从整体来看是乱序的，但如果把这些数据元素分成一块一块的小区间， 第一个区间[0,1]索引上的数据元素都是小于等于10的， 第二…...

编程新知 2025/7/8 18:01:08

docker详细操作--未完待续

docker介绍 docker官网: Docker：加速容器应用程序开发 harbor官网：Harbor - Harbor 中文使用docker加速器: Docker镜像极速下载服务 - 毫秒镜像是什么 Docker 是一种开源的容器化平台，用于将应用程序及其依赖项（如库、运行时环…...

编程新知 2025/7/6 18:34:54

《Playwright：微软的自动化测试工具详解》

Playwright 简介:声明内容来自网络，将内容拼接整理出来的文档 Playwright 是微软开发的自动化测试工具，支持 Chrome、Firefox、Safari 等主流浏览器，提供多语言 API（Python、JavaScript、Java、.NET）。它的特点包括&a…...

编程新知 2025/7/7 13:52:42

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

一、开发准备环境搭建： 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号项目创建： File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...

编程新知 2025/7/8 20:29:33

基于Uniapp开发HarmonyOS 5.0旅游应用技术实践

一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架，支持"一次开发，多端部署"，可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务，为旅游应用带来&#xf…...

编程新知 2025/6/21 9:41:59

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件，然后打开终端，进入下载文件夹，键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

编程新知 2025/7/8 13:46:50

基于数字孪生的水厂可视化平台建设：架构与实践

分享大纲： 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效近几年，数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段，基于数字孪生的水厂可视化平台的…...

编程新知 2025/6/16 21:39:46

【论文阅读28】-CNN-BiLSTM-Attention-（2024）

本文把滑坡位移序列拆开、筛优质因子，再用 CNN-BiLSTM-Attention 来动态预测每个子序列，最后重构出总位移，预测效果超越传统模型。文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵（S…...

编程新知 2025/7/8 17:01:01

保姆级教程：在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama（有网络的电脑）2.2.3 安装Ollama（无网络的电脑）2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...

编程新知 2025/7/7 22:47:18

Selenium常用函数介绍

目录一，元素定位 1.1 cssSeector 1.2 xpath 二，操作测试对象三，窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口四，弹窗五，等待六，导航七，文件上传 …...

编程新知 2025/7/6 20:15:13

一、概述

二、为什么需要数据增强

三、什么时候使用数据增强

四、数据增强实战

相关文章：