当前位置：首页 > news >正文

【目标分类图像增强方法】

news 2025/7/8 17:31:27

图像增强方法及其原理

目标分类图像增强是一种用于提高深度学习模型泛化能力的技术，通过在训练过程中对原始图像进行各种变换来增加模型所见数据的多样性。以下是几种常见的图像增强方法及其原理：

几何变换：
- 旋转（Rotation） ：以一定角度随机旋转图像，使模型能够识别目标在不同方向上的表现。
- 翻转（Flip） ：水平或垂直翻转图像，模拟镜像效果。
- 缩放（Scaling） ：改变图像大小，训练模型适应不同尺度的目标。
- 裁剪与填充（Cropping and Padding） ：随机裁剪图像的一部分并重新填充到原始尺寸，或在图像边缘添加填充以改变目标的位置。
颜色空间变换：
- 亮度调整（Brightness Adjustment） ：通过改变图像的整体亮度来模拟光照变化。
- 对比度调整（Contrast Adjustment） ：改变图像中像素之间的灰度差异，增强或减弱细节。
- 饱和度调整（Saturation Adjustment） ：改变色彩饱和度，影响图像色彩的鲜艳程度。
- 色调/色相调整（Hue Adjustment） ：改变图像的整体色彩倾向。
噪声注入：
- 高斯噪声（Gaussian Noise） ：在图像上添加符合高斯分布的随机噪声，模拟传感器噪声或信道干扰。
- 椒盐噪声（Salt and Pepper Noise） ：随机将部分像素点置为白色或黑色，模拟图像中的坏点和缺失像素。
混合模式：
- 图像混合（Blending） ：将两张图片按照一定的透明度混合在一起，模拟遮挡或多目标场景。
仿射变换（Affine Transformation） ：包括平移、旋转、缩放以及剪切等综合变换，保证变换后图像的局部形状不变。
随机擦除（Random Erasing） ：随机选择图像区域并用均值或者随机像素填充，以此来模拟目标部分遮挡的情况。
Cutout 或 CutMix：
- Cutout：随机删除图像的矩形区域，迫使模型关注其它未被遮盖的部分。
- CutMix：将一张图像的一部分替换为另一张图像的相应部分，并更新标签以反映这种混合，这样既增强又增加了类别间的交互。
MixUp：线性插值两张图像和它们的标签，生成新的训练样本，旨在创建两个类别间的中间过渡样本。

以上这些增强技术通常在深度学习框架如TensorFlow、PyTorch中通过相应的库实现，例如tf.image、torchvision.transforms等，可以在训练前实时应用于每一批次的训练数据，无需预先处理整个数据集。

代码示例

1. 几何变换

旋转（Rotation） ：
- 原理：随机旋转图像，增加模型对目标物体不同角度的识别能力。
- 示例（使用albumentations）:
```
import albumentations as A
transform = A.Compose([A.Rotate(limit=30, p=0.5)  # 随机旋转0到30度
])
```

翻转（Flip） ：

原理：水平或垂直翻转图像，模拟镜像效果，提高模型对左右对称性的识别能力。

示例（使用torchvision.transforms）:

from torchvision.transforms import RandomHorizontalFlip, RandomVerticalFlip
transforms = Compose([RandomHorizontalFlip(p=0.5),  # 水平翻转概率为0.5RandomVerticalFlip(p=0.5)    # 垂直翻转概率为0.5
])# 或者使用单一的RandomFlip
from torchvision.transforms import RandomFlip
transforms = Compose([RandomFlip(  # 可以指定方向，不指定则默认考虑水平和垂直horizontal=True,vertical=True,p=0.5,)
])

2. 颜色空间变换

亮度调整（Brightness Adjustment） ：

原理：通过改变像素的亮度值来模拟光照变化。

示例（使用albumentations）:

import albumentations as A
transform = A.Compose([A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5)
])# 或者使用torchvision.transforms.ColorJitter单独调整亮度
from torchvision.transforms import ColorJitter
transforms = Compose([ColorJitter(brightness=0.2)
])

对比度调整（Contrast Adjustment） ：
- 原理：调整图像整体或局部区域的对比度，增强或减弱细节表现。
- 示例（继续使用albumentations中的RandomBrightnessContrast）:

3. 裁剪与填充（Cropping and Padding）

RandomResizedCrop：

原理：随机裁剪并缩放图像的一部分。

示例（使用torchvision.transforms）:

from torchvision.transforms import RandomResizedCrop
transforms = Compose([RandomResizedCrop(size=(224, 224), scale=(0.08, 1.0))
])

4. 其他增强

随机擦除（RandomErasing） ：
- 原理：随机擦除图像的部分区域，训练模型关注缺失信息时也能正确分类。
- 示例（使用albumentations）:
```
import albumentations as A
transform = A.Compose([A.RandomErasing(p=0.5)
])
```

5. 混合模式（CutMix, MixUp）

CutMix：
- 原理：将一张图像的一部分替换为另一张图像的相应部分，并更新标签，促进类别间的边界学习。
- 示例（使用albumentations的CutMix类）:
```
from albumentations.augmentations.mixup import CutMix
transform = A.Compose([CutMix(num_classes=num_classes, alpha=1.0)
])
```
MixUp：
- 原理：线性插值两张图像和它们的标签，创建数据集之间的过渡样本。
- torchvision自身没有直接提供MixUp实现，但可以自定义一个。

目标分类图像增强应用

翻转（Flip）：将图像在水平或垂直方向上进行翻转，可以增加数据集的多样性。原理是通过改变图像的坐标系来实现。
缩放（Scale）：对图像进行放大或缩小，可以增加数据集的多样性。原理是通过改变图像的尺寸来实现。
旋转（Rotate）：将图像绕中心点旋转一定角度，可以增加数据集的多样性。原理是通过改变图像的角度来实现。
平移（Shift）：将图像在水平和垂直方向上进行平移，可以增加数据集的多样性。原理是通过改变图像的位置来实现。
裁剪（Crop）：从图像中截取一部分区域，可以增加数据集的多样性。原理是通过改变图像的区域来实现。
颜色变换（Color Jitter）：对图像的颜色进行变换，如亮度、对比度、饱和度等，可以增加数据集的多样性。原理是通过改变图像的颜色属性来实现。
噪声注入（Noise Injection）：向图像中添加噪声，可以提高模型的鲁棒性。原理是通过向图像中添加随机噪声来实现。

下面是一个使用Python和OpenCV实现图像增强的代码示例：

import cv2
import numpy as npdef random_flip(image, prob=0.5):if np.random.rand() < prob:image = cv2.flip(image, 1)return imagedef random_scale(image, scale_range=(0.8, 1.2), prob=0.5):if np.random.rand() < prob:scale = np.random.uniform(scale_range[0], scale_range[1])h, w = image.shape[:2]new_h, new_w = int(h * scale), int(w * scale)image = cv2.resize(image, (new_w, new_h))return imagedef random_rotate(image, angle_range=(-30, 30), prob=0.5):if np.random.rand() < prob:angle = np.random.uniform(angle_range[0], angle_range[1])h, w = image.shape[:2]M = cv2.getRotationMatrix2D((w / 2, h / 2), angle, 1)image = cv2.warpAffine(image, M, (w, h))return imagedef random_shift(image, shift_range=(-10, 10), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]dx = np.random.randint(shift_range[0], shift_range[1])dy = np.random.randint(shift_range[0], shift_range[1])M = np.float32([[1, 0, dx], [0, 1, dy]])image = cv2.warpAffine(image, M, (w, h))return imagedef random_crop(image, crop_size=(224, 224), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]new_h, new_w = crop_sizestart_x = np.random.randint(0, w - new_w)start_y = np.random.randint(0, h - new_h)image = image[start_y:start_y + new_h, start_x:start_x + new_w]return imagedef random_color_jitter(image, brightness=0.1, contrast=0.1, saturation=0.1, hue=0.1, prob=0.5):if np.random.rand() < prob:alpha = 1 + np.random.uniform(-brightness, brightness)beta = np.random.uniform(-contrast, contrast)gamma = np.random.uniform(-saturation, saturation)hue_delta = np.random.uniform(-hue, hue)image = cv2.addWeighted(image, alpha, image, 0, beta)image = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)image[:, :, 1] = image[:, :, 1] * (1 + gamma)image[:, :, 0] = (image[:, :, 0] + hue_delta) % 180image = cv2.cvtColor(image, cv2.COLOR_HSV2BGR)return imagedef random_noise_injection(image, noise_level=0.05, prob=0.5):if np.random.rand() < prob:noise = np.random.randn(*image.shape) * noise_levelimage = image + noiseimage = np.clip(image, 0, 255).astype(np.uint8)return image

在训练过程中随机应用这些函数，以提高模型的泛化能力。

【目标分类图像增强方法】

图像增强方法及其原理目标分类图像增强是一种用于提高深度学习模型泛化能力的技术，通过在训练过程中对原始图像进行各种变换来增加模型所见数据的多样性。以下是几种常见的图像增强方法及其原理： 几何变换： 旋转（Rotation&#…...

编程日记 2024/3/8 0:41:29

游戏盾如何应对微商城网站DDoS攻击

游戏盾如何应对微商城网站DDoS攻击？随着电子商务的快速发展，微商城网站已成为众多商家开展在线业务的重要平台。然而，与此同时，网络安全威胁也愈发严重。其中，分布式拒绝服务（DDoS）攻击是一种常…...

编程日记 2024/3/8 0:39:26

安卓手机如何使用JuiceSSH实现公网远程连接本地Linux服务器

文章目录 1. Linux安装cpolar2. 创建公网SSH连接地址3. JuiceSSH公网远程连接4. 固定连接SSH公网地址5. SSH固定地址连接测试处于内网的虚拟机如何被外网访问呢?如何手机就能访问虚拟机呢? cpolarJuiceSSH 实现手机端远程连接Linux虚拟机(内网穿透,手机端连接Linux虚拟机) …...

编程日记 2024/3/8 0:38:25

钉钉群内自定义机器人发送消息功能实现

文章目录钉钉群内自定义机器人发送消息功能实现1、设置webhook自定义机器人2、查看官方文档，使用open api3、编写业务代码4、发送成功结果如下钉钉群内自定义机器人发送消息功能实现 1、设置webhook自定义机器人设置关键词添加完成后，获得改机器人的…...

编程日记 2024/3/8 0:36:23

网站维护3年15000元，贵不贵？市场价多少

一般来说，给公司做好网站上线之后，网站就进入了运维期间，某功力公司给客户收费3年15000元网站运维费用，到底高不高呢？ 首先，来看看网站运维都有哪些项目网站运维涉及多个项目和任务，包括但不限…...

编程日记 2024/3/8 0:35:23

ROS 2基础概念#5：执行器（Executor）| ROS 2学习笔记

在ROS 2中，Executor是一个核心概念，负责管理节点（Node）中的回调函数，如订阅消息的回调、服务请求的回调、定时器回调等。Executor决定了何时以及如何执行这些回调，从而在ROS 2系统中实现异步编程。 ROS 2 …...

编程日记 2024/3/8 0:34:22

旧版旧版-动画组件：Animation 窗口-动画动画文件后缀: .anim 将制作后的动画拖动到Animation组件上旧版的操作 using System.Collections; using System.Collections.Generic; using UnityEngine;public class c1 : MonoBehaviour {// Start is called before…...

编程日记 2024/3/8 0:33:21

Linux和Windows操作系统线程调度策略

本文介绍Linux和Windows操作系统线程调度策略。不同的操作系统具有不同的线程调度策略，本文针对常见的操作系统（Linux和Windows操作系统）对其线程调度策略作简要说明，并不对其内在运行机制作详细介绍。 1.Linux操作系统线程调度…...

编程日记 2024/3/8 0:31:19

[OpenWrt 22.03] ttylogin添加登录密码与禁止登录的配置

ttylogin 的使用 Openwrt 串口默认是没有密码的。Openwrt启动后，一个默认的密码将被启用去保护ssh登录和页面（http）登录，而串口登录密码却是空缺的。对于 Openwrt，当内核初始化后，就会启动第一个进程 init，init进程会进行一系列的系统初始化工作，然后会读取 /etc/in…...

编程日记 2024/3/8 0:29:17

RK3568平台 USB数据包的收发格式

一.USB硬件拓扑结构 compound device ：多个设备组合起来，通过HUB跟Host相连composite device ：一个物理设备有多个逻辑设备(multiple interfaces) 在软件开发过程中，我们可以忽略Hub的存在，硬件拓扑图简化如下&#x…...

编程日记 2024/3/8 0:28:16

Day 8.TCP通信

TCP通信 TCP发端： socket connect send recv close TCP收端： socket bind listen accept send recv close 1.connect int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen); 功能：发…...

编程日记 2024/3/8 0:27:15

小游戏加固方案已全面适配微信、QQ、抖音、快手、美团、华为、支付宝渠道

2023年，国内移动游戏收入与游戏用户规模双双创下历史新高。其中小游戏异军突起，市场规模达到200亿元，同比增长300%，成了万众瞩目的行业新风口。小游戏的高速发展带来了更多的活力，产出了多款月流水过亿的热门游戏。行…...

编程日记 2024/3/8 0:25:13

粉色ui微信小程序源码/背景图/头像/壁纸小程序源码带流量主

云开发版粉色UI微信小程序源码，背景图、头像、壁纸小程序源码，带流量主功能。云开发小程序源码无需服务器和域名即可搭建小程序另外还带有流量主功能噢！微信平台注册小程序就可以了。这套粉色UI非常的好看，里面保护有背景图、…...

编程日记 2024/3/8 0:24:12

chrome选项页面options page配置

options 页面用以定制Chrome浏览器扩展程序的运行参数。通过Chrome 浏览器的“工具 ->更多工具->扩展程序”，打开chrome://extensions页面，可以看到有的Google Chrome扩展程序有“选项Options”链接，如下图所示。单击“选项Options”…...

编程日记 2024/3/8 0:22:10

迭代器失效问题（C++)

迭代器失效就是迭代器指向的位置已经不是原来的含义了，或者是指向的位置是非法的。以下是失效的几种情况： 删除元素： 此处发生了迭代器的失效，因为erase返回的是下一个元素的位置的迭代器，所以在删除1这个元素的时候&…...

编程日记 2024/3/8 0:20:09

2-web端管理界面使用rabbitmq

Web管理界面可以直接操作RabbitMQ，下面进行操作并记录步骤 1、添加交换器： Add a new exchange 中，Name是交换器名称，Type是交换器类型，有direce、fanout、heders、topic 4种。这里先只填Name和选个类型，…...

编程日记 2024/3/8 0:18:06

【华为OD机试】最多购买宝石数目【C卷|100分】

【华为OD机试】-真题 !!点这里！！【华为OD机试】真题考点分类 !!点这里 !! 题目描述：橱窗里有一排宝石，不同的宝石对应不同的价格，宝石的价格标记为gems[i],0<=i<n, n = gems.length 宝石可同时出售0个或多个，如果同时出售多个，则要求出售的宝石编号连续；例如…...

编程日记 2024/3/8 0:15:03

RK3588 Android 12 源码编译与开发板烧录

前言开发板型号：RK_EVB7_RK3588_LP4…_V11 获取RK3588源码解压RK提供的Android 12的tgz，开通权限 your_verify.sh # 身份验证脚本（由RK提供） .repo/repo/repo sync -l # 检出代码 .repo/repo/repo sync -c # 同…...

编程日记 2024/3/8 0:14:03

学习JAVA的第十四天（基础）

目录 Collection集合迭代器遍历增强for遍历 Lambda表达式遍历 List集合遍历数据结构栈队列数组链表前言： 学习JAVA的第十三天 Collection集合 Collection的遍历方式： 迭代器（不依赖索引）遍…...

编程日记 2024/3/8 0:13:02

安捷伦N5182A信号源 AgilentN5182A

描述： 1）信号特性： 250 kHz to 3 or 6 GHz频率范围 (可选低至 100 kHz) 13 dBm 1GHz输出功率 5dBm输出功率时W-CDMA动态范围:单载波 ≤-73 dBc ；4载波≤-66 dBc ≤1.2 ms切换速度在SCPI模式 2）调制与扫描&#x…...

编程日记 2024/3/8 0:11:00

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

大家好，欢迎来到《云原生核心技术》系列的第七篇！ 在上一篇，我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在，我们就像一个拥有了一块崭新数字土地的农场主，是时…...

编程新知 2025/7/5 18:36:22

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

美国西海岸的夏天，再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至，这不仅是开发者的盛宴，更是全球数亿苹果用户翘首以盼的科技春晚。今年，苹果依旧为我们带来了全家桶式的系统更新，包括 iOS 26、iPadOS 26…...

编程新知 2025/7/7 19:25:19

python打卡day49

知识点回顾： 通道注意力模块复习空间注意力模块CBAM的定义作业：尝试对今天的模型检查参数数目，并用tensorboard查看训练过程 import torch import torch.nn as nn# 定义通道注意力 class ChannelAttention(nn.Module):def __init__(self,…...

编程新知 2025/7/6 22:31:45

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/6/21 0:42:19

什么是库存周转？如何用进销存系统提高库存周转率？

你可能听说过这样一句话： “利润不是赚出来的，是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业，很多企业看着销售不错，账上却没钱、利润也不见了，一翻库存才发现： 一堆卖不动的旧货…...

编程新知 2025/7/8 7:59:58

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

1、行为树节点分类在 Nav2（Navigation2）的行为树框架中，行为树节点插件按照功能分为 Action（动作节点）、Condition（条件节点）、Control（控制节点）和 Decorator（装饰节点）四类。 1.1 动作节点 Action 执行具体的机器人操作或任务，直接与硬件、传感器或外部系统…...

编程新知 2025/7/1 6:09:06

ffmpeg（四）：滤镜命令

FFmpeg 的滤镜命令是用于音视频处理中的强大工具，可以完成剪裁、缩放、加水印、调色、合成、旋转、模糊、叠加字幕等复杂的操作。其核心语法格式一般如下： ffmpeg -i input.mp4 -vf "滤镜参数" output.mp4或者带音频滤镜： ffmpeg…...

编程新知 2025/7/7 4:40:03

spring：实例工厂方法获取bean

spring处理使用静态工厂方法获取bean实例，也可以通过实例工厂方法获取bean实例。实例工厂方法步骤如下： 定义实例工厂类（Java代码），定义实例工厂（xml），定义调用实例工厂&#xff…...

编程新知 2025/7/7 20:02:31

【2025年】解决Burpsuite抓不到https包的问题

环境：windows11 burpsuite:2025.5 在抓取https网站时，burpsuite抓取不到https数据包，只显示： 解决该问题只需如下三个步骤： 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

编程新知 2025/7/6 15:58:45

2025盘古石杯决赛【手机取证】

前言第三届盘古石杯国际电子数据取证大赛决赛最后一题没有解出来，实在找不到，希望有大佬教一下我。还有就会议时间，我感觉不是图片时间，因为在电脑看到是其他时间用老会议系统开的会。手机取证 1、分析鸿蒙手机检材&#x…...

编程新知 2025/7/7 0:14:49

【目标分类图像增强方法】

图像增强方法及其原理

代码示例

1. 几何变换

2. 颜色空间变换

3. 裁剪与填充（Cropping and Padding）

4. 其他增强

5. 混合模式（CutMix, MixUp）

目标分类图像增强应用

相关文章：

【目标分类图像增强方法】

游戏盾如何应对微商城网站DDoS攻击

安卓手机如何使用JuiceSSH实现公网远程连接本地Linux服务器

钉钉群内自定义机器人发送消息功能实现

网站维护3年15000元，贵不贵？市场价多少

ROS 2基础概念#5：执行器（Executor）| ROS 2学习笔记

Unity 动画（旧版-新版）

Linux和Windows操作系统线程调度策略

[OpenWrt 22.03] ttylogin添加登录密码与禁止登录的配置

RK3568平台 USB数据包的收发格式

Day 8.TCP通信

小游戏加固方案已全面适配微信、QQ、抖音、快手、美团、华为、支付宝渠道

粉色ui微信小程序源码/背景图/头像/壁纸小程序源码带流量主

chrome选项页面options page配置

迭代器失效问题（C++)

2-web端管理界面使用rabbitmq

【华为OD机试】最多购买宝石数目【C卷|100分】

RK3588 Android 12 源码编译与开发板烧录

学习JAVA的第十四天（基础）

安捷伦N5182A信号源 AgilentN5182A

云原生核心技术 (7/12): K8s 核心概念白话解读(上)：Pod 和 Deployment 究竟是什么？

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

python打卡day49

前端倒计时误差!

什么是库存周转？如何用进销存系统提高库存周转率？

【ROS】Nav2源码之nav2_behavior_tree-行为树节点列表

ffmpeg（四）：滤镜命令

spring：实例工厂方法获取bean

【2025年】解决Burpsuite抓不到https包的问题

2025盘古石杯决赛【手机取证】