【目标分类图像增强方法】
图像增强方法及其原理
目标分类图像增强是一种用于提高深度学习模型泛化能力的技术,通过在训练过程中对原始图像进行各种变换来增加模型所见数据的多样性。以下是几种常见的图像增强方法及其原理:
-
几何变换:
- 旋转(Rotation) :以一定角度随机旋转图像,使模型能够识别目标在不同方向上的表现。
- 翻转(Flip) :水平或垂直翻转图像,模拟镜像效果。
- 缩放(Scaling) :改变图像大小,训练模型适应不同尺度的目标。
- 裁剪与填充(Cropping and Padding) :随机裁剪图像的一部分并重新填充到原始尺寸,或在图像边缘添加填充以改变目标的位置。
-
颜色空间变换:
- 亮度调整(Brightness Adjustment) :通过改变图像的整体亮度来模拟光照变化。
- 对比度调整(Contrast Adjustment) :改变图像中像素之间的灰度差异,增强或减弱细节。
- 饱和度调整(Saturation Adjustment) :改变色彩饱和度,影响图像色彩的鲜艳程度。
- 色调/色相调整(Hue Adjustment) :改变图像的整体色彩倾向。
-
噪声注入:
- 高斯噪声(Gaussian Noise) :在图像上添加符合高斯分布的随机噪声,模拟传感器噪声或信道干扰。
- 椒盐噪声(Salt and Pepper Noise) :随机将部分像素点置为白色或黑色,模拟图像中的坏点和缺失像素。
-
混合模式:
- 图像混合(Blending) :将两张图片按照一定的透明度混合在一起,模拟遮挡或多目标场景。
-
仿射变换(Affine Transformation) :包括平移、旋转、缩放以及剪切等综合变换,保证变换后图像的局部形状不变。
-
随机擦除(Random Erasing) :随机选择图像区域并用均值或者随机像素填充,以此来模拟目标部分遮挡的情况。
-
Cutout 或 CutMix:
- Cutout:随机删除图像的矩形区域,迫使模型关注其它未被遮盖的部分。
- CutMix:将一张图像的一部分替换为另一张图像的相应部分,并更新标签以反映这种混合,这样既增强又增加了类别间的交互。
-
MixUp:线性插值两张图像和它们的标签,生成新的训练样本,旨在创建两个类别间的中间过渡样本。
以上这些增强技术通常在深度学习框架如TensorFlow、PyTorch中通过相应的库实现,例如tf.image、torchvision.transforms等,可以在训练前实时应用于每一批次的训练数据,无需预先处理整个数据集。
代码示例
1. 几何变换
-
旋转(Rotation) :
-
原理:随机旋转图像,增加模型对目标物体不同角度的识别能力。
-
示例(使用
albumentations):import albumentations as A transform = A.Compose([A.Rotate(limit=30, p=0.5) # 随机旋转0到30度 ])
-
-
翻转(Flip) :
-
原理:水平或垂直翻转图像,模拟镜像效果,提高模型对左右对称性的识别能力。
-
示例(使用
torchvision.transforms):from torchvision.transforms import RandomHorizontalFlip, RandomVerticalFlip transforms = Compose([RandomHorizontalFlip(p=0.5), # 水平翻转概率为0.5RandomVerticalFlip(p=0.5) # 垂直翻转概率为0.5 ])# 或者使用单一的RandomFlip from torchvision.transforms import RandomFlip transforms = Compose([RandomFlip( # 可以指定方向,不指定则默认考虑水平和垂直horizontal=True,vertical=True,p=0.5,) ])
-
2. 颜色空间变换
-
亮度调整(Brightness Adjustment) :
-
原理:通过改变像素的亮度值来模拟光照变化。
-
示例(使用
albumentations):import albumentations as A transform = A.Compose([A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5) ])# 或者使用torchvision.transforms.ColorJitter单独调整亮度 from torchvision.transforms import ColorJitter transforms = Compose([ColorJitter(brightness=0.2) ])
-
-
对比度调整(Contrast Adjustment) :
- 原理:调整图像整体或局部区域的对比度,增强或减弱细节表现。
- 示例(继续使用
albumentations中的RandomBrightnessContrast):
3. 裁剪与填充(Cropping and Padding)
-
RandomResizedCrop:
-
原理:随机裁剪并缩放图像的一部分。
-
示例(使用
torchvision.transforms):from torchvision.transforms import RandomResizedCrop transforms = Compose([RandomResizedCrop(size=(224, 224), scale=(0.08, 1.0)) ])
-
4. 其他增强
-
随机擦除(RandomErasing) :
-
原理:随机擦除图像的部分区域,训练模型关注缺失信息时也能正确分类。
-
示例(使用
albumentations):import albumentations as A transform = A.Compose([A.RandomErasing(p=0.5) ])
-
5. 混合模式(CutMix, MixUp)
-
CutMix:
-
原理:将一张图像的一部分替换为另一张图像的相应部分,并更新标签,促进类别间的边界学习。
-
示例(使用
albumentations的CutMix类):from albumentations.augmentations.mixup import CutMix transform = A.Compose([CutMix(num_classes=num_classes, alpha=1.0) ])
-
-
MixUp:
- 原理:线性插值两张图像和它们的标签,创建数据集之间的过渡样本。
torchvision自身没有直接提供MixUp实现,但可以自定义一个。
目标分类图像增强应用
- 翻转(Flip):将图像在水平或垂直方向上进行翻转,可以增加数据集的多样性。原理是通过改变图像的坐标系来实现。
- 缩放(Scale):对图像进行放大或缩小,可以增加数据集的多样性。原理是通过改变图像的尺寸来实现。
- 旋转(Rotate):将图像绕中心点旋转一定角度,可以增加数据集的多样性。原理是通过改变图像的角度来实现。
- 平移(Shift):将图像在水平和垂直方向上进行平移,可以增加数据集的多样性。原理是通过改变图像的位置来实现。
- 裁剪(Crop):从图像中截取一部分区域,可以增加数据集的多样性。原理是通过改变图像的区域来实现。
- 颜色变换(Color Jitter):对图像的颜色进行变换,如亮度、对比度、饱和度等,可以增加数据集的多样性。原理是通过改变图像的颜色属性来实现。
- 噪声注入(Noise Injection):向图像中添加噪声,可以提高模型的鲁棒性。原理是通过向图像中添加随机噪声来实现。
下面是一个使用Python和OpenCV实现图像增强的代码示例:
import cv2
import numpy as npdef random_flip(image, prob=0.5):if np.random.rand() < prob:image = cv2.flip(image, 1)return imagedef random_scale(image, scale_range=(0.8, 1.2), prob=0.5):if np.random.rand() < prob:scale = np.random.uniform(scale_range[0], scale_range[1])h, w = image.shape[:2]new_h, new_w = int(h * scale), int(w * scale)image = cv2.resize(image, (new_w, new_h))return imagedef random_rotate(image, angle_range=(-30, 30), prob=0.5):if np.random.rand() < prob:angle = np.random.uniform(angle_range[0], angle_range[1])h, w = image.shape[:2]M = cv2.getRotationMatrix2D((w / 2, h / 2), angle, 1)image = cv2.warpAffine(image, M, (w, h))return imagedef random_shift(image, shift_range=(-10, 10), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]dx = np.random.randint(shift_range[0], shift_range[1])dy = np.random.randint(shift_range[0], shift_range[1])M = np.float32([[1, 0, dx], [0, 1, dy]])image = cv2.warpAffine(image, M, (w, h))return imagedef random_crop(image, crop_size=(224, 224), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]new_h, new_w = crop_sizestart_x = np.random.randint(0, w - new_w)start_y = np.random.randint(0, h - new_h)image = image[start_y:start_y + new_h, start_x:start_x + new_w]return imagedef random_color_jitter(image, brightness=0.1, contrast=0.1, saturation=0.1, hue=0.1, prob=0.5):if np.random.rand() < prob:alpha = 1 + np.random.uniform(-brightness, brightness)beta = np.random.uniform(-contrast, contrast)gamma = np.random.uniform(-saturation, saturation)hue_delta = np.random.uniform(-hue, hue)image = cv2.addWeighted(image, alpha, image, 0, beta)image = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)image[:, :, 1] = image[:, :, 1] * (1 + gamma)image[:, :, 0] = (image[:, :, 0] + hue_delta) % 180image = cv2.cvtColor(image, cv2.COLOR_HSV2BGR)return imagedef random_noise_injection(image, noise_level=0.05, prob=0.5):if np.random.rand() < prob:noise = np.random.randn(*image.shape) * noise_levelimage = image + noiseimage = np.clip(image, 0, 255).astype(np.uint8)return image
在训练过程中随机应用这些函数,以提高模型的泛化能力。
相关文章:
【目标分类图像增强方法】
图像增强方法及其原理 目标分类图像增强是一种用于提高深度学习模型泛化能力的技术,通过在训练过程中对原始图像进行各种变换来增加模型所见数据的多样性。以下是几种常见的图像增强方法及其原理: 几何变换: 旋转(Rotation&#…...
游戏盾如何应对微商城网站DDoS攻击
游戏盾如何应对微商城网站DDoS攻击?随着电子商务的快速发展,微商城网站已成为众多商家开展在线业务的重要平台。然而,与此同时,网络安全威胁也愈发严重。其中,分布式拒绝服务(DDoS)攻击是一种常…...
安卓手机如何使用JuiceSSH实现公网远程连接本地Linux服务器
文章目录 1. Linux安装cpolar2. 创建公网SSH连接地址3. JuiceSSH公网远程连接4. 固定连接SSH公网地址5. SSH固定地址连接测试 处于内网的虚拟机如何被外网访问呢?如何手机就能访问虚拟机呢? cpolarJuiceSSH 实现手机端远程连接Linux虚拟机(内网穿透,手机端连接Linux虚拟机) …...
钉钉群内自定义机器人发送消息功能实现
文章目录 钉钉群内自定义机器人发送消息功能实现1、设置webhook自定义机器人2、查看官方文档,使用open api3、编写业务代码4、发送成功结果如下 钉钉群内自定义机器人发送消息功能实现 1、设置webhook自定义机器人 设置关键词 添加完成后,获得改机器人的…...
网站维护3年15000元,贵不贵?市场价多少
一般来说,给公司做好网站上线之后,网站就进入了运维期间,某功力公司给客户收费3年15000元网站运维费用,到底高不高呢? 首先,来看看网站运维都有哪些项目 网站运维涉及多个项目和任务,包括但不限…...
ROS 2基础概念#5:执行器(Executor)| ROS 2学习笔记
在ROS 2中,Executor是一个核心概念,负责管理节点(Node)中的回调函数,如订阅消息的回调、服务请求的回调、定时器回调等。Executor决定了何时以及如何执行这些回调,从而在ROS 2系统中实现异步编程。 ROS 2 …...
Unity 动画(旧版-新版)
旧版 旧版-动画组件:Animation 窗口-动画 动画文件后缀: .anim 将制作后的动画拖动到Animation组件上 旧版的操作 using System.Collections; using System.Collections.Generic; using UnityEngine;public class c1 : MonoBehaviour {// Start is called before…...
Linux和Windows操作系统线程调度策略
本文介绍Linux和Windows操作系统线程调度策略。 不同的操作系统具有不同的线程调度策略,本文针对常见的操作系统(Linux和Windows操作系统)对其线程调度策略作简要说明,并不对其内在运行机制作详细介绍。 1.Linux操作系统线程调度…...
[OpenWrt 22.03] ttylogin添加登录密码与禁止登录的配置
ttylogin 的使用 Openwrt 串口默认是没有密码的。Openwrt启动后,一个默认的密码将被启用去保护ssh登录和页面(http)登录,而串口登录密码却是空缺的。 对于 Openwrt,当内核初始化后,就会启动第一个进程 init,init进程会进行一系列的系统初始化工作,然后会读取 /etc/in…...
RK3568平台 USB数据包的收发格式
一.USB硬件拓扑结构 compound device :多个设备组合起来,通过HUB跟Host相连composite device :一个物理设备有多个逻辑设备(multiple interfaces) 在软件开发过程中,我们可以忽略Hub的存在,硬件拓扑图简化如下&#x…...
Day 8.TCP通信
TCP通信 TCP发端: socket connect send recv close TCP收端: socket bind listen accept send recv close 1.connect int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen); 功能:发…...
小游戏加固方案已全面适配微信、QQ、抖音、快手、美团、华为、支付宝渠道
2023年,国内移动游戏收入与游戏用户规模双双创下历史新高。其中小游戏异军突起,市场规模达到200亿元,同比增长300%,成了万众瞩目的行业新风口。 小游戏的高速发展带来了更多的活力,产出了多款月流水过亿的热门游戏。行…...
粉色ui微信小程序源码/背景图/头像/壁纸小程序源码带流量主
云开发版粉色UI微信小程序源码,背景图、头像、壁纸小程序源码,带流量主功能。 云开发小程序源码无需服务器和域名即可搭建小程序另外还带有流量主功能噢!微信平台注册小程序就可以了。 这套粉色UI非常的好看,里面保护有背景图、…...
chrome选项页面options page配置
options 页面用以定制Chrome浏览器扩展程序的运行参数。 通过Chrome 浏览器的“工具 ->更多工具->扩展程序”,打开chrome://extensions页面,可以看到有的Google Chrome扩展程序有“选项Options”链接,如下图所示。单击“选项Options”…...
迭代器失效问题(C++)
迭代器失效就是迭代器指向的位置已经不是原来的含义了,或者是指向的位置是非法的。以下是失效的几种情况: 删除元素: 此处发生了迭代器的失效,因为erase返回的是下一个元素的位置的迭代器,所以在删除1这个元素的时候&…...
2-web端管理界面使用rabbitmq
Web管理界面可以直接操作RabbitMQ,下面进行操作并记录步骤 1、添加交换器: Add a new exchange 中,Name是交换器名称,Type是交换器类型,有direce、fanout、heders、topic 4种。 这里先只填Name和选个类型,…...
【华为OD机试】最多购买宝石数目【C卷|100分】
【华为OD机试】-真题 !!点这里!! 【华为OD机试】真题考点分类 !!点这里 !! 题目描述: 橱窗里有一排宝石,不同的宝石对应不同的价格, 宝石的价格标记为gems[i],0<=i<n, n = gems.length 宝石可同时出售0个或多个,如果同时出售多个,则要求出售的宝石编号连续; 例如…...
RK3588 Android 12 源码编译与开发板烧录
前言 开发板型号:RK_EVB7_RK3588_LP4…_V11 获取RK3588源码 解压RK提供的Android 12的tgz,开通权限 your_verify.sh # 身份验证脚本(由RK提供) .repo/repo/repo sync -l # 检出代码 .repo/repo/repo sync -c # 同…...
学习JAVA的第十四天(基础)
目录 Collection集合 迭代器遍历 增强for遍历 Lambda表达式遍历 List集合 遍历 数据结构 栈 队列 数组 链表 前言: 学习JAVA的第十三天 Collection集合 Collection的遍历方式: 迭代器(不依赖索引)遍…...
安捷伦N5182A信号源 AgilentN5182A
描述: 1)信号特性: 250 kHz to 3 or 6 GHz频率范围 (可选低至 100 kHz) 13 dBm 1GHz输出功率 5dBm输出功率时W-CDMA动态范围:单载波 ≤-73 dBc ;4载波≤-66 dBc ≤1.2 ms切换速度在SCPI模式 2)调制与扫描&#x…...
UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...
iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘
美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...
基于FPGA的PID算法学习———实现PID比例控制算法
基于FPGA的PID算法学习 前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形 总结 前言 学习内容:参考网站: PID算法控制 PID即:Proportional(比例)、Integral(积分&…...
突破不可导策略的训练难题:零阶优化与强化学习的深度嵌合
强化学习(Reinforcement Learning, RL)是工业领域智能控制的重要方法。它的基本原理是将最优控制问题建模为马尔可夫决策过程,然后使用强化学习的Actor-Critic机制(中文译作“知行互动”机制),逐步迭代求解…...
工业安全零事故的智能守护者:一体化AI智能安防平台
前言: 通过AI视觉技术,为船厂提供全面的安全监控解决方案,涵盖交通违规检测、起重机轨道安全、非法入侵检测、盗窃防范、安全规范执行监控等多个方面,能够实现对应负责人反馈机制,并最终实现数据的统计报表。提升船厂…...
AI Agent与Agentic AI:原理、应用、挑战与未来展望
文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例:使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例:使用OpenAI GPT-3进…...
【大模型RAG】Docker 一键部署 Milvus 完整攻略
本文概要 Milvus 2.5 Stand-alone 版可通过 Docker 在几分钟内完成安装;只需暴露 19530(gRPC)与 9091(HTTP/WebUI)两个端口,即可让本地电脑通过 PyMilvus 或浏览器访问远程 Linux 服务器上的 Milvus。下面…...
Python爬虫(二):爬虫完整流程
爬虫完整流程详解(7大核心步骤实战技巧) 一、爬虫完整工作流程 以下是爬虫开发的完整流程,我将结合具体技术点和实战经验展开说明: 1. 目标分析与前期准备 网站技术分析: 使用浏览器开发者工具(F12&…...
linux 下常用变更-8
1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行,YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID: YW3…...
短视频矩阵系统文案创作功能开发实践,定制化开发
在短视频行业迅猛发展的当下,企业和个人创作者为了扩大影响力、提升传播效果,纷纷采用短视频矩阵运营策略,同时管理多个平台、多个账号的内容发布。然而,频繁的文案创作需求让运营者疲于应对,如何高效产出高质量文案成…...
