【目标分类图像增强方法】
图像增强方法及其原理
目标分类图像增强是一种用于提高深度学习模型泛化能力的技术,通过在训练过程中对原始图像进行各种变换来增加模型所见数据的多样性。以下是几种常见的图像增强方法及其原理:
-
几何变换:
- 旋转(Rotation) :以一定角度随机旋转图像,使模型能够识别目标在不同方向上的表现。
- 翻转(Flip) :水平或垂直翻转图像,模拟镜像效果。
- 缩放(Scaling) :改变图像大小,训练模型适应不同尺度的目标。
- 裁剪与填充(Cropping and Padding) :随机裁剪图像的一部分并重新填充到原始尺寸,或在图像边缘添加填充以改变目标的位置。
-
颜色空间变换:
- 亮度调整(Brightness Adjustment) :通过改变图像的整体亮度来模拟光照变化。
- 对比度调整(Contrast Adjustment) :改变图像中像素之间的灰度差异,增强或减弱细节。
- 饱和度调整(Saturation Adjustment) :改变色彩饱和度,影响图像色彩的鲜艳程度。
- 色调/色相调整(Hue Adjustment) :改变图像的整体色彩倾向。
-
噪声注入:
- 高斯噪声(Gaussian Noise) :在图像上添加符合高斯分布的随机噪声,模拟传感器噪声或信道干扰。
- 椒盐噪声(Salt and Pepper Noise) :随机将部分像素点置为白色或黑色,模拟图像中的坏点和缺失像素。
-
混合模式:
- 图像混合(Blending) :将两张图片按照一定的透明度混合在一起,模拟遮挡或多目标场景。
-
仿射变换(Affine Transformation) :包括平移、旋转、缩放以及剪切等综合变换,保证变换后图像的局部形状不变。
-
随机擦除(Random Erasing) :随机选择图像区域并用均值或者随机像素填充,以此来模拟目标部分遮挡的情况。
-
Cutout 或 CutMix:
- Cutout:随机删除图像的矩形区域,迫使模型关注其它未被遮盖的部分。
- CutMix:将一张图像的一部分替换为另一张图像的相应部分,并更新标签以反映这种混合,这样既增强又增加了类别间的交互。
-
MixUp:线性插值两张图像和它们的标签,生成新的训练样本,旨在创建两个类别间的中间过渡样本。
以上这些增强技术通常在深度学习框架如TensorFlow、PyTorch中通过相应的库实现,例如tf.image、torchvision.transforms等,可以在训练前实时应用于每一批次的训练数据,无需预先处理整个数据集。
代码示例
1. 几何变换
-
旋转(Rotation) :
-
原理:随机旋转图像,增加模型对目标物体不同角度的识别能力。
-
示例(使用
albumentations):import albumentations as A transform = A.Compose([A.Rotate(limit=30, p=0.5) # 随机旋转0到30度 ])
-
-
翻转(Flip) :
-
原理:水平或垂直翻转图像,模拟镜像效果,提高模型对左右对称性的识别能力。
-
示例(使用
torchvision.transforms):from torchvision.transforms import RandomHorizontalFlip, RandomVerticalFlip transforms = Compose([RandomHorizontalFlip(p=0.5), # 水平翻转概率为0.5RandomVerticalFlip(p=0.5) # 垂直翻转概率为0.5 ])# 或者使用单一的RandomFlip from torchvision.transforms import RandomFlip transforms = Compose([RandomFlip( # 可以指定方向,不指定则默认考虑水平和垂直horizontal=True,vertical=True,p=0.5,) ])
-
2. 颜色空间变换
-
亮度调整(Brightness Adjustment) :
-
原理:通过改变像素的亮度值来模拟光照变化。
-
示例(使用
albumentations):import albumentations as A transform = A.Compose([A.RandomBrightnessContrast(brightness_limit=0.2, contrast_limit=0.2, p=0.5) ])# 或者使用torchvision.transforms.ColorJitter单独调整亮度 from torchvision.transforms import ColorJitter transforms = Compose([ColorJitter(brightness=0.2) ])
-
-
对比度调整(Contrast Adjustment) :
- 原理:调整图像整体或局部区域的对比度,增强或减弱细节表现。
- 示例(继续使用
albumentations中的RandomBrightnessContrast):
3. 裁剪与填充(Cropping and Padding)
-
RandomResizedCrop:
-
原理:随机裁剪并缩放图像的一部分。
-
示例(使用
torchvision.transforms):from torchvision.transforms import RandomResizedCrop transforms = Compose([RandomResizedCrop(size=(224, 224), scale=(0.08, 1.0)) ])
-
4. 其他增强
-
随机擦除(RandomErasing) :
-
原理:随机擦除图像的部分区域,训练模型关注缺失信息时也能正确分类。
-
示例(使用
albumentations):import albumentations as A transform = A.Compose([A.RandomErasing(p=0.5) ])
-
5. 混合模式(CutMix, MixUp)
-
CutMix:
-
原理:将一张图像的一部分替换为另一张图像的相应部分,并更新标签,促进类别间的边界学习。
-
示例(使用
albumentations的CutMix类):from albumentations.augmentations.mixup import CutMix transform = A.Compose([CutMix(num_classes=num_classes, alpha=1.0) ])
-
-
MixUp:
- 原理:线性插值两张图像和它们的标签,创建数据集之间的过渡样本。
torchvision自身没有直接提供MixUp实现,但可以自定义一个。
目标分类图像增强应用
- 翻转(Flip):将图像在水平或垂直方向上进行翻转,可以增加数据集的多样性。原理是通过改变图像的坐标系来实现。
- 缩放(Scale):对图像进行放大或缩小,可以增加数据集的多样性。原理是通过改变图像的尺寸来实现。
- 旋转(Rotate):将图像绕中心点旋转一定角度,可以增加数据集的多样性。原理是通过改变图像的角度来实现。
- 平移(Shift):将图像在水平和垂直方向上进行平移,可以增加数据集的多样性。原理是通过改变图像的位置来实现。
- 裁剪(Crop):从图像中截取一部分区域,可以增加数据集的多样性。原理是通过改变图像的区域来实现。
- 颜色变换(Color Jitter):对图像的颜色进行变换,如亮度、对比度、饱和度等,可以增加数据集的多样性。原理是通过改变图像的颜色属性来实现。
- 噪声注入(Noise Injection):向图像中添加噪声,可以提高模型的鲁棒性。原理是通过向图像中添加随机噪声来实现。
下面是一个使用Python和OpenCV实现图像增强的代码示例:
import cv2
import numpy as npdef random_flip(image, prob=0.5):if np.random.rand() < prob:image = cv2.flip(image, 1)return imagedef random_scale(image, scale_range=(0.8, 1.2), prob=0.5):if np.random.rand() < prob:scale = np.random.uniform(scale_range[0], scale_range[1])h, w = image.shape[:2]new_h, new_w = int(h * scale), int(w * scale)image = cv2.resize(image, (new_w, new_h))return imagedef random_rotate(image, angle_range=(-30, 30), prob=0.5):if np.random.rand() < prob:angle = np.random.uniform(angle_range[0], angle_range[1])h, w = image.shape[:2]M = cv2.getRotationMatrix2D((w / 2, h / 2), angle, 1)image = cv2.warpAffine(image, M, (w, h))return imagedef random_shift(image, shift_range=(-10, 10), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]dx = np.random.randint(shift_range[0], shift_range[1])dy = np.random.randint(shift_range[0], shift_range[1])M = np.float32([[1, 0, dx], [0, 1, dy]])image = cv2.warpAffine(image, M, (w, h))return imagedef random_crop(image, crop_size=(224, 224), prob=0.5):if np.random.rand() < prob:h, w = image.shape[:2]new_h, new_w = crop_sizestart_x = np.random.randint(0, w - new_w)start_y = np.random.randint(0, h - new_h)image = image[start_y:start_y + new_h, start_x:start_x + new_w]return imagedef random_color_jitter(image, brightness=0.1, contrast=0.1, saturation=0.1, hue=0.1, prob=0.5):if np.random.rand() < prob:alpha = 1 + np.random.uniform(-brightness, brightness)beta = np.random.uniform(-contrast, contrast)gamma = np.random.uniform(-saturation, saturation)hue_delta = np.random.uniform(-hue, hue)image = cv2.addWeighted(image, alpha, image, 0, beta)image = cv2.cvtColor(image, cv2.COLOR_BGR2HSV)image[:, :, 1] = image[:, :, 1] * (1 + gamma)image[:, :, 0] = (image[:, :, 0] + hue_delta) % 180image = cv2.cvtColor(image, cv2.COLOR_HSV2BGR)return imagedef random_noise_injection(image, noise_level=0.05, prob=0.5):if np.random.rand() < prob:noise = np.random.randn(*image.shape) * noise_levelimage = image + noiseimage = np.clip(image, 0, 255).astype(np.uint8)return image
在训练过程中随机应用这些函数,以提高模型的泛化能力。
相关文章:
【目标分类图像增强方法】
图像增强方法及其原理 目标分类图像增强是一种用于提高深度学习模型泛化能力的技术,通过在训练过程中对原始图像进行各种变换来增加模型所见数据的多样性。以下是几种常见的图像增强方法及其原理: 几何变换: 旋转(Rotation&#…...
游戏盾如何应对微商城网站DDoS攻击
游戏盾如何应对微商城网站DDoS攻击?随着电子商务的快速发展,微商城网站已成为众多商家开展在线业务的重要平台。然而,与此同时,网络安全威胁也愈发严重。其中,分布式拒绝服务(DDoS)攻击是一种常…...
安卓手机如何使用JuiceSSH实现公网远程连接本地Linux服务器
文章目录 1. Linux安装cpolar2. 创建公网SSH连接地址3. JuiceSSH公网远程连接4. 固定连接SSH公网地址5. SSH固定地址连接测试 处于内网的虚拟机如何被外网访问呢?如何手机就能访问虚拟机呢? cpolarJuiceSSH 实现手机端远程连接Linux虚拟机(内网穿透,手机端连接Linux虚拟机) …...
钉钉群内自定义机器人发送消息功能实现
文章目录 钉钉群内自定义机器人发送消息功能实现1、设置webhook自定义机器人2、查看官方文档,使用open api3、编写业务代码4、发送成功结果如下 钉钉群内自定义机器人发送消息功能实现 1、设置webhook自定义机器人 设置关键词 添加完成后,获得改机器人的…...
网站维护3年15000元,贵不贵?市场价多少
一般来说,给公司做好网站上线之后,网站就进入了运维期间,某功力公司给客户收费3年15000元网站运维费用,到底高不高呢? 首先,来看看网站运维都有哪些项目 网站运维涉及多个项目和任务,包括但不限…...
ROS 2基础概念#5:执行器(Executor)| ROS 2学习笔记
在ROS 2中,Executor是一个核心概念,负责管理节点(Node)中的回调函数,如订阅消息的回调、服务请求的回调、定时器回调等。Executor决定了何时以及如何执行这些回调,从而在ROS 2系统中实现异步编程。 ROS 2 …...
Unity 动画(旧版-新版)
旧版 旧版-动画组件:Animation 窗口-动画 动画文件后缀: .anim 将制作后的动画拖动到Animation组件上 旧版的操作 using System.Collections; using System.Collections.Generic; using UnityEngine;public class c1 : MonoBehaviour {// Start is called before…...
Linux和Windows操作系统线程调度策略
本文介绍Linux和Windows操作系统线程调度策略。 不同的操作系统具有不同的线程调度策略,本文针对常见的操作系统(Linux和Windows操作系统)对其线程调度策略作简要说明,并不对其内在运行机制作详细介绍。 1.Linux操作系统线程调度…...
[OpenWrt 22.03] ttylogin添加登录密码与禁止登录的配置
ttylogin 的使用 Openwrt 串口默认是没有密码的。Openwrt启动后,一个默认的密码将被启用去保护ssh登录和页面(http)登录,而串口登录密码却是空缺的。 对于 Openwrt,当内核初始化后,就会启动第一个进程 init,init进程会进行一系列的系统初始化工作,然后会读取 /etc/in…...
RK3568平台 USB数据包的收发格式
一.USB硬件拓扑结构 compound device :多个设备组合起来,通过HUB跟Host相连composite device :一个物理设备有多个逻辑设备(multiple interfaces) 在软件开发过程中,我们可以忽略Hub的存在,硬件拓扑图简化如下&#x…...
Day 8.TCP通信
TCP通信 TCP发端: socket connect send recv close TCP收端: socket bind listen accept send recv close 1.connect int connect(int sockfd, const struct sockaddr *addr, socklen_t addrlen); 功能:发…...
小游戏加固方案已全面适配微信、QQ、抖音、快手、美团、华为、支付宝渠道
2023年,国内移动游戏收入与游戏用户规模双双创下历史新高。其中小游戏异军突起,市场规模达到200亿元,同比增长300%,成了万众瞩目的行业新风口。 小游戏的高速发展带来了更多的活力,产出了多款月流水过亿的热门游戏。行…...
粉色ui微信小程序源码/背景图/头像/壁纸小程序源码带流量主
云开发版粉色UI微信小程序源码,背景图、头像、壁纸小程序源码,带流量主功能。 云开发小程序源码无需服务器和域名即可搭建小程序另外还带有流量主功能噢!微信平台注册小程序就可以了。 这套粉色UI非常的好看,里面保护有背景图、…...
chrome选项页面options page配置
options 页面用以定制Chrome浏览器扩展程序的运行参数。 通过Chrome 浏览器的“工具 ->更多工具->扩展程序”,打开chrome://extensions页面,可以看到有的Google Chrome扩展程序有“选项Options”链接,如下图所示。单击“选项Options”…...
迭代器失效问题(C++)
迭代器失效就是迭代器指向的位置已经不是原来的含义了,或者是指向的位置是非法的。以下是失效的几种情况: 删除元素: 此处发生了迭代器的失效,因为erase返回的是下一个元素的位置的迭代器,所以在删除1这个元素的时候&…...
2-web端管理界面使用rabbitmq
Web管理界面可以直接操作RabbitMQ,下面进行操作并记录步骤 1、添加交换器: Add a new exchange 中,Name是交换器名称,Type是交换器类型,有direce、fanout、heders、topic 4种。 这里先只填Name和选个类型,…...
【华为OD机试】最多购买宝石数目【C卷|100分】
【华为OD机试】-真题 !!点这里!! 【华为OD机试】真题考点分类 !!点这里 !! 题目描述: 橱窗里有一排宝石,不同的宝石对应不同的价格, 宝石的价格标记为gems[i],0<=i<n, n = gems.length 宝石可同时出售0个或多个,如果同时出售多个,则要求出售的宝石编号连续; 例如…...
RK3588 Android 12 源码编译与开发板烧录
前言 开发板型号:RK_EVB7_RK3588_LP4…_V11 获取RK3588源码 解压RK提供的Android 12的tgz,开通权限 your_verify.sh # 身份验证脚本(由RK提供) .repo/repo/repo sync -l # 检出代码 .repo/repo/repo sync -c # 同…...
学习JAVA的第十四天(基础)
目录 Collection集合 迭代器遍历 增强for遍历 Lambda表达式遍历 List集合 遍历 数据结构 栈 队列 数组 链表 前言: 学习JAVA的第十三天 Collection集合 Collection的遍历方式: 迭代器(不依赖索引)遍…...
安捷伦N5182A信号源 AgilentN5182A
描述: 1)信号特性: 250 kHz to 3 or 6 GHz频率范围 (可选低至 100 kHz) 13 dBm 1GHz输出功率 5dBm输出功率时W-CDMA动态范围:单载波 ≤-73 dBc ;4载波≤-66 dBc ≤1.2 ms切换速度在SCPI模式 2)调制与扫描&#x…...
IDEA运行Tomcat出现乱码问题解决汇总
最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…...
java_网络服务相关_gateway_nacos_feign区别联系
1. spring-cloud-starter-gateway 作用:作为微服务架构的网关,统一入口,处理所有外部请求。 核心能力: 路由转发(基于路径、服务名等)过滤器(鉴权、限流、日志、Header 处理)支持负…...
Appium+python自动化(十六)- ADB命令
简介 Android 调试桥(adb)是多种用途的工具,该工具可以帮助你你管理设备或模拟器 的状态。 adb ( Android Debug Bridge)是一个通用命令行工具,其允许您与模拟器实例或连接的 Android 设备进行通信。它可为各种设备操作提供便利,如安装和调试…...
8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂
蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...
(二)TensorRT-LLM | 模型导出(v0.20.0rc3)
0. 概述 上一节 对安装和使用有个基本介绍。根据这个 issue 的描述,后续 TensorRT-LLM 团队可能更专注于更新和维护 pytorch backend。但 tensorrt backend 作为先前一直开发的工作,其中包含了大量可以学习的地方。本文主要看看它导出模型的部分&#x…...
视频字幕质量评估的大规模细粒度基准
大家读完觉得有帮助记得关注和点赞!!! 摘要 视频字幕在文本到视频生成任务中起着至关重要的作用,因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型(VLMs)在字幕生成方面…...
2025 后端自学UNIAPP【项目实战:旅游项目】6、我的收藏页面
代码框架视图 1、先添加一个获取收藏景点的列表请求 【在文件my_api.js文件中添加】 // 引入公共的请求封装 import http from ./my_http.js// 登录接口(适配服务端返回 Token) export const login async (code, avatar) > {const res await http…...
DBAPI如何优雅的获取单条数据
API如何优雅的获取单条数据 案例一 对于查询类API,查询的是单条数据,比如根据主键ID查询用户信息,sql如下: select id, name, age from user where id #{id}API默认返回的数据格式是多条的,如下: {&qu…...
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南 在数字化营销时代,邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天,我们将深入解析邮件打开率、网站可用性、页面参与时…...
Typeerror: cannot read properties of undefined (reading ‘XXX‘)
最近需要在离线机器上运行软件,所以得把软件用docker打包起来,大部分功能都没问题,出了一个奇怪的事情。同样的代码,在本机上用vscode可以运行起来,但是打包之后在docker里出现了问题。使用的是dialog组件,…...
