当前位置：首页 > news >正文

计算机视觉入门 6）数据集增强（Data Augmentation）

news 2026/5/22 13:10:47

系列文章目录

计算机视觉入门 1）卷积分类器
计算机视觉入门 2）卷积和ReLU
计算机视觉入门 3）最大池化
计算机视觉入门 4）滑动窗口
计算机视觉入门 5）自定义卷积网络
计算机视觉入门 6）数据集增强（Data Augmentation）

提示：仅为个人学习笔记分享，若有错漏请各位老师同学指出，Thanks♪(･ω･)ﾉ

一、数据集增强（Data Augmentation）

伪造数据

提高机器学习模型性能的最佳方法是在更多数据上进行训练。模型有更多的示例可供学习，它将能够更好地识别图像中的哪些差异是重要的，哪些是不重要的。更多的数据有助于模型更好地泛化。

但是在实践中，我们拥有的数据量是有限的。

获取更多数据的一种简单方法是（使用已经拥有的数据）创建假数据。如果我们能够以保持类别不变的方式转换数据集中的图像，我们可以教会分类器忽略这些类型的变换。例如，照片中的汽车是面向左还是面向右，并不会改变它是汽车而不是卡车的事实。因此，如果我们使用翻转图像来增强我们的训练数据，我们的分类器将学会忽略“左或右”是它应该忽略的差异。

这就是数据增强背后的整个思想：添加一些看起来合理像真实数据的额外伪造数据，从而提高分类器的性能。

使用数据增强

通常，在增强数据集时会使用许多种类型的转换。这些可能包括旋转图像、调整颜色或对比度、扭曲图像或许多其他事情，通常以组合方式应用。以下是一张图像可能经过的不同转换的示例。

单张汽车图像的十六种变换。

数据增强通常是在线进行的，意味着在图像被馈送到网络进行训练时进行。回想一下，训练通常是在小批量数据上进行的。当使用数据增强时，以下是批量包含16个图像的示例。
A batch of 16 images with various random transformations applied.

每次在训练期间使用图像时，都会应用一种新的随机变换。这样，模型始终会看到与以前略有不同的内容。训练数据中的这种额外变化有助于模型适应新数据。

然而，需要记住，使用的任何变换都不应该混淆类别。例如，旋转图像会混淆 ‘9’ 和 ‘6’；‘b’和‘d’ 也并不适合水平翻转。不是每种变换都对特定问题有用。

二、【代码实现】

Keras 预处理层类型

Keras提供了两种方式对数据进行增强。

第一种方法是在数据流水线中使用类似于ImageDataGenerator的函数包含增强功能。
第二种方法是通过使用Keras的预处理层将其包含在模型定义中。这就是我们将采取的方法。对我们来说，主要优点是图像变换将在GPU上计算，而不是在CPU上计算，这可能加快训练过程。

# 所有的 "factor" 参数表示百分比变化
augment = keras.Sequential([# preprocessing.RandomContrast(factor=0.5),preprocessing.RandomFlip(mode='horizontal'), # 水平翻转# preprocessing.RandomFlip(mode='vertical'), # 垂直翻转# preprocessing.RandomWidth(factor=0.15), # 水平拉伸# preprocessing.RandomRotation(factor=0.20), # 随机旋转# preprocessing.RandomTranslation(height_factor=0.1, width_factor=0.1), # 随机平移
])

将预处理层添加到模型中

这里我们跳过步骤1：导入数据，直接在定义模型中添加一些简单的变换，展示如何使用数据集增强这个工具。

from tensorflow import keras
from tensorflow.keras import layers
from tensorflow.keras.layers.experimental import preprocessing# 导入预训练模型
pretrained_base = tf.keras.models.load_model('../input/cv-course-models/cv-course-models/vgg16-pretrained-base',
)
pretrained_base.trainable = Falsemodel = keras.Sequential([# 预处理preprocessing.RandomFlip('horizontal'), # 左右翻转preprocessing.RandomContrast(0.5), # 对比度最多变化50%# 基础pretrained_base,# 头部layers.Flatten(),layers.Dense(6, activation='relu'),layers.Dense(1, activation='sigmoid'),
])

计算机视觉入门 6）数据集增强（Data Augmentation）

系列文章目录

目录

一、数据集增强（Data Augmentation）

伪造数据

使用数据增强

二、【代码实现】

Keras 预处理层类型

将预处理层添加到模型中

相关文章：

计算机视觉入门 6）数据集增强（Data Augmentation）

Python分享之redis(2)

springboot aop方式实现敏感数据自动加解密

RabbitMQ---work消息模型

GitRedisNginx合集

系统架构设计师之缓存技术：Redis与Memcache能力比较

02.sqlite3学习——嵌入式数据库的基本要求和SQLite3的安装

AIGC ChatGPT 按年份进行动态选择的动态图表

分布式—雪花算法生成ID

Python语言实现React框架

Netty入门学习和技术实践

MySQL详细安装与配置

裸露土堆识别算法

说说你对Redux的理解？其工作原理？

《基于 Vue 组件库的 Webpack5 配置》7.路径别名 resolve.alias 和性能 performance

基于PaddleOCR2.7.0发布WebRest服务测试案例

Solidity 合约安全，常见漏洞（下篇）

nodejs根据pdf模板填入中文数据并生成新的pdf文件

UE4与pycharm联合仿真的调试问题及一些仿真经验

【数据分析】波士顿矩阵

Mac Mouse Fix：3步让你的普通鼠标超越苹果触控板体验

2026最新版｜程序员/小白大模型转行全攻略（零基础入门+路径规划+避坑指南，收藏必看）

作业5：案例挑战

群晖SSH远程访问全链路打通指南

别再纠结Unity和Godot了！用Python写游戏，从零开始30分钟搞定你的第一个Ren`Py视觉小说

别再手动画图了！用Mermaid+Markdown在VSCode里5分钟搞定UML设计文档

别再怪硬件了！DELL服务器风扇噪音的元凶与精准静音指南（iDRAC+IPMI实战）

Go语言整洁架构：分层设计

从‘乱码’到‘可读’：我是如何用LayoutLMv3和Tesseract拯救一份无法复制的PDF合同的

进口与国产扁线电感参数PK:Coilcraft SER2918H-103KL vs TONEVEE ZER2918-H103K