当前位置：首页 > news >正文

物体检测-系列教程16：YOLOV5 源码解析6（马赛克数据增强函数load_mosaic）

news 2026/2/10 2:45:20

😎😎😎物体检测-系列教程总目录

有任何问题欢迎在下面留言
本篇文章的代码运行界面均在Pycharm中进行
本篇文章配套的代码资源已经上传
点我下载源码

9、load_mosaic函数

Mosaic（马赛克）数据增强：将四张不同的图像拼接成一张大图像来增加场景的复杂性和多样性

9.1 load_mosaic函数

def load_mosaic(self, index):labels4, segments4 = [], []s = self.img_sizeyc, xc = [int(random.uniform(-x, 2 * s + x)) for x in self.mosaic_border]  # mosaic center x, yindices = [index] + random.choices(self.indices, k=3)  # 3 additional image indicesfor i, index in enumerate(indices):img, _, (h, w) = load_image(self, index)if i == 0:  # top leftimg4 = np.full((s * 2, s * 2, img.shape[2]), 114, dtype=np.uint8)x1a, y1a, x2a, y2a = max(xc - w, 0), max(yc - h, 0), xc, ycx1b, y1b, x2b, y2b = w - (x2a - x1a), h - (y2a - y1a), w, helif i == 1:  # top rightx1a, y1a, x2a, y2a = xc, max(yc - h, 0), min(xc + w, s * 2), ycx1b, y1b, x2b, y2b = 0, h - (y2a - y1a), min(w, x2a - x1a), helif i == 2:  # bottom leftx1a, y1a, x2a, y2a = max(xc - w, 0), yc, xc, min(s * 2, yc + h)x1b, y1b, x2b, y2b = w - (x2a - x1a), 0, w, min(y2a - y1a, h)elif i == 3:  # bottom rightx1a, y1a, x2a, y2a = xc, yc, min(xc + w, s * 2), min(s * 2, yc + h)x1b, y1b, x2b, y2b = 0, 0, min(w, x2a - x1a), min(y2a - y1a, h)img4[y1a:y2a, x1a:x2a] = img[y1b:y2b, x1b:x2b]padw = x1a - x1bpadh = y1a - y1blabels, segments = self.labels[index].copy(), self.segments[index].copy()if labels.size:labels[:, 1:] = xywhn2xyxy(labels[:, 1:], w, h, padw, padh)segments = [xyn2xy(x, w, h, padw, padh) for x in segments]labels4.append(labels)segments4.extend(segments)labels4 = np.concatenate(labels4, 0)for x in (labels4[:, 1:], *segments4):np.clip(x, 0, 2 * s, out=x)img4, labels4 = random_perspective(img4, labels4, segments4,degrees=self.hyp['degrees'],translate=self.hyp['translate'],scale=self.hyp['scale'],shear=self.hyp['shear'],perspective=self.hyp['perspective'],border=self.mosaic_border)return img4, labels4

定义函数，接受索引为参数
labels4, segments4，存储拼接后图像的标签和分割信息
s，获取单张图像的目标大小
yc, xc，计算马赛克图像中心点的坐标，但是这个中心点坐标是在一个确定的范围内随机产生的，4张图像可能会相互覆盖，超出边界的会进行裁剪
indices ，随机选择另外三个图像的索引，组成一个列表indices
现在indices 是一个包含4个图像索引的list，遍历这个list

依次遍历计算4张图像的位置坐标和裁剪的区域，构建大图像：（初始化一个大图，计算当前小图像放在大图中什么位置，计算当前小图像取哪一部分放在大图中，可能有些图像大小不足以放到哪个区域就用114填充，如果图像和标签越界了，越界的图像就不要了，越界的框也要修正一下）

img, _, (h, w)，通过当前遍历的索引使用load_image函数加载图像，返回加载后的图像与长宽
如果是第1张图像，即top left左上角：
创建一个大小为(s * 2, s * 2)，通道数与img相同，所有像素值全部为114的大图像
计算第1张图像在马赛克图像中的位置坐标
计算需要从第1张图像中裁剪的区域
如果是第2张图像，即top right右上角：
计算第2张图像在马赛克图像中的位置坐标
计算需要从第2张图像中裁剪的区域
如果是第3张图像，即bottom left左下角：
计算第3张图像在马赛克图像中的位置坐标
计算需要从第3张图像中裁剪的区域
如果是第4张图像，即bottom right右下角：
计算第4张图像在马赛克图像中的位置坐标
计算需要从第4张图像中裁剪的区域
将当前图像进行裁剪后放回大图像中
padw ，计算水平方向上的填充量
padh ，计算垂直方向上的填充量
复制当前图像索引对应的标签和分割信息
如果当前图像有标签：
将标签从归一化的xywh格式使用xywhn2xyxy函数转换为像素级的xyxy格式，并考虑填充调整
对分割信息使用xyn2xy函数进行同样的转换和调整
将当前图像的标签添加到labels4列表中
将当前图像的分割信息添加到segments4列表中
labels4 ，将所有图像的标签合并成一个ndarray
遍历所有标签和分割信息的坐标，准备进行裁剪
使用np.clip函数限制坐标值不超出马赛克图像的范围

做完大图后，可以再对大图进行一些数据增强操作（这里使用的是辅助函数），也有先对小图像进行数据增强后再拼成大图像

对马赛克图像及其标签使用random_perspective函数应用随机透视变换，以进行进一步的数据增强
返回马赛克图像和对应的标签

9.2 load_image函数

def load_image(self, index):# loads 1 image from dataset, returns img, original hw, resized hwimg = self.imgs[index]if img is None:  # not cachedpath = self.img_files[index]img = cv2.imread(path)  # BGRassert img is not None, 'Image Not Found ' + pathh0, w0 = img.shape[:2]  # orig hwr = self.img_size / max(h0, w0)  # resize image to img_sizeif r != 1:  # always resize down, only resize up if training with augmentationinterp = cv2.INTER_AREA if r < 1 and not self.augment else cv2.INTER_LINEARimg = cv2.resize(img, (int(w0 * r), int(h0 * r)), interpolation=interp)return img, (h0, w0), img.shape[:2]  # img, hw_original, hw_resizedelse:return self.imgs[index], self.img_hw0[index], self.img_hw[index]  # img, hw_original, hw_resized

9.3 xywhn2xyxy函数

def xywhn2xyxy(x, w=640, h=640, padw=0, padh=0):# Convert nx4 boxes from [x, y, w, h] normalized to [x1, y1, x2, y2] where xy1=top-left, xy2=bottom-righty = x.clone() if isinstance(x, torch.Tensor) else np.copy(x)y[:, 0] = w * (x[:, 0] - x[:, 2] / 2) + padw  # top left xy[:, 1] = h * (x[:, 1] - x[:, 3] / 2) + padh  # top left yy[:, 2] = w * (x[:, 0] + x[:, 2] / 2) + padw  # bottom right xy[:, 3] = h * (x[:, 1] + x[:, 3] / 2) + padh  # bottom right yreturn y

9.4 xywhn2xyxy函数

def xyn2xy(x, w=640, h=640, padw=0, padh=0):# Convert normalized segments into pixel segments, shape (n,2)y = x.clone() if isinstance(x, torch.Tensor) else np.copy(x)y[:, 0] = w * x[:, 0] + padw  # top left xy[:, 1] = h * x[:, 1] + padh  # top left yreturn y

9.5 random_perspective函数

def random_perspective(img, targets=(), segments=(), degrees=10, translate=.1, scale=.1, shear=10, perspective=0.0,border=(0, 0)):height = img.shape[0] + border[0] * 2  # shape(h,w,c)width = img.shape[1] + border[1] * 2C = np.eye(3)C[0, 2] = -img.shape[1] / 2  # x translation (pixels)C[1, 2] = -img.shape[0] / 2  # y translation (pixels)P = np.eye(3)P[2, 0] = random.uniform(-perspective, perspective)  # x perspective (about y)P[2, 1] = random.uniform(-perspective, perspective)  # y perspective (about x)R = np.eye(3)a = random.uniform(-degrees, degrees)s = random.uniform(1 - scale, 1 + scale)R[:2] = cv2.getRotationMatrix2D(angle=a, center=(0, 0), scale=s)S = np.eye(3)S[0, 1] = math.tan(random.uniform(-shear, shear) * math.pi / 180)  # x shear (deg)S[1, 0] = math.tan(random.uniform(-shear, shear) * math.pi / 180)  # y shear (deg)T = np.eye(3)T[0, 2] = random.uniform(0.5 - translate, 0.5 + translate) * width  # x translation (pixels)T[1, 2] = random.uniform(0.5 - translate, 0.5 + translate) * height  # y translation (pixels)M = T @ S @ R @ P @ C  # order of operations (right to left) is IMPORTANTif (border[0] != 0) or (border[1] != 0) or (M != np.eye(3)).any():  # image changedif perspective:img = cv2.warpPerspective(img, M, dsize=(width, height), borderValue=(114, 114, 114))else:  # affineimg = cv2.warpAffine(img, M[:2], dsize=(width, height), borderValue=(114, 114, 114))n = len(targets)if n:use_segments = any(x.any() for x in segments)new = np.zeros((n, 4))if use_segments:  # warp segmentssegments = resample_segments(segments)  # upsamplefor i, segment in enumerate(segments):xy = np.ones((len(segment), 3))xy[:, :2] = segmentxy = xy @ M.T  # transformxy = xy[:, :2] / xy[:, 2:3] if perspective else xy[:, :2]  # perspective rescale or affinenew[i] = segment2box(xy, width, height)else:  # warp boxesxy = np.ones((n * 4, 3))xy[:, :2] = targets[:, [1, 2, 3, 4, 1, 4, 3, 2]].reshape(n * 4, 2)  # x1y1, x2y2, x1y2, x2y1xy = xy @ M.T  # transformxy = (xy[:, :2] / xy[:, 2:3] if perspective else xy[:, :2]).reshape(n, 8)  # perspective rescale or affinex = xy[:, [0, 2, 4, 6]]y = xy[:, [1, 3, 5, 7]]new = np.concatenate((x.min(1), y.min(1), x.max(1), y.max(1))).reshape(4, n).Tnew[:, [0, 2]] = new[:, [0, 2]].clip(0, width)new[:, [1, 3]] = new[:, [1, 3]].clip(0, height)i = box_candidates(box1=targets[:, 1:5].T * s, box2=new.T, area_thr=0.01 if use_segments else 0.10)targets = targets[i]targets[:, 1:5] = new[i]return img, targets

物体检测-系列教程16：YOLOV5 源码解析6（马赛克数据增强函数load_mosaic）

😎😎😎物体检测-系列教程总目录有任何问题欢迎在下面留言本篇文章的代码运行界面均在Pycharm中进行本篇文章配套的代码资源已经上传点我下载源码 9、load_mosaic函数 Mosaic（马赛克）数据增强：将四张不…...

编程日记 2024/2/25 22:24:15

星河做市基金会全球DAO社区启动，为数字货币市场注入新活力

2024年的数字货币市场即将迎来一次重要的历史性时刻 — 比特币减半，这四年一次的事件将成为全球数字资产市场的焦点，预示着新一轮的牛市浪潮即将到来。在这个关键时刻，星河做市基金会展现出其作为区块链行业领先市值管理公司的独特魅力。 GA…...

编程日记 2024/2/25 22:20:12

QT Widget自定义菜单

此文以设置QListWidget的自定义菜单为例，其他继承于QWidget的类也都可以按类似的方法去实现。 1、ui文件设置contextMenuPolicy属性为CustomContextMenu 2、添加槽函数 /*** brief onCustomContextMenuRequested 右键弹出菜单* param pos 右键的坐标*/void onCusto…...

编程日记 2024/2/25 22:18:10

UnityWebGL 设置全屏

这是Unity导出Web默认打开的页面尺寸修改后效果修改 index.html 文件 1.div元素的id属性值为"unity-container"，宽度和高度都设置为100%，意味着该div元素将占据整个父容器的空间。canvas元素的id属性值为"unity-canvas"&#xff…...

编程日记 2024/2/25 22:15:07

100224. 分割数组

说在前面 🎈不知道大家对于算法的学习是一个怎样的心态呢？为了面试还是因为兴趣？不管是出于什么原因，算法学习需要持续保持。题目描述给你一个长度为偶数的整数数组 nums 。你需要将这个数组分割成 nums1 和 nums2 两部分&am…...

编程日记 2024/2/25 22:13:05

WSL2配置Linux、Docker、VS Code、zsh、oh my zsh（附Docker开机自启设置）

0. 写在前面本篇笔记来自于UP主麦兜搞IT的合集视频Windows10开发环境搭建中的部分内容 1. 安装WSL2 按照微软官方文档进行操作，当然也可以直接wsl --install 也可以按照旧版手动安装的步骤来进行操作选择安装的是Ubuntu 20.04 LTS 注：WSL默认安装…...

编程日记 2024/2/25 22:12:03

深度学习基础（四）医疗影像分析实战

之前的章节我们初步介绍了卷积神经网络（CNN）和循环神经网络（RNN）： 深度学习基础（三）循环神经网络（RNN）-CSDN博客文章浏览阅读1.2k次，点赞17次，收…...

编程日记 2024/2/25 22:10:01

ChatGPT调教指南 | 咒语指南 | Prompts提示词教程（一）

在我们开始探索人工智能的世界时，了解如何与之有效沉浸交流是至关重要的。想象一下，你手中有一把钥匙，可以解锁与OpenAI的GPT模型沟通的无限可能。这把钥匙就是——正确的提示词（prompts）。无论你是AI领域的新手，还是希望优化与大型语言模型交流的老手，掌握如何精确使用…...

编程日记 2024/2/25 22:05:58

LeetCode | 两数相加 C语言

Problem: 2. 两数相加文章目录思路解题方法Code一些感想思路主要是一一相加和逆序的方式存储先说逆序储存，看下图我们先声明出指针p和指针q，还有指针head（主要用于return上而已），然后进行一系列操作&#xff0c…...

编程日记 2024/2/25 22:02:55

【Spring MVC】处理器映射器：AbstractHandlerMethodMapping源码分析

目录一、继承体系二、HandlerMapping 三、AbstractHandlerMapping 四、AbstractHandlerMethodMapping 4.1 成员属性 4.1.1 MappingRegistry内部类 4.2 AbstractHandlerMethodMapping的初始化 4.3 getHandlerInternal()方法：根据当前的请求url，…...

编程日记 2024/2/25 21:59:52

网络编程知识整理

目录 1.1 引言 1.2 分层 1.3 TCP/IP的分层 1.4 互联网的地址 1.5 域名服务 1.6 封装 1.7 分用 1.8 端口号 1.1 引言很多不同的厂家生产各种型号的计算机，它们运行完全不同的操作系统，但 T C P / I P协议族允许它们互相进行通信。这一点很让人感…...

编程日记 2024/2/25 21:58:51

【小白友好】leetcode 移动零

https://leetcode.cn/problems/move-zeroes/description/ 小白思想思想上还是首先开一个指针i，i从左到右扫每一个元素，i每发现一个0，就把这个0推到最后，这样i到最后就可以了。这个和删除元素那个题解的小白思想和一模一样&am…...

编程日记 2024/2/25 21:55:49

迭代、递归、尾递归实现斐波那契数列的第n项

1.什么是斐波那契数列： 斐波那契数，亦称之为斐波那契数列（意大利语： Successione di Fibonacci)，又称黄金分割数列、费波那西数列、费波拿契数、费氏数列和兔子数列，指的是这样一个数列：0、1、…...

编程日记 2024/2/25 21:54:48

一.环境搭建 1.靶场描述 get flags difficulty: easy about vm: tested and exported from virtualbox. dhcp and nested vtx/amdv enabled. you can contact me by email (it should be on my profile) for troubleshooting or questions. 2.靶场下载 https://www.vulnhub.…...

编程日记 2024/2/25 21:51:45

NGINX服务器配置实现加密的WebSocket连接WSS协议

一、背景最近在做小程序开发，需要在nginx中配置websocket加密模式，即wss。初次配置wss时，踩了两个小时的坑，本文将踩坑过程分享给大家，有需要用到的伙伴可以直接copy即可实现，节省宝贵时间。二、WebSo…...

编程日记 2024/2/25 21:50:44

5个免费文章神器，用来改写文章太方便了

在当今信息爆炸的时代，内容创作和编辑是网络世界中至关重要的环节。然而，有时候我们可能会遇到一些内容需要进行改写或者重组的情况。为了提高效率，让这一过程更加顺畅，我们可以借助一些免费的文章神器来帮助我们完成这一任务。下…...

编程日记 2024/2/25 21:48:42

详细教程！VMware Workstation Pro16 安装 + 创建 win7 虚拟机！

嚯嚯嚯，很多宝子都想拥有自己不同的操作系统环境，用于学习或项目搭建。买服务器费钱，虚拟机则成为了一个很好的选择。本文详细介绍VMware Workstation Pro 16安装及win7虚拟机创建，保姆级教程奉上！ 一、准备工作 VMw…...

编程日记 2024/2/25 21:43:38

Python文件和异常（二）

目录三、异常 （一）处理 ZeroDivisionError 异常 （二）使用 try-except 代码块 （三）使用异常避免崩溃 （四）else 代码块 （五）处理 FileNotFoundError 异常…...

编程日记 2024/2/25 21:38:34

大模型+影像：智能手机“上春山”

这个春节假期，一首《上春山》火了。吃瓜群众热热闹闹学了一个假期的“春山学”，了解了抢占C位的各种技巧。假期过去，开工大吉，手机行业开始抢占今年的C位。那么问题来了，今年智能手机最大的机会点在哪里？答…...

编程日记 2024/2/25 21:37:32

8-pytorch-损失函数与反向传播

b站小土堆pytorch教程学习笔记根据loss更新模型参数 1.计算实际输出与目标之间的差距 2.为我们更新输出提供一定的依据（反向传播） 1 MSEloss import torch from torch.nn import L1Loss from torch import nninputstorch.tensor([1,2,3],dtypetorch.fl…...

编程日记 2024/2/25 21:36:31

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

一、环境搭建 <script src"../cesium1.99/Build/Cesium/Cesium.js"></script> <link rel"stylesheet" href"../cesium1.99/Build/Cesium/Widgets/widgets.css"> 关键配置点： 路径验证：确保相对路径.…...

编程新知 2025/12/1 19:23:04

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2026/1/4 5:02:00

镜像里切换为普通用户

如果你登录远程虚拟机默认就是 root 用户，但你不希望用 root 权限运行 ns-3（这是对的，ns3 工具会拒绝 root），你可以按以下方法创建一个非 root 用户账号并切换到它运行 ns-3。一次性解决方案：创建非 roo…...

编程新知 2025/9/11 11:00:29

如何为服务器生成TLS证书

TLS（Transport Layer Security）证书是确保网络通信安全的重要手段，它通过加密技术保护传输的数据不被窃听和篡改。在服务器上配置TLS证书，可以使用户通过HTTPS协议安全地访问您的网站。本文将详细介绍如何在服务器上生成一个TLS证…...

编程新知 2025/12/17 5:54:30

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

文章目录概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...

编程新知 2026/1/31 23:44:39

浅谈不同二分算法的查找情况

二分算法原理比较简单，但是实际的算法模板却有很多，这一切都源于二分查找问题中的复杂情况和二分算法的边界处理，以下是博主对一些二分算法查找的情况分析。需要说明的是，以下二分算法都是基于有序序列为升序有序的情况&#xf…...

编程新知 2025/9/14 7:37:32

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构，使它们在 VS 解决方案资源管理器中以“组”（Filter）的形式进行分类展示。 🎯 目标通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总（共4种）方法描述是否推荐…...

编程新知 2025/12/4 15:47:17

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

目录游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性宝可梦玩法融合设计游戏构想要素1. 地图探索（基于物理空间广播范围）2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法安全性设计技术选…...

编程新知 2025/12/12 6:01:17

面向无人机海岸带生态系统监测的语义分割基准数据集

描述：海岸带生态系统的监测是维护生态平衡和可持续发展的重要任务。语义分割技术在遥感影像中的应用为海岸带生态系统的精准监测提供了有效手段。然而，目前该领域仍面临一个挑战，即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受…...

编程新知 2026/1/25 14:15:52

【p2p、分布式，区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构定向转发机制

目录节点的功能承载层（GATT/Adv）局限性： 拓扑关系定向转发机制定向转发意义 CG 节点的功能节点的功能由节点支持的特性和功能决定。所有节点都能够发送和接收网格消息。节点还可以选择支持一个或多个附加功能，如 Configuration …...

编程新知 2026/2/4 22:41:52

物体检测-系列教程16：YOLOV5 源码解析6（马赛克数据增强函数load_mosaic）

😎😎😎物体检测-系列教程总目录

9、load_mosaic函数

9.1 load_mosaic函数

9.2 load_image函数

9.3 xywhn2xyxy函数

9.4 xywhn2xyxy函数

9.5 random_perspective函数

相关文章：

物体检测-系列教程16：YOLOV5 源码解析6（马赛克数据增强函数load_mosaic）

星河做市基金会全球DAO社区启动，为数字货币市场注入新活力

QT Widget自定义菜单

UnityWebGL 设置全屏

100224. 分割数组

WSL2配置Linux、Docker、VS Code、zsh、oh my zsh（附Docker开机自启设置）

深度学习基础（四）医疗影像分析实战

ChatGPT调教指南 | 咒语指南 | Prompts提示词教程（一）

LeetCode | 两数相加 C语言

【Spring MVC】处理器映射器：AbstractHandlerMethodMapping源码分析

网络编程知识整理

【小白友好】leetcode 移动零

迭代、递归、尾递归实现斐波那契数列的第n项

vulnhub靶场之driftingblues-1

NGINX服务器配置实现加密的WebSocket连接WSS协议

5个免费文章神器，用来改写文章太方便了

详细教程！VMware Workstation Pro16 安装 + 创建 win7 虚拟机！

Python文件和异常（二）

大模型+影像：智能手机“上春山”

8-pytorch-损失函数与反向传播

三维GIS开发cesium智慧地铁教程（5）Cesium相机控制

在四层代理中还原真实客户端ngx_stream_realip_module

镜像里切换为普通用户

如何为服务器生成TLS证书

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

浅谈不同二分算法的查找情况

CMake控制VS2022项目文件分组

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

面向无人机海岸带生态系统监测的语义分割基准数据集

【p2p、分布式，区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构定向转发机制