当前位置：首页 > news >正文

【深度学习】yolov8-seg分割训练，拼接图的分割复原

news 2026/2/8 20:59:16

文章目录

项目背景
造数据
训练

项目背景

在日常开发中，经常会遇到一些图片是由多个图片拼接来的，如下图就是三个图片横向拼接来的。是否可以利用yolov8-seg模型来识别出这张图片的三张子图区域呢，这是文本要做的事情。

在这里插入图片描述

造数据

假设拼接方式有：横向拼接2张图为新图（最短边是高reisze到768，另一边等比resize）、横向拼接3张图为新图（最短边是高reisze到768，另一边等比resize）、纵向拼接2张图为新图（最短边是高reisze到768，另一边等比resize）、纵向拼接3张图为新图（最短边是高reisze到768，另一边等比resize）、拼接一个22的图（每张图大小resize到一样，总大小12901280）。

这个代码会造分割数据。

import os
import random
from PIL import Imagedef list_path_all_files(dirname):result = []for maindir, subdir, file_name_list in os.walk(dirname):for filename in file_name_list:if filename.lower().endswith('.jpg'):apath = os.path.join(maindir, filename)result.append(apath)return resultdef resize_image(image, target_size, resize_by='height'):w, h = image.sizeif resize_by == 'height':if h != target_size:ratio = target_size / hnew_width = int(w * ratio)image = image.resize((new_width, target_size), Image.ANTIALIAS)elif resize_by == 'width':if w != target_size:ratio = target_size / wnew_height = int(h * ratio)image = image.resize((target_size, new_height), Image.ANTIALIAS)return imagedef create_2x2_image(images):target_size = (640, 640)new_image = Image.new('RGB', (1280, 1280))coords = []for i, img in enumerate(images):img = img.resize(target_size, Image.ANTIALIAS)if i == 0:new_image.paste(img, (0, 0))coords.append((0, 0, 640, 0, 640, 640, 0, 640))elif i == 1:new_image.paste(img, (640, 0))coords.append((640, 0, 1280, 0, 1280, 640, 640, 640))elif i == 2:new_image.paste(img, (0, 640))coords.append((0, 640, 640, 640, 640, 1280, 0, 1280))elif i == 3:new_image.paste(img, (640, 640))coords.append((640, 640, 1280, 640, 1280, 1280, 640, 1280))return new_image, coordsdef concatenate_images(image_list, mode='horizontal', target_size=768):if mode == 'horizontal':resized_images = [resize_image(image, target_size, 'height') for image in image_list]total_width = sum(image.size[0] for image in resized_images)max_height = target_sizenew_image = Image.new('RGB', (total_width, max_height))x_offset = 0coords = []for image in resized_images:new_image.paste(image, (x_offset, 0))coords.append((x_offset, 0, x_offset + image.size[0], 0, x_offset + image.size[0], max_height, x_offset, max_height))x_offset += image.size[0]elif mode == 'vertical':resized_images = [resize_image(image, target_size, 'width') for image in image_list]total_height = sum(image.size[1] for image in resized_images)max_width = target_sizenew_image = Image.new('RGB', (max_width, total_height))y_offset = 0coords = []for image in resized_images:new_image.paste(image, (0, y_offset))coords.append((0, y_offset, max_width, y_offset, max_width, y_offset + image.size[1], 0, y_offset + image.size[1]))y_offset += image.size[1]return new_image, coordsdef generate_labels(coords, image_size):labels = []width, height = image_sizefor coord in coords:x1, y1, x2, y2, x3, y3, x4, y4 = coordx1 /= widthy1 /= heightx2 /= widthy2 /= heightx3 /= widthy3 /= heightx4 /= widthy4 /= heightlabels.append(f"0 {x1:.5f} {y1:.5f} {x2:.5f} {y2:.5f} {x3:.5f} {y3:.5f} {x4:.5f} {y4:.5f}")return labelsdef generate_dataset(image_folder, output_folder, label_folder, num_images):image_paths = list_path_all_files(image_folder)if not os.path.exists(output_folder):os.makedirs(output_folder)if not os.path.exists(label_folder):os.makedirs(label_folder)for i in range(num_images):random_choice = random.randint(1, 5)if random_choice == 1:selected_images = [Image.open(random.choice(image_paths)) for _ in range(2)]new_image, coords = concatenate_images(selected_images, mode='horizontal')elif random_choice == 2:selected_images = [Image.open(random.choice(image_paths)) for _ in range(3)]new_image, coords = concatenate_images(selected_images, mode='horizontal')elif random_choice == 3:selected_images = [Image.open(random.choice(image_paths)) for _ in range(2)]new_image, coords = concatenate_images(selected_images, mode='vertical')elif random_choice == 4:selected_images = [Image.open(random.choice(image_paths)) for _ in range(3)]new_image, coords = concatenate_images(selected_images, mode='vertical')elif random_choice == 5:selected_images = [Image.open(random.choice(image_paths)) for _ in range(4)]new_image, coords = create_2x2_image(selected_images)output_image_path = os.path.join(output_folder, f'composite_image_paper_{i + 1:06d}.jpg')new_image.save(output_image_path, 'JPEG')label_path = os.path.join(label_folder, f'composite_image_paper_{i + 1:06d}.txt')labels = generate_labels(coords, new_image.size)with open(label_path, 'w') as label_file:for label in labels:label_file.write(label + '\n')# 示例用法
image_folder = '/ssd/xiedong/datasets/multilabelsTask/multilabels_new/10025doc_textPaperShot/'
# image_folder = '/ssd/xiedong/datasets/multilabelsTask/multilabels_new/'
output_folder = '/ssd/xiedong/datasets/composite_images_yolov8seg/images'
label_folder = '/ssd/xiedong/datasets/composite_images_yolov8seg/labels'
num_images = 10000
generate_dataset(image_folder, output_folder, label_folder, num_images)

有的图片还是很有难度的，比如这张图，分界不明显，模型是否能搞定是个未知数。当然，我会认为模型可以在一定程度上识别语义或者排版，还是有几率可以识别对的。

在这里插入图片描述

训练

我想得到一个后续可以直接用的环境，我直接用docker搞个环境。搞的过程：

docker run -it --gpus all --net host  --shm-size=8g -v /ssd/xiedong/yolov8segdir:/ssd/xiedong/yolov8segdir ultralytics/ultralytics:8.2.62  bash

docker tag ultralytics/ultralytics:8.2.62 kevinchina/deeplearning:ultralytics-8.2.62
docker push kevinchina/deeplearning:ultralytics-8.2.62

写一个数据集data.yaml：

cd /ssd/xiedong/yolov8segdir
vim data.yaml

path: /ssd/xiedong/yolov8segdir/composite_images_yolov8seg
train: images # train images (relative to 'path') 128 images
val: images # val images (relative to 'path') 128 images
test: # test images (optional)# Classes
names:0: paper

执行这个代码开始训练模型：

from ultralytics import YOLO# Load a model
model = YOLO("yolov8m-seg.pt")  # load a pretrained model (recommended for training)# Train the model with 2 GPUs
results = model.train(data="data.yaml", epochs=50, imgsz=640, device=[1, 2, 3], batch=180)

代码会自动下载这个模型到本地，网络问题，也可能需要自己用wget下载到当前训练代码的执行目录。

https://github.com/ultralytics/assets/releases/download/v8.2.0/yolov8m-seg.pt

开始训练：

python -m torch.distributed.run --nproc_per_node 3 x03train.py

这样训练就可以了：
在这里插入图片描述

看起来任务是简单的：

在这里插入图片描述

【深度学习】yolov8-seg分割训练，拼接图的分割复原

文章目录项目背景造数据训练项目背景在日常开发中，经常会遇到一些图片是由多个图片拼接来的，如下图就是三个图片横向拼接来的。是否可以利用yolov8-seg模型来识别出这张图片的三张子图区域呢，这是文本要做的事情。造数据假设拼接方式有…...

编程日记 2024/7/26 20:10:59

Python升级打怪—Django入门

目录一、Django简介二、安装Django 三、创建Dajngo项目 (一) 创建项目 (二) 项目结构介绍 (三) 运行项目 (四) 结果一、Django简介 Django是一个高级Python web框架，鼓励快速开发和干净、实用的设计。由经验丰富的开发人员构建，它解决了web开…...

编程日记 2024/7/26 20:09:58

leetcode面试题17.最大子矩阵

sooooooo long没刷题了，汗颜题目链接：leetcode面试题17 1.题目给定一个正整数、负整数和 0 组成的 N M 矩阵，编写代码找出元素总和最大的子矩阵。返回一个数组 [r1, c1, r2, c2]，其中 r1, c1 分别代表子矩阵左上角的行号和…...

编程日记 2024/7/26 20:08:57

计算机网络：构建联结的基础

目录 1. 网络拓扑结构 1.1 星型拓扑 1.2 环型拓扑 1.3 总线型拓扑 1.4 网状拓扑 2. 传输介质 2.1 双绞线 2.2 同轴电缆 2.3 光纤 2.4 无线电波 3. 协议栈模型 3.1 OSI模型 3.2 TCP/IP模型 4. 网络设备 4.1 交换机 4.2 路由器 4.3 网关 4.4 防火墙 5. IP地址…...

编程日记 2024/7/26 20:07:56

node和npm安装；electron、 electron-builder安装

1、node和npm安装参考： https://blog.csdn.net/sw150811426/article/details/137147783 下载： https://nodejs.org/dist/v20.15.1/ 安装： 点击下载msi直接运行安装安装完直接cmd打开可以，默认安装就已经添加了环境变量&…...

编程日记 2024/7/26 20:05:54

操作系统概念（黑皮书）阅读笔记

操作系统概念（黑皮书）阅读笔记进程和内存管理部分章节导论： 操作系统类似于政府，其本身不能实现任何有用功能，而是提供一个方便其他程序执行有用工作的环境个人理解：os是government的作用&#xff0…...

编程日记 2024/7/26 20:00:49

matlab gui下的tcp client客户端编程框架

GUI界面函数外定义全局变量 %全局变量 global TcpClient; %matlab作为tcpip客户端建立连接在“连接”按钮的回调函数下添加以下代码： global TcpClient;%全局变量 TcpClient tcpip(‘192.168.1.10’, 7, ‘NetworkRole’,‘client’); %连接到服务器地址和端…...

编程日记 2024/7/26 19:56:45

Matplotlib ： Python 的绘图库

Matplotlib 是一个 Python 的绘图库，广泛用于生成各种静态、动态、交互式的图表。它基于 NumPy，一个用于科学计算的 Python 库。Matplotlib 可以用于生成出版质量级别的图表，并且提供了丰富的定制选项，以适应不同用户的需求。以下…...

编程日记 2024/7/26 19:53:42

数据编织 VS 数据仓库 VS 数据湖

目录 1. 什么是数据编织?2. 数据编织的工作原理3. 代码示例4. 数据编织的优势5. 应用场景6. 数据编织 vs 数据仓库6.1 数据存储方式6.2 数据更新和实时性6.3 灵活性和可扩展性6.4 查询性能6.5 数据治理和一致性6.6 适用场景6.7 代码示例比较 7. 数据编织 vs 数据湖7.1 数据存储…...

编程日记 2024/7/26 19:50:38

CSS(十一）——CSS分组和嵌套，尺寸（Dimension）

CSS 分组和嵌套选择器分组选择器举个例子，多个标签有同一个样式，就可以不一个一个分开写，使用分组选择器比如： h1 {color:green; } h2 {color:green; } p {color:green; } 就可以写为： h1,h2,p {color…...

编程日记 2024/7/26 19:48:37

必备神器！三款优秀远程控制电脑软件推荐

嘿，各位职场小伙伴们，今儿个咱们来聊聊个挺实用又带点“科技范儿”的话题——电脑远程控制那点事儿。作为刚踏入职场不久的新人，我深刻体会到，在这信息爆炸的时代，掌握几招远程操作的技能，简直就是给自个儿…...

编程日记 2024/7/26 19:41:30

关于正运动学解机器人手臂算法

机器人正运动学是机器人学的一个分支，研究机器人的运动和位置之间的关系。它通过解析机器人的结构和关节参数，以及给定的关节角度，来计算机器人的末端执行器的位置和姿态。机器人正运动学算法通常使用DH（Denavit-Hartenberg&…...

编程日记 2024/7/26 19:40:29

MySQL 约束 (constraint)

文章目录约束（constraint)列级约束和表级约束给约束起名字（constraint)非空约束（no null)检查约束（check)唯一性约束 (unique)主键约束 (primary key)主键分类单一主键复合主键主键自增 （auto_increment) 外键约束外什…...

编程日记 2024/7/26 19:39:28

用python程序发送文件（python实例二十六）

目录 1.认识Python 2.环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3.文件上传 3.1 代码构思 3.2 服务端代码 3.3 客户端代码 3.4 运行结果 4.总结 1.认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具…...

编程日记 2024/7/26 19:36:25

HTML：lang属性作用

lang作用用法常见语言代码优点示例结构效果说明分析HTML 基础结构导航栏内容部分总结扩展用法 HTML 文档级别: 在 <html> 标签上使用 lang 属性，指定整个文档的语言。 <!DOCTYPE html> <html lang"en"> <head><meta charse…...

编程日记 2024/7/26 19:33:23

Android SurfaceFlinger——纹理的绘制流程（二十八）

在系统开机动画的播放流程中，会从给定的资源文件中加载纹理数据并初始化一个 OpenGL 纹理对象，这里我们就来解析软件模拟纹理的绘制流程。一、纹理概述在 Android 的 SurfaceFlinger 系统组件中，纹理（Texture）是一个核心概念，特别是在涉及到图形渲染和显示的过程中。 …...

编程日记 2024/7/26 19:32:22

深入解析Memcached：C#中的应用与实战案例

目录 Memcached简介Memcached的特点Memcached的工作原理Memcached的应用场景Memcached的安装和配置Memcached与C#的集成引入依赖配置Memcached客户端C#代码示例存储数据读取数据删除数据深入解析Memcached 数据存储和过期策略分布式架构性能优化实战案例缓存数据库查询结果实…...

编程日记 2024/7/26 19:30:20

keyring 库

目录安装 keyring 基本用法 1. 设置密码 2. 获取密码 3. 删除密码 4. 返回当前使用的默认密钥环 5. 列出所有密码支持的后端 keyring 是一个 Python 库，用于将敏感信息（如密码）安全地存储在操作系统的密码管理器中。它支持多种平台…...

编程日记 2024/7/26 19:28:18

[css3] 如何设置边框颜色渐变

div {border: 4px solid;border-image: linear-gradient(to right, #8f41e9, #578aef) 1; }参考： 5种CSS实现渐变色边框（Gradient borders方法的汇总...

编程日记 2024/7/26 19:27:17

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展：显示创建时间8. 功能扩展：记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

编程新知 2025/9/20 5:20:12

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning（提示调优）核心思想：固定预训练模型参数，仅学习额外的连续提示向量（通常是嵌入层的一部分）。实现方式：在输入文本前添加可训练的连续向量（软提示），模型只更新这些提示参数。优势：参数量少（仅提…...

编程新知 2026/2/8 1:14:13

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

作者：Mingning Guo, Mengwei Wu, Jiarun He, Shaoxian Li, Haifeng Li, Chao Tao单位：中南大学地球科学与信息物理学院论文标题：BEDI: A Comprehensive Benchmark for Evaluating Embodied Agents on UAVs论文链接：https://arxiv.…...

编程新知 2026/1/22 15:36:10

1.3 VSCode安装与环境配置

进入网址Visual Studio Code - Code Editing. Redefined下载.deb文件，然后打开终端，进入下载文件夹，键入命令 sudo dpkg -i code_1.100.3-1748872405_amd64.deb 在终端键入命令code即启动vscode 需要安装插件列表 1.Chinese简化 2.ros …...

编程新知 2026/1/29 3:35:37

NXP S32K146 T-Box 携手 SD NAND（贴片式TF卡）：驱动汽车智能革新的黄金组合

在汽车智能化的汹涌浪潮中，车辆不再仅仅是传统的交通工具，而是逐步演变为高度智能的移动终端。这一转变的核心支撑，来自于车内关键技术的深度融合与协同创新。车载远程信息处理盒（T-Box）方案：NXP S32K146 与…...

编程新知 2026/1/24 14:43:35

JVM 内存结构详解

内存结构运行时数据区： Java虚拟机在运行Java程序过程中管理的内存区域。程序计数器： 线程私有，程序控制流的指示器，分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。每个线程都有一个程序计数…...

编程新知 2026/2/6 3:24:58

Java毕业设计：WML信息查询与后端信息发布系统开发

JAVAWML信息查询与后端信息发布系统实现一、系统概述本系统基于Java和WML(无线标记语言)技术开发，实现了移动设备上的信息查询与后端信息发布功能。系统采用B/S架构，服务器端使用Java Servlet处理请求，数据库采用MySQL存储信息&#xff0…...

编程新知 2025/10/27 13:29:11

STM32HAL库USART源代码解析及应用

STM32HAL库USART源代码解析前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

编程新知 2026/1/31 13:18:46

Windows安装Miniconda

一、下载 https://www.anaconda.com/download/success 二、安装三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

编程新知 2026/1/31 7:39:20

Caliper 负载(Workload)详细解析

Caliper 负载(Workload)详细解析负载(Workload)是 Caliper 性能测试的核心部分，它定义了测试期间要执行的具体合约调用行为和交易模式。下面我将全面深入地讲解负载的各个方面。一、负载模块基本结构一个典型的负载模块(如 workload.js)包含以下基本结构： use strict;/…...

编程新知 2025/10/31 21:11:39

【深度学习】yolov8-seg分割训练，拼接图的分割复原

文章目录

项目背景

造数据

训练

相关文章：

【深度学习】yolov8-seg分割训练，拼接图的分割复原

Python升级打怪—Django入门

leetcode面试题17.最大子矩阵

计算机网络：构建联结的基础

node和npm安装；electron、 electron-builder安装

操作系统概念（黑皮书）阅读笔记

matlab gui下的tcp client客户端编程框架

Matplotlib ： Python 的绘图库

数据编织 VS 数据仓库 VS 数据湖

CSS(十一）——CSS分组和嵌套，尺寸（Dimension）

必备神器！三款优秀远程控制电脑软件推荐

关于正运动学解机器人手臂算法

MySQL 约束 (constraint)

用python程序发送文件（python实例二十六）

最新源支付系统源码 V7版全开源免授权附搭建教程

HTML：lang属性作用

Android SurfaceFlinger——纹理的绘制流程（二十八）

深入解析Memcached：C#中的应用与实战案例

keyring 库

[css3] 如何设置边框颜色渐变

Vue记事本应用实现教程

Prompt Tuning、P-Tuning、Prefix Tuning的区别

中南大学无人机智能体的全面评估！BEDI：用于评估无人机上具身智能体的综合性基准测试

1.3 VSCode安装与环境配置

NXP S32K146 T-Box 携手 SD NAND（贴片式TF卡）：驱动汽车智能革新的黄金组合

JVM 内存结构详解

Java毕业设计：WML信息查询与后端信息发布系统开发

STM32HAL库USART源代码解析及应用

Windows安装Miniconda

Caliper 负载(Workload)详细解析