当前位置：首页 > article >正文

CV(11)-图像分割

article 2026/5/2 18:41:19

前言

仅记录学习过程，有问题欢迎讨论

图像分割

语义分割不需要区分具体的个体，实例分割需要

反卷积/转置卷积：

它并不是正向卷积的完全逆过程。反卷积是一种特殊的正向卷积，先按照一定的比例通过补0
来扩大输入图像的尺寸，接着旋转卷积核，再进行正向卷积。只能还原原图的尺寸，还可提升图像精度。
缺点：输出大量无用信息（添0）；计算比较消耗资源

语义分割– FCN （生成像素级预测，用于实例分割）

FCN将传统卷积网络后面的全连接层换成了卷积层，这样网络输出不再是类别而是heatmap；
同时为了解决因为卷积和池化对图像尺寸的影响，提出使用上采样的方式恢复尺寸
对图像进行像素级的分类，在上采样的特征图上进行逐像素分类
增大数据尺寸的反卷积(deconv)层。能够输出精细的结果（保持一定精度）

实例分割– Mask R-CNN

需要同时检测出目标的位置并且对目标进行分割，目标检测+语义分割

MASK-RCNN

与Faster RCNN的区别：

1）使用ResNet网络作为backbone
2）将 Roi Pooling 层替换成了 RoiAlign；（pooling会有误差，反卷积后误差会很大，所以要替换）

RoiAlign使用线性插值代替取整操作，固定像素点，使得精度提升

3）添加并列的 Mask 层；

添加掩膜，分类卷积，通过RoiAlign的结果获取分类结果

4）引入FPN 和 FCN

FPN：提取多尺度特征( 生成特征金字塔包含多个尺度的特征图)，提升目标检测性能。
FCN：生成像素级预测，用于实例分割

实现Mask-RCNN网络结构


import torch
import torch.nn as nn
import torch.nn.functional as F
import torchvision
import torchvision.transforms as transforms
from torch.utils.data import Dataset, DataLoader
import numpy as np
import cv2# 定义骨干网络，这里使用 ResNet
class ResNetBackbone(nn.Module):def __init__(self):super(ResNetBackbone, self).__init__()resnet = torchvision.models.resnet50(pretrained=True)self.features = nn.Sequential(*list(resnet.children())[:-2])def forward(self, x):x = self.features(x)return x# 区域生成网络 (RPN)
class RPN(nn.Module):def __init__(self, in_channels, num_anchors):super(RPN, self).__init__()self.conv = nn.Conv2d(in_channels, 512, kernel_size=3, stride=1, padding=1)self.cls_layer = nn.Conv2d(512, num_anchors * 2, kernel_size=1, stride=1)self.reg_layer = nn.Conv2d(512, num_anchors * 4, kernel_size=1, stride=1)def forward(self, x):x = F.relu(self.conv(x))cls_scores = self.cls_layer(x)bbox_preds = self.reg_layer(x)cls_scores = cls_scores.permute(0, 2, 3, 1).contiguous().view(x.size(0), -1, 2)bbox_preds = bbox_preds.permute(0, 2, 3, 1).contiguous().view(x.size(0), -1, 4)return cls_scores, bbox_preds# RoI Align 层
class RoIAlign(nn.Module):def __init__(self, output_size):super(RoIAlign, self).__init__()self.output_size = output_sizedef forward(self, features, rois):roi_features = []for i in range(features.size(0)):roi = rois[i]roi_feature = torchvision.ops.roi_align(features[i].unsqueeze(0), [roi], self.output_size)roi_features.append(roi_feature)roi_features = torch.cat(roi_features, dim=0)return roi_features# Mask 分支
class MaskBranch(nn.Module):def __init__(self, in_channels, num_classes):super(MaskBranch, self).__init__()self.conv1 = nn.Conv2d(in_channels, 256, kernel_size=3, stride=1, padding=1)self.conv2 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)self.conv3 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)self.conv4 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)self.deconv = nn.ConvTranspose2d(256, 256, kernel_size=2, stride=2)self.mask_layer = nn.Conv2d(256, num_classes, kernel_size=1, stride=1)def forward(self, x):x = F.relu(self.conv1(x))x = F.relu(self.conv2(x))x = F.relu(self.conv3(x))x = F.relu(self.conv4(x))x = F.relu(self.deconv(x))mask_preds = self.mask_layer(x)return mask_preds# Mask R-CNN 模型
class MaskRCNN(nn.Module):def __init__(self, num_classes):super(MaskRCNN, self).__init__()self.backbone = ResNetBackbone()self.rpn = RPN(2048, 9)  # 假设使用 9 个锚点self.roi_align = RoIAlign((14, 14))  # RoI Align 到 14x14self.fc1 = nn.Linear(2048 * 14 * 14, 1024)self.fc2 = nn.Linear(1024, 1024)self.cls_layer = nn.Linear(1024, num_classes)self.reg_layer = nn.Linear(1024, num_classes * 4)self.mask_branch = MaskBranch(2048, num_classes)def forward(self, x, rois=None):features = self.backbone(x)cls_scores, bbox_preds = self.rpn(features)if rois is not None:roi_features = self.roi_align(features, rois)roi_features_fc = roi_features.view(roi_features.size(0), -1)fc1 = F.relu(self.fc1(roi_features_fc))fc2 = F.relu(self.fc2(fc1))cls_preds = self.cls_layer(fc2)reg_preds = self.reg_layer(fc2)mask_preds = self.mask_branch(roi_features)return cls_preds, reg_preds, mask_preds, cls_scores, bbox_predselse:return cls_scores, bbox_preds# 自定义数据集类
class CustomDataset(Dataset):def __init__(self, image_paths, target_paths, transform=None):self.image_paths = image_pathsself.target_paths = target_pathsself.transform = transformdef __len__(self):return len(self.image_paths)def __getitem__(self, idx):image = cv2.imread(self.image_paths[idx])image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)target = np.load(self.target_paths[idx], allow_pickle=True)if self.transform:image = self.transform(image)return image, target# 数据预处理
transform = transforms.Compose([transforms.ToTensor(),transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
])# 训练函数
def train(model, dataloader, optimizer, criterion_cls, criterion_reg, criterion_mask):model.train()total_loss = 0for images, targets in dataloader:images = images.to(device)targets = [t.to(device) for t in targets]optimizer.zero_grad()cls_preds, reg_preds, mask_preds, cls_scores, bbox_preds = model(images, targets)# 计算分类、回归和掩码损失cls_loss = criterion_cls(cls_preds, targets)reg_loss = criterion_reg(reg_preds, targets)mask_loss = criterion_mask(mask_preds, targets)loss = cls_loss + reg_loss + mask_lossloss.backward()optimizer.step()total_loss += loss.item()return total_loss / len(dataloader)# 评估函数
def evaluate(model, dataloader):model.eval()correct = 0total = 0with torch.no_grad():for images, targets in dataloader:images = images.to(device)targets = [t.to(device) for t in targets]cls_preds, reg_preds, mask_preds, _, _ = model(images)# 计算评估指标，这里可根据具体需求实现# 例如计算 mAP 等return correct / totalif __name__ == "__main__":# 假设的图像和标注文件路径image_paths = ['img/street.jpg', 'img/street.jpg']target_paths = ['target1.npy', 'target2.npy']dataset = CustomDataset(image_paths, target_paths, transform)dataloader = DataLoader(dataset, batch_size=2, shuffle=True)device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')num_classes = 2  # 包括背景类model = MaskRCNN(num_classes).to(device)optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)criterion_cls = nn.CrossEntropyLoss()criterion_reg = nn.SmoothL1Loss()criterion_mask = nn.BCEWithLogitsLoss()  # 用于掩码的损失函数num_epochs = 10for epoch in range(num_epochs):loss = train(model, dataloader, optimizer, criterion_cls, criterion_reg, criterion_mask)print(f'Epoch {epoch + 1}/{num_epochs}, Loss: {loss}')# 评估accuracy = evaluate(model, dataloader)print(f'Accuracy: {accuracy}')

CV(11)-图像分割

前言仅记录学习过程，有问题欢迎讨论图像分割语义分割不需要区分具体的个体，实例分割需要反卷积/转置卷积： 它并不是正向卷积的完全逆过程。反卷积是一种特殊的正向卷积，先按照一定的比例通过补0 来扩大输入图像的尺寸&…...

编程日记 2026/4/26 11:54:38

【STM32系列】利用MATLAB配合ARM-DSP库设计FIR数字滤波器（保姆级教程）

ps.源码放在最后面设计IIR数字滤波器可以看这里：利用MATLAB配合ARM-DSP库设计IIR数字滤波器（保姆级教程） 前言本篇文章将介绍如何利用MATLAB与STM32的ARM-DSP库相结合，简明易懂地实现FIR低通滤波器的设计与应用。文章重点不在…...

编程日记 2026/4/26 11:54:34

STM32上部署AI的两个实用软件——Nanoedge AI Studio和STM32Cube AI

1 引言 STM32 微控制器在嵌入式领域应用广泛，因为它性能不错、功耗低，还有丰富的外设，像工业控制、智能家居、物联网这些场景都能看到它的身影。与此同时，人工智能技术发展迅速，也逐渐融入各个行业。把 AI 部署到 STM…...

编程日记 2026/4/29 11:17:46

Next.js简介：现代 Web 开发的强大框架（ChatGPT-4o回答）

prompt: 你是一位专业的技术博客撰稿人，你将写一篇关于介绍next.js这个开发框架的技术博文，语言是中文，风格专业严谨，用词自然、引人入胜且饶有趣味在现代 Web 开发的世界中，选择合适的框架可以显著提升开发效率和应用…...

编程日记 2026/2/24 23:50:46

Kubernetes与Deepseek

人工智能（AI）与云计算的融合正在加速，而 Kubernetes（K8s） 正在成为 AI 发展的基础设施之一。作为一匹 AI 领域的黑马，Deepseek 需要依靠强大的计算资源和高效的管理工具来训练和部署其大规模 AI 模型&#…...

编程日记 2026/2/21 7:25:43

qt+gstreamer快速创建一个流媒体播放器

目录 1 前言 2 playbin3 3 videooverlay 4 关键代码 5 运行示例 1 前言最近因为工作需求，要实现一个桌面流媒体播放器来支持常见的流媒体协议，经过调研发现使用gstreamer配合一些桌面级的gui应用开发工具如qt可以进行快速实现，在此进…...

编程日记 2026/5/2 15:47:11

RAID独立硬盘冗余阵列

目录一、RAID基本功能二、RAID常见级别三、实现方式 1、软件磁盘阵列 2、硬件磁盘阵列四、热备盘 RAID（Redundant Array of Independent Disks）是一种通过将多个硬盘组合成一个逻辑单元来提升存储性能、冗余性或两者兼具的技术。一、RAID基本…...

编程日记 2026/4/28 18:45:47

DeepSeek V2报告阅读

概况 MoE架构，236B参数，每个token激活参数21B，支持128K上下文。采用了包括多头潜在注意力（MLA）和DeepSeekMoE在内的创新架构。MLA通过将KV缓存显著压缩成潜在向量来保证高效的推理，而DeepSeekMoE通过稀疏计…...

编程日记 2026/5/1 22:34:00

超详细UE4（虚幻4）第一人称射击（FPS）游戏制作教程

超详细UE4（虚幻4）第一人称射击（FPS）游戏制作教程引言在游戏开发领域，第一人称射击（FPS）游戏一直是最受欢迎的类型之一。从经典的《反恐精英》（CS）到现代的《使命召唤》（Call of Duty），FPS游戏凭借其紧张刺激的游戏体验和高度沉浸感，吸引了无数玩家。如果你是一…...

编程日记 2026/4/2 4:07:10

【开发电商系统的技术选型】

开发电商系统的技术选型是一个复杂而细致的过程，涉及到多个方面和层面的考量。以下是一份详细的技术选型指南： 前端技术基础技术 HTML5/CSS3/JavaScript：这是构建现代网页应用的基础。HTML5提供了丰富的语义元素，便于搜索引擎优…...

编程日记 2026/4/28 14:33:57

一、服务端代码示例 import java.io.IOException; import java.net.InetSocketAddress; import java.nio.ByteBuffer; import java.nio.channels.AsynchronousServerSocketChannel; import java.nio.channels.AsynchronousSocketChannel; import java.nio.channels.Completion…...

编程日记 2026/4/5 7:57:52

零基础Vue入门6——Vue router

本节重点： 路由定义路由跳转前面几节学习的都是单页面的功能（都在专栏里面https://blog.csdn.net/zhanggongzichu/category_12883540.html），涉及到项目研发都是有很多页面的，这里就需要用到路由（vue route…...

编程日记 2026/4/26 11:54:36

关于JS继承的七种方式和理解

1.原型链继承 function Fun1() {this.name parentthis.play [1, 2, 3] } function Fun2() {this.type child }Fun2.prototype new Fun1()let s1 new Fun2() let s2 new Fun2() s1.play.push(4) console.log(s1.play, s2.play) // [1, 2, 3, 4] [1, 2, 3, 4]可以看到两个…...

编程日记 2026/4/29 0:11:54

Elasticsearch的使用场景、数据量级及选择原因？为什么没有用Hbase？

目录 Elasticsearch 的使用场景、数据量级及选择原因 1. Elasticsearch 的使用场景 2. 数据量级 3. 选择 Elasticsearch 的原因 4. 为什么选择 Elasticsearch 而不是 HBase 5. 数据量级对比 6. 总结 Elasticsearch 的使用场景、数据量级及选择原因 1. Elasticsearch 的…...

编程日记 2026/4/29 1:41:39

Oracle迁移到MySQL

Oracle迁移到MySQL业务需要全面改造适配，数据库对象和业务SQL语法需要一对一映射分析如何改写，根据业务使用实际情况评估改造适配成本较高。目前，已有数据库产品能力缺少自动化迁移工具，需要依赖生态产品能力，比如云和…...

编程日记 2026/4/3 4:16:37

.Net Core笔记知识点（跨域、缓存）

设置前端跨域配置示例： builder.Services.AddCors(option > {option.AddDefaultPolicy(policy > {policy.WithOrigins(originUrls).AllowAnyMethod().AllowAnyHeader().AllowCredentials();});});var app builder.Build();app.UseCors(); 【客户端缓存】接…...

编程日记 2026/4/28 18:02:48

【Vue】在Vue3中使用Echarts的示例两种方法

文章目录方法一template渲染部分js部分方法一实现效果方法二template部分js or ts部分方法二实现效果贴个地址~ Apache ECharts官网地址 Apache ECharts示例地址官网有的时候示例显示不出来，属于正常现象，多进几次就行开始使用前，记得先…...

编程日记 2026/4/26 11:54:35

每日Attention学习18——Grouped Attention Gate

模块出处 [ICLR 25 Submission] [link] UltraLightUNet: Rethinking U-shaped Network with Multi-kernel Lightweight Convolutions for Medical Image Segmentation 模块名称 Grouped Attention Gate (GAG) 模块作用轻量特征融合模块结构模块特点特征融合前使用Group…...

编程日记 2026/5/2 3:13:10

Qt —— 加载百度离线地图、及简单绘图（附源码）

效果说明软件代码已下载了某区域的离线瓦片地图，通过百度离线api进行调用的地图效果。源码 void PointMapTEST...

编程日记 2026/2/25 20:01:52

124，【8】buuctf web [极客大挑战 2019] Http

进入靶场查看源码点击与url有关，抓包 over...

编程日记 2026/5/1 7:39:13

源路由 | 源路由网桥 / 生成树网桥

注：本文为 “源路由” 相关文章合辑。未整理去重。什么是源路由（source routing）？ yzx99 于 2021-02-23 09:45:51 发布考虑到一个网络节点 A 从路由器 R1 出发，可以经过两台路由器 R2、R3，到达相同的…...

编程日记 2026/4/26 11:54:44

c#中lock的经典示例

lock 是 C# 中的一种用于同步线程执行的机制，它帮助确保多个线程在访问共享资源时不会发生冲突或数据损坏。其作用是通过给临界区（即多线程访问共享资源的代码段）加锁，使得在同一时刻只能有一个线程进入执行该代码段。 1、lock 的…...

编程日记 2026/3/20 2:32:49

python编程-集合内置函数和filter(),集合常见操作

在Python中，列表、集合、字典是三种常用的数据结构，它们各自拥有一些内置函数，用于执行各种操作。一、列表的常用内置函数 #‌1、append(obj)‌: 在列表末尾添加新的对象。list_a [1, 2, 3] list_a.append(4) print(list_a) # 输出: [1,…...

编程日记 2026/5/1 1:56:30