当前位置：首页 > news >正文

Mask RCNN网络结构以及整体流程的详细解读

news 2025/11/16 8:06:48

文章目录

1、概述
2、Backbone
3、RPN网络
- 3.1、anchor的生成
- 3.2、anchor的标注/分配
- 3.3、分类预测和bbox回归
- 3.4、NMS生成最终的anchor
4、ROI Head
- 4.1、ROI Align
- 4.2、cls head和bbox head
- 4.3、mask head

1、概述

Mask RCNN是在Faster RCNN的基础上增加了mask head用于实例分割的模型。
总体来说，Mask RCNN网络结构可以分为：BackBone(ResNet+FPN) —> RPN网络(Region Proposal Network) —> ROI Head(ROIAlign + cls head + bbox head + mask head)
整体网络结构如下（来自原论文https://arxiv.org/pdf/1703.06870.pdf）：

2、Backbone

Backbone主要由ResNet和FPN组成，如下图

1）C1-C5是指ResNet网络5个stage输出的特征图，下采样率分别为2, 4, 8, 16, 32，通道数分别为64, 256, 512, 1024, 2048

2）FPN网络类似于UNet网络中的跳级连接，都是为了增强多尺度表征能力的：分别对C2-C5四个特征图通过1 $\times$ 1卷积改变通道数为256，再与上采样路径中对应尺度的特征图相加。得到的P2-P6就是FPN网络的五个特征图，下采样率为4, 8, 16, 32, 64，通道数都为256
3）需要注意的是，P2-P6这五个特征图将分别作为RPN网络的输入和ROI Head中的ROI Align的输入：

RPN网络的输入：用于在这五个特征图上生成先验的anchor，并对这些anchor进行类别预测和bbox回归，以生成最终的anchor输入到ROI Head中
ROI Align的输入：根据RPN网络生成的anchors，提取这五个特征图中对应的ROI区域特征图，输入到cls、bbox和maskhead中

3、RPN网络

RPN网络为Region Proposal Network，主要作用：用于生成先验的anchor box/proposals；并将P2-P6这五个特征图作为网络输入学习得到这些先验的anchor box/proposal的类别(前景or背景)以及通过bbox 回归得到偏移量；最终经过RPN网络预测得到的具有更高质量的proposal送入ROI Head中
主要流程为：1）anchor的生成；2）anchor的标注；3）P2-P6五个特征图进行二分类的预测和bbox回归；4）通过NMS后处理得到最终的anchor

3.1、anchor的生成

在P2-P6的五个特征图上分别对应设置5个不同的anchor size(32, 64, 128, 256, 512)并设置3种长宽比(0.5, 1.0, 2.0)，也就是每个特征图的每个像素点生成3个anchor(x, y, w, h)
具体来说，特征图中的每个点都会先映射到原始图像中，并以该点为中心，以对应的anchor size和3种长宽比的设置，生成3个anchor(x, y, w, h)
例如，输入图像为512 $\times$ 512，那么五个特征图的尺寸分别为128, 64, 32, 16, 8，那么生成的anchors的数量为(128 $\times$ 128 + 64 $\times$ 64 + 32 $\times$ 32 + 16 $\times$ 16 + 8 $\times$ 8) $\times$ 3 = 21824 $\times$ 3 = 65472个anchors

3.2、anchor的标注/分配

该过程就是确定生成的所有anchor为正样本or负样本
标注流程如下：

1）先排除掉超过原图边界的anchors；
2）计算其余的每个anchor与所有ground truth bbox的IoU，取与每个bbox的的最大IoU作为判断：大于0.7为正样本，小于0.3为负样本；
3）计算每个bbox与那个anchor的IoU最大，把该anchor也标记为正样本

最后随机选择128个正样本和128个负样本用于RPN网络的训练，对于分类：128个正样本的label为1,128个负样本的label和剩下的anchor的label为0；对于bbox回归：超过边界的anchor的label为(0, 0, 0, 0)，其余anchor的label是与它对应的具有最大IoU的bbox的实际偏移量

3.3、分类预测和bbox回归

首先对5个特征图进行3 $\times$ 3卷积，然后分为2个分支
分类分支为1 $\times$ 1卷积，输出通道数为num_anchors=3，表示的是特征图的每个像素点对应的3个anchors为前景的概率值。

需要注意的是，五个特征图分别作为3 $\times$ 3卷积和该分支的1 $\times$ 1卷积的输入计算得到概率值，再计算128个正样本和128个负样本的分类损失，也就是说只有一组3 $\times$ 3卷积和1 $\times$ 1卷积

bbox回归分支为1 $\times$ 1卷积，输出通道数为num_anchors $\times$ 4 = 12，表示3个anchor的4个预测位置参数

以下为bbox回归的详细介绍，预测得到的(dx, dy, dw, dh)与ground truth之间计算Smooth L1损失

训练RPN网络：对128个正样本和128个负样本计算分类损失：二分类交叉熵损失函数，以及回归损失：Smooth L1损失

3.4、NMS生成最终的anchor

根据RPN网络生成的所有anchor的score和4个位置参数(tx, ty, tw, th)进行如下操作：

1）根据偏移量对anchor的位置进行微调，得到(x, y, w, h)
2）删除掉超过边界的anchor
3）根据score对anchor从大到小进行排序
4）对于每个尺度上的特征图（就是P2-P6的五个特征图），选择前2000个anchor，在经过NMS之后选择最高1000个anchors作为最终的anchor输入到ROI Head中(这些数量属于超参数，可调整)

例如，5个特征图在NMS之前选择的前2000个anchor如下，3和4没到2000是因为他们的特征图P5和P6的尺寸分别为16和8，计算得到的anchors数量为768和192。
训练阶段和推理阶段有一些不同：

训练阶段：计算loss并生成anchor
推理阶段：直接生成anchor

生成anchor的NMS的配置可能不同，例如：

训练阶段

推理阶段

4、ROI Head

主要包括ROI ALign和3个head: class head, bbox head, mask head

4.1、ROI Align

RPN网络最终生成的anchors将作为ROI Align的输入，也就是说根据这些anchors(x, y, w, h) 来提取P2-P6特征图中的anchors对应的特征作为3个head的特征图输入。
我们首先要知道anchors的坐标位置(x, y, w, h)表示的是原图像中的区域，可以将其映射到特征图中，Faster RCNN正是采用了ROI pooling层映射为固定尺寸的ROI区域：
但是ROI pooling层由于存在取整操作，对于一些小目标很容易导致区域不匹配问题，因此Mask RCNN采用了ROI ALign操作

1）将anchor映射到对应的特征图中，w和h在被除时不去整，ROI pooling取整了。对于五个特征图的选择方法如下：

2）将映射后的ROI区域均匀分为K $\times$ K的bin，每个bin的大小不取整，ROI pooling取整了
3）每个bin的每个像素值计算为特征图中与它邻近的4个值的双线性插值

4）使用max pooling或者average pooling得到K $\times$ K特征图(7 $\times$ 7或者14 $\times$ 14)作为3个head的输入

4.2、cls head和bbox head

首先是样本的标注与分配

1）计算由RPN网络最终生成的所有anchors与每个GT bbox的IoU值，取每个anchor的最大IoU值进行判断：IoU>0.5的样本中选择128个正样本，小于0.5的样本中选择384个负样本

2）对于类别标签：正样本为对应的GT bbox的类别标签，负样本为0；对于bbox回归的标签：与该样本最大IoU值的GT bbox的实际偏移量

将这512个样本anchors通过ROI Align获取得到512个7 $\times$ 7 $\times$ 256的特征图作为class head和bbox head的输入，进行如下的前向传播：一般为2个3*3卷积+2个fc层
最后就是损失函数的计算：分类损失为多类别交叉熵损失，回归损失也是Smooth L1损失

4.3、mask head

mask标签和输入特征图的获取

1）计算每个anchor在原始图像中的大mask，就是根据位置参数在原图像的二值mask框出来的
2）根据计算得到的每个anchor对应尺度的特征图（P2-P6中的一个），将anchor位置参数除以缩放倍数/下采样率再进行ROI Align得到512个14 $\times$ 14 $\times$ 256的特征图作为mask head的输入；
3）而对于大mask也进行倍数缩放，就可以得到每个anchor在对应特征图上的mask(软掩码)—>二值化—>硬掩码

对输入特征图再通过FCN层进行预测得到28 $\times$ 28的预测mask结果

在这里插入图片描述

最后进行损失函数的计算，为交叉熵损失
需要注意的是，推理阶段不一样，有先后顺序：

在这里插入图片描述

Mask RCNN网络结构以及整体流程的详细解读

文章目录 1、概述2、Backbone3、RPN网络3.1、anchor的生成3.2、anchor的标注/分配3.3、分类预测和bbox回归3.4、NMS生成最终的anchor 4、ROI Head4.1、ROI Align4.2、cls head和bbox head4.3、mask head 1、概述 Mask RCNN是在Faster RCNN的基础上增加了mask head用于实例分割…...

编程日记 2023/8/15 3:22:14

Android Framework底层原理之WMS的启动流程

一概述今天，我们介绍 WindowManagerService（后续简称 WMS）的启动流程，WMS 是 Android 系统中，负责窗口显示的的服务。在 Android 中它也起着承上启下的作用。如下图，就是《深入理解 Android》书籍中的…...

编程日记 2023/8/15 3:21:13

Leaflet入门，Leaflet加载xyz地图，以vue-leaflet插件加载高德地图为例

前言本章介绍Leaflet使用vue2-leaflet或者vue-leaflet插件方式便捷加载xyz高德地图。 # 效果演示 vue如何使用Leaflet vue2如何使用：《Leaflet入门，如何使用vue2-leaflet实现vue2双向绑定式的使用Leaflet地图，以及初始化后拿到leaflet对象，方便调用leaflet的api》 vue3…...

编程日记 2023/8/15 3:20:12

【ARM Cache 系列文章 8 -- ARM DynamIQ 技术介绍

文章目录 DynamIQ 技术背景DynamIQ技术详解DynamIQ 与 big.LITTLEDynamIQ cluster 分类硬件支持 DynamIQ为什么适合人工智能？ DynamIQ 技术背景 2017年3月21日下午，ARM在北京金隅喜来登酒店召开发布会，正式发布了全新的有针对人工智能及机器…...

编程日记 2023/8/15 3:19:10

24届近5年南京大学自动化考研院校分析

今天给大家带来的是南京大学控制考研分析满满干货～还不快快点赞收藏一、南京大学学校简介南京大学是一所历史悠久、声誉卓著的高等学府。其前身是创建于1902年的三江师范学堂，此后历经两江师范学堂、南京高等师范学校、国立东南大学、国立第四中…...

编程日记 2023/8/15 3:18:09

微信小程序（原生）和uniapp预览电子文件doc/pdf/ppt/excel等

微信小程序原生预览文件 function previewFile(value) {const fileExtName ${value.ext};const randFile new Date().getTime() fileExtName;uni.showLoading({title: 加载中...})wx.downloadFile({url: value.url, // 文件的本身urlfilePath: wx.env.USER_DATA_PATH / r…...

编程日记 2023/8/15 3:17:08

【前端 | CSS】align-items与align-content的区别

align-items 描述 CSS align-items 属性将所有直接子节点上的 align-self 值设置为一个组。align-self 属性设置项目在其包含块中在交叉轴方向上的对齐方式 align-items是针对每一个子项起作用，它的基本单位是每一个子项，在所有情况下都有效果&…...

编程日记 2023/8/15 3:16:05

Go语言入门

Go语言入门简介 Go是一门由Google开发的开源编程语言，旨在提供高效、可靠和简洁的软件开发工具。Go具有静态类型、垃圾回收、并发性和高效编译的特点，适用于构建可扩展的网络服务和系统工具。本文将介绍Go语言的基础知识和常用功能，并通过…...

编程日记 2023/8/15 3:15:04

Python学习笔记第五十五天（Pandas CSV文件）

Python学习笔记第五十五天 Pandas CSV 文件read_csv()to_string()to_csv() 数据处理head()tail()fillna() info() 后记 Pandas CSV 文件 CSV（Comma-Separated Values，逗号分隔值，有时也称为字符分隔值，因为分隔字符也可以不是逗号…...

编程日记 2023/8/15 3:14:03

自然语言处理: 第七章GPT的搭建

自然语言处理: 第七章GPT的搭建理论基础在以transformer架构为框架的大模型遍地开花后，大模型的方向基本分成了三类分别是: decoder-only架构 , 其中以GPT系列为代表encoder-only架构，其中以BERT系列为代表encoder-decoder架构，标准的tr…...

编程日记 2023/8/15 3:13:01

【奶奶看了都会】2分钟学会制作最近特火的ikun幻术图

1.效果展示最近ikun幻术图特别火啊，在网上能找到各种各样的ikun姿势图片，这些图片都是AI绘制的，能和风景完美融合在一起，今天小卷就来教大家怎么做这种图片先看看图片效果视频链接： 仿佛见到一位故人，…...

编程日记 2023/8/15 3:12:00

【深度学习】【风格迁移】Zero-shot Image-to-Image Translation

论文：https://arxiv.org/abs/2302.03027 代码：https://github.com/pix2pixzero/pix2pix-zero/tree/main 文章目录 Abstract1. Introduction相关工作3. Method Abstract 大规模文本到图像生成模型展示了它们合成多样且高质量图像的显著能力。然而&#x…...

编程日记 2023/8/15 3:11:00

Day 30 C++ STL 常用算法(上)

文章目录算法概述常用遍历算法for_each——实现遍历容器函数原型示例 transform——搬运容器到另一个容器中函数原型注意示例常用查找算法find——查找指定元素函数原型示例 find_if—— 查找符合条件的元素函数原型示例 adjacent_find——查找相邻重复元素函数原型示例 bina…...

编程日记 2023/8/15 3:09:57

MES系统在机器人行业生产管理种的运用

机器人的智能水平也伴随技术的迭代不断攀升。 2021年的春晚舞台上，来自全球领先工业机器人企业abb的全球首款双臂协作机器人yumi，轻松自如地表演了一出写“福”字，赢得了全国观众的赞叹。在汽车装配领域，一台机器人可以自主完成一…...

编程日记 2023/8/15 3:08:56

Spark（39）：Streaming DataFrame 和 Streaming DataSet 输出

目录 0. 相关文章链接 1. 输出的选项 2. 输出模式(output mode) 2.1. Append 模式(默认) 2.2. Complete 模式 2.3. Update 模式 2.4. 输出模式总结 3. 输出接收器(output sink) 3.1. file sink 3.2. kafka sink 3.2.1. 以 Streaming 方式输出数据 3.2.2. 以 batch …...

编程日记 2023/8/15 3:07:51

【云原生】Docker 详解（一）：从虚拟机到容器

Docker 详解（一）：从虚拟机到容器 1.虚拟化要解释清楚 Docker，首先要解释清楚容器（Container）的概念。要解释容器的话，就需要从操作系统说起。操作系统太底层，细说的话一两本书都说…...

编程日记 2023/8/15 3:06:48

代码随想录第48天 | 198. 打家劫舍、213. 打家劫舍II、337. 打家劫舍III

198. 打家劫舍当前房屋偷与不偷取决于前一个房屋和前两个房屋是否被偷了。递归五部曲： dp[i]：考虑下标i（包括i）以内的房屋，最多可以偷窃的金额为dp[i]。决定dp[i]的因素就是第i房间偷还是不偷。如果偷第i房间&…...

编程日记 2023/8/15 3:05:45

【LeetCode】按摩师

按摩师题目描述算法分析编程代码链接: 按摩师题目描述算法分析编程代码 class Solution { public:int massage(vector<int>& nums) {int n nums.size();if(n 0) return 0;vector<int> f(n);auto g f;f[0] nums[0];for(int i 1;i<n;i){f[i] g[i…...

编程日记 2023/8/15 3:04:44

国际腾讯云账号云核算概述!!

云核算概述维基百科界说：云核算是一种依据互联网的新型核算方法，经过互联网上异构、自治的服务为个人和企业供给按需即取的核算。云核算描绘的一起特征：云是一种按需运用的服务，运用者只重视服务本身。云核算作为IT服务形式&am…...

编程日记 2023/8/15 3:03:40

.NET 6.0 重启 IIS 进程池

在 .NET 6.0 中，你可以使用 Microsoft.Web.Administration 命名空间提供的 API 来管理 IIS 进程池并实现重启操作。以下是一个示例代码，展示如何使用 .NET 6.0 中的 Microsoft.Web.Administration 来重启 IIS 进程池： using Microsoft.Web.A…...

编程日记 2023/8/15 3:02:39

C++初阶-list的底层

目录 1.std::list实现的所有代码 2.list的简单介绍 2.1实现list的类 2.2_list_iterator的实现 2.2.1_list_iterator实现的原因和好处 2.2.2_list_iterator实现 2.3_list_node的实现 2.3.1. 避免递归的模板依赖 2.3.2. 内存布局一致性 2.3.3. 类型安全的替代方案 2.3.…...

编程新知 2025/11/9 22:09:54

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中，我们会遇到使用 java 调用 dll文件的情况，此时大概率出现UnsatisfiedLinkError链接错误，原因可能有如下几种类名错误包名错误方法名参数错误使用 JNI 协议调用，结果 dll 未实现 JNI 协…...

编程新知 2025/10/6 16:38:04

Axios请求超时重发机制

Axios 超时重新请求实现方案在 Axios 中实现超时重新请求可以通过以下几种方式： 1. 使用拦截器实现自动重试 import axios from axios;// 创建axios实例 const instance axios.create();// 设置超时时间 instance.defaults.timeout 5000;// 最大重试次数 cons…...

编程新知 2025/10/13 2:26:14

CMake控制VS2022项目文件分组

我们可以通过 CMake 控制源文件的组织结构，使它们在 VS 解决方案资源管理器中以“组”（Filter）的形式进行分类展示。 🎯 目标通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总（共4种）方法描述是否推荐…...

编程新知 2025/8/5 10:17:15

2025季度云服务器排行榜

在全球云服务器市场，各厂商的排名和地位并非一成不变，而是由其独特的优势、战略布局和市场适应性共同决定的。以下是根据2025年市场趋势，对主要云服务器厂商在排行榜中占据重要位置的原因和优势进行深度分析： 一、全球“三巨头”…...

编程新知 2025/11/12 9:56:33

在Ubuntu24上采用Wine打开SourceInsight

1. 安装wine sudo apt install wine 2. 安装32位库支持，SourceInsight是32位程序 sudo dpkg --add-architecture i386 sudo apt update sudo apt install wine32:i386 3. 验证安装 wine --version 4. 安装必要的字体和库（解决显示问题） sudo apt install fonts-wqy…...

编程新知 2025/10/14 0:47:25