当前位置：首页 > news >正文

Mask R-CNN 算法学习总结

news 2026/2/9 13:01:45

Mask R-CNN 相关知识点

整体框架
1.Resnet 深度残差学习
- 1.1 目的
- 1.2 深度学习深度增加带来的问题
- 1.3 Resnet实现思想【添加恒等映射】
2.线性插值
- 2.1 目的
- 2.2 线性插值原理
- 2.3 为什么使用线性插值?
3.FPN 特征金字塔
- 3.1 FPN介绍
- 3.2 为什么使用FPN?
- 3.3 自下而上层【提取特征】
- 3.4 自上而下层【横向连接，特征融合】
4. Anchors(候选框生成)
- 4.1 实现步骤
5. RPN 区域建议网络
- 5.1 目的
- 5.2 实现步骤
6. ROI 感兴趣区域
- 6.1 目的
- 6.2 实现步骤
7. DetectionTargetLayer【目标检测层】
- 7.1 目的
- 7.2 实现步骤
8. RoiAlign 水平对齐
- 8.1 为什么使用线性插值实现？【使用RoIPool带来的问题】
- 8.2 使用ROIAlign 与RoiPool的原因
- 8.3 ROIAlign优点
- 9.分类与回归

相关文章链接
- Resnet论文
- Mask R-cnn论文
- 线性插值原理

整体框架

在这里插入图片描述

1.Resnet 深度残差学习

1.1 目的

防止增加深度模型loss增加问题

1.2 深度学习深度增加带来的问题

梯度消失与爆炸问题
退化问题：随着网络深度的增加，准确度会饱和，然后迅速退化。

1.3 Resnet实现思想【添加恒等映射】

增加模型层数与恒等映射做对比，如果增加层数效果变差，就把权重设置接近于0的值。【近似于没有增加模型深度】
确保较深的模型应该不会比较浅的模型产生更高的训练误差。
Convolution Block和identity Block区别
- Convolution Block通道数和特征图大小变化了

2.线性插值

2.1 目的

减少像素特征不对齐问题
降低预测框误差

2.2 线性插值原理

单线性插值: 根据2点确定一条直线，斜率固定，就可以得到插入值的位置
多线性插值就是多次的但线性插值得到的

2.3 为什么使用线性插值?

对图片上采样，原始图片 $3 * 3$ 范围红色框中的值，会得到 $4 * 4$ 框中红色框的值。
假设目标图片红框坐标为 $(i, j)$ ,那么在原始图片位置 $（ i * 3/4, j * 3/4 ）$
已知 $i = 2, j = 3 i = 2, j = 3 i = 2, j = 3$ ,所以在原始图片位置 $(1.5, 0.75)$
- 不是整数，在找原始图片位置时，会自动取整
- 即，需要使用线性插值，来降低误差

3.FPN 特征金字塔

3.1 FPN介绍

横向连接的自顶向下结构
用来提取特征和特征融合

3.2 为什么使用FPN?

在特征提取中去最后一层特征图，对图片语义性较高，但是对于图片的小物体，零散特征不多，使小物体在图片中检测的效果不好
将多个阶段特征图融合在一起，有了高层语义特征，也有了底层轮廓特征，效果会更好

3.3 自下而上层【提取特征】

使用Resnet深度残差算法主干结构提取特征，返回每个阶段最后一层的数据。
- 不改变特征图大小的层为一个阶段
- 每次提取特征都是每个阶段最后一层的输出

3.4 自上而下层【横向连接，特征融合】

使用1*1卷积核将特征图大小统一
使用线性插值进行上采样与此阶段的前一个阶段进行特征融合，以此类推，返回特征融合后每个阶段的值
例如：C5阶段的特征图上采样后与C4的特征图融合，得到P4。

4. Anchors(候选框生成)

4.1 实现步骤

对提取的特征图进行区域金字塔网络
将生成很多不同的候选框，在图片上进行提取特征，一个图片会提取出多种特征图
anchors(候选框生成)：以每个像素点为中心，设置3个不同大小的scales，每个scales有3个不同的roatis，生成各种框
例如:scales:(32, 64, 128),roatis([0.5, 1, 2])，所以每个像素点会生成9个不同的框

5. RPN 区域建议网络

5.1 目的

提取前景与背景
RPN具有平移不变性
- 在不同位置的同一物体都可以检测出来，因为生成了很多框

5.2 实现步骤

分类：对生成的候选框进行二分类，判断是前景还是背景
回归：得到候选框偏移量【ground-truth与候选框偏移大小】
将生成的候选框做前景和背景二分类
- 返回分类得分，分类概率，区域框数据

6. ROI 感兴趣区域

6.1 目的

筛选有用的候选框

6.2 实现步骤

按照前景得分排序，取前n个的得分最高的候选框
根据候选框偏移量微调候选框位置，使候选框更接近grouth-truth框
对于越界的候选框，进行范围修剪
IOU过滤：筛选出候选框与ground-truth重叠比例大于阈值的候选框
MNS(非极大值抑制)过滤：候选框重叠比例大于阈值的最高得分候选框
根据得分值选择前n个得分最高的前景，获取正样本数据集

在这里插入图片描述

7. DetectionTargetLayer【目标检测层】

7.1 目的

找到正样本GT的类别,IOU最大的类别
正样本与GT-box的偏移量
正样本与GT-box对应的掩码mask，即实例分割框
负样本的偏移量与mask使用0填充

7.2 实现步骤

去除padding填充的候选框
获取前n个得分最高的前景数量不够，会使用padding填充，凑齐n个前景
去除一个框包含多个物体的去除
正负样本判断：基于ROI和ground-truth,通过IOU值与默认阈值0.5判断
数据集正负比例为1:3

8. RoiAlign 水平对齐

8.1 为什么使用线性插值实现？【使用RoIPool带来的问题】

当一个特征图大小为800时，物体大小是665，对特征图进行卷积，假设特征图缩小了32倍，800/32=25,得到新的25大小特征图，但是665/32=20.78,所以物体的位置应该在25特征图上占20.78，但是他们会舍弃小数，实际是占20的大小
将物体映射到原图，会损失0.78*32=24.96个像素点，对于大物体偏差不大，但是对于小物体偏差就会很大【如果出现奇数就会出现这个问题】

8.2 使用ROIAlign 与RoiPool的原因

网络进入全连接层，需要保持特征图大小一致

8.3 ROIAlign优点

消除了RoIPool的苛刻量化【向下取整】，将提取的特征与输入正确对齐。
RoIPool没有pixel-to-pixel之间对齐关系，不能预测到原图位置的像素点，预测位置具有较大的误差。

9.分类与回归

将所有特征图大小统一后，就可以进入全连接层
进行相关分类与回归操作

Mask R-CNN 算法学习总结

Mask R-CNN 相关知识点整体框架1.Resnet 深度残差学习1.1 目的1.2 深度学习深度增加带来的问题1.3 Resnet实现思想【添加恒等映射】2.线性插值2.1 目的2.2 线性插值原理2.3 为什么使用线性插值?3.FPN 特征金字塔3.1 FPN介绍3.2 为什么使用FPN?3.3 自下而上层【提取特征】3.4 …...

编程日记 2023/3/2 0:48:07

Gorm -- 添加记录

文章目录添加单条记录直接添加模型对象赋予默认值方法一： gorm 标签赋予默认值方法二： 设置钩子方法（Hooks）指定字段插入插入时忽略某些字段插入时禁止使用钩子方法添加多条记录通过对象列表插入通过字典列表插入在字典中使用SQL内…...

编程日记 2023/3/2 0:47:00

go提高升阶（四） I/O流学习

I/O 官网课程购买课程找博主推荐文章目录I/O文件信息创建文件、目录IO读IO写(权限)文件复制Seeker接口断点续传遍历文件夹bufio电脑中一切，都是以二进制流的形式存在的。jpg：010100000010010101001010101010010101010 编码格式，还原为一个…...

编程日记 2023/3/2 0:45:54

【代码随想录训练营】【Day28】第七章｜回溯算法｜93.复原IP地址｜78.子集｜90.子集II

复原IP地址题目详细：LeetCode.93 这道题与上一道练习题分割回文字符串十分详细，一样是涉及到分割字符串、判断字符串、递归与回溯的问题，所以这道题要解决的难点在于： 如何分割IP地址字符串如何判断分割的IP地址是否合法递归的…...

编程日记 2023/3/2 0:44:46

Get请求和Post请求区别

前后端交互请求数据的方式有很多种。例如：Get Post Put Patch Delete Copy 等等很多请求方式但是用的最多的就是Get和Post Get请求方式 1. get多用于从服务器请求获取数据 2.get传送的数据量较小，不能大于2KB 3.get安全性非常低 Post请求方式 1.…...

编程日记 2023/3/2 0:43:39

static关键字

static的基本基本用法可以分为下面几种： （1）static修饰全局变量 （2） 修饰局部变量 （3）修饰普通函数 （4）修饰类的成员变量一、static修饰全局变量当同时编译多个文件时…...

编程日记 2023/3/2 0:42:32

A Comprehensive Tool for Modeling CMOS Image-Sensor-Noise Performance论文总结及翻译

A Comprehensive Tool for Modeling CMOS Image-Sensor-Noise Performance Author: Ryan D. Gow Link: https://ieeexplore.ieee.org/document/4215175/metrics#metrics Select: ⭐️⭐️⭐️⭐️ Type: Academic Journal 备注: CMOS图像传感器噪声性能建模的综合工具总结 …...

编程日记 2023/3/2 0:41:25

嘀嗒出行再闯IPO：千军万马我无懈

羽扇纶巾笑谈间，千军万马我无懈。在激烈竞争中再度冲刺港交所IPO的嘀嗒出行，闪露出一丝歌词里的气魄。交通运输部下属网约车监管信息交互系统的数据显示，截至2023年1月31日，全国共有300家网约车平台公司取得网约车平台经营许可。…...

编程日记 2023/3/2 0:40:18

MATLAB算法实战应用案例精讲-【优化算法】增强型鲸鱼优化算法(EWOA)（附matlab代码实现）

前言增强型鲸鱼优化算法（Enhanced Whale Optimization Algorithm，EWOA）是Mohammad H. Nadimi-Shahraki等人于2022年提出的一种改进算法。由于标准的鲸鱼优化算法及其它的改进算法都存在种群多样性低和搜索策略差的问题，因此引入有效的策略来缓解鲸鱼优化算法的这些核心缺点…...

编程日记 2023/3/2 0:39:12

登录Oracle数据库遇到ORA-01017密码错误的解决办法

文章目录症状分析解决办法欢迎加下方我的微信👇，拉你入学习群我们在登录Oracle数据库时可能会遇到ORA-01017错误，这里分析原因并提供解决办法。点击试看博主的专著《MySQL 8.0运维与优化》（清华大学出版社） 症状图像…...

编程日记 2023/3/2 0:38:05

10个黑客基础教程！简单有效

如果你的电脑运行缓慢，请使用下面介绍的方法来帮助加速、优化和提高电脑的性能。 1.关闭启动时自动运行的应用程序计算机上安装的许多应用程序都可以将自己配置为在启动期间自动启动并继续在后台运行，但是，如果不是每天都使用这些应用程序…...

编程日记 2023/3/2 0:36:54

JPA之实体之间的关系

JPA之实体之间的关系 10.1.1实体类创建注解的应用 Table，Entity IdGeneratedValue指定主键，Column P174 实体类编写规范 Table(name "t_user") Entity(name "User") public class User implements Serializable {IdGeneratedVa…...

编程日记 2023/3/2 0:35:44

如何在 C++ 中调用 python 解析器来执行 python 代码（三）？

本文在 C 中调用 multi.py 脚本，并向它传入参数并执行，然后获得返回值并在 C 中打印结果。目录如何在 C 中调用 python 解析器来执行 python 代码（一）？如何在 C 中调用 python 解析器来执行 python 代码&#xff0…...

编程日记 2023/3/2 0:34:38

【Linux】gcc/g++/gdb的使用

🔥🔥 欢迎来到小林的博客！！ 🛰️博客主页：✈️小林爱敲代码 🛰️社区 : 进步学堂 🛰️欢迎关注：👍点赞🙌收…...

编程日记 2023/3/2 0:33:30

浅浅谈一谈B树和B+树

目录: 🚀1.B树 🚀2.B树索引背后的数据结构是啥呢,是B树,是为了数据库索引设计的,我们可以先了解B树,再说B树 1.什么是B树 B树也叫B-树,这里的-不读减,是一个符号我们已经学过了二叉搜素树,B树其实就是N叉搜素树,二叉搜索树只能在每一个结点放一个…...

编程日记 2023/3/2 0:32:25

Keil新建一个国民32位MCU工程

1.打开Keil软件，点击Project→New uVision→Project 2.将工程保存到自己的工程文件夹，并给项目命名，点击保存 3.选择自己需要开发的芯片，点击OK 4.点击OK 5.出现上图所示，工程已经建好了，点击配置工程。 6.…...

编程日记 2023/3/2 0:31:18

webpack.config.js与package.json文件的配置

path要使用绝对路径，通过每次复制文件位置非常麻烦且容易导致问题使用node中的写个包名跟入口名称，其他全部回车此步完成后，自动生成一个package.json包 licence指的是开源，一般不写安装文件夹需要的依赖 dirname是node自带…...

编程日记 2023/3/2 0:30:12

超详细Eclipse配置JDK

在此附上Eclipse安装教程超详细Eclipse安装教程在此附上JDK1.8安装配置教程超详细JDK1.8安装与配置 ①打开Eclipse–>点击Window–>点击Preferences ②找到Java–>找到Installed JREs–>点击Add… ③选中Standard VM–>之后点击Next ④点击Directory找…...

编程日记 2023/3/2 0:29:07

成功解决numpy.linalg.LinAlgError: SVD did not converge in Linear Least Squares

成功解决numpy.linalg.LinAlgError: SVD did not converge in Linear Least Squares 目录解决问题解决思路解决方法—四大原因分析 T1、数据本身问题的解决方法...

编程日记 2023/3/2 0:28:01

Allegro如何设置铜皮避让的优先级操作指导

Allegro如何设置铜皮避让的优先级操作指导在用Allegro进行PCB设计的时候，时常需要使用动态铜皮进行设计，当两块动态铜皮存在交集的时候，避让就会存在一个优先级，如下图上方的铜皮避让调了下方的铜皮，上方的铜皮被避让了如何调整让下方的铜皮避让上方的铜皮，如下图具…...

编程日记 2023/3/2 0:26:54

超短脉冲激光自聚焦效应

前言与目录强激光引起自聚焦效应机理超短脉冲激光在脆性材料内部加工时引起的自聚焦效应，这是一种非线性光学现象，主要涉及光学克尔效应和材料的非线性光学特性。自聚焦效应可以产生局部的强光场，对材料产生非线性响应，可能…...

编程新知 2026/2/8 20:42:48

基于FPGA的PID算法学习———实现PID比例控制算法

基于FPGA的PID算法学习前言一、PID算法分析二、PID仿真分析1. PID代码2.PI代码3.P代码4.顶层5.测试文件6.仿真波形总结前言学习内容：参考网站： PID算法控制 PID即：Proportional（比例）、Integral（积分&…...

编程新知 2026/2/8 18:25:56

C++.OpenGL （14/64）多光源（Multiple Lights）

多光源（Multiple Lights）多光源渲染技术概览 #mermaid-svg-3L5e5gGn76TNh7Lq {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-3L5e5gGn76TNh7Lq .error-icon{fill:#552222;}#mermaid-svg-3L5e5gGn76TNh7Lq .erro…...

编程新知 2025/6/11 3:15:20

Java + Spring Boot + Mybatis 实现批量插入

在 Java 中使用 Spring Boot 和 MyBatis 实现批量插入可以通过以下步骤完成。这里提供两种常用方法：使用 MyBatis 的 <foreach> 标签和批处理模式（ExecutorType.BATCH）。方法一：使用 XML 的 <foreach> 标签&#xff…...

编程新知 2025/6/11 2:44:05

4. TypeScript 类型推断与类型组合

一、类型推断 (一) 什么是类型推断 TypeScript 的类型推断会根据变量、函数返回值、对象和数组的赋值和使用方式，自动确定它们的类型。这一特性减少了显式类型注解的需要，在保持类型安全的同时简化了代码。通过分析上下文和初始值，TypeSc…...

编程新知 2025/11/2 1:48:43

elementUI点击浏览table所选行数据查看文档

项目场景： table按照要求特定的数据变成按钮可以点击解决方案： <el-table-columnprop"mlname"label"名称"align"center"width"180"><template slot-scope"scope"><el-buttonv-if&qu…...

编程新知 2026/2/4 18:42:53

Qt 事件处理中 return 的深入解析

Qt 事件处理中 return 的深入解析在 Qt 事件处理中，return 语句的使用是另一个关键概念，它与 event->accept()/event->ignore() 密切相关但作用不同。让我们详细分析一下它们之间的关系和工作原理。核心区别：不同层级的事件处理方…...

编程新知 2025/6/10 21:19:52

Modbus RTU与Modbus TCP详解指南

目录 1. Modbus协议基础 1.1 什么是Modbus？ 1.2 Modbus协议历史 1.3 Modbus协议族 1.4 Modbus通信模型 🎭 主从架构 🔄 请求响应模式 2. Modbus RTU详解 2.1 RTU是什么？ 2.2 RTU物理层 🔌 连接方式 ⚡ 通信参数 2.3 RTU数据帧格式 📦 帧结构详解 🔍…...

编程新知 2025/12/29 22:20:36

Sklearn 机器学习缺失值处理获取填充失值的统计值

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖 本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】使用 Scikit-learn 处理缺失值并提取填充统计信息的完整指南在机器学习项目中，数据清…...

编程新知 2026/1/20 10:06:51

【把数组变成一棵树】有序数组秒变平衡BST，原来可以这么优雅！

【把数组变成一棵树】有序数组秒变平衡BST，原来可以这么优雅！ 🌱 前言：一棵树的浪漫，从数组开始说起程序员的世界里，数组是最常见的基本结构之一，几乎每种语言、每种算法都少不了它。可你有没有想过，一组看似“线性排列”的有序数组，竟然可以**“长”成一棵平衡的二…...

编程新知 2025/8/26 4:33:55