Mask R-CNN 算法学习总结
Mask R-CNN 相关知识点
- 整体框架
- 1.Resnet 深度残差学习
- 1.1 目的
- 1.2 深度学习深度增加带来的问题
- 1.3 Resnet实现思想【添加恒等映射】
- 2.线性插值
- 2.1 目的
- 2.2 线性插值原理
- 2.3 为什么使用线性插值?
- 3.FPN 特征金字塔
- 3.1 FPN介绍
- 3.2 为什么使用FPN?
- 3.3 自下而上层【提取特征】
- 3.4 自上而下层【横向连接,特征融合】
- 4. Anchors(候选框生成)
- 4.1 实现步骤
- 5. RPN 区域建议网络
- 5.1 目的
- 5.2 实现步骤
- 6. ROI 感兴趣区域
- 6.1 目的
- 6.2 实现步骤
- 7. DetectionTargetLayer【目标检测层】
- 7.1 目的
- 7.2 实现步骤
- 8. RoiAlign 水平对齐
- 8.1 为什么使用线性插值实现?【使用RoIPool带来的问题】
- 8.2 使用ROIAlign 与RoiPool的原因
- 8.3 ROIAlign优点
- 9.分类与回归
- 相关文章链接
- Resnet论文
- Mask R-cnn论文
- 线性插值原理
整体框架
1.Resnet 深度残差学习
1.1 目的
- 防止增加深度模型
loss
增加问题
1.2 深度学习深度增加带来的问题
- 梯度消失与爆炸问题
退化问题
:随着网络深度的增加,准确度会饱和,然后迅速退化。
1.3 Resnet实现思想【添加恒等映射】
- 增加模型层数与
恒等映射
做对比,如果增加层数效果变差,就把权重
设置接近于0
的值。【近似于没有增加模型深度】 - 确保较深的模型应该不会比较浅的模型产生更高的训练误差。
Convolution Block
和identity Block
区别Convolution Block
通道数和特征图大小变化了
2.线性插值
2.1 目的
- 减少像素特征不对齐问题
- 降低预测框误差
2.2 线性插值原理
- 单线性插值: 根据2点确定一条直线,斜率固定,就可以得到插入值的位置
- 多线性插值就是多次的但线性插值得到的
2.3 为什么使用线性插值?
- 对图片上采样,原始图片3∗33*33∗3范围红色框中的值,会得到4∗44*44∗4框中红色框的值。
- 假设目标图片红框坐标为(i,j)(i,j)(i,j),那么在原始图片位置(i∗3/4,j∗3/4)(i*3/4,j*3/4)(i∗3/4,j∗3/4)
- 已知i=2,j=3i=2,j=3i=2,j=3i = 2 , j = 3 i=2,j=3i=2,j=3i=2,j=3i=2,j=3i=2,j=3,所以在原始图片位置(1.5,0.75)( 1.5 , 0.75 )(1.5,0.75)
- 不是整数,在找原始图片位置时,会自动取整
- 即,需要使用线性插值,来降低误差
3.FPN 特征金字塔
3.1 FPN介绍
- 横向连接的自顶向下结构
- 用来提取特征和特征融合
3.2 为什么使用FPN?
- 在特征提取中去最后一层特征图,对图片语义性较高,但是对于图片的小物体,零散特征不多,使小物体在图片中检测的效果不好
- 将多个阶段特征图融合在一起,有了高层语义特征,也有了底层轮廓特征,效果会更好
3.3 自下而上层【提取特征】
- 使用
Resnet
深度残差算法主干结构提取特征,返回每个阶段最后一层的数据。- 不改变特征图大小的层为一个阶段
- 每次提取特征都是每个阶段最后一层的输出
3.4 自上而下层【横向连接,特征融合】
- 使用
1*1
卷积核将特征图大小统一 - 使用线性插值进行上采样与此阶段的前一个阶段进行特征融合,以此类推,返回特征融合后每个阶段的值
- 例如:
C5
阶段的特征图上采样后与C4
的特征图融合,得到P4
。
4. Anchors(候选框生成)
4.1 实现步骤
- 对提取的特征图进行区域金字塔网络
- 将生成很多不同的候选框,在图片上进行提取特征,一个图片会提取出多种特征图
anchors
(候选框生成):以每个像素点为中心,设置3
个不同大小的scales
,每个scales
有3
个不同的roatis
,生成各种框- 例如:
scales:(32, 64, 128),roatis([0.5, 1, 2])
,所以每个像素点会生成9
个不同的框
5. RPN 区域建议网络
5.1 目的
- 提取前景与背景
RPN
具有平移不变性- 在不同位置的同一物体都可以检测出来,因为生成了很多框
5.2 实现步骤
- 分类:对生成的候选框进行二分类,判断是前景还是背景
- 回归:得到候选框偏移量【
ground-truth
与候选框偏移大小】 - 将生成的候选框做前景和背景二分类
- 返回分类得分,分类概率,区域框数据
- 返回分类得分,分类概率,区域框数据
6. ROI 感兴趣区域
6.1 目的
- 筛选有用的候选框
6.2 实现步骤
- 按照前景得分排序,取前
n
个的得分最高的候选框 - 根据候选框偏移量微调候选框位置,使候选框更接近
grouth-truth
框 - 对于越界的候选框,进行范围修剪
IOU
过滤:筛选出候选框与ground-truth
重叠比例大于阈值的候选框MNS
(非极大值抑制)过滤:候选框重叠比例大于阈值的最高得分候选框- 根据得分值选择前
n
个得分最高的前景,获取正样本数据集
7. DetectionTargetLayer【目标检测层】
7.1 目的
- 找到正样本
GT
的类别,IOU
最大的类别 - 正样本与
GT-box
的偏移量 - 正样本与
GT-box
对应的掩码mask
,即实例分割框 - 负样本的偏移量与
mask
使用0
填充
7.2 实现步骤
- 去除
padding
填充的候选框 - 获取前
n
个得分最高的前景数量不够,会使用padding
填充,凑齐n
个前景 - 去除一个框包含多个物体的去除
- 正负样本判断:基于
ROI
和ground-truth
,通过IOU
值与默认阈值0.5
判断 - 数据集正负比例为
1:3
8. RoiAlign 水平对齐
8.1 为什么使用线性插值实现?【使用RoIPool带来的问题】
- 当一个特征图大小为
800
时,物体大小是665
,对特征图进行卷积,假设特征图缩小了32
倍,800/32=25
,得到新的25
大小特征图,但是665/32=20.78
,所以物体的位置应该在25
特征图上占20.78
,但是他们会舍弃小数,实际是占20
的大小 - 将物体映射到原图,会损失
0.78*32=24.96
个像素点,对于大物体偏差不大,但是对于小物体偏差就会很大【如果出现奇数就会出现这个问题】
8.2 使用ROIAlign 与RoiPool的原因
- 网络进入全连接层,需要保持特征图大小一致
8.3 ROIAlign优点
- 消除了
RoIPool
的苛刻量化【向下取整】,将提取的特征与输入正确对齐。 RoIPool
没有pixel-to-pixel
之间对齐关系,不能预测到原图位置的像素点,预测位置具有较大的误差。
9.分类与回归
- 将所有特征图大小统一后,就可以进入全连接层
- 进行相关分类与回归操作
相关文章:

Mask R-CNN 算法学习总结
Mask R-CNN 相关知识点整体框架1.Resnet 深度残差学习1.1 目的1.2 深度学习深度增加带来的问题1.3 Resnet实现思想【添加恒等映射】2.线性插值2.1 目的2.2 线性插值原理2.3 为什么使用线性插值?3.FPN 特征金字塔3.1 FPN介绍3.2 为什么使用FPN?3.3 自下而上层【提取特征】3.4 …...

Gorm -- 添加记录
文章目录添加单条记录直接添加模型对象赋予默认值方法一: gorm 标签赋予默认值方法二: 设置钩子方法(Hooks)指定字段插入插入时忽略某些字段插入时禁止使用钩子方法添加多条记录通过对象列表插入通过字典列表插入在字典中使用SQL内…...

go提高升阶(四) I/O流学习
I/O 官网课程 购买课程找博主推荐 文章目录I/O文件信息创建文件、目录IO读IO写(权限)文件复制Seeker接口断点续传遍历文件夹bufio电脑中一切,都是以 二进制流的形式存在的。jpg:010100000010010101001010101010010101010 编码格式,还原为一个…...

【代码随想录训练营】【Day28】第七章|回溯算法|93.复原IP地址|78.子集|90.子集II
复原IP地址 题目详细:LeetCode.93 这道题与上一道练习题分割回文字符串十分详细,一样是涉及到分割字符串、判断字符串、递归与回溯的问题,所以这道题要解决的难点在于: 如何分割IP地址字符串如何判断分割的IP地址是否合法递归的…...
Get请求和Post请求区别
前后端交互请求数据的方式有很多种。 例如:Get Post Put Patch Delete Copy 等等很多请求方式 但是用的最多的就是Get和Post Get请求方式 1. get多用于从服务器请求获取数据 2.get传送的数据量较小,不能大于2KB 3.get安全性非常低 Post请求方式 1.…...
static关键字
static的基本基本用法可以分为下面几种: (1)static修饰全局变量 (2) 修饰局部变量 (3)修饰普通函数 (4)修饰类的成员变量 一、static修饰全局变量 当同时编译多个文件时…...
A Comprehensive Tool for Modeling CMOS Image-Sensor-Noise Performance论文总结及翻译
A Comprehensive Tool for Modeling CMOS Image-Sensor-Noise Performance Author: Ryan D. Gow Link: https://ieeexplore.ieee.org/document/4215175/metrics#metrics Select: ⭐️⭐️⭐️⭐️ Type: Academic Journal 备注: CMOS图像传感器噪声性能建模的综合工具 总结 …...

嘀嗒出行再闯IPO:千军万马我无懈
羽扇纶巾笑谈间,千军万马我无懈。 在激烈竞争中再度冲刺港交所IPO的嘀嗒出行,闪露出一丝歌词里的气魄。交通运输部下属网约车监管信息交互系统的数据显示,截至2023年1月31日,全国共有300家网约车平台公司取得网约车平台经营许可。…...

MATLAB算法实战应用案例精讲-【优化算法】增强型鲸鱼优化算法(EWOA)(附matlab代码实现)
前言 增强型鲸鱼优化算法(Enhanced Whale Optimization Algorithm,EWOA)是Mohammad H. Nadimi-Shahraki等人于2022年提出的一种改进算法。由于标准的鲸鱼优化算法及其它的改进算法都存在种群多样性低和搜索策略差的问题,因此引入有效的策略来缓解鲸鱼优化算法的这些核心缺点…...

登录Oracle数据库遇到ORA-01017密码错误的解决办法
文章目录症状分析解决办法欢迎加下方我的微信👇,拉你入学习群我们在登录Oracle数据库时可能会遇到ORA-01017错误,这里分析原因并提供解决办法。点击试看博主的专著《MySQL 8.0运维与优化》(清华大学出版社) 症状 图像…...

10个黑客基础教程!简单有效
如果你的电脑运行缓慢,请使用下面介绍的方法来帮助加速、优化和提高电脑的性能。 1.关闭启动时自动运行的应用程序 计算机上安装的许多应用程序都可以将自己配置为在启动期间自动启动并继续在后台运行,但是,如果不是每天都使用这些应用程序…...

JPA之实体之间的关系
JPA之实体之间的关系 10.1.1实体类创建 注解的应用 Table,Entity IdGeneratedValue指定主键,Column P174 实体类编写规范 Table(name "t_user") Entity(name "User") public class User implements Serializable {IdGeneratedVa…...
如何在 C++ 中调用 python 解析器来执行 python 代码(三)?
本文在 C 中调用 multi.py 脚本,并向它传入参数并执行,然后获得返回值并在 C 中打印结果。 目录 如何在 C 中调用 python 解析器来执行 python 代码(一)?如何在 C 中调用 python 解析器来执行 python 代码࿰…...

【Linux】gcc/g++/gdb的使用
🔥🔥 欢迎来到小林的博客!! 🛰️博客主页:✈️小林爱敲代码 🛰️社区 : 进步学堂 🛰️欢迎关注:👍点赞🙌收…...

浅浅谈一谈B树和B+树
目录: 🚀1.B树 🚀2.B树 索引背后的数据结构是啥呢,是B树,是为了数据库索引设计的,我们可以先了解B树,再说B树 1.什么是B树 B树也叫B-树,这里的-不读减,是一个符号 我们已经学过了二叉搜素树,B树其实就是N叉搜素树,二叉搜索树只能在每一个结点放一个…...

Keil新建一个国民32位MCU工程
1.打开Keil软件,点击Project→New uVision→Project 2.将工程保存到自己的工程文件夹,并给项目命名,点击保存 3.选择自己需要开发的芯片,点击OK 4.点击OK 5.出现上图所示,工程已经建好了,点击配置工程。 6.…...

webpack.config.js与package.json文件的配置
path要使用绝对路径,通过每次复制文件位置非常麻烦且容易导致问题 使用node中的 写个包名跟入口名称,其他全部回车 此步完成后,自动生成一个package.json包 licence指的是开源,一般不写 安装文件夹需要的依赖 dirname是node自带…...

超详细Eclipse配置JDK
在此附上Eclipse安装教程 超详细Eclipse安装教程 在此附上JDK1.8安装配置教程 超详细JDK1.8安装与配置 ①打开Eclipse–>点击Window–>点击Preferences ②找到Java–>找到Installed JREs–>点击Add… ③选中Standard VM–>之后点击Next ④点击Directory找…...
成功解决numpy.linalg.LinAlgError: SVD did not converge in Linear Least Squares
成功解决numpy.linalg.LinAlgError: SVD did not converge in Linear Least Squares 目录 解决问题 解决思路 解决方法—四大原因分析 T1、数据本身问题的解决方法...

Allegro如何设置铜皮避让的优先级操作指导
Allegro如何设置铜皮避让的优先级操作指导 在用Allegro进行PCB设计的时候,时常需要使用动态铜皮进行设计,当两块动态铜皮存在交集的时候,避让就会存在一个优先级,如下图 上方的铜皮避让调了下方的铜皮,上方的铜皮被避让了 如何调整让下方的铜皮避让上方的铜皮,如下图 具…...
反向工程与模型迁移:打造未来商品详情API的可持续创新体系
在电商行业蓬勃发展的当下,商品详情API作为连接电商平台与开发者、商家及用户的关键纽带,其重要性日益凸显。传统商品详情API主要聚焦于商品基本信息(如名称、价格、库存等)的获取与展示,已难以满足市场对个性化、智能…...

遍历 Map 类型集合的方法汇总
1 方法一 先用方法 keySet() 获取集合中的所有键。再通过 gey(key) 方法用对应键获取值 import java.util.HashMap; import java.util.Set;public class Test {public static void main(String[] args) {HashMap hashMap new HashMap();hashMap.put("语文",99);has…...

无法与IP建立连接,未能下载VSCode服务器
如题,在远程连接服务器的时候突然遇到了这个提示。 查阅了一圈,发现是VSCode版本自动更新惹的祸!!! 在VSCode的帮助->关于这里发现前几天VSCode自动更新了,我的版本号变成了1.100.3 才导致了远程连接出…...
【Go】3、Go语言进阶与依赖管理
前言 本系列文章参考自稀土掘金上的 【字节内部课】公开课,做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程,它的核心机制是 Goroutine 协程、Channel 通道,并基于CSP(Communicating Sequential Processes࿰…...

第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
汇编常见指令
汇编常见指令 一、数据传送指令 指令功能示例说明MOV数据传送MOV EAX, 10将立即数 10 送入 EAXMOV [EBX], EAX将 EAX 值存入 EBX 指向的内存LEA加载有效地址LEA EAX, [EBX4]将 EBX4 的地址存入 EAX(不访问内存)XCHG交换数据XCHG EAX, EBX交换 EAX 和 EB…...
在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的?
uni-app 中 Web-view 与 Vue 页面的通讯机制详解 一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件,用于在原生应用中加载 HTML 页面: 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(装配)
船舶制造装配管理现状:装配工作依赖人工经验,装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书,但在实际执行中,工人对指导书的理解和遵循程度参差不齐。 船舶装配过程中的挑战与需求 挑战 (1…...

【C++进阶篇】智能指针
C内存管理终极指南:智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...

AxureRP-Pro-Beta-Setup_114413.exe (6.0.0.2887)
Name:3ddown Serial:FiCGEezgdGoYILo8U/2MFyCWj0jZoJc/sziRRj2/ENvtEq7w1RH97k5MWctqVHA 注册用户名:Axure 序列号:8t3Yk/zu4cX601/seX6wBZgYRVj/lkC2PICCdO4sFKCCLx8mcCnccoylVb40lP...