Fully Convolutional Networks for Semantic Segmentation--论文笔记
论文笔记
资料
1.代码地址
2.论文地址
https://arxiv.org/abs/1411.4038
3.数据集地址
论文摘要的翻译
卷积网络是强大的视觉模型,可以产生特征层次结构。我们表明,卷积网络本身,经过端到端,像素对像素的训练,在语义分割方面超过了最先进的技术。我们的关键见解是建立“完全卷积”网络,该网络可以接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。我们定义和详细描述了全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并绘制了与先前模型的连接。我们将当代分类网络(AlexNet , VGG网络和GoogLeNet)改编为全卷积网络,并通过微调将其学习到的表征转移到分割任务中。然后,我们定义了一种新的架构,该架构将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以产生准确而详细的分割。我们的全卷积网络实现了PASCAL VOC(相对于2012年的62.2%平均IU提高了20%)、NYUDv2和SIFT Flow的最先进分割,而对典型图像的推理时间不到五分之一秒。
1背景
从粗糙到精细推理的关键一步自然是对每个像素进行预测。先前的方法使用卷积神经网络进行语义分割,其中每个像素都用其封闭对象或区域的类别进行标记,但该工作解决了缺点。
该方法具有渐近性和绝对性两方面的有效性,避免了其他工作中的复杂性。Patchwise训练很常见,但缺乏全卷积训练的效率。我们的方法没有利用预处理和后处理的复杂性,包括超像素,建议,或随机字段或局部分类器的事后细化[8,16]。我们的模型将最近在分类方面的成功转移到密集预测上,将分类网络重新解释为完全卷积的,并从其学习到的表示中进行微调。相比之下,以前的作品应用了没有监督预训练的小convnets。
语义分割面临语义和位置之间固有的紧张关系:全局信息解决什么问题,而局部信息解决哪里问题。=
2论文的创新点
- 建立完全卷积网络,该网络可以接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。
- 定义了一种新的架构,该架构将来自深层粗糙层的语义信息与来自浅层精细层的外观信息相结合,以产生准确而详细的分割。
3 论文方法的概述
convnet中的每一层数据是一个大小为 h × w × d h × w × d h×w×d的三维数组,其中 h 和 w h和w h和w是空间维度, d d d是特征或通道维度。第一层是图像,像素大小为 h × w h × w h×w,有 d d d个颜色通道。更高层的位置对应于它们在图像中路径连接的位置,这些位置被称为它们的接受野。
3.1 Adapting classifiers for dense prediction
典型的识别网络,包括LeNet、AlexNet及其后继者,表面上采用固定大小的输入,并产生非空间输出。这些网的完全连接层具有固定的尺寸,并且抛弃了空间坐标。完全连接层也可以被视为卷积,其卷积核覆盖了整个输入区域。这样做将它们转换成完全卷积的网络,可以接受任何大小的输入和输出分类图。这一转变如图2所示

AlexNet示例中对应的反向时间为单张图像2.4 ms,全卷积10 × 10输出映射37 ms,导致类似于正向传递的加速。这种密集的反向传播如图1所示。

3.2Shift-and-stitch is filter rarefaction
输入移位和输出交错是OverFeat引入的一种技巧,可以在没有插值的情况下从粗输出中产生密集预测。如果输出按f的系数下采样,则输入(通过左和上填充)向右移动 x x x个像素,向下移动y个像素,对于每个 ( x , y ) ∈ { 0 , … , f − 1 } × { 0 , … , f − 1 } (x, y)∈\{0,…, f−1\}×\{0,…, f−1\} (x,y)∈{0,…,f−1}×{0,…,f−1} 这 f 2 f^2 f2个输入都通过convnet运行,输出是交错的,这样预测就与它们的接受域中心的像素相对应
只改变滤波器和convnet的层步长可以产生与这种移位和缝合技巧相同的输出。考虑一个输入步长为 s s s的层(卷积或池化),以及一个过滤器权重为 f i j f_{ij} fij的卷积层。将下层的输入步幅设置为1,将其输出采样5倍,就像shift-and-stitch一样。然而,将原始滤波器与上采样输出进行卷积不会产生与技巧相同的结果,因为原始滤波器只看到其(现在上采样)输入的减少部分。为了重现这个技巧,将滤波放大为 f i j ′ = { f i / s , j / s if s divides both i and j ; 0 otherwise , \left.f_{ij}^{\prime}=\left\{\begin{array}{ll}f_{i/s,j/s} & \text{if }s\text{ divides both }i\text{ and }j;\\ 0 & \text{otherwise},\end{array}\right.\right. fij′={fi/s,j/s0if s divides both i and j;otherwise,再现该技巧的完整净输出需要一层一层地重复这个滤波器放大,直到所有的子采样被移除。
在网络中简单地减少子采样是一种权衡:过滤器可以看到更精细的信息,但接受野更小,计算时间更长。我们已经看到,移位和缝合技巧是另一种权衡:在不减少过滤器的接受野大小的情况下,输出变得更密集,但过滤器被禁止以比原始设计更精细的规模访问信息。
33 上采样后向卷积
从某种意义上说,因子 f f f的上采样是与 1 / f 1/f 1/f的分数阶输入步长的卷积。只要 f f f是积分的,那么上采样的自然方法就是输出步长为 f f f的反卷积。因此,通过像素损失的反向传播,在网络中进行端到端学习的上采样。
3.4. Patchwise training is loss sampling
在随机优化中,梯度计算是由训练分布驱动的。拼接训练和全卷积训练都可以产生任何分布,尽管它们的相对计算效率取决于重叠和小批量大小。==全图像全卷积训练与patch - wise训练相同,其中每批训练由图像(或图像集合)损失以下的单元的所有接受域野组成。==虽然这比对补丁进行统一采样更有效,但它减少了可能批次的数量。然而,图像中随机选择的补丁可以简单地恢复。将损失限制为其空间项的随机抽样子集(或者,等效地在输出和损失之间应用将补丁从梯度计算中排除
如果保留的patch仍然有明显的重叠,全卷积计算仍然会加快训练速度。如果梯度累积在多个反向通道上,批次可以包括来自多个图像的补丁patch - wise训练中的采样可以纠正类不平衡,减轻密集patch的空间相关性。在全卷积训练中,也可以通过加权损失来实现类平衡,并且可以使用损失采样来解决空间相关性
4 论文实验
4.1 FCN
定义了一种新的全卷积网络(FCN)用于分割,它结合了特征层次结构的层并改进了输出的空间精度。参见图3。
相关文章:
Fully Convolutional Networks for Semantic Segmentation--论文笔记
论文笔记 资料 1.代码地址 2.论文地址 https://arxiv.org/abs/1411.4038 3.数据集地址 论文摘要的翻译 卷积网络是强大的视觉模型,可以产生特征层次结构。我们表明,卷积网络本身,经过端到端,像素对像素的训练,在…...
Camworks编程怎么样:深度解析其四大特点、五大应用领域、六大优势与七大挑战
Camworks编程怎么样:深度解析其四大特点、五大应用领域、六大优势与七大挑战 Camworks编程,作为计算机辅助制造(CAM)领域的一款重要软件,近年来在制造业中得到了广泛的应用。那么,Camworks编程究竟怎么样呢…...
【Linux】操作系统之冯诺依曼体系
🎉博主首页: 有趣的中国人 🎉专栏首页: Linux 🎉其它专栏: C初阶 | C进阶 | 初阶数据结构 小伙伴们大家好,本片文章将会讲解 操作系统中 冯诺依曼体系 的相关内容。 如果看到最后您觉得这篇文…...
c++ QT 实现QMediaPlayer播放音频显示音频级别指示器
文章目录 效果图概述代码总结 效果图 概述 QMediaPlayer就不介绍了,就提供了一个用于播放音频和视频的媒体播放器 QAudioProbe 它提供了一个探针,用于监控音频流。当音频流被捕获或播放时,QAudioProbe 可以接收到音频数据。这个类在需要访问…...
失之毫厘差之千里之load和loads
起源 最近在读pandas库的一些文档的时候,顺便也会将文档上的一些demo在编辑器中进行运行测试,其中在读到pandas处理Json数据这一节的时候,我还是像往常一样,将文档提供的demo写一遍,结果在运行的时候,直接…...
element ui在移动端的适配问题
element ui在移动端的适配问题 问题1: 给el-table表头添加背景色,使用以下代码 :header-row-style“{ background: ‘linear-gradient(90deg, #0079FA 0%, #00C7DD 100%)’ }” 在安卓手机上显示正常,在ios手机上显示背景色添加到每一个th中…...
堆排序详细理解
目录 一、前备知识 二、建堆 2.2.1 向上调整算法建堆 2.2.2 向下调整算法建堆 三、排序 3.1 常见问题 3.2 思路 3.3 源码 一、前备知识 详细图解请点击:二叉树的顺序实现-堆-CSDN博客 本文只附上向上/向下调整算法的源码 //交换 void Swap(int* p, int* …...
RK3588+FPGA+AI高性能边缘计算盒子,应用于视频分析、图像视觉等
搭载RK3588(四核 A76四核 A55),CPU主频高达 2.4GHz ,提供1MB L2 Cache 和 3MB L3 ,Cache提供更强的 CPU运算能力,具备6T AI算力,可扩展至38T算力。 产品规格 系统主控CPURK3588,四核…...
07-操作元素(键盘和鼠标事件)
在前面的文章中重点介绍了一些元素的定位方法,定位到元素后,就需要操作元素了。本篇总结了web页面常用的一些操作元素方法,可以统称为行为事件。 一、简单操作 点击按钮(鼠标左键):click()清空输入框&…...
3389,为了保障3389端口的安全,我们可以采取的措施
3389端口,作为远程桌面协议(RDP)的默认端口,广泛应用于Windows操作系统中,以实现远程管理和控制功能。然而,正因为其广泛使用,3389端口也成为许多潜在安全威胁的入口。因此,确保3389…...
Java集合【超详细】2 -- Map、可变参数、Collections类
文章目录 一、Map集合1.1 Map集合概述和特点【理解】1.2 Map集合的基本功能【应用】1.3 Map集合的获取功能【应用】1.4 Map集合的两种遍历方式 二、HashMap集合2.1 HashMap集合概述和特点【理解】2.2 HashMap的组成、构造函数2.3 put、查找方法2.4 HashMap集合应用案例【应用】…...
最佳 Mac 数据恢复:恢复 Mac 上已删除的文件
尝试过许多 Mac 数据恢复工具,但发现没有一款能达到宣传的效果?我们重点介绍最好的 Mac 数据恢复软件 没有 Mac 用户愿意担心数据丢失,但您永远不知道什么时候会发生这种情况。无论是意外删除 Mac 上的重要文件、不小心弄湿了 Mac、感染病毒…...
芋道系统,springboot+vue3+mysql实现地址的存储与显示
1.效果图 2.前端实现: <el-form-item label"地址" prop"entrepriseAddress"><el-cascaderv-model"formData.entrepriseAddress"size"large":options"region"/></el-form-item> //导入组件 im…...
【C++】C++11新特性:列表初始化、声明、新容器、右值引用、万能引用和完美转发
目录 一、列表初始化 1.1 { } 初始化 1.2 std::initializer_list 二、声明 2.1 auto 2.2 decltype 2.3 nullptr 三、新容器 四、右值引用和移动语义 4.1 左值和左值引用 4.2 右值和右值引用 4.3 左值引用与右值引用比较 4.4 右值引用使用场景和意义:移…...
【IB Protocal Serial--WQE】
IB Protocal Serial--WQE 1 Intro1.1 What1.2 IBA WQE 本系列文章介绍RDMA技术的具体实现–InfiniBand Protocal; Introduce the features, capalities,components, and elements of IBA. the principles of operation. 1 Intro 1.1 What 理解IB协议下面这三句话对…...
C++ 混合运算的类型转换
一 混合运算和隐式转换 257 整型2 浮点5 行吗?成吗?中不中? C 中允许相关的数据类型进行混合运算。 相关类型。 尽管在程序中的数据类型不同,但逻辑上进行这种运算是合理的相关类型在混合运算时会自动进行类型转换,再…...
线性时间选择
给定线性序集中n个元素和一个整数k,1≤k≤n,要求找出这n个元素中第k小的元素 #include<iostream> #include<cstdlib> #include<time.h> using namespace std; int a[100]; int Random(int left,int right) {srand(time(NULL));return …...
【对算法期中卷子的解析和反思】
一、程序阅读并回答问题(共30分) #include<cstdio>#include<cstring>#include<iostream>using namespace std;char chess[10][10];int sign[10];int n, k, ans;void dfs(int x, int k) { if (k 0){ans;return; } if (xk-1 >…...
sudo apt update sudo: apt: command not found
CentOS或RHEL(Red Hat Enterprise Linux)系统上,包管理器是yum或dnf,而不是apt。您可以使用yum或dnf来安装软件包。以下是如何在CentOS或RHEL上安装Git的详细步骤: 1. 使用yum安装Git 首先,更新软件包列表&…...
ios:文本框默认的copy、past改成中文复制粘贴
问题 ios 开发,对于输入框的一些默认文案展示,如复制粘贴是英文的,那么如何改为中文的呢 解决 按照路径找到这个文件 ios/项目/Info.plist,增加 <key>CFBundleAllowMixedLocalizations</key> <true/> <…...
Linux应用开发之网络套接字编程(实例篇)
服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …...
设计模式和设计原则回顾
设计模式和设计原则回顾 23种设计模式是设计原则的完美体现,设计原则设计原则是设计模式的理论基石, 设计模式 在经典的设计模式分类中(如《设计模式:可复用面向对象软件的基础》一书中),总共有23种设计模式,分为三大类: 一、创建型模式(5种) 1. 单例模式(Sing…...
3.3.1_1 检错编码(奇偶校验码)
从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…...
c++ 面试题(1)-----深度优先搜索(DFS)实现
操作系统:ubuntu22.04 IDE:Visual Studio Code 编程语言:C11 题目描述 地上有一个 m 行 n 列的方格,从坐标 [0,0] 起始。一个机器人可以从某一格移动到上下左右四个格子,但不能进入行坐标和列坐标的数位之和大于 k 的格子。 例…...
什么是库存周转?如何用进销存系统提高库存周转率?
你可能听说过这样一句话: “利润不是赚出来的,是管出来的。” 尤其是在制造业、批发零售、电商这类“货堆成山”的行业,很多企业看着销售不错,账上却没钱、利润也不见了,一翻库存才发现: 一堆卖不动的旧货…...
第25节 Node.js 断言测试
Node.js的assert模块主要用于编写程序的单元测试时使用,通过断言可以提早发现和排查出错误。 稳定性: 5 - 锁定 这个模块可用于应用的单元测试,通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...
如何在网页里填写 PDF 表格?
有时候,你可能希望用户能在你的网站上填写 PDF 表单。然而,这件事并不简单,因为 PDF 并不是一种原生的网页格式。虽然浏览器可以显示 PDF 文件,但原生并不支持编辑或填写它们。更糟的是,如果你想收集表单数据ÿ…...
MFC 抛体运动模拟:常见问题解决与界面美化
在 MFC 中开发抛体运动模拟程序时,我们常遇到 轨迹残留、无效刷新、视觉单调、物理逻辑瑕疵 等问题。本文将针对这些痛点,详细解析原因并提供解决方案,同时兼顾界面美化,让模拟效果更专业、更高效。 问题一:历史轨迹与小球残影残留 现象 小球运动后,历史位置的 “残影”…...
08. C#入门系列【类的基本概念】:开启编程世界的奇妙冒险
C#入门系列【类的基本概念】:开启编程世界的奇妙冒险 嘿,各位编程小白探险家!欢迎来到 C# 的奇幻大陆!今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类!别害怕,跟着我,保准让你轻松搞…...
