计算机视觉基础(11)——语义分割和实例分割
前言
在这节课,我们将学习语义分割和实例分割。在语义分割中,我们需要重点掌握语义分割的概念、常用数据集、评价指标(IoU)以及经典的语义分割方法(Deeplab系列);在实例分割中,需要知道实力分割可以近似看为“目标检测+语义分割”,需要知道Mask R-CNN方法的计算流程,以及评价指标mAP。
一、语义分割
1.1 分割类任务的定义
分割类任务是一种密集标注任务,即将图像中每个像素赋予一个语义或者实例标签。

1.2 语义分割的应用场景
- 无人驾驶
- 机器人
- 医学图像
- ……
1.3 常用数据集
1.3.1 Pascal VOC Dataset
VOC数据集是计算机视觉主流数据集之一,由牛津大学、比利时鲁汶大学等高校的视觉研究组联合发布,可以用作分类,分割,目标检测,动作检测和人物定位五类任务,包含21个类别标签,训练1464,验证1449,测试1456。

1.3.2 MS COCO Dataset
MS COCO(Microsoft Common Objects in Context Dataset)是微软发布的一个大规模物体检测,分割及文字定位数据集,支持目标检测、实例分割、全景分割、Stuff Segmentation、关键点检测、看图说话等任务类型,包含80个对象类别。

1.3.3 ADE20K Dataset
ADE20K数据集由 MIT CSAIL 研究组发布,涵盖广泛的场景和对象类别,可用于场景感知、解析、分割、多物体识别和语义理解。该数据集构建了一个场景解析基准,包含150个对象和素材类。

1.3.4 CityScapes Dataset
CityScapes是由奔驰自动驾驶实验室、马克思·普朗克研究所、达姆施塔特工业大学联合发布的图像数据集,专注于对城市街景的语义理解。 该数据集包含50个城市不同场景、不同背景、不同街景,以及30类涵盖地面、建筑、交通标志、自然、天空、人和车辆等的物体标注,共有5000张精细标注的图像和2万张粗略标注的图像。

1.4 评价指标(重点)
平均交并比 (mean Intersection over Union, mIoU) ——每个类别的所有像素去计算交并比

1.5 语义分割方法
1.5.1 基于滑动窗的提取图像块后分类
基于滑动窗提取图像块然后对图像块的中心进行分类

1.5.2 用CNN计算整幅图的特征
用CNN计算整幅图的特征,然后在其上进行标签预测

1.5.3 全卷积网络
【方案一】
设计只含有卷积层而没有降采样操作的神经网络,这样可以同时对所有像素进行标签预测

【方案二】
设计包含卷积层、下采样操作和上采样操作的神经网络。
下采样操作:可以通过池化和加大卷积步长来实现
上采样操作:可以通过插值、逆池化和转置卷积来实现
【插值】


【逆池化】
【转置卷积】

【上采样结构总结】

【U-Net】

1.5.4 DeepLab系列
【Deeplab V1】




【Deeplab V2】

【Deeplab V3】

【Deeplab V3+】

1.5.5 PSPNet

1.5.6 HRNet

二、实例分割
2.1 实例分割的概念
实例分割 可以近似看为 目标检测 + 语义分割

2.2 Mask R-CNN

2.3 评价指标(重点)

2.4 实例分割效果


总结
在本文中,我们学习了语义分割和实例分割,需要清楚二者的区别,并掌握二者的算法流程,需要重点关注语义分割和实例分割的方法举例和评价指标。
相关文章:
计算机视觉基础(11)——语义分割和实例分割
前言 在这节课,我们将学习语义分割和实例分割。在语义分割中,我们需要重点掌握语义分割的概念、常用数据集、评价指标(IoU)以及经典的语义分割方法(Deeplab系列);在实例分割中,需要知…...
CNAS中兴新支点——什么是软件压力测试?软件压力测试工具和流程
一、含义:软件压力测试是一种测试应用程序性能的方法,通过模拟大量用户并发访问,测试应用程序在压力情况下的表现和响应能力。软件压力测试的目的是发现系统潜在的问题,如内存泄漏、线程锁、资源泄漏等,以及在高峰期或…...
jQuery: 整理3---操作元素的内容
1.html("内容") ->设置元素的内容,包含html标签(非表单元素) <div id"html1"></div><div id"html2"></div>$("#html1").html("<h2>上海</h2>") …...
22、商城系统(四):项目jar包配置(重要),网关配置,商品服务基础数据设置
目录 0.重要:整个项目的配置 最外层的pom.xml renren-fast renren-generator xpmall-common xpmall-coupon...
循环链表的学习以及问题汇总
[TOC](循环链表常见的问题) # 问题一: **报错**  **报错原因:**因为没有提前对_tag_CircleListNode重命名为CircleListNode,所以,在定义…...
C++期末复习总结继承
继承是软件复用的一种形式,他是在现有类的基础上建立新类,新类继承了现有类的属性和方法,并且还拥有了其特有的属性和方法,继承的过程称为派生,新建的类称为派生类(子类),原有的成为…...
CloudCanal x Debezium 打造实时数据流动新范式
简述 Debezium 是一个开源的数据订阅工具,主要功能为捕获数据库变更事件发送到 Kafka。 CloudCanal 近期实现了从 Kafka 消费 Debezium 格式数据,将其 同步到 StarRocks、Doris、Elasticsearch、MongoDB、ClickHouse 等 12 种数据库和数仓,…...
Nodejs+Express搭建HTTPS服务
最近开发需要搭建一个https的服务,正好最近在用nodejs和express,于是乎想到就近就使用这两东西来搭建一个https的服务吧。这里搭建过程总共需要两步,第一步生成证书,第二步使用https模块启动服务。 生成自签名证书 这里因为是自…...
设计模式之-策略模式,快速掌握策略模式,通俗易懂的讲解策略模式以及它的使用场景
系列文章目录 设计模式之-6大设计原则简单易懂的理解以及它们的适用场景和代码示列 设计模式之-单列设计模式,5种单例设计模式使用场景以及它们的优缺点 设计模式之-3种常见的工厂模式简单工厂模式、工厂方法模式和抽象工厂模式,每一种模式的概念、使用…...
【leetcode100-019】【矩阵】螺旋矩阵
【题干】 给你一个 m 行 n 列的矩阵 matrix ,请按照 顺时针螺旋顺序 ,返回矩阵中的所有元素。 【思路】 不难注意到,每进行一次转向,都有一行/列被输出(并失效);既然已经失效,那我…...
【计算机视觉中的多视图几何系列】深入浅出理解针孔相机模型
温故而知新,可以为师矣! 一、参考资料 《计算机视觉中的多视图几何-第五章》-Richard Hartley, Andrew Zisserman. 二、针孔模型相关介绍 1. 重要概念 1.1 投影中心/摄像机中心/光心 投影中心称为摄像机中心,也称为光心。投影中心位于一…...
轻量级Python IDE使用(三)——函数
1、函数 1.1、函数的概述 在程序设计中,函数的使用可以提升代码的复用率和可维护性。 系统内建函数pow()进行幂运算: a pow(2,4)自定义函数func() def func(a,b):return a ** b afunc(2,4) print(a)自定义函数func(),功能是输出a的b次幂 1.2、函数的定义 py…...
计算机图形学理论(3):着色器编程
本系列根据国外一个图形小哥的讲解为本,整合互联网的一些资料,结合自己的一些理解。 CPU vs GPU CPU支持: 快速缓存分支适应性高性能 GPU支持: 多个 ALU快速板载内存并行任务的高吞吐量(在每个片段、顶点上执行着色…...
ubuntu20.04安装timeshift最新方法
总结: 现在可以使用如下代码安装 sudo apt-get update sudo apt-get install timeshift原因: 在尝试Timeshift系统备份与还原中的方法时, sudo apt-add-repository -y ppa:teejee2008/ppa运行失败。 更改为以下代码: sudo a…...
小狐狸ChatGPT付费创作系统小程序端开发工具提示打开显示无法打开页面解决办法
最新版2.6.7版下载:https://download.csdn.net/download/mo3408/88656497 很多会员在上传小程序前端时经常出现首页无法打开的情况,错误提示无法打开该页面,不支持打开,这种问题其实就是权限问题,页面是通过调用web-v…...
DQL-基本查询
概念: 1,数据库管理系统一个重要功能就是数据查询,数据查询不应只是简单返回数据库中存储的数据,还应该根据需要对数据进行筛选以及确定数据以什么样的格式显示 2,MySQL提供了功能强大、灵活的语句来实现这些操作 3…...
漏洞复现-红帆OA iorepsavexml.aspx文件上传漏洞(附漏洞检测脚本)
免责声明 文章中涉及的漏洞均已修复,敏感信息均已做打码处理,文章仅做经验分享用途,切勿当真,未授权的攻击属于非法行为!文章中敏感信息均已做多层打马处理。传播、利用本文章所提供的信息而造成的任何直接或者间接的…...
Leetcode 2976. Minimum Cost to Convert String I
Leetcode 2976. Minimum Cost to Convert String I 1. 解题思路2. 代码实现 题目链接:2976. Minimum Cost to Convert String I 1. 解题思路 这道题思路上其实是非常直接的,本质上就是给出有向图之后,求出有向图上任意两点之间的最短距离&…...
ZKP Mathematical Building Blocks (2)
MIT IAP 2023 Modern Zero Knowledge Cryptography课程笔记 Lecture 3: Mathematical Building Blocks (Yufei Zhao) Fiat Shamir heuristic Turn an interactive proof to a non-interactive proofP can simulate V whenever V picks a random valueP can simulate V’s ran…...
blender径向渐变材质-着色编辑器
要点: 1、用纹理坐标中的物体输出连接映射中的矢量输入 2、物体选择一个空坐标,将空坐标延z轴上移一段距离 3、空坐标的大小要缩放到和要添加材质的物体大小保持一致...
这次终于选对了!2026年性价比拉满的专业AI论文网站
2026年AI论文写作工具已从“基础辅助”升级为融合多模态处理与学术合规的智能写作系统,核心评价维度涵盖文献真实性、格式合规性、长文本逻辑、查重降重、AIGC合规与跨语言支持。本次测评覆盖6款主流工具,测试场景包含中文与英文论文、全流程与专项功能、…...
HunyuanVideo-Foley环境音生成挑战赛:最佳提示词与生成作品赏析
HunyuanVideo-Foley环境音生成挑战赛:最佳提示词与生成作品赏析 1. 挑战赛背景与规则 最近,一场以"城市夜晚"为主题的HunyuanVideo-Foley环境音生成挑战赛吸引了众多音频创作者参与。这场赛事要求参赛者使用HunyuanVideo-Foley系统ÿ…...
BGE-Large-Zh效果对比:BGE-Large-Zh vs m3e-base在中文长尾词匹配上的实测差异
BGE-Large-Zh效果对比:BGE-Large-Zh vs m3e-base在中文长尾词匹配上的实测差异 1. 引言:为什么关注中文长尾词匹配 在日常的中文信息检索和语义匹配场景中,我们经常会遇到一些特殊的长尾词汇。这些词汇可能是不常见的专业术语、新兴的网络用…...
共源级PMOS反向串联电路在电源管理中的双向导通机制解析
1. 共源级PMOS反向串联电路的基本结构 先来看一个生活中常见的场景:你家的防盗门通常需要两把钥匙才能打开,一把从外面开,一把从里面开。共源级PMOS反向串联电路的工作原理就有点像这个双钥匙系统——它通过两个背靠背连接的PMOS管࿰…...
NeMo Voice Agent:企业级语音助手框架的技术架构与性能分析
NeMo Voice Agent:企业级语音助手框架的技术架构与性能分析 【免费下载链接】NeMo NVIDIA/NeMo: 是一个用于实现语音和自然语言处理的开源框架。适合在需要进行语音和自然语言处理的任务中使用。特点是提供了一种简单、易用的 API,支持多种语音和自然语言…...
MATLAB数值解算实战:欧拉与龙格库塔算法对比(附完整代码)
MATLAB数值解算实战:欧拉与龙格库塔算法对比(附完整代码) 微分方程在工程建模中无处不在,从机械系统的振动分析到电路瞬态响应预测,都需要可靠的数值解法。MATLAB作为工程计算的标准工具,提供了多种微分方程…...
开源工具管理效率提升使用指南
开源工具管理效率提升使用指南 【免费下载链接】xcom2-launcher The Alternative Mod Launcher (AML) is a replacement for the default game launchers from XCOM 2 and XCOM Chimera Squad. 项目地址: https://gitcode.com/gh_mirrors/xc/xcom2-launcher 开源工具管理…...
跨地域公司短号互拨实战:用miniSIPServer+SIP话机打通两地分机(含完整号码变换规则)
跨地域企业短号互通实战:基于miniSIPServer的智能路由与号码变换体系 当企业分支机构分布在不同城市时,如何让员工继续沿用熟悉的短号拨号习惯,同时实现主叫号码的规范显示?这个看似简单的需求背后,隐藏着VoIP系统中号…...
OpenCV图像拼接避坑指南:为什么你的特征点总是匹配失败?
OpenCV图像拼接避坑指南:为什么你的特征点总是匹配失败? 当你第一次尝试用OpenCV实现图像拼接时,可能会遇到一个令人沮丧的问题:明明按照教程一步步操作,特征点匹配的结果却惨不忍睹。要么匹配点对寥寥无几,…...
VSCode安装与Qwen3开发环境配置一站式解决方案
VSCode安装与Qwen3开发环境配置一站式解决方案 为智能字幕开发量身打造的高效开发环境配置指南 1. 开篇:为什么需要专门的环境配置? 你是不是也遇到过这样的情况:好不容易下载了代码,却发现各种依赖报错,环境配置折腾…...












