【论文阅读】火星语义分割的半监督学习
【论文阅读】火星语义分割的半监督学习
文章目录
- 【论文阅读】火星语义分割的半监督学习
- 一、介绍
- 二、联系工作
- 3.1Deep Learning for Mars
- 3.2 数据集可以分为三类:
- 3.3 半监督学习
- 三、提出的火星图像分割数据集
- 四、方法
- 四、实验
S 5Mars: Semi-Supervised Learning for Mars Semantic Segmentation
深度学习已经成为火星探测的有力工具。火星地形语义分割是一项重要的火星视觉任务,是火星车自主规划和安全驾驶的基础。
缺乏足够详细和高置信度的数据注释
从联合数据和方法设计的角度提出了解决方案
提出了一个新的数据集S5Mars
用于半监督学习的Mars语义分割,基于置信度进行稀疏注释
提出了一种用于火星图像语义分割的半监督学习(SSL)框架,有限的标记数据中学习表征(就是特征图)
广泛使用的自然图像增强对火星图像的影响
组成成分:
- 两种新颖有效的火星分割SSL增强和增强实例规范化(AugIN)和SAM-Mix增强
- 我们引入了软到硬的一致性学习策略,基于预测置信度从不同的目标学习
该方法的性能明显优于现有的SSL算法
一、介绍
越来越多的可用数据促进了深度学习算法的应用和发展
本文探讨了火星地形语义分割的任务,该任务旨在从图像中识别出可驾驶区域和特定地形
火星语义分割面临着数据和方法设计两方面的问题
缺乏令人满意和可用的数据在一定程度上阻碍了深度学习方法的发展
火星漫游者的成本高,带宽有限,从火星到地球的数据传输丢失,收集火星数据非常昂贵。
由于地形的复杂性和相似性,精细和密集的像素级标记是高度专业化和耗时的
火星地形分割数据集AI4Mars只定义了4个简单的类别,难以满足复杂地形识别的实际需求
火星地形分割任务面临两个主要挑战:
- 缺乏足够详细和高置信度注释的数据
- 针对火星图像数据的SSL研究不足
我们从数据和方法设计两方面解决了上述问题,将其命名为火星半监督语义分割s5mars
为了提高标签的质量,数据集的标注采用稀疏标注的方式,即只标注人类置信度高的区域
从这些稀疏数据中学习,我们提出了一种新的火星图像地形分割的半监督框架。
基于最近流行的基于一致性正则化的方法,利用弱到强的增广来产生扰动
同时追求扰动的一致性
进一步提出了两种新颖有效的增强方法:增强实例规范化AugIN和SAM-Mix
- AugIN在图像之间交换统计信息以生成新的数据视图,同时避免剧烈的颜色分布变化
- SAM- mix利用预训练的segment-anything模型(SAM)[14]生成高质量的目标蒙版,减少了混合图像的不确定性
两种数据的增强使得学习一致性更好,性能显著提高
该策略在低置信度区域使用软伪标签,在高置信度区域使用硬伪标签,充分利用了未标记数据
贡献:
- 收集了一个新的细粒度标记火星数据集,用于地形语义分割,该数据集包含大量火星地貌数据,数据集由专业团队在多轮检查返工下进行稀疏注释
- 系统地研究了当前主流SSL方法中使用的数据增强方法,提出SAM-Mix和AugIN两种新的有效增强方法
- 充分利用未标记数据,引入了软-硬一致性学习策略,高置信度区域的硬伪标签和低置信度区域的软伪标签约束学习一致性,进一步提高了一致性
二、联系工作
3.1Deep Learning for Mars
- Deep Mars训练AlexNet对以工程为重点的火星车图像(例如,火星车车轮和钻孔的图像)和轨道图像进行分类
- SPOC提出利用全卷积神经网络对图像中的火星地形进行分割
- Swan等收集了一个地形分割数据集,并使用DeepLabv3+对其性能进行了评估
- Goh等采用自监督方法,在标记较少的图像上训练模型
- transformer的网络被用于火星岩石分割任务的研究
依赖深度学习的自主探测器
SCOTI模型基于LSTM自动为火星表面图片创建字幕
(不适合采用大型模型,大多需要大量带注释的训练数据,这些数据既昂贵又难以获得)
3.2 数据集可以分为三类:
- 火星车拍摄真实数据
- 人工合成数据
- 地球模拟野外拍摄数据
地球模拟野外拍摄方式需要搭建模拟平台或在地球上寻找与火星相似的景观
中很大一部分图像量小于1000,无法满足机器学习模型的训练需求
3.3 半监督学习
- SSL利用未标记数据的流形结构来辅助标记数据的学习
- 交叉熵损失是通过对标记数据的真值标记来优化的,而对未标记数据的模型则采用正则化项
- 伪标签方法通过在监督数据上训练的分类器为未标记的数据分配伪标签
基于一致性正则化的方法因其简单、有效而受到广泛关注
依靠各种扰动技术(增强)来生成不同的数据模式
执行一致性正则化目标来指导未标记数据的学习
发展:
- MixMatch使用MixUp混合标记和未标记的数据,并使用低熵标签执行一致性正则化
- FixMatch[10]进一步将伪标签(即教师模型对弱增广数据的预测)分配给相应的强增广数据
- 在这些一致性正则化方法中,增广技术即微扰技术是语义分割的关键
三、提出的火星图像分割数据集
为了解决深度学习可用训练数据稀缺的问题,我们创建了一个用于火星表面探测的细粒度标记火星数据集,即S5Mars
拍摄的6000张高分辨率图像,空间分辨率为1200 × 1200
大致分层抽样的方式对数据集进行划分
不同划分之间的标签分布相似,得到5000张图像的训练集、200张图像的验证集和800张图像的测试集
我们在图展示了每个图像中包含的不同标记类别的数量分布
相反,S5Mars采用了基于置信度的稀疏标记方式。这样我们就保证了标签在每个类别中都具有很强的代表性,并减少了标签工作中引入的标签噪声。
四、方法
介绍了提出的火星图像语义分割方法
并在分析的基础上提出了两种有效的增强技术
介绍了软到硬的一致性学习策略,并给出了完整的模型
数据集以稀疏的方式进行标注,即图像的某些区域被标注,而某些区域没有
这些区域可以通过一些小的更改来对齐。遵循主流的一致性正则化半监督方法
SSL的目标是训练一个模型f(·;θ),通过优化以下目标L,得到良好的表示
Lsup为标记图像上的监督损失,即交叉熵损失,Lunsup为未标记图像上的无监督损失
最近流行的基于一致性正则化的SSL方法FixMatch。具体而言,采用双分支网络,由教师模型f和学生模型。教师模型可以与具有相同权重的学生模型相同
其中m∈[0,1]为动量系数。我们遵循EMA设置来更新教师模型,这也是mean-teacher[47]中推荐的。通过逆向梯度对学生模型进行优化。
FixMatch的核心实现是弱到强的增强策略,它作为扰动并生成不同的增强数据视图
教师模型为弱增强图像分配伪标签,然后将其用于学生模型对强增强图像的学习
需要解决的主要挑战有两个:
由于火星图像的不同属性,先前对地球上自然图像的增强可能无效
火星图像的未标记区域往往具有很高的不确定性,使得伪标签的训练可靠性降低
提出了一个简单而有效的SSL框架
增强模块在SSL中起着重要的作用,它鼓励模型在扰动中学习一致性
增强的方式:
- 几何增强
- 基于噪声的增强
- 基于颜色的增强
- 基于混合的增强 通过插值(Mixup)或剪切粘贴(CutMix)操作混合两个样本。针对SSL进一步开发了一些高级混合方法,如CowMix和ClassMix
- Feature-Level Augmentation
我们认为传统的基于颜色的扰动会导致火星图像的颜色分布偏移,造成过度失真问题
不同增强手段造成的影响
提出了为火星图像设计的两种有效增强,AugIN和SAM-Mix,并在我们的方法中使用它们来提高SSL性能。
AugIN:为了避免直接扰动引起图像颜色分布的剧烈变化
µ(·)和σ(·)为均值和标准差函数。同时,我们可以自发地得到两个变量,AugIN-µ和AugIN-σ,它们只交换两个样本之间的平均值或标准差
交换同一batch内图像的统计信息的操作不会改变整个batch的统计信息
SAM-Mix
CutMix在基线上实现了适度的性能增益。
火星图像中有许多边缘不清晰的碎片物体,随机剪切粘贴的方式可能导致不确定性高,限制了模型的性能。
SAM- mix对现成的SAM使用二进制掩码输出的CutMix的推广
SAM可以根据输入或随机生成的提示为图像中的对象生成二进制掩码
用现成的SAM生成目标对象的掩码,并将其粘贴到源图像中
与随机矩形掩码生成相比,SAM可以生成高质量的掩码对特定对象进行分割
SAM输出具有相应置信度分数的二进制掩码列表
掩码进行过滤:
- 将掩码的大小限制在一定范围内,
- 掩码的置信度高于一定阈值。如果没有合格的掩码,将直接生成一个随机的矩形掩码
高斯滤波器应用于掩模以消除可能的噪声
一般会按照原图像的位置进行相应的粘贴,以避免出现一些不合理的情况
textitSAM-Mix与其他基于分割的混合增强策略有相似之处
实例或分类的方式开发二进制掩码生成
SAM强大的泛化能力使我们能够高效地为单个物体制作高质量的掩模,这与同时包含多个物体的火星图像兼容
SAM-Mix减少了随机混合带来的不确定性,进一步提高了模型的性能
软硬一致性学习
火星图像具有更令人困惑的类别,例如沙子和土壤,岩石和基岩,这需要更细粒度的表示学习目标
对于数据集中具有高不确定性的未标记区域
高质量的标注火星图像比获得天然地球图像更加困难
软标签表示为模型预测分数ps (j),表示在不同语义类别上的概率分布
火星图像中未知区域的一个更细粒度的光滑标签,它可以属于一个新的类,也可以属于一个具有高不确定性的旧类
硬标签提供了一个有信心的目标,迫使模型预测低熵的分布,学习图像中的显式语义映射
这使得模型可以更好地利用未标记的数据,以无监督的方式改进表示一致性学习,获得更好的表示空间
max(pt (j)) > hard,则应用对模型进行高置信度的单热伪标签优化;
max(pt(j)) < tsoft,则对软标签目标进行优化,以避免高置信度区域内其他原型特征的噪声信号。
监督项Lsup是标记图像上的交叉熵损失。整个一致性正则化项Lunsup是
四、实验
模型基于DeepLabV3+[28],采用在Image-Net[52]上预训练的ResNet-50[60]作为分割主干
相应参数:
- 使用16个输出步长
- 批量大小设置为8
- 动量为0.9的SGD优化器
- 用初始值为0.01的多项式学习率衰减来训练学生模型
- 学习率按(1−iter/max _iter) 0.9缩放
- EMA动量系数m设为min(1−1/(iter + 1), 0.996)
- λr和λunsup默认设置为1.0和2.0
- 模型默认训练240次,
- 使用教师模型进行评价
- 用于训练的图像被裁剪为512 × 512的大小
- 测试图像中间裁剪为1024 × 1024大小
相关文章:

【论文阅读】火星语义分割的半监督学习
【论文阅读】火星语义分割的半监督学习 文章目录 【论文阅读】火星语义分割的半监督学习一、介绍二、联系工作3.1Deep Learning for Mars3.2 数据集可以分为三类:3.3 半监督学习 三、提出的火星图像分割数据集四、方法四、实验 S 5Mars: Semi-Supervised Learning …...

ACM社团第一次测试题解(禁止直接复制粘贴提交)
第一题:中位数 思路: 解法一:暴力比较,两个数之间一直比较得出中位数 解法二:快排函数,数组中间值即为中位数 代码: 1.c语言版: #include <stdio.h> int arr[10010]; vo…...

redis:zset有序集合命令和内部编码
个人主页 : 个人主页 个人专栏 : 《数据结构》 《C语言》《C》《Linux》《网络》 《redis学习笔记》 文章目录 前言命令ZADDZRANGEZREVRANGEZCARDZCOUNTZPOPMAXBZPOPMAXZPOPMINBZPOPMINZRANKZSCOREZREMZREMRANGEBYRANKZREMRANGEBYSCOREZINCRBY集合间操作…...

Day107:代码审计-PHP模型开发篇MVC层RCE执行文件对比法1day分析0day验证
知识点: 1、PHP审计-MVC开发-RCE&代码执行 2、PHP审计-MVC开发-RCE&命令执行 3、PHP审计-MVC开发-RCE&文件对比 MVC 架构 MVC流程: Controller截获用户发出的请求;Controller调用Model完成状态的读写操作;Contr…...

Web服务nginx实验1访问特定目录
启动服务: 创建haha目录,并且在里面创建index.html文件,往里面写东西: 让客户端访问haha目录:(默认只会读取里面的index.html文件) 目录后面加/显示的是内容,不加则是代码࿱…...

数据结构之二叉树前序,中序,后序习题分析(递归图)
1.比较相同的树 二叉树不能轻易用断言,因为树一定有空 2.找结点值 3.单值二叉树 4.对称二叉树 5.前序遍历...

Me-LLaMA——用于医疗领域的新型开源大规模语言模型
摘要 大规模语言模型的出现是提高病人护理质量和临床操作效率的一个重大突破。大规模语言模型拥有数百亿个参数,通过海量文本数据训练而成,能够生成类似人类的反应并执行复杂的任务。这在改进临床文档、提高诊断准确性和管理病人护理方面显示出巨大的潜…...

C#-常见异常的处理方式(持续更新)
1、从网络位置加载程序集失败,默认不启用CAS策略 错误原因:使用 Assembly.LoadFile(dllPath) 加载外部Dll时,DotNET安全机制阻止加载一个本地网或互联网上的程序集。 解决方案: ①配置app.config文件,在runtime节点…...

「Mac玩转仓颉内测版2」入门篇2 - 编写第一个Cangjie程序
本篇详细介绍在Mac系统上创建首个Cangjie项目并编写、运行第一个Cangjie程序的全过程。内容涵盖项目创建、代码编写、程序运行与调试,以及代码修改后的重新运行。通过本篇,掌握Cangjie项目的基本操作,进一步巩固开发环境的配置,迈…...

注册登录学生管理系统小项目
头文件 #ifndef _LOGINLINK_H_ #define _LOGINLINK_H_ #include<myhead.h> typedef struct {int id;char name[20];int age; }stu,*Pstu; typedef struct node {union{int len;stu data;};struct node *next; }node,*Pnode; int regist(); int login(); Pnode create()…...

qt QCompleter详解
1、概述 QCompleter是Qt框架中的一个类,用于为文本输入提供自动完成功能。它可以与Qt的输入控件(如QLineEdit、QTextEdit等)结合使用,根据用户的输入实时过滤数据源,并在输入控件下方或内部显示补全建议列表。用户可以…...

YOLOv11融合特征细化前馈网络 FRFN[CVPR2024]及相关改进思路
YOLOv11v10v8使用教程: YOLOv11入门到入土使用教程 一、 模块介绍 论文链接:Adapt or Rerish 代码链接:https://github.com/joshyZhou/AST 论文速览:基于 transformer 的方法在图像恢复任务中取得了有希望的性能,因为…...

【前端知识】JS模块规范
JS模块规范 概述CommonJS 规范 代码示例AMD 规范 代码示例ES6 Module 规范 代码示例IIFE 规范 代码示例全局变量 代码示例 CommonJS 模块和 ES6 模块有什么区别?1. 语法和声明方式2. 动态和静态导入3. 循环依赖4. 默认导出和命名导出5. 文件扩展名6. 环境和应用7. 工…...

vue3展示pag格式动态图
提示:如果是webpack环境的,参考:Pag格式在vue3中的简单使用方法_pag文件-CSDN博客 下面展示的是在vite环境下配置pag 1、安装libpag npm i libpag --save 2、安装rollup-plugin-copy npm i rollup-plugin-copy --save 3、封装pag组件 下…...

代码随想录算法训练营第三十九天|Day39 动态规划
198.打家劫舍 视频讲解:https://www.bilibili.com/video/BV1Te411N7SX https://programmercarl.com/0198.%E6%89%93%E5%AE%B6%E5%8A%AB%E8%88%8D.html 思路 #define max(a, b) ((a) > (b) ? (a) : (b)) int rob(int* nums, int numsSize) {if(numsSize 0){ret…...

qt QMovie详解
1、概述 QMovie 是 Qt 框架中用于处理动画文件的类。它支持多种动画格式,包括 GIF 和一些常见的视频格式(尽管对视频格式的支持依赖于底层平台)。QMovie 类主要用于在 QLabel 或 QGraphicsView 等控件中显示动画。通过加载动画文件ÿ…...

数据集整理
系列博客目录 文章目录 系列博客目录1.Visual Genome数据集2.COCO数据集3.Flickr30k数据集10.集合多个数据集的网站 1.Visual Genome数据集 官网链接:https://homes.cs.washington.edu/~ranjay/visualgenome/index.html Visual Genome数据集梳理 Visual Genome数据…...

认证授权基础概念详解
目录 认证 (Authentication) 和授权 (Authorization)的区别是什么? RBAC 模型了解吗? 什么是 Cookie ? Cookie 的作用是什么? 如何在项目中使用 Cookie 呢? 如何在 Spring Boot 中创建和读取 Cookie 创建 Cookie Cookie 到期日期 安全…...

美国地址生成器站点
推荐一:fakexy 官网地址:https://www.fakexy.com 推荐二:好维持官网地址: https://www.dizhishengcheng.com 官网除了支持生成美国地址信息外,还支持生成英国、加拿大、日朩、澳大利亚、德国、法国、意大利、西班牙、巴…...

微信4.0大版本升级跨平台支持界面全面改版
微信4.0公测版现已正式发布,作为微信的大版本升级,新版微信基于全新架构开发,跨平台支持Windows和MAC系统,界面也全面改版,聊天宝也第一时间适配微信4.0,为广大客户提供快捷回复支持 前言 微信4.0公测版现…...

不想贴秋膘?正确打开秋冬运动姿势
这个秋天想要轻装上阵,想健康入秋更要美美入冬怎么破?这期把正确打开秋冬姿势一次性告诉你哦~ 天气变凉,脂肪可要燃起来~想要无痛入秋,最重要的动起来!每天都抽出一点时间去运动一下,不光让身体燃起来&…...

【AIGC半月报】AIGC大模型启元:2024.11(上)
【AIGC半月报】AIGC大模型启元:2024.11(上) (1) Hunyuan-Large(腾讯开源大模型)(2) FLUX1.1 pro(文生图)(3) CogVideoX v1.5(智谱AI升级文生视频大模型) (1) Hunyuan-Lar…...

纯前端生成PDF(jsPDF)并下载保存或上传到OSS
前言 在工作中遇到了一个需求,就是把前端页面生成PDF并保存在本地,因为前端网站可能会展示各种表格,图表信息内容并带有比较鲜艳的色彩样式,如果让后端生产的PDF的话样式可能和前端页面展示的有所差异,所以这个任务就落…...

海外媒体发稿:旅游业媒体推广12个方面的注意事项-华媒舍
1.社交媒体推广过多 社交媒体是旅游业媒体推广的重要途径之一,过分依赖社交媒体将会成为一个常见误区。尽管社交媒体能够帮助旅行目的地提升知名度和曝光度,但如果过度投入精力与资源,可能忽视别的合理推广方式。 2.忽略SEO优化 搜索引擎提…...

分割回文串(DFS)
给你一个字符串 s,请你将 s 分割成一些子串,使每个子串都是 回文串。返回 s 所有可能的分割方案。 示例 1: 输入:s "aab" 输出:[["a","a","b"],["aa","b&qu…...

Qt第三课 ----------容器类控件
作者前言 🎂 ✨✨✨✨✨✨🍧🍧🍧🍧🍧🍧🍧🎂 🎂 作者介绍: 🎂🎂 🎂 🎉🎉🎉…...

打印菱形(C语言)
程序: #include <stdio.h> int main() { int i,j; for(i1;i<5;i){ for(j0;j<6-i;j){ printf(" ");} for(j0;j<i*2-1;j){ printf("*");} printf("\n");} …...

Oracle 19c 中启用 scott 用户
Oracle 19c 中启用 scott 用户 文章目录 Oracle 19c 中启用 scott 用户正常操作如果ORA-01918: 用户 SCOTT 不存在?/sqlplus/admin/scott.sql 没有 scott.sql 怎么处理 正常操作 连接到 Oracle 数据库: 使用 sqlplus 工具或者其他 SQL 客户端工具(如 S…...

git commit 校验
commitlint官方链接 1. npm install --save-dev commitlint/config-conventional commitlint/cli 2. 配置commitlint.config.cjs(项目根目录中) module.exports {extends: [commitlint/config-conventional],rules: {type-enum: [2,always,[Feat, Fix, Doc, Style,…...

【AtCoder】Beginner Contest 377-B.Avoid Rook Attack
Problem Statement 题目链接 There is a grid of 64 64 64 squares with 8 8 8 rows and 8 8 8 columns. Let ( i , j ) (i,j) (i,j) denote the square at the i i i-th row from the top ( 1 ≤ i ≤ 8 ) (1\leq i\leq8) (1≤i≤8) and j j j-th column from the lef…...