当前位置: 首页 > news >正文

【论文阅读】火星语义分割的半监督学习

【论文阅读】火星语义分割的半监督学习

文章目录

  • 【论文阅读】火星语义分割的半监督学习
    • 一、介绍
    • 二、联系工作
      • 3.1Deep Learning for Mars
      • 3.2 数据集可以分为三类:
      • 3.3 半监督学习
    • 三、提出的火星图像分割数据集
    • 四、方法
    • 四、实验

S 5Mars: Semi-Supervised Learning for Mars Semantic Segmentation

深度学习已经成为火星探测的有力工具。火星地形语义分割是一项重要的火星视觉任务,是火星车自主规划和安全驾驶的基础。

缺乏足够详细和高置信度的数据注释

从联合数据和方法设计的角度提出了解决方案

提出了一个新的数据集S5Mars
  

用于半监督学习的Mars语义分割,基于置信度进行稀疏注释

提出了一种用于火星图像语义分割的半监督学习(SSL)框架,有限的标记数据中学习表征(就是特征图)

广泛使用的自然图像增强对火星图像的影响

  

组成成分:

  1. 两种新颖有效的火星分割SSL增强和增强实例规范化(AugIN)和SAM-Mix增强
  2. 我们引入了软到硬的一致性学习策略,基于预测置信度从不同的目标学习

  

该方法的性能明显优于现有的SSL算法

  

一、介绍

越来越多的可用数据促进了深度学习算法的应用和发展

本文探讨了火星地形语义分割的任务,该任务旨在从图像中识别出可驾驶区域特定地形

  

火星语义分割面临着数据和方法设计两方面的问题

缺乏令人满意和可用的数据在一定程度上阻碍了深度学习方法的发展

火星漫游者的成本高,带宽有限,从火星到地球的数据传输丢失,收集火星数据非常昂贵。

  

由于地形的复杂性和相似性,精细和密集的像素级标记是高度专业化和耗时的

火星地形分割数据集AI4Mars只定义了4个简单的类别,难以满足复杂地形识别的实际需求
  

火星地形分割任务面临两个主要挑战:

  1. 缺乏足够详细和高置信度注释的数据
  2. 针对火星图像数据的SSL研究不足
      

我们从数据和方法设计两方面解决了上述问题,将其命名为火星半监督语义分割s5mars

为了提高标签的质量,数据集的标注采用稀疏标注的方式,即只标注人类置信度高的区域

  

从这些稀疏数据中学习,我们提出了一种新的火星图像地形分割的半监督框架。

  

基于最近流行的基于一致性正则化的方法,利用弱到强的增广来产生扰动

同时追求扰动的一致性

  

进一步提出了两种新颖有效的增强方法:增强实例规范化AugIN和SAM-Mix

  1. AugIN在图像之间交换统计信息以生成新的数据视图,同时避免剧烈的颜色分布变化
  2. SAM- mix利用预训练的segment-anything模型(SAM)[14]生成高质量的目标蒙版,减少了混合图像的不确定性

  

两种数据的增强使得学习一致性更好,性能显著提高

该策略在低置信度区域使用软伪标签,在高置信度区域使用硬伪标签,充分利用了未标记数据

  

贡献:

  1. 收集了一个新的细粒度标记火星数据集,用于地形语义分割,该数据集包含大量火星地貌数据,数据集由专业团队在多轮检查返工下进行稀疏注释
  2. 系统地研究了当前主流SSL方法中使用的数据增强方法,提出SAM-Mix和AugIN两种新的有效增强方法
  3. 充分利用未标记数据,引入了软-硬一致性学习策略,高置信度区域的硬伪标签和低置信度区域的软伪标签约束学习一致性,进一步提高了一致性

  

二、联系工作

3.1Deep Learning for Mars

  1. Deep Mars训练AlexNet对以工程为重点的火星车图像(例如,火星车车轮和钻孔的图像)和轨道图像进行分类
  2. SPOC提出利用全卷积神经网络对图像中的火星地形进行分割
  3. Swan等收集了一个地形分割数据集,并使用DeepLabv3+对其性能进行了评估
  4. Goh等采用自监督方法,在标记较少的图像上训练模型
  5. transformer的网络被用于火星岩石分割任务的研究

  

依赖深度学习的自主探测器

SCOTI模型基于LSTM自动为火星表面图片创建字幕

(不适合采用大型模型,大多需要大量带注释的训练数据,这些数据既昂贵又难以获得)

  

3.2 数据集可以分为三类:

  1. 火星车拍摄真实数据
  2. 人工合成数据
  3. 地球模拟野外拍摄数据

地球模拟野外拍摄方式需要搭建模拟平台或在地球上寻找与火星相似的景观

中很大一部分图像量小于1000,无法满足机器学习模型的训练需求

  

3.3 半监督学习

  1. SSL利用未标记数据的流形结构来辅助标记数据的学习
  2. 交叉熵损失是通过对标记数据的真值标记来优化的,而对未标记数据的模型则采用正则化项
  3. 伪标签方法通过在监督数据上训练的分类器为未标记的数据分配伪标签

  

基于一致性正则化的方法因其简单、有效而受到广泛关注

依靠各种扰动技术(增强)来生成不同的数据模式

执行一致性正则化目标来指导未标记数据的学习
  

发展:

  1. MixMatch使用MixUp混合标记和未标记的数据,并使用低熵标签执行一致性正则化
  2. FixMatch[10]进一步将伪标签(即教师模型对弱增广数据的预测)分配给相应的强增广数据
  3. 在这些一致性正则化方法中,增广技术即微扰技术是语义分割的关键

  

三、提出的火星图像分割数据集

为了解决深度学习可用训练数据稀缺的问题,我们创建了一个用于火星表面探测的细粒度标记火星数据集,即S5Mars

拍摄的6000张高分辨率图像,空间分辨率为1200 × 1200
  
大致分层抽样的方式对数据集进行划分

不同划分之间的标签分布相似,得到5000张图像的训练集、200张图像的验证集和800张图像的测试集

在这里插入图片描述

我们在图展示了每个图像中包含的不同标记类别的数量分布

相反,S5Mars采用了基于置信度的稀疏标记方式。这样我们就保证了标签在每个类别中都具有很强的代表性,并减少了标签工作中引入的标签噪声。

  

四、方法

介绍了提出的火星图像语义分割方法

并在分析的基础上提出了两种有效的增强技术

介绍了软到硬的一致性学习策略,并给出了完整的模型

  

数据集以稀疏的方式进行标注,即图像的某些区域被标注,而某些区域没有

这些区域可以通过一些小的更改来对齐。遵循主流的一致性正则化半监督方法

SSL的目标是训练一个模型f(·;θ),通过优化以下目标L,得到良好的表示

  
在这里插入图片描述

Lsup为标记图像上的监督损失,即交叉熵损失,Lunsup为未标记图像上的无监督损失

最近流行的基于一致性正则化的SSL方法FixMatch。具体而言,采用双分支网络,由教师模型f和学生模型。教师模型可以与具有相同权重的学生模型相同
在这里插入图片描述
  

其中m∈[0,1]为动量系数。我们遵循EMA设置来更新教师模型,这也是mean-teacher[47]中推荐的。通过逆向梯度对学生模型进行优化。

FixMatch的核心实现是弱到强的增强策略,它作为扰动并生成不同的增强数据视图

教师模型为弱增强图像分配伪标签,然后将其用于学生模型对强增强图像的学习

在这里插入图片描述

  
需要解决的主要挑战有两个:

由于火星图像的不同属性,先前对地球上自然图像的增强可能无效

火星图像的未标记区域往往具有很高的不确定性,使得伪标签的训练可靠性降低
  

提出了一个简单而有效的SSL框架

在这里插入图片描述

  
增强模块在SSL中起着重要的作用,它鼓励模型在扰动中学习一致性

增强的方式:

  • 几何增强
  • 基于噪声的增强
  • 基于颜色的增强
  • 基于混合的增强 通过插值(Mixup)或剪切粘贴(CutMix)操作混合两个样本。针对SSL进一步开发了一些高级混合方法,如CowMix和ClassMix
  • Feature-Level Augmentation

  
我们认为传统的基于颜色的扰动会导致火星图像的颜色分布偏移,造成过度失真问题

在这里插入图片描述
  
不同增强手段造成的影响

提出了为火星图像设计的两种有效增强,AugIN和SAM-Mix,并在我们的方法中使用它们来提高SSL性能。

AugIN:为了避免直接扰动引起图像颜色分布的剧烈变化

  
在这里插入图片描述

µ(·)和σ(·)为均值和标准差函数。同时,我们可以自发地得到两个变量,AugIN-µ和AugIN-σ,它们只交换两个样本之间的平均值或标准差

交换同一batch内图像的统计信息的操作不会改变整个batch的统计信息

  

SAM-Mix

CutMix在基线上实现了适度的性能增益。

火星图像中有许多边缘不清晰的碎片物体,随机剪切粘贴的方式可能导致不确定性高,限制了模型的性能。

SAM- mix对现成的SAM使用二进制掩码输出的CutMix的推广

  

SAM可以根据输入或随机生成的提示为图像中的对象生成二进制掩码

用现成的SAM生成目标对象的掩码,并将其粘贴到源图像中

与随机矩形掩码生成相比,SAM可以生成高质量的掩码对特定对象进行分割

  

SAM输出具有相应置信度分数的二进制掩码列表

掩码进行过滤:

  • 将掩码的大小限制在一定范围内,
  • 掩码的置信度高于一定阈值。如果没有合格的掩码,将直接生成一个随机的矩形掩码

  

高斯滤波器应用于掩模以消除可能的噪声

一般会按照原图像的位置进行相应的粘贴,以避免出现一些不合理的情况

textitSAM-Mix与其他基于分割的混合增强策略有相似之处

  
实例或分类的方式开发二进制掩码生成

SAM强大的泛化能力使我们能够高效地为单个物体制作高质量的掩模,这与同时包含多个物体的火星图像兼容

SAM-Mix减少了随机混合带来的不确定性,进一步提高了模型的性能

  

软硬一致性学习

火星图像具有更令人困惑的类别,例如沙子和土壤,岩石和基岩,这需要更细粒度的表示学习目标

对于数据集中具有高不确定性的未标记区域

高质量的标注火星图像比获得天然地球图像更加困难

软标签表示为模型预测分数ps (j),表示在不同语义类别上的概率分布
  

在这里插入图片描述

火星图像中未知区域的一个更细粒度的光滑标签,它可以属于一个新的类,也可以属于一个具有高不确定性的旧类

硬标签提供了一个有信心的目标,迫使模型预测低熵的分布,学习图像中的显式语义映射

这使得模型可以更好地利用未标记的数据,以无监督的方式改进表示一致性学习,获得更好的表示空间

  

max(pt (j)) > hard,则应用对模型进行高置信度的单热伪标签优化;

max(pt(j)) < tsoft,则对软标签目标进行优化,以避免高置信度区域内其他原型特征的噪声信号。

  

监督项Lsup是标记图像上的交叉熵损失。整个一致性正则化项Lunsup是

  
在这里插入图片描述

  

四、实验

模型基于DeepLabV3+[28],采用在Image-Net[52]上预训练的ResNet-50[60]作为分割主干

  

相应参数:

  • 使用16个输出步长
  • 批量大小设置为8
  • 动量为0.9的SGD优化器
  • 用初始值为0.01的多项式学习率衰减来训练学生模型
  • 学习率按(1−iter/max _iter) 0.9缩放
  • EMA动量系数m设为min(1−1/(iter + 1), 0.996)
  • λr和λunsup默认设置为1.0和2.0
  • 模型默认训练240次,
  • 使用教师模型进行评价
  • 用于训练的图像被裁剪为512 × 512的大小
  • 测试图像中间裁剪为1024 × 1024大小
      

在这里插入图片描述

在这里插入图片描述

相关文章:

【论文阅读】火星语义分割的半监督学习

【论文阅读】火星语义分割的半监督学习 文章目录 【论文阅读】火星语义分割的半监督学习一、介绍二、联系工作3.1Deep Learning for Mars3.2 数据集可以分为三类&#xff1a;3.3 半监督学习 三、提出的火星图像分割数据集四、方法四、实验 S 5Mars: Semi-Supervised Learning …...

ACM社团第一次测试题解(禁止直接复制粘贴提交)

第一题&#xff1a;中位数 思路&#xff1a; 解法一&#xff1a;暴力比较&#xff0c;两个数之间一直比较得出中位数 解法二&#xff1a;快排函数&#xff0c;数组中间值即为中位数 代码&#xff1a; 1.c语言版&#xff1a; #include <stdio.h> int arr[10010]; vo…...

redis:zset有序集合命令和内部编码

个人主页 &#xff1a; 个人主页 个人专栏 &#xff1a; 《数据结构》 《C语言》《C》《Linux》《网络》 《redis学习笔记》 文章目录 前言命令ZADDZRANGEZREVRANGEZCARDZCOUNTZPOPMAXBZPOPMAXZPOPMINBZPOPMINZRANKZSCOREZREMZREMRANGEBYRANKZREMRANGEBYSCOREZINCRBY集合间操作…...

Day107:代码审计-PHP模型开发篇MVC层RCE执行文件对比法1day分析0day验证

知识点&#xff1a; 1、PHP审计-MVC开发-RCE&代码执行 2、PHP审计-MVC开发-RCE&命令执行 3、PHP审计-MVC开发-RCE&文件对比 MVC 架构 MVC流程&#xff1a; Controller截获用户发出的请求&#xff1b;Controller调用Model完成状态的读写操作&#xff1b;Contr…...

Web服务nginx实验1访问特定目录

启动服务&#xff1a; 创建haha目录&#xff0c;并且在里面创建index.html文件&#xff0c;往里面写东西&#xff1a; 让客户端访问haha目录&#xff1a;&#xff08;默认只会读取里面的index.html文件&#xff09; 目录后面加/显示的是内容&#xff0c;不加则是代码&#xff1…...

数据结构之二叉树前序,中序,后序习题分析(递归图)

1.比较相同的树 二叉树不能轻易用断言&#xff0c;因为树一定有空 2.找结点值 3.单值二叉树 4.对称二叉树 5.前序遍历...

Me-LLaMA——用于医疗领域的新型开源大规模语言模型

摘要 大规模语言模型的出现是提高病人护理质量和临床操作效率的一个重大突破。大规模语言模型拥有数百亿个参数&#xff0c;通过海量文本数据训练而成&#xff0c;能够生成类似人类的反应并执行复杂的任务。这在改进临床文档、提高诊断准确性和管理病人护理方面显示出巨大的潜…...

C#-常见异常的处理方式(持续更新)

1、从网络位置加载程序集失败&#xff0c;默认不启用CAS策略 错误原因&#xff1a;使用 Assembly.LoadFile(dllPath) 加载外部Dll时&#xff0c;DotNET安全机制阻止加载一个本地网或互联网上的程序集。 解决方案&#xff1a; ①配置app.config文件&#xff0c;在runtime节点…...

「Mac玩转仓颉内测版2」入门篇2 - 编写第一个Cangjie程序

本篇详细介绍在Mac系统上创建首个Cangjie项目并编写、运行第一个Cangjie程序的全过程。内容涵盖项目创建、代码编写、程序运行与调试&#xff0c;以及代码修改后的重新运行。通过本篇&#xff0c;掌握Cangjie项目的基本操作&#xff0c;进一步巩固开发环境的配置&#xff0c;迈…...

注册登录学生管理系统小项目

头文件 #ifndef _LOGINLINK_H_ #define _LOGINLINK_H_ #include<myhead.h> typedef struct {int id;char name[20];int age; }stu,*Pstu; typedef struct node {union{int len;stu data;};struct node *next; }node,*Pnode; int regist(); int login(); Pnode create()…...

qt QCompleter详解

1、概述 QCompleter是Qt框架中的一个类&#xff0c;用于为文本输入提供自动完成功能。它可以与Qt的输入控件&#xff08;如QLineEdit、QTextEdit等&#xff09;结合使用&#xff0c;根据用户的输入实时过滤数据源&#xff0c;并在输入控件下方或内部显示补全建议列表。用户可以…...

YOLOv11融合特征细化前馈网络 FRFN[CVPR2024]及相关改进思路

YOLOv11v10v8使用教程&#xff1a; YOLOv11入门到入土使用教程 一、 模块介绍 论文链接&#xff1a;Adapt or Rerish 代码链接&#xff1a;https://github.com/joshyZhou/AST 论文速览&#xff1a;基于 transformer 的方法在图像恢复任务中取得了有希望的性能&#xff0c;因为…...

【前端知识】JS模块规范

JS模块规范 概述CommonJS 规范 代码示例AMD 规范 代码示例ES6 Module 规范 代码示例IIFE 规范 代码示例全局变量 代码示例 CommonJS 模块和 ES6 模块有什么区别&#xff1f;1. 语法和声明方式2. 动态和静态导入3. 循环依赖4. 默认导出和命名导出5. 文件扩展名6. 环境和应用7. 工…...

vue3展示pag格式动态图

提示&#xff1a;如果是webpack环境的&#xff0c;参考&#xff1a;Pag格式在vue3中的简单使用方法_pag文件-CSDN博客 下面展示的是在vite环境下配置pag 1、安装libpag npm i libpag --save 2、安装rollup-plugin-copy npm i rollup-plugin-copy --save 3、封装pag组件 下…...

代码随想录算法训练营第三十九天|Day39 动态规划

198.打家劫舍 视频讲解&#xff1a;https://www.bilibili.com/video/BV1Te411N7SX https://programmercarl.com/0198.%E6%89%93%E5%AE%B6%E5%8A%AB%E8%88%8D.html 思路 #define max(a, b) ((a) > (b) ? (a) : (b)) int rob(int* nums, int numsSize) {if(numsSize 0){ret…...

qt QMovie详解

1、概述 QMovie 是 Qt 框架中用于处理动画文件的类。它支持多种动画格式&#xff0c;包括 GIF 和一些常见的视频格式&#xff08;尽管对视频格式的支持依赖于底层平台&#xff09;。QMovie 类主要用于在 QLabel 或 QGraphicsView 等控件中显示动画。通过加载动画文件&#xff…...

数据集整理

系列博客目录 文章目录 系列博客目录1.Visual Genome数据集2.COCO数据集3.Flickr30k数据集10.集合多个数据集的网站 1.Visual Genome数据集 官网链接&#xff1a;https://homes.cs.washington.edu/~ranjay/visualgenome/index.html Visual Genome数据集梳理 Visual Genome数据…...

认证授权基础概念详解

目录 认证 (Authentication) 和授权 (Authorization)的区别是什么&#xff1f; RBAC 模型了解吗&#xff1f; 什么是 Cookie ? Cookie 的作用是什么? 如何在项目中使用 Cookie 呢&#xff1f; 如何在 Spring Boot 中创建和读取 Cookie 创建 Cookie Cookie 到期日期 安全…...

美国地址生成器站点

推荐一&#xff1a;fakexy 官网地址&#xff1a;https://www.fakexy.com 推荐二&#xff1a;好维持官网地址&#xff1a; https://www.dizhishengcheng.com 官网除了支持生成美国地址信息外&#xff0c;还支持生成英国、加拿大、日朩、澳大利亚、德国、法国、意大利、西班牙、巴…...

微信4.0大版本升级跨平台支持界面全面改版

微信4.0公测版现已正式发布&#xff0c;作为微信的大版本升级&#xff0c;新版微信基于全新架构开发&#xff0c;跨平台支持Windows和MAC系统&#xff0c;界面也全面改版&#xff0c;聊天宝也第一时间适配微信4.0&#xff0c;为广大客户提供快捷回复支持 前言 微信4.0公测版现…...

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...

AI-调查研究-01-正念冥想有用吗?对健康的影响及科学指南

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; &#x1f680; AI篇持续更新中&#xff01;&#xff08;长期更新&#xff09; 目前2025年06月05日更新到&#xff1a; AI炼丹日志-28 - Aud…...

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装&#xff08;Encapsulation&#xff09; 定义&#xff1a;将数据&#xff08;属性&#xff09;和操作数据的方法绑定在一起&#xff0c;通过访问控制符&#xff08;private、protected、public&#xff09;隐藏内部实现细节。示例&#xff1a; public …...

Oracle查询表空间大小

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

CRMEB 框架中 PHP 上传扩展开发:涵盖本地上传及阿里云 OSS、腾讯云 COS、七牛云

目前已有本地上传、阿里云OSS上传、腾讯云COS上传、七牛云上传扩展 扩展入口文件 文件目录 crmeb\services\upload\Upload.php namespace crmeb\services\upload;use crmeb\basic\BaseManager; use think\facade\Config;/*** Class Upload* package crmeb\services\upload* …...

Yolov8 目标检测蒸馏学习记录

yolov8系列模型蒸馏基本流程&#xff0c;代码下载&#xff1a;这里本人提交了一个demo:djdll/Yolov8_Distillation: Yolov8轻量化_蒸馏代码实现 在轻量化模型设计中&#xff0c;**知识蒸馏&#xff08;Knowledge Distillation&#xff09;**被广泛应用&#xff0c;作为提升模型…...

Web中间件--tomcat学习

Web中间件–tomcat Java虚拟机详解 什么是JAVA虚拟机 Java虚拟机是一个抽象的计算机&#xff0c;它可以执行Java字节码。Java虚拟机是Java平台的一部分&#xff0c;Java平台由Java语言、Java API和Java虚拟机组成。Java虚拟机的主要作用是将Java字节码转换为机器代码&#x…...

精益数据分析(98/126):电商转化率优化与网站性能的底层逻辑

精益数据分析&#xff08;98/126&#xff09;&#xff1a;电商转化率优化与网站性能的底层逻辑 在电子商务领域&#xff0c;转化率与网站性能是决定商业成败的核心指标。今天&#xff0c;我们将深入解析不同类型电商平台的转化率基准&#xff0c;探讨页面加载速度对用户行为的…...

若依项目部署--传统架构--未完待续

若依项目介绍 项目源码获取 #Git工具下载 dnf -y install git #若依项目获取 git clone https://gitee.com/y_project/RuoYi-Vue.git项目背景 随着企业信息化需求的增加&#xff0c;传统开发模式存在效率低&#xff0c;重复劳动多等问题。若依项目通过整合主流技术框架&…...

【Redis】Redis 的持久化策略

目录 一、RDB 定期备份 1.2 触发方式 1.2.1 手动触发 1.2.2.1 自动触发 RDB 持久化机制的场景 1.2.2.2 检查是否触发 1.2.2.3 线上运维配置 1.3 检索工具 1.4 RDB 备份实现原理 1.5 禁用 RDB 快照 1.6 RDB 优缺点分析 二、AOF 实时备份 2.1 配置文件解析 2.2 开启…...