当前位置：首页 > news >正文

【论文阅读】火星语义分割的半监督学习

news 2025/7/8 15:53:40

【论文阅读】火星语义分割的半监督学习

文章目录

【论文阅读】火星语义分割的半监督学习
- 一、介绍
- 二、联系工作
- - 3.1Deep Learning for Mars
  - 3.2 数据集可以分为三类：
  - 3.3 半监督学习
- 三、提出的火星图像分割数据集
- 四、方法
- 四、实验

S ⁵Mars: Semi-Supervised Learning for Mars Semantic Segmentation

深度学习已经成为火星探测的有力工具。火星地形语义分割是一项重要的火星视觉任务，是火星车自主规划和安全驾驶的基础。

缺乏足够详细和高置信度的数据注释

从联合数据和方法设计的角度提出了解决方案

提出了一个新的数据集S5Mars

用于半监督学习的Mars语义分割，基于置信度进行稀疏注释

提出了一种用于火星图像语义分割的半监督学习（SSL）框架,有限的标记数据中学习表征(就是特征图)

广泛使用的自然图像增强对火星图像的影响

组成成分：

两种新颖有效的火星分割SSL增强和增强实例规范化（AugIN）和SAM-Mix增强
我们引入了软到硬的一致性学习策略，基于预测置信度从不同的目标学习

该方法的性能明显优于现有的SSL算法

一、介绍

越来越多的可用数据促进了深度学习算法的应用和发展

本文探讨了火星地形语义分割的任务，该任务旨在从图像中识别出可驾驶区域和特定地形

火星语义分割面临着数据和方法设计两方面的问题

缺乏令人满意和可用的数据在一定程度上阻碍了深度学习方法的发展

火星漫游者的成本高，带宽有限，从火星到地球的数据传输丢失，收集火星数据非常昂贵。

由于地形的复杂性和相似性，精细和密集的像素级标记是高度专业化和耗时的

火星地形分割数据集AI4Mars只定义了4个简单的类别，难以满足复杂地形识别的实际需求

火星地形分割任务面临两个主要挑战：

缺乏足够详细和高置信度注释的数据
针对火星图像数据的SSL研究不足

我们从数据和方法设计两方面解决了上述问题，将其命名为火星半监督语义分割s5mars

为了提高标签的质量，数据集的标注采用稀疏标注的方式，即只标注人类置信度高的区域

从这些稀疏数据中学习，我们提出了一种新的火星图像地形分割的半监督框架。

基于最近流行的基于一致性正则化的方法，利用弱到强的增广来产生扰动

同时追求扰动的一致性

进一步提出了两种新颖有效的增强方法：增强实例规范化AugIN和SAM-Mix

AugIN在图像之间交换统计信息以生成新的数据视图，同时避免剧烈的颜色分布变化
SAM- mix利用预训练的segment-anything模型（SAM）[14]生成高质量的目标蒙版，减少了混合图像的不确定性

两种数据的增强使得学习一致性更好，性能显著提高

该策略在低置信度区域使用软伪标签，在高置信度区域使用硬伪标签，充分利用了未标记数据

贡献：

收集了一个新的细粒度标记火星数据集，用于地形语义分割，该数据集包含大量火星地貌数据，数据集由专业团队在多轮检查返工下进行稀疏注释
系统地研究了当前主流SSL方法中使用的数据增强方法，提出SAM-Mix和AugIN两种新的有效增强方法
充分利用未标记数据，引入了软-硬一致性学习策略，高置信度区域的硬伪标签和低置信度区域的软伪标签约束学习一致性，进一步提高了一致性

二、联系工作

3.1Deep Learning for Mars

Deep Mars训练AlexNet对以工程为重点的火星车图像（例如，火星车车轮和钻孔的图像）和轨道图像进行分类
SPOC提出利用全卷积神经网络对图像中的火星地形进行分割
Swan等收集了一个地形分割数据集，并使用DeepLabv3+对其性能进行了评估
Goh等采用自监督方法，在标记较少的图像上训练模型
transformer的网络被用于火星岩石分割任务的研究

依赖深度学习的自主探测器

SCOTI模型基于LSTM自动为火星表面图片创建字幕

（不适合采用大型模型，大多需要大量带注释的训练数据，这些数据既昂贵又难以获得）

3.2 数据集可以分为三类：

火星车拍摄真实数据
人工合成数据
地球模拟野外拍摄数据

地球模拟野外拍摄方式需要搭建模拟平台或在地球上寻找与火星相似的景观

中很大一部分图像量小于1000，无法满足机器学习模型的训练需求

3.3 半监督学习

SSL利用未标记数据的流形结构来辅助标记数据的学习
交叉熵损失是通过对标记数据的真值标记来优化的，而对未标记数据的模型则采用正则化项
伪标签方法通过在监督数据上训练的分类器为未标记的数据分配伪标签

基于一致性正则化的方法因其简单、有效而受到广泛关注

依靠各种扰动技术（增强）来生成不同的数据模式

执行一致性正则化目标来指导未标记数据的学习

发展：

MixMatch使用MixUp混合标记和未标记的数据，并使用低熵标签执行一致性正则化
FixMatch[10]进一步将伪标签（即教师模型对弱增广数据的预测）分配给相应的强增广数据
在这些一致性正则化方法中，增广技术即微扰技术是语义分割的关键

三、提出的火星图像分割数据集

为了解决深度学习可用训练数据稀缺的问题，我们创建了一个用于火星表面探测的细粒度标记火星数据集，即S5Mars

拍摄的6000张高分辨率图像，空间分辨率为1200 × 1200

大致分层抽样的方式对数据集进行划分

不同划分之间的标签分布相似，得到5000张图像的训练集、200张图像的验证集和800张图像的测试集

在这里插入图片描述

我们在图展示了每个图像中包含的不同标记类别的数量分布

相反，S5Mars采用了基于置信度的稀疏标记方式。这样我们就保证了标签在每个类别中都具有很强的代表性，并减少了标签工作中引入的标签噪声。

四、方法

介绍了提出的火星图像语义分割方法

并在分析的基础上提出了两种有效的增强技术

介绍了软到硬的一致性学习策略，并给出了完整的模型

数据集以稀疏的方式进行标注，即图像的某些区域被标注，而某些区域没有

这些区域可以通过一些小的更改来对齐。遵循主流的一致性正则化半监督方法

SSL的目标是训练一个模型f(·；θ)，通过优化以下目标L，得到良好的表示

在这里插入图片描述

L_sup为标记图像上的监督损失，即交叉熵损失，L_unsup为未标记图像上的无监督损失

最近流行的基于一致性正则化的SSL方法FixMatch。具体而言，采用双分支网络，由教师模型f和学生模型。教师模型可以与具有相同权重的学生模型相同
在这里插入图片描述

其中m∈[0,1]为动量系数。我们遵循EMA设置来更新教师模型，这也是mean-teacher[47]中推荐的。通过逆向梯度对学生模型进行优化。

FixMatch的核心实现是弱到强的增强策略，它作为扰动并生成不同的增强数据视图

教师模型为弱增强图像分配伪标签，然后将其用于学生模型对强增强图像的学习

在这里插入图片描述

需要解决的主要挑战有两个：

由于火星图像的不同属性，先前对地球上自然图像的增强可能无效

火星图像的未标记区域往往具有很高的不确定性，使得伪标签的训练可靠性降低

提出了一个简单而有效的SSL框架

在这里插入图片描述

增强模块在SSL中起着重要的作用，它鼓励模型在扰动中学习一致性

增强的方式：

几何增强
基于噪声的增强
基于颜色的增强
基于混合的增强通过插值（Mixup）或剪切粘贴（CutMix）操作混合两个样本。针对SSL进一步开发了一些高级混合方法，如CowMix和ClassMix
Feature-Level Augmentation

我们认为传统的基于颜色的扰动会导致火星图像的颜色分布偏移，造成过度失真问题

在这里插入图片描述

不同增强手段造成的影响

提出了为火星图像设计的两种有效增强，AugIN和SAM-Mix，并在我们的方法中使用它们来提高SSL性能。

AugIN：为了避免直接扰动引起图像颜色分布的剧烈变化

在这里插入图片描述

µ（·）和σ（·）为均值和标准差函数。同时，我们可以自发地得到两个变量，AugIN-µ和AugIN-σ，它们只交换两个样本之间的平均值或标准差

交换同一batch内图像的统计信息的操作不会改变整个batch的统计信息

SAM-Mix

CutMix在基线上实现了适度的性能增益。

火星图像中有许多边缘不清晰的碎片物体，随机剪切粘贴的方式可能导致不确定性高，限制了模型的性能。

SAM- mix对现成的SAM使用二进制掩码输出的CutMix的推广

SAM可以根据输入或随机生成的提示为图像中的对象生成二进制掩码

用现成的SAM生成目标对象的掩码，并将其粘贴到源图像中

与随机矩形掩码生成相比，SAM可以生成高质量的掩码对特定对象进行分割

SAM输出具有相应置信度分数的二进制掩码列表

掩码进行过滤：

将掩码的大小限制在一定范围内，
掩码的置信度高于一定阈值。如果没有合格的掩码，将直接生成一个随机的矩形掩码

高斯滤波器应用于掩模以消除可能的噪声

一般会按照原图像的位置进行相应的粘贴，以避免出现一些不合理的情况

textitSAM-Mix与其他基于分割的混合增强策略有相似之处

实例或分类的方式开发二进制掩码生成

SAM强大的泛化能力使我们能够高效地为单个物体制作高质量的掩模，这与同时包含多个物体的火星图像兼容

SAM-Mix减少了随机混合带来的不确定性，进一步提高了模型的性能

软硬一致性学习

火星图像具有更令人困惑的类别，例如沙子和土壤，岩石和基岩，这需要更细粒度的表示学习目标

对于数据集中具有高不确定性的未标记区域

高质量的标注火星图像比获得天然地球图像更加困难

软标签表示为模型预测分数p^s (j)，表示在不同语义类别上的概率分布

在这里插入图片描述

火星图像中未知区域的一个更细粒度的光滑标签，它可以属于一个新的类，也可以属于一个具有高不确定性的旧类

硬标签提供了一个有信心的目标，迫使模型预测低熵的分布，学习图像中的显式语义映射

这使得模型可以更好地利用未标记的数据，以无监督的方式改进表示一致性学习，获得更好的表示空间

max(p_t (j)) > hard，则应用对模型进行高置信度的单热伪标签优化；

max(p_t(j)) < tsoft，则对软标签目标进行优化，以避免高置信度区域内其他原型特征的噪声信号。

监督项Lsup是标记图像上的交叉熵损失。整个一致性正则化项Lunsup是

在这里插入图片描述

四、实验

模型基于DeepLabV3+[28]，采用在Image-Net[52]上预训练的ResNet-50[60]作为分割主干

相应参数：

使用16个输出步长
批量大小设置为8
动量为0.9的SGD优化器
用初始值为0.01的多项式学习率衰减来训练学生模型
学习率按（1−iter/max _iter） 0.9缩放
EMA动量系数m设为min(1−1/(iter + 1), 0.996）
λr和λunsup默认设置为1.0和2.0
模型默认训练240次，
使用教师模型进行评价
用于训练的图像被裁剪为512 × 512的大小
测试图像中间裁剪为1024 × 1024大小

在这里插入图片描述

【论文阅读】火星语义分割的半监督学习

【论文阅读】火星语义分割的半监督学习文章目录【论文阅读】火星语义分割的半监督学习一、介绍二、联系工作3.1Deep Learning for Mars3.2 数据集可以分为三类：3.3 半监督学习三、提出的火星图像分割数据集四、方法四、实验 S 5Mars: Semi-Supervised Learning …...

编程日记 2024/11/8 22:11:20

ACM社团第一次测试题解（禁止直接复制粘贴提交）

第一题：中位数思路： 解法一：暴力比较，两个数之间一直比较得出中位数解法二：快排函数，数组中间值即为中位数代码： 1.c语言版： #include <stdio.h> int arr[10010]; vo…...

编程日记 2024/11/8 22:07:15

redis：zset有序集合命令和内部编码

个人主页 ： 个人主页个人专栏 ： 《数据结构》《C语言》《C》《Linux》《网络》《redis学习笔记》文章目录前言命令ZADDZRANGEZREVRANGEZCARDZCOUNTZPOPMAXBZPOPMAXZPOPMINBZPOPMINZRANKZSCOREZREMZREMRANGEBYRANKZREMRANGEBYSCOREZINCRBY集合间操作…...

编程日记 2024/11/8 22:06:14

Day107：代码审计-PHP模型开发篇MVC层RCE执行文件对比法1day分析0day验证

知识点： 1、PHP审计-MVC开发-RCE&代码执行 2、PHP审计-MVC开发-RCE&命令执行 3、PHP审计-MVC开发-RCE&文件对比 MVC 架构 MVC流程： Controller截获用户发出的请求；Controller调用Model完成状态的读写操作；Contr…...

编程日记 2024/11/8 22:04:12

Web服务nginx实验1访问特定目录

启动服务： 创建haha目录，并且在里面创建index.html文件，往里面写东西： 让客户端访问haha目录：（默认只会读取里面的index.html文件） 目录后面加/显示的是内容，不加则是代码&#xff1…...

编程日记 2024/11/8 21:58:08

数据结构之二叉树前序，中序，后序习题分析（递归图）

1.比较相同的树二叉树不能轻易用断言，因为树一定有空 2.找结点值 3.单值二叉树 4.对称二叉树 5.前序遍历...

编程日记 2024/11/8 21:57:06

Me-LLaMA——用于医疗领域的新型开源大规模语言模型

摘要大规模语言模型的出现是提高病人护理质量和临床操作效率的一个重大突破。大规模语言模型拥有数百亿个参数，通过海量文本数据训练而成，能够生成类似人类的反应并执行复杂的任务。这在改进临床文档、提高诊断准确性和管理病人护理方面显示出巨大的潜…...

编程日记 2024/11/8 21:52:02

C#-常见异常的处理方式（持续更新）

1、从网络位置加载程序集失败，默认不启用CAS策略错误原因：使用 Assembly.LoadFile(dllPath) 加载外部Dll时，DotNET安全机制阻止加载一个本地网或互联网上的程序集。解决方案： ①配置app.config文件，在runtime节点…...

编程日记 2024/11/8 21:48:59

「Mac玩转仓颉内测版2」入门篇2 - 编写第一个Cangjie程序

本篇详细介绍在Mac系统上创建首个Cangjie项目并编写、运行第一个Cangjie程序的全过程。内容涵盖项目创建、代码编写、程序运行与调试，以及代码修改后的重新运行。通过本篇，掌握Cangjie项目的基本操作，进一步巩固开发环境的配置，迈…...

编程日记 2024/11/8 21:47:58

头文件 #ifndef _LOGINLINK_H_ #define _LOGINLINK_H_ #include<myhead.h> typedef struct {int id;char name[20];int age; }stu,*Pstu; typedef struct node {union{int len;stu data;};struct node *next; }node,*Pnode; int regist(); int login(); Pnode create()…...

编程日记 2024/11/8 21:46:57

qt QCompleter详解

1、概述 QCompleter是Qt框架中的一个类，用于为文本输入提供自动完成功能。它可以与Qt的输入控件（如QLineEdit、QTextEdit等）结合使用，根据用户的输入实时过滤数据源，并在输入控件下方或内部显示补全建议列表。用户可以…...

编程日记 2024/11/8 21:44:55

YOLOv11融合特征细化前馈网络 FRFN[CVPR2024]及相关改进思路

YOLOv11v10v8使用教程： YOLOv11入门到入土使用教程一、模块介绍论文链接：Adapt or Rerish 代码链接：https://github.com/joshyZhou/AST 论文速览：基于 transformer 的方法在图像恢复任务中取得了有希望的性能，因为…...

编程日记 2024/11/8 21:43:53

【前端知识】JS模块规范

JS模块规范概述CommonJS 规范代码示例AMD 规范代码示例ES6 Module 规范代码示例IIFE 规范代码示例全局变量代码示例 CommonJS 模块和 ES6 模块有什么区别？1. 语法和声明方式2. 动态和静态导入3. 循环依赖4. 默认导出和命名导出5. 文件扩展名6. 环境和应用7. 工…...

编程日记 2024/11/8 21:41:50

vue3展示pag格式动态图

提示：如果是webpack环境的，参考：Pag格式在vue3中的简单使用方法_pag文件-CSDN博客下面展示的是在vite环境下配置pag 1、安装libpag npm i libpag --save 2、安装rollup-plugin-copy npm i rollup-plugin-copy --save 3、封装pag组件下…...

编程日记 2024/11/8 21:40:49

代码随想录算法训练营第三十九天|Day39 动态规划

198.打家劫舍视频讲解：https://www.bilibili.com/video/BV1Te411N7SX https://programmercarl.com/0198.%E6%89%93%E5%AE%B6%E5%8A%AB%E8%88%8D.html 思路 #define max(a, b) ((a) > (b) ? (a) : (b)) int rob(int* nums, int numsSize) {if(numsSize 0){ret…...

编程日记 2024/11/8 21:34:43

qt QMovie详解

1、概述 QMovie 是 Qt 框架中用于处理动画文件的类。它支持多种动画格式，包括 GIF 和一些常见的视频格式（尽管对视频格式的支持依赖于底层平台）。QMovie 类主要用于在 QLabel 或 QGraphicsView 等控件中显示动画。通过加载动画文件&#xff…...

编程日记 2024/11/8 21:33:41

数据集整理

系列博客目录文章目录系列博客目录1.Visual Genome数据集2.COCO数据集3.Flickr30k数据集10.集合多个数据集的网站 1.Visual Genome数据集官网链接：https://homes.cs.washington.edu/~ranjay/visualgenome/index.html Visual Genome数据集梳理 Visual Genome数据…...

编程日记 2024/11/8 21:32:40

认证授权基础概念详解

目录认证 (Authentication) 和授权 (Authorization)的区别是什么？ RBAC 模型了解吗？ 什么是 Cookie ? Cookie 的作用是什么? 如何在项目中使用 Cookie 呢？ 如何在 Spring Boot 中创建和读取 Cookie 创建 Cookie Cookie 到期日期安全…...

编程日记 2024/11/8 21:31:38

美国地址生成器站点

推荐一：fakexy 官网地址：https://www.fakexy.com 推荐二：好维持官网地址： https://www.dizhishengcheng.com 官网除了支持生成美国地址信息外，还支持生成英国、加拿大、日朩、澳大利亚、德国、法国、意大利、西班牙、巴…...

编程日记 2024/11/8 21:30:37

微信4.0大版本升级跨平台支持界面全面改版

微信4.0公测版现已正式发布，作为微信的大版本升级，新版微信基于全新架构开发，跨平台支持Windows和MAC系统，界面也全面改版，聊天宝也第一时间适配微信4.0，为广大客户提供快捷回复支持前言微信4.0公测版现…...

编程日记 2024/11/8 21:29:35

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

Linux_k8s篇欢迎来到Linux的世界，看笔记好好学多敲多打，每个人都是大神！ 题目：KubeSphere 容器平台高可用：环境搭建与可视化操作指南版本号: 1.0,0 作者: 老王要学习日期: 2025.06.05 适用环境: Ubuntu22 文档说…...

编程新知 2025/7/7 12:02:52

手游刚开服就被攻击怎么办？如何防御DDoS？

开服初期是手游最脆弱的阶段，极易成为DDoS攻击的目标。一旦遭遇攻击，可能导致服务器瘫痪、玩家流失，甚至造成巨大经济损失。本文为开发者提供一套简洁有效的应急与防御方案，帮助快速应对并构建长期防护体系。一、遭遇攻击的紧急应…...

编程新知 2025/7/7 12:11:39

React第五十七节 Router中RouterProvider使用详解及注意事项

前言在 React Router v6.4 中，RouterProvider 是一个核心组件，用于提供基于数据路由（data routers）的新型路由方案。它替代了传统的 <BrowserRouter>，支持更强大的数据加载和操作功能（如 loader 和…...

编程新知 2025/7/8 5:31:36

解锁数据库简洁之道：FastAPI与SQLModel实战指南

在构建现代Web应用程序时，与数据库的交互无疑是核心环节。虽然传统的数据库操作方式（如直接编写SQL语句与psycopg2交互）赋予了我们精细的控制权，但在面对日益复杂的业务逻辑和快速迭代的需求时，这种方式的开发效率和可…...

编程新知 2025/7/7 10:49:48

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2025/7/8 8:40:47

leetcodeSQL解题：3564. 季节性销售分析

leetcodeSQL解题：3564. 季节性销售分析题目： 表：sales ---------------------- | Column Name | Type | ---------------------- | sale_id | int | | product_id | int | | sale_date | date | | quantity | int | | price | decimal | -…...

编程新知 2025/6/20 12:42:23

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤）&#x…...

编程新知 2025/7/6 22:37:23

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

编程新知 2025/7/8 1:10:53

深入浅出深度学习基础：从感知机到全连接神经网络的核心原理与应用

文章目录前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么？1.1.2 感知机的工作原理 1.2 感知机的简单应用：基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...

编程新知 2025/7/8 5:51:40

Linux 中如何提取压缩文件？

Linux 是一种流行的开源操作系统，它提供了许多工具来管理、压缩和解压缩文件。压缩文件有助于节省存储空间，使数据传输更快。本指南将向您展示如何在 Linux 中提取不同类型的压缩文件。 1. Unpacking ZIP Files ZIP 文件是非常常见的，要在 …...

编程新知 2025/7/7 13:49:22

【论文阅读】火星语义分割的半监督学习

文章目录

一、介绍

二、联系工作

3.1Deep Learning for Mars

3.2 数据集可以分为三类：

3.3 半监督学习

三、提出的火星图像分割数据集

四、方法

四、实验

相关文章：