当前位置：首页 > news >正文

GS-SLAM论文阅读--RGBDS-SLAM

news 2026/2/11 0:20:37

前言

最近GS-SLAM领域的工作层出不穷，有很多不错的工作出现。接下来慢慢写一下相关博客。
在这里插入图片描述

文章目录

前言
1.背景介绍
2.关键内容
- 2.1 3D多层次金字塔高斯喷溅
- 2.2 紧密耦合多特征重构优化
- 2.3总体流程
3.文章贡献
4.个人思考

1.背景介绍

高保真重建是密集SLAM的关键。最近流行的方法利用3D高斯溅射（3D GS）技术进行场景的RGB、深度和语义重建。然而，这些方法忽略了场景不同部分的细节和一致性问题。
3D GS技术以其高效的优化框架和实时渲染能力，弥补了NeRF的不足。因此，出现了许多基于3D gis的SLAM解决方案。然而，这些方法通常只使用原始图像特征进行训练，这些特征不足以完全捕获某些场景部分的细粒度细节，导致重建一致性差。而且，这些方法在进行多特征重构时，没有通过合理的约束进行有效的特征融合和优化，无法相互增强。
大部分的相机跟踪模块都依赖于图像损失的梯度优化，因此系统的实时性相对较差PhotoSLAM引入ORB-SLAM3作为基本框架来改善这个问题。

2.关键内容

2.1 3D多层次金字塔高斯喷溅

与标准的三维高斯溅射过程不同，我们参考[26]-[30]中提出的渐进式训练过程，并引入三维多层次金字塔高斯溅射。在这个过程中，各种特征图像（RGB、深度、语义图像）的分辨率在训练过程中逐渐提高。这不仅减少了训练时间和难度，而且可以在不同分辨率下逐步重建不同特征的多尺度信息。
在这里插入图片描述
因此，我们为RGB、深度和语义图像构建了一个n层图像金字塔。

RGB金字塔图像的第i层可以表示为：
在这里插入图片描述
深度金字塔图像的第i层可以表示为：

语义金字塔图像的第i层可以表示为：

在训练过程中，为了保证对图像金字塔的每个视点和每一层进行全面的训练，在每次迭代中，我们随机选取一组多特征图像{ $I^{gt}_r (I)$ , $I^{gt}_d(I)$ , $I^{gt}_s (I)$ }。我们提取该视点的所有相关信息（如姿态、图像大小等），并基于这些信息，参照渲染公式，对RGB、深度和语义图像执行渲染操作。通过我们提出的MLP-GS渐进式训练过程，我们可以最大程度地逐步还原场景细节。

2.2 紧密耦合多特征重构优化

在上一节中，我们对地图中的3D高斯基元执行MLP-GS操作，得到一组渲染图像{ $I^{rd}_r (I)$ , $I^{rd}_d(I)$ , $I^{rd}_s (I)$ }。这是高斯喷溅的前向渲染过程。我们现在需要计算渲染图像和真实地面图像之间的损失，并执行反向传播来优化地图中的3D高斯原语。

参考上文中渲染图像和groundtruth图像的L1损耗和SSIM损耗的计算，我们对上一节获得的第I个金字塔视角的渲染图像{ $I^{gt}_r (I)$ , $I^{gt}_d(I)$ , $I^{gt}_s (I)$ }进行类似的损耗计算：
对于RGB图像，我们考虑L1和SSIM损失：
在这里插入图片描述
对于深度图像，我们只考虑L1损耗：

对于语义图像，我们同样考虑L1和SSIM损失：

最后，我们将多个特征紧密耦合到一个重构优化框架中进行联合优化：

2.3总体流程

在这里插入图片描述

3.文章贡献

本文介绍了一种三维多层次金字塔高斯喷溅（MLP-GS）方法，该方法提取多层次图像金字塔进行高斯喷溅训练，恢复场景细节，并保证重建过程中的一致性。
设计了一种紧密耦合多特征重构优化（TCMF-RO）机制，在优化绘制过程中促进RGB、深度和语义图重构精度的相互提高。

4.个人思考

本文应该是在Photo-SLAM的基础上添加了语义信息。至于多层金字塔，我记得原始的Photo-SLAM代码应该也有，只不过本文金字塔层数更多。我个人的观点，觉得本文的创新点不是那么强，但是能实现语义的添加，也是很不错的工作。但是他的实验结果非常的好，在Replica代码上可以达到38.85。然后我看了实验相关部分，从下面的消融实验可以看出，其中提升最大的应该是加上深度损失后。
在这里插入图片描述

前言