当前位置：首页 > article >正文

视觉SLAM基础补盲

article 2025/11/11 4:17:29

3D Gaussian Splatting for Real-Time Radiance Field Rendering

SOTA方法
3DGS contribution
传统重建
- 基于点的渲染
- NeRF
基础知识补盲
- 光栅化
- SFM
- 三角化
- 极线几何
- 标准的双目立体视觉
- 立体匹配理论与方法
- 立体匹配的基本流程
- 李群和李代数
李群和李代数的映射
李代数的求导
- 李代数解决求导问题
- - 李代数求导：
  - 扰动模型则
- SE(3) 上的李代数求导

SOTA方法

3D表示：格网和点
连续场景表示：
NeRF(体积射线行进优化多层感知机（MLP），以实现捕获场景的新视图合成)
插值存储在体素、哈希网格或点中的值来构建连续表示
未考虑插值会受到外部噪声干扰

3DGS contribution

3D 高斯作为灵活且富有表现力的场景表示。
使用 SfM 过程中生成的稀疏点云初始化 3D 高斯，仅使用 SfM 点作为输入即可获得高质量结。
3D 高斯是可微的体积表示，同时可以通过投影到 2D 并应用标准 α 混合来非常高效地进行光栅化。
3D 高斯属性的优化 ——3D 位置、透明度 α、各向异性协方差和球面谐波（SH）系数
3DGS属性优化与自适应密度控制步骤交错进行，在优化过程中添加和偶尔移除 3D 高斯。优化过程产生了场景的合理紧凑、非结构化且精确的表示
快速可见性感知渲染：其使用快速 GPU 排序算法并受基于瓦片的光栅化启发。然而，由于我们的 3D 高斯表示，我们可以执行尊重可见性顺序的各向异性 splatting—— 借助排序和 α 混合 —— 并通过跟踪所需数量的已排序 splat 的遍历实现快速准确的反向传播
??如何理解3DGS与自适应密度控制交错进行？如何理解在优化过程添加和移除3DGS？如何理解快速GPU排序算法以及瓦片光栅化和各向异性splatting?什么是α混合？作用是什么？如何理解后向传播？关注什么参数调整

传统重建

基于点的渲染

NeRF

基础知识补盲

光栅化

什么是光栅化？光栅化具体的实现步骤？

SFM

如何通过运动恢复结构（SfM）校准的相机

三角化

极线几何

极平面、极线
在第二张图像上面搜索空间点M在第一张图像的投影点m的对应点m’的时候，只需要在对应的极线上搜索就可以了
在这里插入图片描述

标准的双目立体视觉

条件
视差 d：指同一物体在左右两张图像中对应点的水平坐标差，在左视图的列坐标x_l减去在右视图上的列坐标x_r，是像素单位,则最终的水平视差为：d = x_l - x_r
深度
深度D等于像素在该视图相机坐标系下Z坐标，是空间单位
视差图
视差图指存储立体校正后单视图所有像素视差值的二维图像。

视差图是一张二维图像，和原图等大小
视差图每个位置保存的以像素为单位的该位置像素的视差值
左视图视差图：在像素位置p的视差值等于该像素在右图上的匹配点的列坐标减去其在左图上的列坐标
视差与深度的关系：视差与深度成反比：d = f x b / z对应的视差d越小，深度z越大(距离相机越远)
相机的视线平行
相机光心连接构成的基线，与两个相机的光轴平行
极线校正——使两幅图像的极线相互平行

立体匹配理论与方法

主要用来估计图像中每个像素点的可靠的深度信息
立体匹配理论：立体匹配的目的就是对同一三维场景的两幅成像平面中的每一个像素点找到与其相匹配的点，于是可以计算出每个坐标点的视差值 d ，进而可以准确的描述场景的三维空间信息。
视差和深度之间的关系
立体匹配(视差估计)
输入为一对在同一个时刻捕获的经过极线校正的左右两幅图像I_r,I_l,输出是由参考图像中(左图)中每个像素对应的视差值所构成的视差图d。视差是三维场景中某一点在左右图像中对应点位置的像素级差距。
在这里插入图片描述

立体匹配难点：
光照变化、遮挡、无纹理区域、重复纹理、视差不连续

立体匹配的基本流程

匹配代价计算：
衡量待匹配像素与候选像素之间的相关性。代价越小则说明相关性越大，是同名点的概率也越大。(是否为同名点都可以进行匹配计算)
每个像素在搜索同名点之前，往往会指定一个视差搜索范围D（Dmin ~ Dmax）,视差搜索时将范围限定在D内，用一个大小为W×H×D（W为影像宽度，H为影像高度）的三维矩阵C来存储每个像素在视差范围内每个视差下的匹配代价值。矩阵C通常称为DSI（Disparity Space Image）。
选择合适的匹配代价计算函数是立体匹配中不可忽视的关键步骤
代价聚合：

视差计算
视差优化

李群和李代数

这里首先利用了旋转矩阵的正交性质，并考虑旋转矩阵是具有连续时间变化的性质，对旋转矩阵基于时间t求导
最终求导整理得出反对称矩阵的性质
在这里插入图片描述
反对称矩阵能够用一个三维向量表示量 ϕ(t) ∈ R³——这也是反对称矩阵与三维向量存在的性质
考虑在原点附近进行一阶泰勒展开，同时考虑李群在原点附近的正切空间的性质，最终得到R(t)

特殊正交群SO₃与特殊欧式群SE₃
SO₃代表旋转矩阵，而SE₃代表变换矩阵。
这里需要注意：SO₃旋转矩阵具有约束条件，而且旋转矩阵以及变换矩阵对加法不封闭，但是这些矩阵对乘法是封闭的
在这里插入图片描述
同时李群指的是具有连续(光滑)性质的群——SE(3)与SO(3)在实数空间上是连续的
李代数：
这里需要注意的是：李代数是一个由三维向量组成的集合，每个向量对应到一个反对称矩阵，可以用于表达旋转矩阵的导数
李群与李代数的关系为：**指数映射关系R = exp(ϕ^{^}). **
在这里插入图片描述
对于罗德里格斯公式可以形象的理解为：旋转矩阵R能够通过利用模长θ以及单位方向向量a^{^}计算得出的，这样可以将李代数so(3)中的任意一个三维旋转向量，通过罗德里格斯公式，最终计算得出与指数映射等价的旋转矩阵
在这里插入图片描述
姿态矩阵SE(3)上的指数映射：
首先：对于矩阵SE(3)，考虑为：
将矩阵SE(3)通过se(3)李代数通过指数映射表示为：

那么如何理解李代数呢？se(3)位于R⁶空间中，对应的SE(3)的李代数se(3)包含三维平移向量ρ以及三维旋转向量φ
在这里插入图片描述
构建se(3)上面的指数映射：

得出se(3)的指数映射形式为：

将右上角的进行推导得：

平移部分经过指数映射后，发生了一次以J为系数矩阵的线性变换
那么怎么通过对数映射构建李群和李代数的关系呢？

旋转矩阵由9个量构成，但是一次旋转只是存在3个自由度。
旋转矩阵自身带有的约束：必须是正交矩阵，而且行列式为1
通过一种方式，紧凑的描述旋转和平移：
旋转矩阵R可以用一个单位长度的向量n，以及旋转角度θ来描述这个变换
罗德里格斯公式能够明确这种变换
注意Rn = n表示旋转轴上的向量在旋转后不发生任何变换，说明转轴 n 是矩阵 R 特征值 1 对应的特征向量，并且“旋转轴经过旋转之后不变”

李群与李代数的关系
理解一下从SE(3)到se(3)的变化：
通过能够计算出旋转角θ，然后李代数又可以表示为一个绕着某个固定轴a旋转了θ角度的向量，也就是ε = θa，而绕着旋转轴a旋转角度θ，旋转轴经过旋转后仍然不变(Ra = a)，如果通过姿态矩阵T求得t的话，就很简单！！！t = Jρ，而J可以通过θ和a求得，ρ就能够简单得出。

大家可能会想：这个雅可比矩阵J怎么求——通过se(3)的罗德里格斯公式求解：

李群和李代数的映射

指数映射以及对数映射
在这里插入图片描述

李代数的求导

设计优化问题：
在这里插入图片描述
而针对于观测到的每一个路标点，都会产生一个error误差模型——最终的问题：寻找一个最优的T，使得整体误差的参茶值最小：

这里观察到：求解此问题，需要计算目标函数 J 关于变换矩阵 T 的导数。这里的重点是，我们经常会构建与位姿有关的函数，然后讨论该函数关于位姿的导数，以调整当前的估计值。然而，SO(3), SE(3) 上并没有良好定义的加法，它们只是群。如果我们把 T 当成一个普通矩阵来处理优化，那就必须对它加以约束(正交矩阵T*T^T = I,det(T) = 1)。而从李代数角度来说，由于李代数由向量组成，具有良好的加法运算。
!!! 使用李代数解决求导问题：

用李代数表示姿态，然后根据李代数加法来对李代数求导
对李群左乘或右乘微小扰动，然后对该扰动求导，称为左扰动和右扰动模型。

李代数解决求导问题

BCH公式
在这里插入图片描述
上式对于φ₁，φ₂标量，该式成立。
但是将李代数通过指数映射转化为矩阵形式——>ln (exp (A) exp (B)) = A + B
这里需要关注的问题：如果标量φ₁，φ₂成立，那么此时变成矩阵上式仍然满足么？φ₁，φ₂的反对称矩阵为矩阵的形式，所以如果φ₁ = A，φ₂ = B，那么整个式子变成如下形式，对于矩阵来说，为非标量，所以，上面的式子就不成立
两个李代数指数映射乘积的完整形式，由 Baker-Campbell Hausdorff 公式（BCH 公式）给出
在这里插入图片描述
BCH 公式告诉我们，当处理两个矩阵指数之积时，它们会产生一些由李括号组成的余项。但是SO(3) 上的李代数
ln (exp (ϕ¹) exp (ϕ²))∨，当 ϕ1 或 ϕ2 为小量时，小量二次以上的项都可以被忽略掉。
那么BCH 拥有线性近似表达：
== 这个公式将矩阵相乘转化为李代数相加的形式做了等式的近似！！==
在这里插入图片描述
该式告诉我们，当对一个旋转矩阵 R2（李代数为 ϕ²）左乘一个微小旋转矩阵 R1（李代数为 ϕ¹）时，可以近似地看作，在原有的李代数 ϕ² 上加上了一项 J_l(ϕ²)⁻¹ϕ₁。
李代数在 BCH 近似下，分成了左乘近似和右乘近似两种，在使用时我们须注意使用的是左乘模型还是右乘模型
这里的J对应的是罗德里格斯公式在姿态矩阵上成立的变形等式
在这里插入图片描述
！！！而右乘雅可比仅需要对自变量取负号

对应的李代数实现优化问题求导可以考虑为：

用李代数实现优化问题求导：
由于李代数由向量组成，具有良好的加法运算。因此，使用李代数解决求导问题的思路分为两种：
1. 用李代数表示姿态，然后根据李代数加法来对李代数求导。
2. 对李群左乘或右乘微小扰动，然后对该扰动求导，称为左扰动和右扰动模型。
第一种方式对应到李代数的求导模型，而第二种则对应到扰动模型。下面来讨论这两种思路的异同

李代数求导：

李代数的求导根据优化函数：
在这里插入图片描述
此时对于T矩阵进行求导，也就是对矩阵求导(将李代数Φ通过指数映射为R的形式)：

最终得到的函数对于R矩阵的求导为：

第 4 行至第 5 行将反对称符号看作叉积，交换之后变号。们推导出了旋转后的点相对于李代数的导数
在这里插入图片描述
利用李代数求导，引入了然含有形式比较复杂的 J_l，我们不太希望计算它

扰动模型则

由于这里仍然含有形式比较复杂的 J_l，我们不太希望计算它。而下面要讲的扰动模型则提供了更简单的导数计算方式。

在这里插入图片描述

在这里插入图片描述
！！！对于直接用李代数进行求导，通过对李代数先进性指数映射，然后进行左乘扰动，然后再通过对残差函数求导，将对旋转矩阵R的求导转化为对李代数再经过左乘扰动模型后的求导
这里避免了计算直接对李代数求导后，引入了雅可比矩阵J_l，带来额外的计算负担，通过左乘扰动，能够有效地规避J_l的计算
关注一下经过扰动模型得到的求导公式与直接对李代数求导的公式：
经过左乘扰动：
在这里插入图片描述
直接对李代数求导：