当前位置: 首页 > article >正文

视觉SLAM基础补盲

3D Gaussian Splatting for Real-Time Radiance Field Rendering

  • SOTA方法
  • 3DGS contribution
  • 传统重建
    • 基于点的渲染
    • NeRF
  • 基础知识补盲
    • 光栅化
    • SFM
    • 三角化
    • 极线几何
    • 标准的双目立体视觉
    • 立体匹配理论与方法
    • 立体匹配的基本流程
    • 李群和李代数
  • 李群和李代数的映射
  • 李代数的求导
    • 李代数解决求导问题
      • 李代数求导:
      • 扰动模型则
    • SE(3) 上的李代数求导

SOTA方法

3D表示:格网和点
连续场景表示:
NeRF(体积射线行进优化多层感知机(MLP),以实现捕获场景的新视图合成)
插值存储在体素、哈希网格或点中的值来
构建连续表示

未考虑插值会受到外部噪声干扰

3DGS contribution

  1. 3D 高斯作为灵活且富有表现力的场景表示。
  2. 使用 SfM 过程中生成的稀疏点云初始化 3D 高斯,仅使用 SfM 点作为输入即可获得高质量结。
  3. 3D 高斯是可微的体积表示,同时可以通过投影到 2D应用标准 α 混合来非常高效地进行光栅化
  4. 3D 高斯属性的优化 ——3D 位置、透明度 α、各向异性协方差和球面谐波(SH)系数
  5. 3DGS属性优化与自适应密度控制步骤交错进行,在优化过程中添加和偶尔移除 3D 高斯。优化过程产生了场景的合理紧凑、非结构化且精确的表示
  6. 快速可见性感知渲染:其使用快速 GPU 排序算法并受基于瓦片的光栅化启发。然而,由于我们的 3D 高斯表示,我们可以执行尊重可见性顺序的各向异性 splatting—— 借助排序和 α 混合 —— 并通过跟踪所需数量的已排序 splat 的遍历实现快速准确的反向传播
    ??如何理解3DGS与自适应密度控制交错进行?如何理解在优化过程添加和移除3DGS?如何理解快速GPU排序算法以及瓦片光栅化和各向异性splatting?什么是α混合?作用是什么?如何理解后向传播?关注什么参数调整

传统重建

基于点的渲染

NeRF

基础知识补盲

光栅化

什么是光栅化?光栅化具体的实现步骤?

SFM

如何通过运动恢复结构(SfM)校准的相机

三角化

极线几何

极平面、极线
在第二张图像上面搜索空间点M在第一张图像的投影点m的对应点m’的时候,只需要在对应的极线上搜索就可以了
在这里插入图片描述

标准的双目立体视觉

条件
视差 d:指同一物体在左右两张图像中对应点的水平坐标差,在左视图的列坐标xl减去在右视图上的列坐标xr,是像素单位,则最终的水平视差为:d = xl - xr
深度
深度D等于像素在该视图相机坐标系下Z坐标,是空间单位
视差图
视差图指存储立体校正后单视图所有像素视差值的二维图像

  1. 视差图是一张二维图像,和原图等大小
  2. 视差图每个位置保存的以像素为单位的该位置像素的视差值
  3. 左视图视差图:在像素位置p的视差值等于该像素在右图上的匹配点的列坐标减去其在左图上的列坐标
    视差与深度的关系:视差与深度成反比:d = f x b / z对应的视差d越小,深度z越大(距离相机越远)
  4. 相机的视线平行
  5. 相机光心连接构成的基线,与两个相机的光轴平行
    极线校正——使两幅图像的极线相互平行

立体匹配理论与方法

主要用来估计图像中每个像素点的可靠的深度信息
立体匹配理论:立体匹配的目的就是对同一三维场景两幅成像平面中的每一个像素点找到与其相匹配的点,于是可以计算出每个坐标点的视差值 d ,进而可以准确的描述场景的三维空间信息
视差和深度之间的关系
立体匹配(视差估计)
输入为一对在同一个时刻捕获的经过极线校正的左右两幅图像Ir,Il,输出是由参考图像中(左图)中每个像素对应的视差值所构成的视差图d。视差是三维场景中某一点在左右图像中对应点位置的像素级差距。
在这里插入图片描述
在这里插入图片描述

立体匹配难点:
光照变化、遮挡、无纹理区域、重复纹理、视差不连续

立体匹配的基本流程

匹配代价计算:
衡量待匹配像素与候选像素之间的相关性。代价越小则说明相关性越大,是同名点的概率也越大。(是否为同名点都可以进行匹配计算)
每个像素在搜索同名点之前,往往会指定一个视差搜索范围D(Dmin ~ Dmax),视差搜索时将范围限定在D内,用一个大小为W×H×D(W为影像宽度,H为影像高度)的三维矩阵C存储每个像素在视差范围内每个视差下的匹配代价值。矩阵C通常称为DSI(Disparity Space Image)。
选择合适的匹配代价计算函数是立体匹配中不可忽视的关键步骤
代价聚合:

视差计算
视差优化

李群和李代数

这里首先利用了旋转矩阵的正交性质,并考虑旋转矩阵是具有连续时间变化的性质,对旋转矩阵基于时间t求导
最终求导整理得出反对称矩阵的性质
在这里插入图片描述
反对称矩阵能够用一个三维向量表示量 ϕ(t) ∈ R3——这也是反对称矩阵与三维向量存在的性质
考虑在原点附近进行一阶泰勒展开,同时考虑李群在原点附近的正切空间的性质,最终得到R(t)
在这里插入图片描述
特殊正交群SO3与特殊欧式群SE3
SO3代表旋转矩阵,而SE3代表变换矩阵。
这里需要注意:SO3旋转矩阵具有约束条件,而且旋转矩阵以及变换矩阵对加法不封闭,但是这些矩阵对乘法是封闭的
在这里插入图片描述
同时李群指的是具有连续(光滑)性质的群——SE(3)与SO(3)在实数空间上是连续的
李代数:
这里需要注意的是:李代数是一个由三维向量组成的集合每个向量对应到一个反对称矩阵,可以用于表达旋转矩阵的导数
李群与李代数的关系为:**指数映射关系R = exp(ϕ^). **
在这里插入图片描述
对于罗德里格斯公式可以形象的理解为:旋转矩阵R能够通过利用模长θ以及单位方向向量a^计算得出的,这样可以将李代数so(3)中的任意一个三维旋转向量,通过罗德里格斯公式,最终计算得出与指数映射等价的旋转矩阵
在这里插入图片描述
姿态矩阵SE(3)上的指数映射:
首先:对于矩阵SE(3),考虑为:在这里插入图片描述
将矩阵SE(3)通过se(3)李代数通过指数映射表示为:
在这里插入图片描述
那么如何理解李代数呢?se(3)位于R6空间中,对应的SE(3)的李代数se(3)包含三维平移向量ρ以及三维旋转向量φ
在这里插入图片描述
构建se(3)上面的指数映射:
在这里插入图片描述
得出se(3)的指数映射形式为:
在这里插入图片描述
将右上角的进行推导得:
在这里插入图片描述
平移部分经过指数映射后,发生了一次以J为系数矩阵的线性变换
那么怎么通过对数映射构建李群和李代数的关系呢?

  1. 旋转矩阵由9个量构成,但是一次旋转只是存在3个自由度。
  2. 旋转矩阵自身带有的约束:必须是正交矩阵,而且行列式为1
    通过一种方式,紧凑的描述旋转和平移:
    旋转矩阵R可以用一个单位长度的向量n,以及旋转角度θ来描述这个变换
    罗德里格斯公式能够明确这种变换
    注意Rn = n表示旋转轴上的向量在旋转后不发生任何变换,说明转轴 n 是矩阵 R 特征值 1 对应的特征向量,并且“旋转轴经过旋转之后不变”
    在这里插入图片描述
    李群与李代数的关系
    理解一下从SE(3)到se(3)的变化:
    通过在这里插入图片描述能够计算出旋转角θ,然后李代数又可以表示为一个绕着某个固定轴a旋转了θ角度的向量,也就是ε = θa,而绕着旋转轴a旋转角度θ,旋转轴经过旋转后仍然不变(Ra = a),如果通过姿态矩阵T求得t的话,就很简单!!!t = Jρ,而J可以通过θ和a求得,ρ就能够简单得出。
    在这里插入图片描述
    大家可能会想:这个雅可比矩阵J怎么求——通过se(3)的罗德里格斯公式求解:
    在这里插入图片描述

李群和李代数的映射

指数映射以及对数映射
在这里插入图片描述

李代数的求导

设计优化问题:
在这里插入图片描述
而针对于观测到的每一个路标点,都会产生一个error误差模型——最终的问题:寻找一个最优的T,使得整体误差的参茶值最小:
在这里插入图片描述
这里观察到:求解此问题,需要计算目标函数 J 关于变换矩阵 T 的导数。这里的重点是,我们经常会构建与位姿有关的函数,然后讨论该函数关于位姿的导数,以调整当前的估计值。然而,SO(3), SE(3) 上并没有良好定义的加法,它们只是群。如果我们把 T 当成一个普通矩阵来处理优化,那就必须对它加以约束(正交矩阵T*TT = I,det(T) = 1)。而从李代数角度来说,由于李代数由向量组成,具有良好的加法运算
!!! 使用李代数解决求导问题:

  1. 李代数表示姿态,然后根据李代数加法来对李代数求导
  2. 李群左乘或右乘微小扰动,然后对该扰动求导,称为左扰动和右扰动模型

李代数解决求导问题

BCH公式
在这里插入图片描述
上式对于φ1,φ2标量,该式成立。
但是将李代数通过指数映射转化为矩阵形式——>ln (exp (A) exp (B)) = A + B
这里需要关注的问题:如果标量φ1,φ2成立,那么此时变成矩阵上式仍然满足么?φ1,φ2的反对称矩阵为矩阵的形式,所以如果φ1 = A,φ2 = B,那么整个式子变成如下形式,对于矩阵来说,为非标量,所以,上面的式子就不成立
两个李代数指数映射乘积的完整形式,由 Baker-Campbell Hausdorff 公式(BCH 公式)给出
在这里插入图片描述
BCH 公式告诉我们,当处理两个矩阵指数之积时,它们会产生一些由李括号组成的余项。但是SO(3) 上的李代数
ln (exp (ϕ1) exp (ϕ2))∨,当 ϕ1 或 ϕ2 为小量时,小量二次以上的项都可以被忽略掉。

那么BCH 拥有线性近似表达:
== 这个公式将矩阵相乘转化为李代数相加的形式做了等式的近似!!==
在这里插入图片描述
该式告诉我们,当对一个旋转矩阵 R2(李代数为 ϕ2)左乘一个微小旋转矩阵 R1(李代数为 ϕ1)时,可以近似地看作,在原有的李代数 ϕ2 上加上了一项 Jl2)−1ϕ1
李代数在 BCH 近似下,分成了左乘近似和右乘近似两种,在使用时我们须注意使用的是左乘模型还是右乘模型
这里的J对应的是罗德里格斯公式在姿态矩阵上成立的变形等式
在这里插入图片描述
!!!而右乘雅可比仅需要对自变量取负号
在这里插入图片描述
在这里插入图片描述
对应的李代数实现优化问题求导可以考虑为:
在这里插入图片描述
用李代数实现优化问题求导:
由于李代数由向量组成,具有良好的加法运算。因此,使用李代数解决求导问题的思路分为两种:
1. 用李代数表示姿态,然后根据李代数加法来对李代数求导。
2. 对李群左乘或右乘微小扰动,然后对该扰动求导,称为左扰动和右扰动模型。

第一种方式对应到李代数的求导模型,而第二种则对应到扰动模型。下面来讨论这两种思路的异同

李代数求导:

李代数的求导根据优化函数:
在这里插入图片描述
此时对于T矩阵进行求导,也就是对矩阵求导(将李代数Φ通过指数映射为R的形式):
在这里插入图片描述
最终得到的函数对于R矩阵的求导为:
在这里插入图片描述
第 4 行至第 5 行将反对称符号看作叉积,交换之后变号。们推导出了旋转后的点相对于李代数的导数
在这里插入图片描述
利用李代数求导,引入了然含有形式比较复杂的 Jl,我们不太希望计算它

扰动模型则

由于这里仍然含有形式比较复杂的 Jl,我们不太希望计算它。而下面要讲的扰动模型提供了更简单的导数计算方式

在这里插入图片描述

在这里插入图片描述
!!!对于直接用李代数进行求导,通过对李代数先进性指数映射,然后进行左乘扰动,然后再通过对残差函数求导,将对旋转矩阵R的求导转化为对李代数再经过左乘扰动模型后的求导
这里避免了计算直接对李代数求导后,引入了雅可比矩阵Jl,带来额外的计算负担,通过左乘扰动,能够有效地规避Jl的计算
关注一下经过扰动模型得到的求导公式与直接对李代数求导的公式:
经过左乘扰动:
在这里插入图片描述在这里插入图片描述
直接对李代数求导
在这里插入图片描述在这里插入图片描述

SE(3) 上的李代数求导

直接对姿态矩阵进行上面的左乘扰动,这样能够避免直接对李代数计算引入额外的雅可比矩阵Jl的复杂计算:
请添加图片描述
在这里插入图片描述
在这里插入图片描述
SE(3)上的推导:
在这里插入图片描述在这里插入图片描述
根据下面的求导规则:
在这里插入图片描述
得到如下计算结果:
在这里插入图片描述

相关文章:

视觉SLAM基础补盲

3D Gaussian Splatting for Real-Time Radiance Field Rendering SOTA方法3DGS contribution传统重建基于点的渲染NeRF 基础知识补盲光栅化SFM三角化极线几何标准的双目立体视觉立体匹配理论与方法立体匹配的基本流程李群和李代数 李群和李代数的映射李代数的求导李代数解决求导…...

STM32外设问题总结

SPI: ①.软件SPI和硬件SPI有什么不一样? 答:软件SPI需要在代码中进行配置相关代码,如配置引脚等,而硬件SPI的话是它已经在硬件上已经配置好SPI了,已经可以直接实现,所以可以直接使…...

Vue-3-前端框架Vue基础入门之VSCode开发环境配置和Tomcat部署Vue项目

文章目录 1 安装配置VSCode1.1 安装中文语言插件1.2 主题颜色1.3 禁用自动更新1.4 开启代码提示设置1.5 安装open in browser插件2 安装配置nodejs2.1 配置环境变量2.2 npm与maven的区别2.3 使用npm避坑3 创建Vue项目3.1 两种创建方式3.2 package.json3.3 安装新的依赖3.4 运行…...

动态IP与静态IP:数字世界的“变脸术”与“身份证”

目录 动态IP:互联网的“游牧民族” 静态IP:数字世界的“常驻公民” 动态VS静态:场景驱动的选择逻辑 未来演进:IP地址的“液态化”趋势 选型指南:没有最好,只有最合适 在互联网的海洋里,每个…...

“一代更比一代强”:现代 RAG 架构的演进之路

编者按: 我们今天为大家带来的文章,作者的观点是:RAG 技术的演进是一个从简单到复杂、从 Naive 到 Agentic 的系统性优化过程,每一次优化都是在试图解决无数企业落地大语言模型应用时出现的痛点问题。 文章首先剖析 Naive RAG 的基…...

My图床项目

引言: 在海量文件存储中尤其是小文件我们通常会用上fastdfs对数据进行高效存储,在现实生产中fastdfs通常用于图片,文档,音频等中小文件。 一.项目中用到的基础组件(Base) 1.网络库(muduo) 我们就以muduo网络库为例子讲解IO多路复用和reactor网络模型 1.1 IO多路复用 我们可以…...

SpringBoot3项目架构设计与模块解析

一、项目概述 这是一个基于SpringBoot3构建的企业级后台管理系统,从项目结构来看,系统采用了经典的分层架构设计,包含完整的控制器层、服务层、数据访问层和实体层。项目整合了Web开发、数据库访问、权限控制等核心功能模块。 二、项目整体…...

C#文件压缩与解压缩全攻略:使用ZipFile与ZipArchive实现高效操作

C#文件压缩与解压缩全攻略:使用ZipFile与ZipArchive实现高效操作 在.NET 开发中,文件压缩与解压缩是常见的需求。无论是减少存储空间、加速网络传输,还是实现数据备份,System.IO.Compression命名空间都提供了强大的工具。本文将结…...

1、Go语言基础中的基础

摘要:马士兵教育的Go语言基础的视频笔记。 第一章:走进Golang 1.1、Go的SDK介绍 1.2、Go的项目基本目录结构 1.3、HelloWorld 1.4、编译 1.5、执行 1.6、一步到位 1.7、执行流程分析 1.8、语法注意事项 (1)源文件以"go&qu…...

Go语言基础知识总结(超详细整理)

1. Go语言简介 Go语言(又称Golang)是Google于2009年发布的开源编程语言,具备简洁、高效、并发等特点,适合服务器开发、云计算、大数据等场景。 2. 环境安装与配置 下载地址:https://golang.org/dl/安装后配置环境变量…...

buuctf——web刷题第二页

[网鼎杯 2018]Fakebook和[SWPU2019]Web1没有,共30题 目录 [BSidesCF 2020]Had a bad day [网鼎杯 2020 朱雀组]phpweb [BJDCTF2020]The mystery of ip [BUUCTF 2018]Online Tool [GXYCTF2019]禁止套娃 [GWCTF 2019]我有一个数据库 [CISCN2019 华北赛区 Day2…...

MVC与MVP设计模式对比详解

MVC(Model-View-Controller)和MVP(Model-View-Presenter)是两种广泛使用的分层架构模式,核心目标是解耦业务逻辑、数据和界面,提升代码可维护性和可测试性。以下是它们的对比详解: MVC 模式&…...

内嵌式mqtt server

添加moquette依赖 <dependency><groupId>io.moquette</groupId><artifactId>moquette-broker</artifactId><version>0.17</version><exclusions><exclusion><groupId>org.slf4j</groupId><artifactId>…...

二叉树的遍历总结

144.二叉树的前序遍历(opens new window)145.二叉树的后序遍历(opens new window)94.二叉树的中序遍历 二叉数的先中后序统一遍历法 public static void preOrder(BiTree root){BiTree p root;LinkedList<BiTree> stack new LinkedList<>();while(p ! null ||…...

win32相关(远程线程和远程线程注入)

远程线程和远程线程注入 CreateRemoteThread函数 作用&#xff1a;创建在另一个进程的虚拟地址空间中运行的线程 HANDLE CreateRemoteThread([in] HANDLE hProcess, // 需要在哪个进程中创建线程[in] LPSECURITY_ATTRIBUTES lpThreadAttributes, // 安全…...

【Go语言基础【5】】Go module概述:项目与依赖管理

文章目录 一、Go Module 概述二、Go Module 核心特性1. 项目结构2. 依赖查找机制 三、如何启用 Go Module四、创建 Go Module 项目五、Go Module 关键命令 一、Go Module 概述 Go Module 是 Go 1.11 版本&#xff08;2018 年 8 月&#xff09;引入的依赖管理系统&#xff0c;用…...

[Spring]-AOP

AOP场景 AOP: Aspect Oriented Programming (面向切面编程) OOP: Object Oriented Programming (面向对象编程) 场景设计 设计: 编写一个计算器接口和实现类&#xff0c;提供加减乘除四则运算 需求: 在加减乘除运算的时候需要记录操作日志(运算前参数、运算后结果)实现方案:…...

agent 开发

什么是 agent&#xff1f; Agent智能体&#xff08;又称AI Agent&#xff09;是一种具备自主感知、决策与行动能力的智能系统&#xff0c;其核心在于模仿人类的认知过程来处理复杂任务。以下是其关键特性和发展现状的综合分析&#xff1a; 一、核心定义与特征 #‌## 自主决策…...

多系统一键打包docker compose下所有镜像并且使用

本方法适合在已经pull好docker镜像正常使用的机器 将环境迁移到无网络 或者网络不好的机器使用 linux 用法 cd 到 docker-compose.yml 所在目录 ./save_compose_images.sh #!/bin/bash # 拉取镜像并保存为 .tar 文件 docker save $(docker-compose images | awk {print…...

Golang——5、函数详解、time包及日期函数

函数详解、time包及日期函数 1、函数1.1、函数定义1.2、函数参数1.3、函数返回值1.4、函数类型与变量1.5、函数作参数和返回值1.6、匿名函数、函数递归和闭包1.7、defer语句1.8、panic和recover 2、time包以及日期函数2.1、time.Now()获取当前时间2.2、Format方法格式化输出日期…...

【HarmonyOS 5】出行导航开发实践介绍以及详细案例

以下是 ‌HarmonyOS 5‌ 出行导航的核心能力详解&#xff08;无代码版&#xff09;&#xff0c;聚焦智能交互、多端协同与场景化创新&#xff1a; 一、交互革新&#xff1a;从被动响应到主动服务 ‌意图驱动导航‌ ‌自然语义理解‌&#xff1a;用户通过语音指令&#xff08;如…...

深度学习环境配置指南:基于Anaconda与PyCharm的全流程操作

一、环境搭建前的准备 1. 查看基础环境位置 conda env list 操作说明&#xff1a;通过该命令确认Anaconda默认环境&#xff08;base&#xff09;所在磁盘路径&#xff08;如D盘&#xff09;&#xff0c;后续操作需跳转至该磁盘根目录。 二、创建与激活独立虚拟环境 1. 创…...

03 Deep learning神经网络的编程基础 代价函数(Cost function)--吴恩达

深度学习中的损失函数(Cost Function)用于量化模型预测与真实数据的差距,是优化神经网络的核心指标。以下是常见类型及数学表达: 核心原理 逻辑回归通过sigmoid函数将线性预测结果转换为概率: y ^ ( i ) \hat{y}^{(i)}...

打卡day46

知识点回顾&#xff1a; 不同CNN层的特征图&#xff1a;不同通道的特征图什么是注意力&#xff1a;注意力家族&#xff0c;类似于动物园&#xff0c;都是不同的模块&#xff0c;好不好试了才知道。通道注意力&#xff1a;模型的定义和插入的位置通道注意力后的特征图和热力图 内…...

在SpringBoot中使用AWS SDK实现邮箱验证码服务

1.依赖导入&#xff08;maven&#xff09; <dependency><groupId>software.amazon.awssdk</groupId><artifactId>ses</artifactId><version>2.31.46</version></dependency> 2.申请两个key 发件人邮箱需要验证&#xff1a; …...

AndroidR车机TextToSpeech音频焦点异常问题分析

一、引言 文章《Android车机之TextToSpeech》介绍了TextToSpeech的使用,当前较多座舱系统语音服务都接入了原生TextToSpeech接口调用。 我司自研语音TTS服务,也接入了此TTS接口调用,对外提供TextToSpeech能力,播报时由客户端Client自行管理音频焦点,播报前申请音频焦点,…...

ArcGIS Maps SDK for JavaScript:使用图层过滤器只显示FeatureLayer的部分要素

文章目录 引言1 需求场景分析2精确过滤实现方案2.1 基础过滤语法2.2 动态过滤实现 3 模糊查询进阶技巧3.1 LIKE操作符使用3.2 特殊字段处理 4. 性能优化与注意事项4.1 服务端vs客户端过滤4.2 最佳实践建议 5 常见问题解答 引言 在地图应用开发中&#xff0c;图层过滤是常见的需…...

深入理解二叉搜索树:原理到实践

1.二叉搜索树的概念 ⼆叉搜索树⼜称⼆叉排序树&#xff0c;它或者是⼀棵空树&#xff0c;或者是具有以下性质的⼆叉树 若它的左树不为空&#xff0c;则左子树上所有节点的值都小于或等于根节点的值。若它的右树不为空&#xff0c;则右子树上所有节点的值都大于或等于根节点的…...

测试W5500的第11步_使用ARP解析IP地址对应的MAC地址

本文介绍了基于W5500芯片的ARP协议实现方法&#xff0c;详细阐述了ARP请求与回复的工作机制。ARP协议通过广播请求和单播回复实现IP地址与MAC地址的映射&#xff0c;确保局域网设备间的可靠通信。文章提供了完整的STM32F10x开发环境下的代码实现&#xff0c;包括网络初始化、SP…...

终极数据结构详解:从理论到实践

终极数据结构详解&#xff1a;从理论到实践 我将从 底层原理、时间复杂度、空间优化、实际应用 和 代码实现 五个维度&#xff0c;彻底解析数据结构。内容涵盖&#xff1a; 线性结构&#xff08;数组、链表、栈、队列&#xff09;非线性结构&#xff08;树、图&#xff09;高…...