当前位置: 首页 > news >正文

【视觉SLAM:八、后端Ⅰ】

视觉SLAM的后端主要解决状态估计问题,它是优化相机轨迹和地图点的过程,从数学上看属于非线性优化问题。后端的目标是结合传感器数据,通过最优估计获取系统的状态(包括相机位姿和场景结构),在状态估计过程中通常引入概率模型,以最大化后验概率或最小化代价函数的方式求解。以下从概述、BA(Bundle Adjustment,捆绑调整)与图优化的角度,全面介绍视觉SLAM的后端实现。

概述

状态估计的概率解释

SLAM问题本质上是一个状态估计问题,常用贝叶斯滤波进行建模: p ( x t ∣ z 1 : t , u 1 : t ) ∝ p ( z t ∣ x t ) ∫ p ( x t ∣ x t − 1 , u t ) p ( x t − 1 ∣ z 1 : t − 1 , u 1 : t − 1 ) d x t − 1 p(\mathbf{x}_t|\mathbf{z}_{1:t},\mathbf{u}_{1:t})\propto p(\mathbf{z}_t|\mathbf{x}_t)\int p(\mathbf{x}_t|\mathbf{x}_{t-1},\mathbf{u}_t)p(\mathbf{x}_{t-1}|\mathbf{z}_{1:t-1},\mathbf{u}_{1:t-1})d\mathbf{x}_{t-1} p(xtz1:t,u1:t)p(ztxt)p(xtxt1,ut)p(xt1z1:t1,u1:t1)dxt1

  • x t \mathbf{x}_t xt :系统状态(如相机位姿)。
  • z t \mathbf{z}_t zt :观测(如图像特征点)。
  • u t \mathbf{u}_t ut :控制量或运动模型。

该公式表明,状态估计是基于当前观测、运动模型和历史状态的一种递归估计。

线性系统和卡尔曼滤波(KF)

  • 线性系统模型:卡尔曼滤波假设状态转移方程和观测方程是线性关系:
    x t = A t x t − 1 + B t u t + w t \mathbf{x}_t=\mathbf{A}_t\mathbf{x}_{t-1}+\mathbf{B}_t\mathbf{u}_t+\mathbf{w}_t xt=Atxt1+Btut+wt
    z t = H t x t + v t \mathbf{z}_t=\mathbf{H}_t\mathbf{x}_t+\mathbf{v}_t zt=Htxt+vt
    其中, w t \mathbf{w}_t wt v t \mathbf{v}_t vt是噪声,通常服从高斯分布。
  • 卡尔曼滤波提供了最优状态估计:
    • 预测:基于运动模型预测当前状态。
    • 更新:结合观测数据修正状态。

卡尔曼滤波具有很高的计算效率,但只能处理线性系统。

非线性系统和扩展卡尔曼滤波(EKF)

  • 在实际SLAM中,状态转移方程和观测方程通常是非线性的: x t = f ( x t − 1 , u t ) + w t \mathbf{x}_t=f(\mathbf{x}_{t-1},\mathbf{u}_t)+\mathbf{w}_t xt=f(xt1,ut)+wt
    z t = h ( x t ) + v t \mathbf{z}_t=h(\mathbf{x}_t)+\mathbf{v}_t zt=h(xt)+vt
  • EKF通过对非线性函数进行一阶线性化,将非线性问题近似为线性问题:
    • 使用雅可比矩阵线性化 𝑓(⋅) 和 ℎ(⋅)
    • 在每一步更新中,使用卡尔曼滤波进行递归估计。

EKF的讨论

  • 优点:
    • EKF可以处理非线性系统,适用于SLAM问题。
  • 局限性:
    • 一阶线性化导致近似误差,特别是在非线性程度较高时效果较差。
    • 计算复杂度较高,不适合大规模SLAM系统。

因此,在实际的视觉SLAM中,后端更多使用非线性优化方法,如捆绑调整(BA)与图优化。

BA与图优化

投影模型与BA代价函数

  • 投影模型
    在视觉SLAM中,2D观测点 z i \mathbf{z}_i zi 与3D地图点 P j \mathbf{P}_j Pj 的关系由投影模型描述: z i = π ( K [ R ∣ t ] P j ) \mathbf{z}_i=\pi(\mathbf{K}[\mathbf{R}|\mathbf{t}]\mathbf{P}_j) zi=π(K[Rt]Pj)
    • K:相机内参矩阵。
    • [ R ∣ t ] [\mathbf{R}|\mathbf{t}] [Rt]:相机位姿。
    • π(⋅):将3D点投影到图像平面。
  • BA代价函数
    BA的目标是最小化重投影误差,代价函数为: E = ∑ i , j ρ ( ∥ z i − π ( K [ R i ∣ t i ] P j ) ∥ 2 ) E=\sum_{i,j}\rho\left(\|\mathbf{z}_i-\pi(\mathbf{K}[\mathbf{R}_i|\mathbf{t}_i]\mathbf{P}_j)\|^2\right) E=i,jρ(ziπ(K[Riti]Pj)2)
    • ρ ( ⋅ ) \rho(\cdot) ρ():鲁棒核函数,用于减小异常值的影响。

BA的求解

BA是一个非线性最小二乘优化问题,通常使用高斯-牛顿法或列文伯格-马夸尔特(LM)法求解:

  • 高斯-牛顿法:直接使用二阶近似求解非线性问题,收敛快但对初值敏感。
  • LM方法:在梯度下降和高斯-牛顿之间平衡,鲁棒性更好。

具体流程:

  • 初始化相机位姿和地图点坐标。
  • 计算雅可比矩阵,并构造稀疏的线性方程。
  • 迭代更新位姿和地图点,直至误差收敛。

稀疏性与边缘化

  • 稀疏性
    BA问题的雅可比矩阵具有稀疏性,因为每个观测点仅依赖于特定的相机位姿和地图点。利用稀疏矩阵计算,可以显著提高优化效率。
  • 边缘化
    在SLAM中,为了减小计算量,会将旧的状态变量边缘化:
    • 将不再需要优化的变量(如历史关键帧)边缘化。
    • 通过边缘化保持稀疏结构,并降低优化问题的维度。

鲁棒核函数

实际观测中常有异常值(outliers),如错误匹配的特征点。为减小异常值对优化的影响,BA中引入鲁棒核函数:

  • 常见核函数有Huber核、Cauchy核等。
  • 核函数通过降低异常值的权重,使得优化结果更加鲁棒。

总结

视觉SLAM后端通过概率模型和非线性优化方法实现状态估计和地图构建。其核心任务是通过最大化后验概率或最小化重投影误差,优化相机轨迹和地图点位置。

  • 状态估计:从卡尔曼滤波(KF)到扩展卡尔曼滤波(EKF),提供递归的状态更新方案。
  • BA与图优化:通过非线性最小二乘优化(如BA),实现全局优化。
  • 鲁棒性和效率:利用稀疏矩阵计算、边缘化和鲁棒核函数,提升系统的计算效率和鲁棒性。

这种多层次的优化体系是视觉SLAM后端的核心,也是其能在复杂环境中实现鲁棒性能的关键。

相关文章:

【视觉SLAM:八、后端Ⅰ】

视觉SLAM的后端主要解决状态估计问题,它是优化相机轨迹和地图点的过程,从数学上看属于非线性优化问题。后端的目标是结合传感器数据,通过最优估计获取系统的状态(包括相机位姿和场景结构),在状态估计过程中…...

PaddleOCROCR关键信息抽取训练过程

步骤1:python版本3.8.20 步骤2:下载代码,安装依赖 git clone https://gitee.com/PaddlePaddle/PaddleOCR.git pip uninstall opencv-python -y # 安装PaddleOCR的依赖 ! pip install -r requirements.txt # 安装关键信息抽取任务的依赖 !…...

用Python操作字节流中的Excel文档

Python能够轻松地从字节流中加载文件,在不依赖于外部存储的情况下直接对其进行读取、修改等复杂操作,并最终将更改后的文档保存回字节串中。这种能力不仅极大地提高了数据处理的灵活性,还确保了数据的安全性和完整性,尤其是在网络…...

python 桶排序(Bucket Sort)

桶排序(Bucket Sort) 桶排序是一种分布式排序算法,适用于对均匀分布的数据进行排序。它的基本思想是:将数据分到有限数量的桶中,每个桶分别排序,最后将所有桶中的数据合并。 桶排序的步骤: 划…...

Elasticsearch:探索 Elastic 向量数据库的深度应用

Elasticsearch:探索 Elastic 向量数据库的深度应用 一、Elasticsearch 向量数据库简介 1. Elasticsearch 向量数据库的概念 Elasticsearch 本身是一个基于 Lucene 的搜索引擎,提供了全文搜索和分析的功能。随着技术的发展,Elasticsearch 也…...

【每日学点鸿蒙知识】属性变量key、waterflow卡顿问题、包无法上传、Video控件播放视频、Vue类似语法

1、HarmonyOS 属性变量常量是否可以作为object对象的key? a: object new Object() this.a[Constants.TEST_KEY] "456" 可以先定义,再赋值 2、首页点击回到waterflow的首节点,0~index全部节点被重建,导致卡顿 使用s…...

小程序中引入echarts(保姆级教程)

hello hello~ ,这里是 code袁~💖💖 ,欢迎大家点赞🥳🥳关注💥💥收藏🌹🌹🌹 🦁作者简介:一名喜欢分享和记录学习的在校大学生…...

基于 Node.js 的 ORM(对象关系映射)工具——Sequelize介绍与使用,并举案例分析

便捷性介绍 支持多种数据库,包括 PostgreSQL、MySQL、MariaDB、SQLite 和 Microsoft SQL Server。Sequelize 提供了丰富的功能,帮助开发者用 JavaScript(或 TypeScript)代码操作数据库,而无需直接书写 SQL 语句。 Se…...

python 插入排序(Insertion Sort)

插入排序(Insertion Sort) 插入排序是一种简单的排序算法。它的基本思想是:将数组分为已排序部分和未排序部分,然后逐个将未排序部分的元素插入到已排序部分的正确位置。插入排序类似于整理扑克牌的过程。 插入排序的步骤&#…...

电子应用设计方案81:智能AI冲奶瓶系统设计

智能 AI 冲奶瓶系统设计 一、引言 智能 AI 冲奶瓶系统旨在为父母或照顾者提供便捷、准确和卫生的冲奶服务,特别是在夜间或忙碌时,减轻负担并确保婴儿获得适宜的营养。 二、系统概述 1. 系统目标 - 精确调配奶粉和水的比例,满足不同年龄段婴…...

JAVA高并发总结

JAVA高并发编程总结 在现代应用中,高并发编程是非常重要的一部分,尤其是在分布式系统、微服务架构、实时数据处理等领域。Java 提供了丰富的并发工具和技术,帮助开发者在多线程和高并发的场景下提高应用的性能和稳定性。以下是 Java 高并发编…...

【AIGC】使用Java实现Azure语音服务批量转录功能:完整指南

文章目录 引言技术背景环境准备详细实现1. 基础架构设计2. 实现文件上传功能3. 提交转录任务crul4. 获取转录结果 使用示例结果示例最佳实践与注意事项总结 引言 在当今数字化时代,将音频内容转换为文本的需求越来越普遍。无论是会议记录、视频字幕生成&#xff0c…...

arcgis模版空库怎么用(一)

这里以某个项目的数据为例: 可以看到,属性表中全部只有列标题,无数据内容 可能有些人会认为空库是用来往里面加入信息的,其实不是,正确的用法如下: 一、下图是我演示用的数据,我们可以看到其中…...

【电机控制】基于STC8H1K28的六步换向——方波驱动(软件篇)

【电机控制】基于STC8H1K28的六步换向——方波驱动(软件篇) 文章目录 [TOC](文章目录) 前言一、main.c二、GPIO.c三、PWMA.c四、ADC.c五、CMP.c六、Timer.c七、PMSM.c八、参考资料总结 前言 【电机控制】STC8H无感方波驱动—反电动势过零检测六步换向法 …...

小程序配置文件 —— 13 全局配置 - window配置

全局配置 - window配置 这里讲解根目录 app.json 中的 window 字段,window 字段用于设置小程序的状态栏、导航条、标题、窗口背景色; 状态栏:顶部位置,有网络信号、时间信息、电池信息等;导航条:有一个当…...

全球域名市场科普之域名交易平台介绍——Sedo与Afternic

关于Dynadot Dynadot是通过ICANN认证的域名注册商,自2002年成立以来,服务于全球108个国家和地区的客户,为数以万计的客户提供简洁,优惠,安全的域名注册以及管理服务。 Dynadot平台操作教程索引(包括域名邮…...

leetcode108:将有序数组转化为二叉搜索树

给你一个整数数组 nums ,其中元素已经按 升序 排列,请你将其转换为一棵 平衡 二叉搜索树。 示例 1: 输入:nums [-10,-3,0,5,9] 输出:[0,-3,9,-10,null,5] 解释:[0,-10,5,null,-3,null,9] 也将被视为正确…...

截图技术方案

安卓截屏技术附带悬浮窗自动存储功能_安卓截图浮窗-CSDN博客 https://chat.baidu.com/search?dyTabStrMCwxMiwzLDEsMiwxMyw3LDYsNSw5&pdcsaitab&setypecsaitab&extParamsJson%7B%22apagelid%22%3A%2210990774271994514433%22%2C%22enter_type%22%3A%22a_ai_index%…...

程序员测试日常小工具

作为一名程序员,或者测试人员,日常工作最常用的工具有哪些,截图,截图漂浮,翻译,日期处理,api调用..., 当你拿到一串报文后,想要json转换时,是不是要打…...

Kubernetes: NetworkPolicy 的实践应用

一、Network Policy 是什么,在云原生领域有和作用 Network Policy 是 Kubernetes 官方提出来的一种网络策略的规范,用户通过编写符合对应规范的规则来控制 k8s 集群内 L3 和 L4 层的网络流量。 NetworkPolicy 主要的功能就是实现在云原生领域的容器网络管控它给用…...

OFA图像描述模型在SolidWorks工程图纸中的应用:自动生成技术说明

OFA图像描述模型在SolidWorks工程图纸中的应用:自动生成技术说明 1. 引言 工程图纸是制造业的核心语言,但撰写技术说明却是个耗时费力的过程。设计师需要花费大量时间描述尺寸公差、材料规格、加工要求等细节,这不仅影响工作效率&#xff0…...

28、什么是防抖和节流?有什么区别?如何实现?

这是前端面试里的高频题,几乎每个做过交互、性能优化的人都会被问到。 如果你只是回答“防抖就是延迟执行,节流就是固定时间执行一次”,只能算及格。 如果你能讲清楚: 概念区别适用场景实现方式进阶参数面试表达方式 那这题会答…...

OpenClaw成本优化:Qwen3.5-9B-AWQ-4bit量化模型长期运行实测

OpenClaw成本优化:Qwen3.5-9B-AWQ-4bit量化模型长期运行实测 1. 为什么关注量化模型与OpenClaw的适配性 第一次用OpenClaw执行图片处理任务时,我的MacBook Pro风扇狂转的噪音让我意识到问题的严重性——原版Qwen3.5-9B模型在连续处理20张产品截图后&am…...

OpenClaw低配优化:千问3.5-9B在4GB内存设备运行

OpenClaw低配优化:千问3.5-9B在4GB内存设备运行 1. 为什么需要低配优化? 去年冬天,我在一台老旧的MacBook Air上第一次尝试部署OpenClaw时,遇到了内存不足的报错。这台2017年的设备只有4GB内存,而默认配置的千问3.5-…...

OpenClaw智能写作伙伴:Qwen3-14B辅助创作技术博客

OpenClaw智能写作伙伴:Qwen3-14B辅助创作技术博客 1. 为什么需要AI辅助技术写作 作为一个独立技术博主,我长期面临创作效率与质量难以兼得的困境。每次准备一篇深度技术文章时,需要经历选题脑暴、大纲设计、代码验证、SEO优化等多个环节&am…...

Dify开源平台在Windows WSL下的完整安装教程(避坑指南)

Dify开源平台在Windows WSL下的完整安装教程(避坑指南) 对于Windows用户而言,通过WSL(Windows Subsystem for Linux)安装Dify开源平台是一个既高效又便捷的选择。Dify作为一款开源的大模型应用开发平台,能够…...

ADXL345嵌入式驱动设计:mbed平台C++封装与中断+FIFO优化

1. ADXL345嵌入式驱动库深度解析:面向mbed平台的C封装设计与工程实践ADXL345是Analog Devices公司推出的超低功耗、高分辨率(13位)三轴数字加速度计,采用IC和SPI双接口设计,支持2g/4g/8g/16g四档可编程量程&#xff0c…...

Bowser插件开发终极指南:如何创建可复用的浏览器检测组件

Bowser插件开发终极指南:如何创建可复用的浏览器检测组件 【免费下载链接】bowser a browser detector 项目地址: https://gitcode.com/gh_mirrors/bo/bowser Bowser是一个轻量级、高性能的浏览器检测库,专门用于识别用户浏览器、操作系统和平台信…...

像素幻梦·创意工坊多场景落地:游戏开发、教育课件、社交媒体配图生成

像素幻梦创意工坊多场景落地:游戏开发、教育课件、社交媒体配图生成 1. 像素艺术的新纪元 在数字创作领域,像素艺术正经历一场前所未有的复兴。像素幻梦创意工坊(Pixel Dream Workshop)作为新一代AI像素艺术生成工具,正在改变创作者的工作方…...

PLC控制四轴攻丝机全伺服工程案例(含接线图):附带启动停止原点定位等控制指令详解及文本屏即用程序

plc控制伺服电机 四轴攻丝机案例(包含伺服接线图) 该程序为plc控制伺服电机的工程案例包含伺服电机接线图,包含程序流程的详细解释说明 程序包括伺服电机的启动,停止,原点定位,回归原点,位置控制以及方向控制包括了所有…...