当前位置：首页 > news >正文

视觉SLAM：一直在入门，如何能精通，CV领域的绝境长城，

news 2026/2/11 1:56:06

前言

福利：文末有chat-gpt纯分享，无魔法，无限制

1 什么是SLAM？

2 为什么用SLAM？

3 视觉SLAM怎么实现？

4 前端视觉里程计

5 后端优化

6 回环检测

7 地图构建

8 结语

前言

上周的组会上，我给研一的萌新们讲解什么是SLAM，为了能让他们在没有任何基础的情况下大致听懂，PPT只能多图少字没公式，这里我就把上周的组会汇报总结一下。

福利：文末有chat-gpt纯分享，无魔法，无限制

这次汇报的题目我定为“视觉SLAM：一直在入门，从未能精通”，那是因为视觉SLAM真的是博大精深，就像C++一样，连说入门都底气不足，只能说了解，更不敢说精通。

从五月份开始学《视觉SLAM十四讲》算起，我已经正式接触SLAM四个多月了，到现在还是很懵懂的，当然也有可能是自己的吸收能力还不够强吧！

下面就以我这段时间的积累斗胆简单谈谈对视觉SLAM的认识，如有不当，还请指教。

1 什么是SLAM？

SLAM的英文全名叫做Simultaneous Localization and Mapping，中文名是同时定位与建图，从字面上来看就是同时解决定位和地图构建问题。

定位主要是解决“在什么地方”的问题，比如你目前在哪国哪省哪市哪区哪路哪栋几号几楼哪个房间哪个角落。

建图主要是解决“周围环境是什么样”的问题，你可以回忆一下百度高德地图，甚至一些景点的手绘地图。

下面就以扫地机器人作为例子再稍微详细地讲解一下。

对于扫地机器人来说，定位就是要知道自己在房间里的具体位置，建图就是知道整个房间的地面结构信息，而有了这些信息才能做路径规划，以最短的距离到达目的地。

下面右图就是扫地机器人在家里移动时的定位和建图，蓝点是它自己目前所在的位置，它已经把房间能抵达的地方都构建出来了。

总的来说，机器人从未知环境未知地点出发，通过传感器（这里主要说的是相机）观测环境获取信息，利用相机的信息估算机器人的位置、姿态和运动轨迹，并且根据位姿构建地图，从而实现同时定位和建图。

利用不同的传感器实现SLAM的方法不同，目前主流的传感器有激光雷达（LiDAR SLAM）、相机（Visual SLAM）和惯性测量单元（Visual-inertial SLAM）。

接下来我们介绍的是视觉SLAM的方法，也就是只采用相机作为传感器的SLAM。

当然，用相机作为传感器的话，还是有不同的方法，因为相机也有不同的种类，常见的有单目相机、双目相机和RGB-D相机。

2 为什么用SLAM？

可能你会有疑问了，为什么不用GPS定位？为什么不用现成的地图？下面就来一一解答。

对于定位来说，我要反问一下，没有GPS怎么破？比如在一些建筑物内、隧道或者偏远地方，我们是无法获取GPS的。这种情况下机器人或者无人车是不是得自己定位了。

再者，GPS的定位精度不够高，最多也就达到几米的精度，要是在室内定位的话，一套房就这么巴掌大的地方，几米的误差也许就让你的扫地机器人误以为是在你邻居家打扫了。。

对于建图来说，我还是要反问一下，没有现成地图怎么破？比如你的家、公司或者工厂，我们很难直接拿到现成的地图，家家户户的图纸数据量得多大，而且每一户装修也不一样，家私的摆放位置更是无从得知。

而且，不同场景需求下的地图也是不一样的，后面我们会提到有各式各样的地图，不存在解决各种问题的地图。

所以，在没有GPS和现成地图的场景下，同时考虑到定位的精度和地图的需求，SLAM对于机器人来说简直是雪中送炭。

3 视觉SLAM怎么实现？

下面就用高博《视觉SLAM十四讲》里的框图来讲解视觉SLAM大致是怎么实现的。

首先通过传感器（这里利用的是相机）获取环境中的数据信息，也就是一帧一帧的图像，在前端视觉里程计中通过这些图像信息计算出相机的位置（准确来说是位姿，后面会细说）。

同时进行闭环检测，判断机器人是否到达先前经过的地方。然后利用后端非线性优化，对前端得出的相机位姿进行优化，得到全局最优的状态。

最后根据每一时刻的相机位姿和空间中目标的信息，根据需求建立相应的地图。

接下来就来详细说说其中每一个模块都是怎么操作的。

4 前端视觉里程计

视觉里程计的英文名称是Visual Odometry，简称VO，主要是研究怎么通过相邻两帧图像计算两帧之间相机的运动。

这里面涉及了不少知识，其中包括图像处理中的特征提取和特征匹配、三维视觉中的刚体运动和对极几何、数学中的李群李代数等等。。

不要慌！天空飘来五个字，那都不是事！

在视觉SLAM中，主流的方法根据前端的不同分为特征点法和直接法，下面介绍的是利用特征点法的视觉SLAM。

你瞅瞅，下面的两帧图像之间相机进行了怎样的运动？

对于我们人眼直观判断来说，从前一张图像到后一张图像应该是往右上的方向稍微旋转了一下。

但是，对于机器人来说它可没那么“直观”。

首先它要对这两张图像进行特征提取，也就是找到图像中特别的地方，比如角点、边缘点等。然后，对这些特征点在两张图像之间进行特征匹配。

把匹配对中误匹配的筛选掉之后，就能得到较为准确的匹配了，如下图。

有了这些匹配点对之后，就能利用它们疯狂计算相机的位姿了。对了，这里得讲讲位姿究竟是什么东西？

位姿其实就是位置和姿态的合称，位置也就是在三维空间中的坐标(x,y,z)，而姿态是在三维空间中的旋转(r,p,y)，因此位姿总共包含6个自由度。

还没理解？来做做头部健康运动就明白了，左右歪头，上下点头，左右摇头。怎么样，既能预防颈椎病，还能理解三维旋转。

左右歪头是滚转角roll，上下点头是俯仰角pitch，左右摇头则是偏航角yaw。

既然要表示坐标，那我们总得知道坐标系是什么吧？在相机运动过程中，有四个常见的坐标系需要我们了解。

分别是世界坐标系、相机坐标系、归一化坐标系还有像素坐标系。下面这张图让人一目了然。

世界坐标系比较好理解，就是我们身处的整个三维空间的坐标系，坐标原点由我们自己定，可以是某一张桌子的边角，也可以是相机第一时刻的位置。

相机坐标系是以相机光心为坐标原点，光轴为z轴的坐标系。

归一化坐标系就是原点在相机坐标系下(0,0,1)处的二维平面坐标系。

像素坐标系是以图像左上角的像素为原点，以一个像素为最小单元的离散坐标系。

既然有不同的坐标，当知道点在一个坐标系下的坐标时，如何求得该点在其他坐标系下的坐标呢？

举个栗子，我们能获取到的是图像的像素信息，通过转换（相机投影模型）之后能得到该像素（特征点）在相机坐标系中的坐标位置。

但是在构建地图的时候我们得知道这个像素（特征点）在整个三维空间中的哪个位置呀，也就是相机坐标系中的坐标怎么转化到世界坐标系下。

这就涉及到了三维空间刚体运动中坐标系的变换。直接上图就晓得了。

上图展示的是世界坐标系转化为相机坐标系的过程，当然方法都是一样的。

这里献上整篇文章唯一的一条数学公式：

pc是点p在相机坐标系下的坐标，pw是世界坐标，Rcw是描述从世界坐标系转化为相机坐标系旋转的旋转矩阵，tcw是描述从世界坐标系转化相机坐标系平移的平移向量。

可以看出，坐标系的转换我们可以用一个旋转矩阵R(3*3)来表示旋转，也就是决定姿态，还有一个平移向量t(3*1)来表示平移，也就是决定位置。

相机的位姿其实就是指相机在世界坐标系下的位置坐标和旋转姿态，位姿估计就是根据两帧之间匹配点的关系计算当前时刻相机的位姿。

假如我们将第一帧时刻的相机作为世界坐标系原点，那么通过第1、2帧图像的匹配点就可以计算从第2帧相机坐标系到第1帧相机坐标系（世界坐标系）的旋转矩阵R12和平移向量t12。

然后再通过第2、3帧图像的匹配点计算R23和t23，利用和R12相乘再加上t12就能求得第3帧时刻相机在世界坐标系下的位姿。依此类推。。。

当然，根据不同情况可以用不同的方法求R和t：

2D-2D：对极约束，在单目相机中，我们只能获取二维图像，利用两帧图像的匹配点关系通过对极几何的关系可以求出一个叫本质矩阵E的东西，再求得R和t。

3D-3D：ICP（迭代最近法），在双目和RGB-D相机中，我们可以直接获取图像的深度信息，也就是说特征点在相机坐标系下的z我们是知道的，这时候其实就相当于直接求两个相机坐标系的转换R和t。

3D-2D：PnP，当我们知道一组点在世界坐标系下的坐标和它们在相机中的投影位置时，可以利用这种方法直接求得当前时刻的相机位姿。

5 后端优化

视觉里程计讲得很多了，但是从视觉里程计中计算得到的相机位姿会有一定的误差，一次两次还好，一旦多了累积误差可是很严重的。

这时就需要后端对前端的结果进行优化，从而得到最优的位姿。

和前端分为两种主流方法一样，后端也有两种解决方法：

滤波器方法，以扩展卡尔曼滤波（EKF）为代表，认为某一时刻的状态只和上一时刻的状态有关。

非线性优化方法，以高斯牛顿法和列文伯格-马夸尔特法为代表，认为某一时刻的状态和之前所有状态有关。

我们主要用的是非线性优化方法，对相机位姿和路标点构建最小二乘问题，并利用图优化的方法求解，也就是常说的Bundle Adjustment。

当然，因为BA处理的数据量很大，在整个SLAM过程中还会采取别的方法控制优化的数据，比如滑动窗口法。

简单地说，就是在保持处理的帧数不变的情况下，将旧的数据删除，加入新的数据。

假设每次只优化10帧，那么当接收到第11帧图像时，移除第1帧图像的数据，并将第11帧图像加入优化问题中。

6 回环检测

回环检测（Loop Closure）是一个挺特殊的模块，主要让机器人能识别出曾经去过的地方。

随着时间推进，SLAM的误差会不断地累积，时间久了后，使得轨迹出现严重的漂移。

如果有了回环检测，机器人就会检测到自己曾经到过这个地方，利用这个信息和历史数据比对，从而修正累积误差，得到全局一致的状态估计。

为什么说回环检测挺特殊的呢？因为这个模块乍一看还挺像机器学习甚至是目前深度神经网络应用的领域。

判断“两张图像是否为同一个地方”会出现4种结果：

事实是，机器人判断为是；

事实是，机器人判断为否；

事实否，机器人判断为是；

事实否，机器人判断为否。

最好的结果当然是第1种和第4种，因为机器人的判断和事实符合，可现实总是不完美的。

而衡量回环检测效果的指标也有两种——准确率（Precision）和召回率（Recall）。

用西瓜书里的话解释，准确率关心的是“挑出的西瓜中有多少比例是好瓜”，召回率关心的是“所有好瓜中有多少比例被挑了出来”。

西瓜书都搬出来了，这还不是机器学习问题吗？

当然，在SLAM中还是更注重召回率的，希望更多“现实是回环”被机器人“判断为回环”。

传统主流的视觉SLAM中回环检测采用的是词袋模型，当然按照目前深度学习的势头来说，也不妨试试神经网络，但是实时性就得另当别论了。

而且，回环检测还可以用来进行重定位，解决跟踪失败的问题，保证在跟踪失败的情况下可以快速重新得到当前的精确位姿。

7 地图构建

最后一个模块是地图构建，前面也说过了，我们根据不同的传感器类型和应用需求可以建立不同的地图。

还是用高博《视觉SLAM十四讲》中的图，简洁明了地说明了不同应用场景对应不同类型的地图。

如果只是单纯的定位，只需要知道机器人在什么位置即可，这时候稀疏路标地图就足够了。

在导航、避障的情况下，机器人必须知道什么地方可以走而什么地方不能走，这才能规划出运动路径。于是就需要稠密地图，稀疏路标点的地图压根就不能判断那是什么东西。

重建也很明了，既然是重建，那就得是带有轮廓纹理等详细信息的稠密地图了。

如果是人机交互的话呢，机器人得知道什么是桌子、杯子在哪里等语义信息，这时候光是知道物体什么模样可不行了，得上语义地图才是。

我们在做导航时，有一种常用的地图，那就是八叉树地图（Octomap）。

它是把三维空间分为许多方块，方块再分为八个同样大小的小方块，小方块再继续往下分。。整个三维空间就用八叉树数据结构来表示。

当方块中所有子方块都被占据或者都没被占据的时候，这个方块或者说八叉树中的这个节点就没必要往下展开了。

相对与点云地图来说，这样会大大减少了地图的存储空间！下面就是一张八叉树地图。

8 结语

近两年，SLAM有要火的趋势，但是这也不妨碍它毫不平易近人的特质。

如果要说这四个多月以来接触视觉SLAM什么感受的话，吾之拙见实难表达其万一，所以还是用三张图结束此文吧。

入门前：

入门中：

入门后：

当然，这是开个小玩笑。最后，愿大家头发浓密，欢迎入坑！

充电君会在第一时间给你带来最新、最全面的解读，别忘了三联一波哦

关注公众号：资源充电吧
回复:Chat GPT
充电君发你：免费畅享使用中文版哦
点击小卡片关注下，回复：IT

想要的资料全都有

视觉SLAM：一直在入门，如何能精通，CV领域的绝境长城，

目录前言福利：文末有chat-gpt纯分享，无魔法，无限制 1 什么是SLAM？ 2 为什么用SLAM？ 3 视觉SLAM怎么实现？ 4 前端视觉里程计 5 后端优化 6 回环检测 7 地图构建 8 结语前言上周的组会上&…...

编程日记 2023/8/22 20:30:00

【报错】yarn --version Unrecognized option: --version Error...

文章目录问题分析解决问题在使用 npm install -g yarn 全局安装 yarn 后，查看yarn 的版本号，报错如下 PS D:\global-data-display> yarn --version Unrecognized option: --version Error: Could...

编程日记 2023/8/22 20:28:59

二叉搜索树的(查找、插入、删除)

一、二叉搜索树的概念二叉搜索树又称二叉排序树，它或者是一棵空树，或者是具有以下性质的二叉树: 1、若它的左子树不为空，则左子树上所有节点的值都小于根节点的值； 2、若它的右子树不为空，则右子树上所有节点的值都…...

编程日记 2023/8/22 20:27:57

电力虚拟仿真 | 高压电气试验VR教学系统

在科技进步的推动下，我们的教育方式也在发生着翻天覆地的变化。其中，虚拟现实（VR）技术的出现，为我们提供了一种全新的、富有沉浸感的学习和培训方式。特别是在电力行业领域，例如，电力系统的维护…...

编程日记 2023/8/22 20:26:56

innovus如何设置size only

我正在「拾陆楼」和朋友们讨论有趣的话题，你⼀起来吧？ 拾陆楼知识星球入口给instance设置size only属性命令如下: dbset [dbGet top.inst.name aa/bb -p] .dontTouch sizeOk 给一个module设置size only需要foreach循环一下: foreach inst [dbGet top.…...

编程日记 2023/8/22 20:25:54

Java之继承详解二

3.7 方法重写 3.7.1 概念方法重写 ：子类中出现与父类一模一样的方法时（返回值类型，方法名和参数列表都相同），会出现覆盖效果，也称为重写或者复写。声明不变，重新实现。 3.7.2 使用场景与案例…...

编程日记 2023/8/22 20:24:53

国内常见的几款可视化Web组态软件

组态软件是一种用于控制和监控各种设备的软件，也是指在自动控制系统监控层一级的软件平台和开发环境。这类软件实际上也是一种通过灵活的组态方式，为用户提供快速构建工业自动控制系统监控功能的、通用层次的软件工具。通常用于工业控制，自动…...

编程日记 2023/8/22 20:23:53

通过 git上传到 gitee 仓库

介绍 Git是目前世界上最先进的分布式版本控制系统，有这么几个特点： 分布式 ：是用来保存工程源代码历史状态的命令行工具。保存点 ：保存点可以追溯源码中的文件，并能得到某个时间点上的整个工程项目额状态；…...

编程日记 2023/8/22 20:22:52

设置Windows主机的浏览器为wls2的默认浏览器

1. 准备工作 wsl是可以使用Windows主机上安装的exe程序，出于安全考虑，默认情况下改功能是无法使用。要使用的话，终端需要以管理员权限启动。我这里以Windows Terminal为例，介绍如何默认使用管理员权限打开终端，具体…...

编程日记 2023/8/22 20:21:50

森林生物量（蓄积量）估算全流程

python森林生物量（蓄积量）估算全流程一.哨兵2号获取/去云处理/提取参数1.1 影像处理与下载1.2 导入2A级产品1.3导入我们在第1步生成的云掩膜文件1.4.SNAP掩膜操作1.5采用gdal计算各类植被指数1.6 纹理特征参数提取二.哨兵1号获取/处理/提取数据2.1 纹理…...

编程日记 2023/8/22 20:20:49

MySQL数据库概述

MySQL数据库概述 1 SQL SQL语句大小写不敏感。 SQL语句末尾应该使用分号结束。 1.1 SQL语句及相关操作示例 DDL：数据定义语言，负责数据库定义、数据库对象定义，由CREATE、ALTER与DROP三个语法所组成DML：数据操作语言&#xff…...

编程日记 2023/8/22 20:19:48

2023年国赛数学建模思路 - 案例：退火算法

文章目录 1 退火算法原理1.1 物理背景1.2 背后的数学模型 2 退火算法实现2.1 算法流程2.2算法实现建模资料 ## 0 赛题思路 （赛题出来以后第一时间在CSDN分享） https://blog.csdn.net/dc_sinor?typeblog 1 退火算法原理 1.1 物理背景在热力学上&a…...

编程日记 2023/8/22 20:18:47

怎么借助ChatGPT处理数据结构的问题

目录使用ChatGPT进行数据格式化转换代码示例 ChatGPT格式化数据提示语代码示例批量格式化数据提示语代码示例 ChatGPT生成的格式化批处理代码使用ChatGPT合并不同数据源的数据合并数据提示语自动合并数据提示语 ChatGPT生成的自动合并代码结论数据合并是…...

编程日记 2023/8/22 20:17:45

Docker容器无法启动 Cannot find /usr/local/tomcat/bin/setclasspath.sh

报错信息如下解决办法权限不够加上--privileged 获取最大权限 docker run --privileged --name lenglianerqi -p 9266:8080 -v /opt/docker/lenglianerqi/webapps:/usr/local/tomcat/webapps/ -v /opt/docker/lenglianerqi/webapps/userfile:/usr/local/tomcat/webapps/u…...

编程日记 2023/8/22 20:16:44

Pytorch-day08-模型进阶训练技巧-checkpoint

PyTorch 模型进阶训练技巧自定义损失函数动态调整学习率典型案例：loss上下震荡 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BndMyRX0-1692613806232)(attachment:image-2.png)] 1、自定义损失函数 1、PyTorch已经提供了很多常用…...

编程日记 2023/8/22 20:15:41

【ArcGIS Pro二次开发】(61)：样式(Style)和符号(Symbol)

在 ArcGIS Pro SDK 中，地图要素符号（Symbol）和符号样式（Style）是2个很重要的概念。【Symbol】是用于表示地图上不同类型的要素（如点、线、面）的图形化表示。在地图中，各种要素都…...

编程日记 2023/8/22 20:14:40

深入理解 HTTP/2：提升 Web 性能的秘密

HTTP/2 是一项重大的网络协议升级，旨在提升 Web 页面加载速度和性能。在这篇博客中，我们将深入探讨 HTTP/2 的核心概念以及如何使用它来加速网站。什么是 HTTP/2？ HTTP/2 是 HTTP 协议的下一个版本，旨在解决 HTTP/1.1 中的性能…...

编程日记 2023/8/22 20:13:39

800V高压电驱动系统架构分析

需要电驱竞品样件请联：shbinzer （拆车邦） 过去一年是新能源汽车市场爆发的一年，据中汽协数据，2021年新能源汽车销售352万辆，同比大幅增长157.5%。新能源汽车技术发展迅速，畅销车辆在动力性能…...

编程日记 2023/8/22 20:12:38

Camunda_3：主动撤回

貌似国际主流认知工作流通常不支持撤回/驳回，流程只能向前进行。而撤回/驳回算是一种中国特色吧。因此Camunda对于流程修改也仅仅提供了runtimeService.createProcessInstanceModification(instanceId)来修改流程。对于撤回/驳回这种操作得自己想办法。通常的撤回/…...

编程日记 2023/8/22 20:11:36

ClickHouse（二十三）：Java Spark读写ClickHouse API

进入正文前，感谢宝子们订阅专题、点赞、评论、收藏！关注IT贫道，获取高质量博客内容！ 🏡个人主页：含各种IT体系技术，IT贫道_Apache Doris,大数据OLAP体系技术栈,Kerberos安全认证-CSDN博客 &…...

编程日记 2023/8/22 20:10:33

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中，用户注册、登录、修改密码等操作，都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输，在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

编程新知 2025/11/28 6:00:25

【Go】3、Go语言进阶与依赖管理

前言本系列文章参考自稀土掘金上的【字节内部课】公开课，做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程，它的核心机制是 Goroutine 协程、Channel 通道，并基于CSP（Communicating Sequential Processes&#xff0…...

编程新知 2025/10/7 0:32:40

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

在大数据处理领域，Hive 作为 Hadoop 生态中重要的数据仓库工具，其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式，很多开发者常常陷入选择困境。本文将从底…...

编程新知 2025/12/6 10:54:35

【生成模型】视频生成论文调研

工作清单上游应用方向：控制、速度、时长、高动态、多主体驱动类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

编程新知 2025/9/9 8:40:47

解读《网络安全法》最新修订，把握网络安全新趋势

《网络安全法》自2017年施行以来，在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂，网络攻击、数据泄露等事件频发，现行法律已难以完全适应新的风险挑战。 2025年3月28日，国家网信办会同相关部门起草了《网络安全…...

编程新知 2026/1/31 4:40:38

spring Security对RBAC及其ABAC的支持使用

RBAC (基于角色的访问控制) RBAC (Role-Based Access Control) 是 Spring Security 中最常用的权限模型，它将权限分配给角色，再将角色分配给用户。 RBAC 核心实现 1. 数据库设计 users roles permissions ------- ------…...

编程新知 2026/2/6 14:22:43

Visual Studio Code 扩展

Visual Studio Code 扩展 change-case 大小写转换EmmyLua for VSCode 调试插件Bookmarks 书签 change-case 大小写转换 https://marketplace.visualstudio.com/items?itemNamewmaurer.change-case 选中单词后，命令 changeCase.commands 可预览转换效果 EmmyLua…...

编程新知 2026/1/21 17:44:45