当前位置：首页 > news >正文

机器视觉【3】非线性求解相机几何参数

news 2026/2/10 6:51:22

线性求解相机几何参数的缺点

上一章节介绍学习了（DLT）线性求解相机几何参数，了解到线性求解法当中比较明显的缺点：

没有考虑到镜头畸变的影响
不能引入更多的约束条件融入到DLT算法当中优化
最关键的是，代数距离并不是计算相机矩阵的最佳距离函数

基于以上问题点，提出非线性求解方法。

将包括镜头畸变参数、内外参矩阵等所有信息都当做待求解
定义一个比代数距离更好的距离函数
通过迭代的非线性最优化算法，最优化上述距离函数，从而得到待求解

在《计算机视觉中的多视角几何》的第7.2节中，用一个插图来说明了线性求解出来的代数距离的几何意义。可以看见，代数距离实际上优化的是已知的3D点X和2D点Xi的反投影点Xi'之间的距离。这并不是一个最优的距离函数。

下面我们来看看几何距离，这里假设3D点的位置是准确的（比如我们有一个制作得非常精确的标定板），如下图所示。那么几何距离就是3D点Xi通过投影矩阵投影的2D点xi'和实际成像的2D点xi之间的距离（下图中的红线段）

用公式表达式如下所示，整个优化过程就变成了最小化这个距离的过程，如(2)式

结合之前在相机的成像(畸变)模型中的数学模型，式子(2)又可以演变为如下的式子(3)

为了执行这个最优化的过程，需要给相机矩阵及畸变参数初始值。其中P的初始值可以用第一节所讲述的DLT算法得到。而畸变参数的初值可以先设置为0。

张正友标定法的实现和完整的过程

在相机几何标定的各种算法中，最出名的无疑是张正友博士发明的“张氏标定法”，这个算法在整个业界得到了广泛的应用，它最大的特点就是灵活、鲁棒、低成本。整个标定过程只需要用相机在不同的方向拍摄平面标定板（最少两次），而它实际上的核心思想就是我上面描述的非线性优化求解方法。

在Matlab和OpenCV中都有张氏标定法的实现，具体使用时先准备好一个足够平整的棋盘格标定板，然后通过不同的方向对标定板进行拍摄，然后进行计算。不需要提前知道相机和标定板之间的具体位姿关系，每次拍摄时的相机和标定板的位姿变换也是独立的，整个使用过程非常友好。

在Matlab中，把上面这些图像输入算法，算法会自动检测出棋盘格角点，并利用前面说的方法优化出各项参数，如果某幅图的平均投影误差超出了用户设置的阈值，还可以方便的过滤掉这幅图来重新进行优化计算。甚至还可以可视化每次拍摄时相机和标定板的位姿，非常方便。

下面简单介绍张正友标定法的关键知识要点。

要点1：引入新的约束条件，从而可以采用平面标定板替代立体标定板

之前讲过标定板需要是立体的，否则无法唯一确定相机矩阵。然而，立体的标定板是较难去制作的，张氏标定法追求的是低成本的标定方式，因此采用了多次拍摄平面标定板的方式来执行标定。而正因为是多次拍摄，所以每次拍摄时相机矩阵都是变化的，之前讲解的约束条件不再适用：

因此，张氏标定法重新寻求了新的约束条件，用于对内参矩阵进行约束，进而进行求解。作者观察到平面板上的点和对应的像点之间可以用一个单应矩阵H关联在一起，而且只要平面板上的角点足够多（单应矩阵有8个自由度，一对点提供2个约束，所以理论上超过4个即可），就可以求出这个单应矩阵，求解方法类似于上一节所介绍的DLT方法；或者之前学习过的几何变换模型中的透视模型，利用最小二乘法求解。

接下重点：作者将单应矩阵表达为H，并观察到内参矩阵K和单应矩阵之间存在着一对约束关系。

怎么理解上面的两个等式？回想机器视觉【1】相机的成像(畸变)模型整合：世界坐标系→像素坐标系的知识点

这里的λ只是1/s的另一种表示，只是换了一种写法

这里有人会不理解，r1=和r2=是怎么来的？其实自己可以推导一下，把A设成[3X3]的矩阵，乘进去，应该能够看到，组成了[Ar1 Ar2 Ar3]，它们互相还是独立的。至于为什么A到A逆，这个是线性代数最基本的转换，左右同时左乘A逆，就变过来了。

这里的A其实就是内参矩阵K，上面两个式子其实不难证明 (以下 A' 为矩阵A的逆即上图示的A-1)

由前置知识：A'H = A' · λ · A · [r1 r2 t] = [r1 r2 t]，λ是常数可暂时忽略

根据线性代数基本规律：(AB)T = BT · AT 即矩阵A和B相乘之后的转置等于B的转置乘A的转置

那么：(h1)T * (A)−T * (A)−1 * h2 = r1T * r2 = 0

第一个公式证得r1和r2是正交的关系。

对第二个式子左右两边进行上述变换，得 r1T * r1 = r2T * r2，由此可知 r1和r2是单位正交。

最后，我们把上述的两个式子中间 (K)-T*(K)-1的部分记作B，其余h部分利用线性基础变换写出另外一部分。即如下表示

这样，我们又可以用SVD奇异值分解的方式，求得b，进而求得K的各个元素。当求得了K之后，就很容易得到这一次拍摄时的外参信息（旋转R和平移t）了。上面讲的方法用于初始化内参矩阵K和每次拍摄的外参R和t，我们假设一共进行n次拍摄，每次拍摄可以获得m个成像点，那么就可以利用非线性最优化方法，来最优化待解参数了。具体表达式如下：

要点2：在多次拍摄时，需要改变标定板的方向

在张博士的论文中详述了如果两次拍摄时的标定板是平行的，那么实际上并没有提供额外的信息，也因此无法求解出需要的参数。

要点3：最少需要拍摄几幅图？

前面讲到，每一幅拍摄的标定板图像提供了2个对内参矩阵K的约束，而我们内参矩阵K一共有5个未知参数，所以理论上至少需要拍摄3幅图像，才能求得K：

如果我们认为s=0，即传感器像素是规整方形的，那么内参矩阵就只有4个未知参数了，这样就只需要拍摄两幅图像就能进行标定了。

前面讲过，这样的约束关系是为了求得比较好初始化内参矩阵K的。如果你能够事先知道K中元素的大概值，比如你认为s=0，主点位于图像的中心，而焦距又是已知的，那么理论上你只需要拍摄一幅平面的标定板一次，就可以通过非线性最小二乘法标定出相机的内外参数。

Reference：

张正友相机标定全解析_定焦相机张正友标定法怎么用-CSDN博客

相机标定（具体过程详解）张正友、单应矩阵、B、R、T_已知内参数下标定r、t-CSDN博客

总结

前文和本文中讲解了相机标定的两大类方法：线性求解方法，以及非线性求解方法。

不管是哪种方法，我都提到了数据归一化的重要性，因为在求解过程中的矩阵元素如果不经过归一化，值差异较大，很容易放大数值误差，需要特别注意这点。经过相机的标定，我们就可以获得了包括畸变参数在内的相机内参，以及每次拍摄时的外参。

博主我的自述：

说实话，之前是知道这一块比较复杂，但没想过是这么复杂。现实接触的情况都是用现成的库或者软件工具一键处理，这次花力气去理解算是 "拨开云雾见天日，守得云开见月明"，新的一年祝大家工作顺利，万事如意，大家加油！

机器视觉【3】非线性求解相机几何参数

线性求解相机几何参数的缺点

张正友标定法的实现和完整的过程

要点1：引入新的约束条件，从而可以采用平面标定板替代立体标定板

要点2：在多次拍摄时，需要改变标定板的方向

要点3：最少需要拍摄几幅图？

总结

相关文章：

机器视觉【3】非线性求解相机几何参数

Qt编译报错：The slot requires more arguments than the signal provides.

【Unity】提示No valid Unity Editor liscense found.Please active your liscense.

如何在 Tomcat 中为 Web 应用程序启用和配置缓存？

QEMU开发入门

10-pytorch-完整模型训练

高级RAG：重新排名，从原理到实现的两种主流方法

使用logicflow流程图实例

Stable Diffusion 绘画入门教程（webui）-ControlNet(IP2P）

五力分析（Porter‘s Five Forces）

十一、Qt数据库操作

【Spring】IoC容器控制反转与 DI依赖注入 XML实现版本第二期

神经网络系列---感知机(Neuron)

k8s（2）

利用nginx内部访问特性实现静态资源授权访问

fly-barrage 前端弹幕库（1）：项目介绍

jetcache如果一个主体涉及多个缓存时编辑或者删除时如何同时失效多个缓存

uni-app 实现拍照后给照片加水印功能

【ArcGIS】利用DEM进行水文分析：流向/流量等

论文阅读笔记——PathAFL：Path-Coverage Assisted Fuzzing

C++实现分布式网络通信框架RPC(3)--rpc调用端

《基于Apache Flink的流处理》笔记

数据库分批入库

网络编程（UDP编程）

如何在网页里填写 PDF 表格？

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

鸿蒙（HarmonyOS5）实现跳一跳小游戏

数据结构：泰勒展开式：霍纳法则（Horner‘s Rule）

CMS内容管理系统的设计与实现：多站点模式的实现

使用homeassistant 插件将tasmota 接入到米家