当前位置：首页 > news >正文

单目深度估计之图像重构原理解析

news 2026/2/9 17:59:02

一、参考资料

浅析自监督深度估计中的光度损失(Photometric Loss)

二、图像重构原理

设输入位姿估计网络的3帧连续单目序列为 $I_{t-1},I_{t},I_{t+1}>$ ，其中 $t$ 为时间索引， $t > 0$ 。 $I_{t}$ 是目标帧，而其余2帧是源视图 $I_{s}=<I_{t-1},I_{t+1}>$ 。假设 $p_{t}$ 为目标图像 $I_{t}$ 上某像素的齐次坐标， $p_t=[u_t\quad\nu_t\quad1]^T$ 。结合深度图像 ${D}_t$ 和相机位姿变换矩阵 $T_{t\to s}$ ，可以将该像素还原为三维空间点，同时计算出在源图像时刻的相机坐标系下，该空间点的齐次坐标 $p_{sc}$ ：
$p_{sc}=\begin{bmatrix}x_{sc}\\y_{sc}\\z_{sc}\\1\end{bmatrix}=T_{t\to s}D_t(p_t)K^{-1}p_t$
然后将该点投影回二维平面，得到该像素在源图像 $I_s$ 上的齐次坐标 $p_s$ ：
$p_s=\begin{bmatrix}u_s\\v_s\\1\end{bmatrix}=\frac{1}{z_{sc}}Kp_{sc}$
根据上述两个公式，可以建立 $I_t$ 的像素 $p_t$ 与 $I_s$ 的像素 $p_s$ 的转换关系：
$p_{s}\sim KT_{t\to s}D_{t}\left(p_{t}\right.)K^{-1}p_{t}$

$p_{t}$ 和 $p_s$ 间的差异来源于相机自身的运动，因此可得刚体运动光流 $F_{t\rightarrow s}^r$ ：
$F_{t\to s}^r(p_t)=\begin{bmatrix}\Delta u\\\Delta v\end{bmatrix}=\begin{bmatrix}u_s-u_t\\v_s-v_t\end{bmatrix}$
继而可以基于此光流和源图像 $I_s$ ，重构目标图像 $\hat{I}_t$ ， $\hat{I}_t$ 的像素值均可以从 $I_s$ 中近似：
$\hat{I}_t(p_t)=I_s(p_s)=I_s(p_t+F_{t\to s}^r(p_t))$
重构图像的过程中，坐标 $p_s$ 极有可能是所示的浮点数，此时 $I_s(p_s)$ 需要由最邻近的四个像素近的四个像素 $I_{s}(p_{s}^{lt})、I_{s}(p_{s}^{rt})、I_{s}(p_{s}^{lb})\text{和}I_{s}(p_{s}^{rb})$ 双线性插值[2]求得。
在这里插入图片描述

三、自监督单目深度估计原理

zhou等人[1]提出利用视图合成作为监督信号，通过当前时刻捕获的视图（目标帧），并利用深度、位姿信息作为中间量对图像进行重建，通过网络的不断迭代，最终得到准确的深度和位姿信息。视图合成的原理是通过几何映射，把当前时刻捕获的图像映射到另一相邻时刻的图像对其进行重建。该方法的思路来自于视觉里程计中的直接法。

既然是自监督，那么就意味着输入的图像是没有深度标签的，所以我们就无法利用ground truth这个"标准答案”对输出的深度图进行优化。于是，我们利用联合训练的方法，通过输入相邻帧图像，对相对位姿网络进行训练，从而经过投影变换得到重建帧，以目标帧与重建帧的差值作为训练信号，达到自监督的效果。

几乎所有的自监督任务是利用深度估计和相机姿态估计两个模块联合进行的，如下图所示：
在这里插入图片描述

自监督深度估计的具体流程如下：

将目标帧 $I_t$ 输入深度预测网络 $\Phi_{d}$ ，得到深度图 ${D}_t$ ；
将目标帧 $I_t$ 和源帧 $I_s$ 同时输入相对位姿估计网络 $\Phi_{d}$ ，得到相对位姿矩阵 $T_{t\to s}$ ；
利用 $p_{s}\sim KT_{t\to s}D_{t}\left(p_{t}\right.)K^{-1}p_{t}$ 这样的转换关系，由 $p_t$ 计算出 $p_s$ ；
由于 $p_s$ 不一定为整数，故利用双线性插值算法计算该点的像素值，然后将该点采样到 $\hat{I}_t$ 图像上的对应位置，通过借助投影下采样填充，最终实现利用 $I_s$ 的像素信息重构出来 $\hat{I}_t$ ；
利用 $I_t$ 和 $\hat{I}_t$ 计算图像重构损失。

四、图像重构损失(reprojection loss)

将 $L_1$ 和 $SS I M$ 两者组合作为图像重构损失来计算目标帧 $I_t$ 和重构帧 $\hat{I}_t$ 之间的差异，即：
$\mathcal{L}_p(I_t,\hat{I}_t)=\alpha\frac{(1-\mathrm{SSIM}(\mathrm{I}_t,\hat{\mathrm{I}}_t))}2+(1-\alpha)|I_t-,\hat{I}_t|_1$
此函数由两部分相加而成，前面用于计算结构相似度 $SS I M$ ，后面用于计算光度损失(photometric loss)。很多论文直接把整个函数叫光度损失(Photometric Loss)，严格意义上不那么准确，应该称作图像重构损失(reprojection loss)

五、参考文献

[1]Zhou T, Brown M, Snavely N, et al. Unsupervised learning of depth and ego-motion from video[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1851-1858.
[2]Godard C, Mac Aodha O, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 270-279.

单目深度估计之图像重构原理解析

一、参考资料

二、图像重构原理

三、自监督单目深度估计原理

四、图像重构损失(reprojection loss)

五、参考文献

相关文章：

单目深度估计之图像重构原理解析

【爬虫】charles手机抓包环境设置（设置系统证书）

【flink sql table api】时间属性的指定与使用注意事项

评价模型：CRITIC客观赋权法

两个Tomcat插件配置不同端口，session冲突，同时登录被挤下线问题的解决

Mybatis中执行Sql的执行过程

IEEE Standard for SystemVerilog—Chapter 25.7 Tasks and functions in interfaces

一台服务器最大能支持多少条 TCP 连接

Qt重定向QDebug，Qt/C++开源作品39-日志输出增强版V2022

linux入门---多线程的控制

基于android的 rk3399 同时支持多个USB摄像头

【Qt之控件QTreeView】设置单元格高度、设置图标尺寸

力扣42.接雨水（java，暴力法、前缀和解法）

hdlbits系列verilog解答（移位寄存器）-23

Linux命令记载

Flume 快速入门【概述、安装、拦截器】

【pandas技巧】group by+agg+transform函数

一文解读WordPress网站的各类缓存-老白博客

从零开始：开发直播商城APP的技术指南

GZ035 5G组网与运维赛题第6套

19c补丁后oracle属主变化，导致不能识别磁盘组

树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

LeetCode - 394. 字符串解码

srs linux

vue3+vite项目中使用.env文件环境变量方法

Java面试专项一-准备篇

企业如何增强终端安全？

基于Java+MySQL实现（GUI）客户管理系统

（一）单例模式