当前位置：首页 > news >正文

Transformer 立体视觉 Depth Estimation

news 2026/2/9 20:06:56

1. Intro

立体深度估计具有重要的意义，因为它能够重建三维信息。为此，在左右相机图像之间匹配相应的像素;对应像素位置的差异，即视差，可以用来推断深度并重建3D场景。最近基于深度学习的立体深度估计方法已经显示出有希望的结果，但仍然存在一些挑战。

其中一个挑战涉及使用有限的视差范围。理论上，视差值的范围可以从0到图像宽度，这取决于相机的分辨率/基线以及它们与物理对象的接近程度。然而，许多性能最好的方法都被限制在手动预先指定的视差范围内(通常最大值为192像素)[21]。这些方法依赖于“成本量”，其中计算多个候选匹配的匹配成本，并计算最终预测的差异值作为总和。这种自我施加的视差范围是必要的，以使这些方法的内存可行的实现，但不是灵活的物理场景和/或相机设置的属性。在自动驾驶和内窥镜干预等应用中，无论相机设置如何(视差值可能大于192)，识别近距离物体以避免碰撞是很重要的，这表明需要放宽固定视差范围假设。

几何属性和约束，如遮挡和匹配唯一性，导致了非学习方法的成功，如[18]，也经常在基于学习的方法中缺失。对于立体深度估计，遮挡区域没有有效的视差。先前的算法通常通过分段平滑假设来推断被遮挡区域的差异，这可能并不总是有效的。提供置信度估计和视差值将有利于下游分析，例如配准或场景理解算法，以便对遮挡和低置信度估计进行加权或拒绝。然而，大多数先前的方法不提供这样的信息。此外，一幅图像中的像素不应该与另一幅图像中的多个像素匹配(直到图像分辨率)，因为它们对应于物理场景中的相同位置[28]。虽然这个约束对于解决歧义非常有用，但是大多数现有的基于学习的方法并没有强加它。

上述问题在很大程度上源于当代立体匹配观的缺陷，即试图构建一个成本体。从沿极线序列对序列匹配的角度考虑视差估计的方法可以避免这些挑战。这些方法并不新鲜࿰

Transformer 立体视觉 Depth Estimation

相关文章：

Transformer 立体视觉 Depth Estimation

vue去掉所有输入框两边空格，封装指令去空格，支持Vue2和Vue3，ElementUI Input去空格

认识FFMPEG框架

Vue3 大屏数字滚动效果

【深度学习注意力机制系列】—— SENet注意力机制（附pytorch实现）

go 函数

python之正则表达式

【LeetCode每日一题】——219.存在重复元素II

篇六：适配器模式：让不兼容变兼容

【云原生】Docker-compose中所有模块学习

广义积分练习

element-ui树形表格，左边勾选，右边显示选中的数据-功能（如动图）

Android数字价格变化的动画效果的简单实现

Win10无法投影关闭3D模式

FFmpeg 编码详细流程

05如何做微服务架构设计

安卓开发问题记录：需要常量表达式

回归预测 | MATLAB实现基于SVM-RFE-BP支持向量机递归特征消除特征选择算法结合BP神经网络的多输入单输出回归预测

配置root账户ssh免密登录并使用docker-machine构建docker服务

【力扣周赛】第357场周赛

浏览器访问 AWS ECS 上部署的 Docker 容器（监听 80 端口）

dedecms 织梦自定义表单留言增加ajax验证码功能

Android15默认授权浮窗权限

多模态大语言模型arxiv论文略读（108）

2025季度云服务器排行榜

在Ubuntu24上采用Wine打开SourceInsight

pgsql：还原数据库后出现重复序列导致“more than one owned sequence found“报错问题的解决

客户案例 | 短视频点播企业海外视频加速与成本优化：MediaPackage+Cloudfront 技术重构实践

当下AI智能硬件方案浅谈

Element-Plus：popconfirm与tooltip一起使用不生效？