双目视觉小记
双目视觉及其数学原理
1. 双目视觉概述
双目视觉(Stereo Vision)是一种模仿人眼视觉系统的计算机视觉技术,利用两台摄像机从不同角度拍摄同一场景,通过图像处理和三维重建来获取场景的深度信息。双目视觉广泛应用于机器人、自动驾驶、医学成像和增强现实等领域。
2. 双目视觉的基本原理
双目视觉的核心思想是视差(Disparity):由于两台摄像机(或人眼)存在一定的间距,观察同一物体时,左右图像上的对应点会出现一定的偏移量,该偏移量与物体距离相关。利用这一特性,我们可以计算物体的深度信息。
关键步骤:
- 相机标定(Calibration): 确定相机的内参(焦距、光心、畸变等)和外参(相机间的相对位置)。
- 图像校正(Rectification): 将左右摄像机拍摄的图像校正到相同的极线几何结构,以简化匹配计算。
- 立体匹配(Stereo Matching): 在左右图像中找到对应点,并计算视差。
- 深度计算(Depth Computation): 由视差计算目标物体的三维深度。
3. 数学原理
3.1 相机模型
摄像机可由**针孔相机模型(Pinhole Camera Model)**描述,其透视投影方程如下:
s [ u v 1 ] = K [ R T ] [ X Y Z 1 ] s\begin{bmatrix} u \\ v \\ 1 \end{bmatrix} = K \begin{bmatrix} R & T \end{bmatrix} \begin{bmatrix} X \\ Y \\ Z \\ 1 \end{bmatrix} s uv1 =K[RT] XYZ1
其中:
-
( X , Y , Z ) (X, Y, Z) (X,Y,Z) 是世界坐标系中的三维点;
-
( u , v ) (u, v) (u,v) 是投影到图像平面的像素坐标;
-
s s s 是尺度因子;
-
K K K 是相机的内参矩阵:
K = [ f x 0 c x 0 f y c y 0 0 1 ] K = \begin{bmatrix} f_x & 0 & c_x \\ 0 & f_y & c_y \\ 0 & 0 & 1 \end{bmatrix} K= fx000fy0cxcy1
其中, f x , f y f_x, f_y fx,fy 是焦距, ( c x , c y ) (c_x, c_y) (cx,cy) 是光心坐标;
-
[ R ∣ T ] [R \ | \ T] [R ∣ T] 是外参矩阵, R R R 是旋转矩阵, T T T 是平移向量。
3.2 极线几何(Epipolar Geometry)
在双目视觉系统中,两台摄像机成像的点满足极线约束(Epipolar Constraint),即:
p ′ T F p = 0 p'^T F p = 0 p′TFp=0
其中:
- p p p 和 p ′ p' p′ 分别是左右相机上的点的齐次坐标;
- F F F 是基础矩阵(Fundamental Matrix),它描述了相机之间的几何关系。
如果相机已经校正,则极线变为水平直线,搜索对应点时只需在水平方向搜索即可,大大简化计算。
3.3 视差计算与深度估计
**视差(Disparity)**定义为:
d = x L − x R d = x_L - x_R d=xL−xR
其中 x L x_L xL 和 x R x_R xR 是物体在左、右相机成像平面上的水平坐标。
根据几何关系,深度 Z Z Z 可由**三角测量法(Triangulation)**计算:
Z = f B d Z = \frac{fB}{d} Z=dfB
其中:
- f f f 是相机焦距;
- B B B 是左右相机的基线距离(Baseline);
- d d d 是视差。
该公式表明:
- 视差 d d d 越大,物体距离 Z Z Z 越近;
- 视差 d d d 越小,物体距离 Z Z Z 越远。
4. 立体匹配(Stereo Matching)
立体匹配的目标是在左右图像中找到对应点,以计算视差。常见的匹配方法包括:
4.1 局部方法(Local Methods)
-
基于块匹配(Block Matching, BM):在一定窗口大小内计算左图像中的块与右图像中各块的相似性,常用SSD(Sum of Squared Differences)或 NCC(Normalized Cross-Correlation)。
-
计算公式:
S S D = ∑ x , y ( I L ( x , y ) − I R ( x − d , y ) ) 2 SSD = \sum_{x,y} (I_L(x, y) - I_R(x - d, y))^2 SSD=x,y∑(IL(x,y)−IR(x−d,y))2
4.2 全局方法(Global Methods)
- 通过能量优化方法(如Graph Cut、Belief Propagation)获得更平滑、精确的视差图。
4.3 深度学习方法
- 近年来,基于深度学习的端到端立体匹配网络(如 PSMNet、GA-Net)可以直接从左右图像预测视差图,精度更高。
5. 双目视觉的应用
- 机器人导航:计算深度信息,帮助机器人避障、自主导航。
- 自动驾驶:车辆检测、障碍物检测、车道保持等。
- 增强现实(AR):深度感知,提高虚实融合效果。
- 医学成像:3D 立体视觉用于手术导航和医学扫描。
- 工业检测:三维重建,用于产品质量检测。
6. 结论
双目视觉是一种重要的计算机视觉技术,其核心数学原理包括相机投影模型、极线几何、视差计算、深度估计等。通过校正、匹配、三角测量等步骤,我们可以从双目图像恢复三维信息,并应用于自动驾驶、机器人、AR/VR 领域。未来,深度学习的加入将进一步提升立体匹配的精度和鲁棒性。
相关文章:
双目视觉小记
双目视觉及其数学原理 1. 双目视觉概述 双目视觉(Stereo Vision)是一种模仿人眼视觉系统的计算机视觉技术,利用两台摄像机从不同角度拍摄同一场景,通过图像处理和三维重建来获取场景的深度信息。双目视觉广泛应用于机器人、自动…...
Obsidian Copilot:打造你的专属 AI 笔记助手
Obsidian Copilot作为一款非常受欢迎的Obsidian插件,不仅极大地提升了用户的笔记管理和信息检索效率,还通过其多样化的AI功能为用户带来了前所未有的便捷体验。本文将详细介绍Obsidian Copilot的核心特点、使用方法及个人体验分享。 核心特点 Obsidian…...
VPC4-通达oa-docker逃逸-shiro反序列化-hash传递-CrackMapExec喷射-历史ptt攻击-进程注入
由于本人是菜鸡,不会免杀,所有免杀的部分就直接跳过了 (hhh) 靶场地址: 链接: https://pan.baidu.com/s/1Fh1Zg79n1yjCPe6rrQ2apA 提取码: qiag 第一台ubuntu(docker逃逸,shiro反序列化) fscan扫到一…...
稳定运行的以Oracle数据库为数据源和目标的ETL性能变差时提高性能方法和步骤
要提高以 Oracle 为数据源和目标的ETL性能,需要综合考虑数据库性能优化、ETL工具配置、查询优化、并行处理和资源管理等多个方面。优化过程中要根据具体的ETL场景和工具来选择适合的方案,同时建议进行逐步调优,测试不同方案的效果,…...
C++类与对象——拷贝构造与运算符重载
拷贝构造函数和赋值运算符重载就是C类默认六个函数之二。 拷贝构造函数: 如果⼀个构造函数的第⼀个参数是自身类类型的引用,且任何额外的参数都有默认值,则此构造函数 也叫做拷贝构造函数,也就是说拷贝构造是⼀个特殊的构造函数…...
疗养院管理系统设计与实现(代码+数据库+LW)
摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装疗养院管理系统软件来发挥其高效地信息处理的作用…...
2024年12月CCF-GESP编程能力等级认证C++编程四级真题解析
四级真题的难度: 一、总体难度评价 CCF-GESP编程能力等级认证C++四级真题的难度通常被认为相对较高。它不仅要求考生具备扎实的C++编程基础,还需要考生掌握一定的算法和数据结构知识,以及良好的问题解决能力。 二、具体难度分析 理论知识考察: 单选题和判断题中,会涉…...
MySQL开发陷阱与最佳实践:第1章:MySQL开发基础概述-1.1 MySQL简介与应用场景
👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路 文章大纲 MySQL开发陷阱与最佳实践:第1章:MySQL开发基础概述-1.1 MySQL简介与应用场景1.1.1 MySQL的发展历程与市场地位1.1.2 MySQL的核心特性与技术优势1.1.2…...
使用GitHub Actions实现Git推送自动部署到服务器
将网站一键部署到服务器的方案很多,比如纯Shell脚本结合SSH、Jenkins等工具。本文将介绍如何利用GitHub Actions这一免费且轻量的CI/CD工具,实现代码推送后自动部署到云服务器。 之前一直在使用github的工作流,确实是一个比较好用的工具。 我…...
PyTorch 系列教程:探索自然语言处理应用
本文旨在介绍如何使用PyTorch进行自然语言处理(NLP)的基础知识,包括必要的库、概念以及实际代码示例。通过阅读本文,您将能够开始您的NLP之旅。 1. 理解PyTorch PyTorch是一个开源的机器学习库,基于Torch库࿰…...
3.14-1列表
列表 一.列表的介绍和定义 1 .列表 类型: <class list> 2.符号:[] 3.定义列表: 方式1:[] 通过[] 来定义 list[1,2,3,4,6] print(type(list)) #<class list> 方式2: 通过list 转换 str2"12345" print(type(str2)) #<class str> list2lis…...
什么是强哈希算法pbkdf2(Password-Based Key Derivation Function)
文章目录 什么是pbkdf2使用场景 在线工具 什么是pbkdf2 维基百科:https://zh.wikipedia.org/zh-cn/PBKDF2 PBKDF2(Password-Based Key Derivation Function 2)是一种基于密码的密钥派生函数。它的主要作用是从密码和盐(salt&…...
<meta content=“no-siteapp“ data-n-head=“ssr“ http-equiv=“Cache-Control“/>什么作用?
<meta content"no-siteapp" data-n-head"ssr" http-equiv"Cache-Control"/> 这个标签的作用是禁止某些浏览器或工具将网页转换为“应用”形式,尤其是针对一些特定的浏览器(如早期的 UC 浏览器)或移动端工…...
pyroSAR:开源的SAR数据处理与分析工具
今天为大家介绍的软件是pyroSAR:一款开源的SAR数据处理与分析工具。下面,我们将从软件的主要功能、支持的系统、软件官网等方面对其进行简单的介绍。 pyroSAR官网网址为:https://pyrosar.readthedocs.io/en/latest/。 pyroSAR是一个开源Pytho…...
Visual Studio里的调试(debugging)功能介绍
参考 1- Introduction to Debugging | Basic Visual Studio Debugging(这是一位印度博主视频,我下面做到笔记也主要参考她的视频,但不得不说口音太重了,一股咖喱味) 目录 个人对调试浅显的认识和对调试的介绍逐行调…...
图论part4|827. 最大人工岛、127. 单词接龙、463. 岛屿的周长
827. 最大人工岛 🔗:827. 最大人工岛 - 力扣(LeetCode)827. 最大人工岛 - 给你一个大小为 n x n 二进制矩阵 grid 。最多 只能将一格 0 变成 1 。返回执行此操作后,grid 中最大的岛屿面积是多少?岛屿 由一…...
Java高级-05.反射的作用、应用场景
一.反射的作用 二.案例 Student.class package com.njau.d2_reflect;public class Student {private String name;private int age;private char sex;private double height;private String hobby;public Student(String name, int age, char sex, double height, String …...
CSS中粘性定位
1.如何设置为粘性定位? 给元素设置posttion:sticky 即可实现粘性定位. 可以使用left, right ,top, bottom 四个属性调整位置,不过最常用的是top 值. 2.粘性定位的参考点在哪里? 离他最近的一个拥有"滚动机制"的祖先元素,即便这个祖先不是最近的真实可滚动祖先. 3.粘…...
CockroachDB MCP -cursor适用
CockroachDB MCP 服务器 GitHub仓库置顶 这是一个用于 Cursor 的 CockroachDB MCP 服务器,基于 Model Context Protocol (MCP) 规范实现,可以让你在 Cursor 中直接与 CockroachDB 数据库交互。 功能 连接到 CockroachDB 数据库获取数据库中的所有表获…...
cherry-studio - 多模型支持的跨平台 AI 桌面助手
GitHub:https://github.com/CherryHQ/cherry-studio 更多AI开源软件:发现分享好用的AI工具、AI开源软件、AI模型、AI变现 - 小众AI 一款支持多种大语言模型服务的跨平台桌面客户端,兼容 Windows、Linux 和 macOS 系统。它支持主流云端模型&am…...
docker composeyaml文件,什么是swap-space,内存不足硬盘来凑,--ipc=host,yaml文件、环境变量、容器报警健康检查
--swap-space 参数明确针对的是系统内存(RAM),与显存(GPU Memory)无关。以下是关键区分: 内存(RAM) vs 显存(GPU Memory) 类型内存(RAMÿ…...
Uniapp 开发 App 端上架用户隐私协议实现指南
文章目录 引言一、为什么需要用户隐私协议?二、Uniapp 中实现用户隐私协议的步骤2.1 编写隐私协议内容2.2 在 Uniapp 中集成隐私协议2.3 DCloud数据采集说明2.4 配置方式3.1 Apple App Store3.2 Google Play Store 四、常见问题与解决方案4.1 隐私协议内容不完整4.2…...
Gradio ,一个实用的大模型界面
Gradio是HuggingFace的开源项目,GitHub 28k star。能够方便地构建AI应用的网页界面。 最大的优点是简便。对于不熟悉前端的程序员,能够迅速地构建基于web的AI应用。 Hello World import gradio as gr def print_text(text):return "Hello Wor…...
LeetCode 环形链表II:为什么双指针第二次会在环的入口相遇?
快慢指针 为什么相遇后让快指针回到起点,再让快指针和慢指针都一步一步地走,它们就会在环的入口相遇? 复杂度 时间复杂度: O(n) 空间复杂度: O(1) public ListNode detectCycle(ListNode head) {ListNode slow head, fast head;ListNode …...
如何处理PHP中的编码问题
如何处理PHP中的编码问题 在PHP开发过程中,编码问题是一个常见且棘手的问题。无论是处理用户输入、数据库交互,还是与外部API通信,编码问题都可能导致数据乱码、解析错误甚至安全漏洞。本文将深入探讨PHP中的编码问题,并提供一些…...
【动手学强化学习】part8-PPO(Proximal Policy Optimization)近端策略优化算法
阐述、总结【动手学强化学习】章节内容的学习情况,复现并理解代码。 文章目录 一、算法背景1.1 算法目标1.2 存在问题1.3 解决方法 二、PPO-截断算法2.1 必要说明2.2 伪代码算法流程简述 2.3 算法代码2.4 运行结果2.5 算法流程说明 三、疑问四、总结 一、算法背景 …...
游戏引擎学习第159天
回顾与今天的计划 我们在完成一款游戏的制作。这个游戏没有使用任何引擎或新库,而是从零开始编写的完整游戏代码库,您可以自行编译它,并且它是一个完整的游戏。更特别的是,这个游戏甚至没有使用显卡,所有的渲染工作都…...
前端主题切换架构设计方案
1. 架构概述 本文档从架构设计的角度阐述项目的主题切换方案,主要关注系统各层级间的关系、数据流转以及扩展性设计,而非具体实现细节。 架构图 +-------------------------------------------+ | 用户界面层 | | +--------------+ …...
request模块基本使用方法
文章目录 一、前言二、请求2.1 请求方式2.2 请求参数2.3 cookie 三、响应 一、前言 官方文档:https://requests.readthedocs.io/en/latest/ 模块安装:pip install request 二、请求 2.1 请求方式 常用请求方法:get、post 请求方法含义get向…...
内网攻防——红日靶场(一)
在学习内网的过程中有着诸多不了解的内容。希望能借下面的靶场来步入内网的大门。 一、准备阶段 首先准备好我们的虚拟机 之前有学过关于:工作组、域、DC的概念。 了解一下此时的网络拓扑图 1.设置网络VMnet1和Vmnet8 将VMnet1作为内网,VMnet8作为外…...
