当前位置: 首页 > article >正文

机器视觉入门基础相关概念二 ——从坐标变换到相机内参

1. 从2D坐标变换说起平移、旋转与缩放当你第一次接触机器视觉时可能会被各种坐标系和变换搞得晕头转向。别担心我们从一个更熟悉的场景开始——2D平面上的图形变换。想象你正在用手机修图软件调整一张照片拖动图片是平移旋转手势是改变角度双指缩放是调整大小。这些操作背后正是我们要讨论的数学本质。平移变换最容易理解。比如把一张A4纸从桌子左边移到右边假设移动了10厘米用数学表示就是xx10。但为了统一处理各种变换我们引入齐次坐标——给二维点(x,y)加个小尾巴变成(x,y,1)。这样平移就能写成矩阵乘法import numpy as np # 定义平移矩阵 def translation_matrix(tx, ty): return np.array([ [1, 0, tx], [0, 1, ty], [0, 0, 1] ]) # 平移点(2,3)向右5单位向上2单位 point np.array([2, 3, 1]) translated translation_matrix(5, 2) point # 结果[7, 5, 1]旋转变换稍微复杂些。还记得三角函数吗当点(x,y)绕原点旋转θ角度时新坐标xxcosθ-ysinθyxsinθycosθ。用矩阵表示就是def rotation_matrix(theta): rad np.radians(theta) return np.array([ [np.cos(rad), -np.sin(rad), 0], [np.sin(rad), np.cos(rad), 0], [0, 0, 1] ]) # 旋转点(1,0)逆时针90度 rotated rotation_matrix(90) np.array([1, 0, 1]) # 结果接近[0, 1, 1]缩放变换则是把坐标值乘以系数。比如横向放大2倍纵向不变x2x, yy。其矩阵形式为def scale_matrix(sx, sy): return np.array([ [sx, 0, 0], [0, sy, 0], [0, 0, 1] ])实际应用中这些变换往往组合出现。比如先旋转再平移对应的矩阵就是T*R注意顺序。我在项目里就踩过这个坑——有次调试时发现图形位置总是不对后来才发现是矩阵乘法顺序弄反了。2. 升级到3D空间相机坐标系的基础现在把维度提升到3D空间这对理解相机模型至关重要。3D变换在2D基础上增加了z轴维度齐次坐标变为(x,y,z,1)。平移矩阵扩展为4x4def translation_3d(tx, ty, tz): return np.array([ [1,0,0,tx], [0,1,0,ty], [0,0,1,tz], [0,0,0,1] ])3D旋转比2D复杂因为要考虑绕不同轴的旋转。绕z轴旋转与2D情况类似只需在矩阵中增加z维度def rotate_z(theta): rad np.radians(theta) return np.array([ [np.cos(rad), -np.sin(rad), 0, 0], [np.sin(rad), np.cos(rad), 0, 0], [0, 0, 1, 0], [0, 0, 0, 1] ])绕x轴和y轴的旋转矩阵稍有不同def rotate_x(theta): rad np.radians(theta) return np.array([ [1, 0, 0, 0], [0, np.cos(rad), -np.sin(rad), 0], [0, np.sin(rad), np.cos(rad), 0], [0, 0, 0, 1] ]) def rotate_y(theta): rad np.radians(theta) return np.array([ [np.cos(rad), 0, np.sin(rad), 0], [0, 1, 0, 0], [-np.sin(rad), 0, np.cos(rad), 0], [0, 0, 0, 1] ])实际相机运动中往往需要组合这三种旋转。这里有个关键点旋转顺序会影响最终结果。常见的顺序是Z-Y-X即先绕z轴转偏航yaw再绕y轴俯仰pitch最后绕x轴滚转roll。对应的矩阵乘法是R RzRyRx。3. 相机模型中的坐标系转换链理解相机成像过程本质是理解四个坐标系的转换链世界坐标系场景的绝对参考系单位通常是米相机坐标系以相机光心为原点光轴为z轴图像坐标系成像平面上的2D坐标单位毫米像素坐标系图像存储的矩阵坐标单位像素世界→相机坐标的转换称为外参变换包含旋转R和平移tdef world_to_camera(point_world, R, t): # 齐次坐标转换 point_cam R point_world[:3] t return np.append(point_cam, 1)相机→图像坐标基于小孔成像原理。假设焦距f50mm点P在相机坐标系中的坐标为(Xc,Yc,Zc)则成像点p的坐标def camera_to_image(point_cam, f): z point_cam[2] x (f * point_cam[0]) / z y (f * point_cam[1]) / z return np.array([x, y])这个步骤实现了3D到2D的投影丢失了深度信息。这也是为什么单目相机无法直接测距——就像你闭上一只眼睛很难判断远处物体的实际距离。4. 解密相机内参矩阵终于来到核心内容——相机内参矩阵K。它包含以下关键参数fx, fy焦距的像素表示cx, cy主点坐标图像中心畸变系数后续讨论# 典型内参矩阵 K np.array([ [fx, 0, cx], [0, fy, cy], [0, 0, 1] ])为什么需要fx和fy两个焦距因为像素不一定是正方形。我的一个工业相机项目就遇到这种情况x方向像素尺寸2.2μmy方向2.4μm导致fx≠fy。主点(cx,cy)理论上应该是图像中心但实际可能偏移几个像素。有次标定时发现cx比理论值大15像素检查发现是相机厂商的默认校正导致的。完整的投影过程用矩阵表示为def project_point(point_3d, K, R, t): # 世界→相机坐标 cam_coord R point_3d[:3] t # 相机→图像坐标 image_coord K cam_coord # 归一化 image_coord / image_coord[2] return image_coord[:2]内参矩阵的物理意义可以通过一个实验理解保持物体位置不变增大fx/fy成像会变大——相当于光学变焦。而改变cx/cy则像移动了整个画面。5. 镜头畸变与校正实际镜头都存在畸变主要分为两类径向畸变像差导致直线变弯桶形畸变边缘向内弯曲枕形畸变边缘向外膨胀切向畸变镜头与传感器不平行导致畸变校正模型通常用5个参数(k1,k2,k3,p1,p2)描述def distort_point(point_normalized, dist_coeffs): k1, k2, p1, p2 dist_coeffs[:4] x, y point_normalized r2 x*x y*y radial 1 k1*r2 k2*r2*r2 x_dist x*radial 2*p1*x*y p2*(r2 2*x*x) y_dist y*radial p1*(r2 2*y*y) 2*p2*x*y return np.array([x_dist, y_dist])在校正时我习惯先处理径向畸变再处理切向畸变。有个实用技巧使用棋盘格标定板时角落的畸变最明显可以重点观察这些区域。6. 实践中的标定技巧相机标定是获取内参的实际操作。推荐使用OpenCV的calibrateCamera函数import cv2 # 准备棋盘格角点 pattern_size (9, 6) obj_points [] # 3D点 img_points [] # 2D点 # 假设已经采集了多组图像... ret, K, dist, rvecs, tvecs cv2.calibrateCamera( obj_points, img_points, image_size, None, None )标定质量检查很重要重投影误差应小于0.5像素测试图像边缘的直线是否被拉直不同距离物体的比例是否合理有次标定结果异常重投影误差达到3像素。后来发现是棋盘格打印在普通A4纸上受潮产生了变形。改用刚性标定板后问题解决。7. 从理论到应用AR案例理解这些概念后我们看一个增强现实(AR)的应用案例。要在相机画面中放置虚拟物体需要检测场景中的特征点计算相机位姿外参根据内参将3D模型投影到2Ddef render_ar_object(img, K, dist, obj_3d_points): # 检测标记假设已实现 marker_corners detect_marker(img) # 计算位姿 ret, rvec, tvec cv2.solvePnP( obj_3d_points, marker_corners, K, dist ) # 投影3D点到2D projected_points, _ cv2.projectPoints( obj_3d_points, rvec, tvec, K, dist ) # 绘制虚拟物体 draw_3d_model(img, projected_points)在这个应用中内参的准确性直接影响虚拟物体是否粘在真实表面上。曾经遇到虚拟物体抖动的问题最后发现是标定时焦距设置错误重新标定后解决。

相关文章:

机器视觉入门基础相关概念二 ——从坐标变换到相机内参

1. 从2D坐标变换说起:平移、旋转与缩放 当你第一次接触机器视觉时,可能会被各种坐标系和变换搞得晕头转向。别担心,我们从一个更熟悉的场景开始——2D平面上的图形变换。想象你正在用手机修图软件调整一张照片:拖动图片是平移&…...

Origin2017热力图的隐藏技巧:如何用折线图实现数据标签显示

Origin2017热力图数据标签的进阶实现方案 科研数据可视化中,热力图因其直观的色彩映射能力,成为展示高维数据的利器。但Origin2017版本存在一个明显的功能短板——无法直接为热力图添加数据标签。这给需要精确展示数值的学术工作者带来了困扰。本文将系统…...

智能家居电源改造:用FT8440A-RT芯片替代传统RCC电源的5个关键步骤

智能家居电源改造实战:用FT8440A-RT芯片打造高效稳定供电方案 在智能家居设备开发中,电源设计往往是决定产品可靠性和用户体验的关键因素。传统RCC电源虽然成本低廉,但在效率、体积和稳定性方面存在明显短板。我曾在一个智能灯具项目中&#…...

基于AI多源数据融合的美联储“三重门”困境分析与政策响应研究

摘要:本文通过构建基于机器学习的经济数据监测体系,结合多维度风险评估模型,分析美联储在通胀顽固、就业转弱、金融承压三重压力下的政策困境及市场反应机制。一、不能加息,也不能降息的政策死角:基于多目标优化的冲突…...

从零开始:用C语言模拟中断控制器与CPU交互(含调试技巧)

从零构建:C语言模拟中断控制器与CPU交互全流程实战 中断机制作为计算机系统的核心功能之一,是理解现代计算机架构的关键切入点。本文将带领读者从零开始,用纯C语言构建一个完整的中断处理系统模拟器,涵盖从硬件抽象到软件实现的完…...

论文图表选择指南:根据你的数据类型匹配最佳可视化方案(避坑建议)

论文图表选择指南:根据数据类型匹配最佳可视化方案 在学术写作中,数据可视化是研究成果呈现的关键环节。一张恰当的图表不仅能清晰传达研究发现,还能提升论文的专业性和说服力。然而,许多研究者常陷入"图表选择困难症"—…...

7个技巧让你的媒体播放体验提升300%:mpv轻量级播放器实战指南

7个技巧让你的媒体播放体验提升300%:mpv轻量级播放器实战指南 【免费下载链接】mpv 🎥 Command line video player 项目地址: https://gitcode.com/GitHub_Trending/mp/mpv 🚀 价值定位:为什么专业用户都选择这款仅1.2MB的…...

亚洲美女-造相Z-Turbo中文社区支持:CSDN博客配套文档与问题响应机制

亚洲美女-造相Z-Turbo中文社区支持:CSDN博客配套文档与问题响应机制 1. 快速了解亚洲美女-造相Z-Turbo 亚洲美女-造相Z-Turbo是一个专门用于生成高质量亚洲女性形象图片的AI模型。这个模型基于Z-Image-Turbo的lora版本进行优化训练,特别针对亚洲女性特…...

【PaddleSpeech实战】ONNX模型流式语音合成部署与性能调优

1. PaddleSpeech与ONNX模型基础认知 第一次接触语音合成技术时,我被PaddleSpeech这个"瑞士军刀"般的工具惊艳到了。它不仅仅是个普通的语音合成框架,而是集成了从语音识别到合成的完整解决方案。特别是当发现它能将模型转换为ONNX格式时&#…...

Verilog 硬件描述语言实战——组合逻辑电路的设计与优化

1. Verilog与组合逻辑电路基础 第一次接触Verilog时,我被它简洁的语法震惊了——这跟写C语言太像了!但真正用起来才发现,硬件描述语言和软件编程完全是两回事。Verilog最迷人的地方在于,它能让我们用代码"搭建"真实的数…...

基于Qwen3-VL:30B的计算机网络拓扑分析

基于Qwen3-VL:30B的计算机网络拓扑分析 1. 看图识网:当大模型开始理解网络结构 你有没有遇到过这样的场景:一张密密麻麻的网络拓扑图摆在面前,设备型号、连线关系、IP地址、VLAN划分全挤在一起,光是理清逻辑就要花上半小时&…...

IPv6分片机制详解:为什么路由器不再帮你切数据包?

IPv6分片机制详解:为什么路由器不再帮你切数据包? 作为一名常年与网络协议打交道的工程师,第一次在Wireshark中抓取IPv6流量时,最让我困惑的莫过于那些被丢弃的"Packet too big"ICMP报文。这背后隐藏着IPv6设计哲学中一…...

QT实战:5分钟搞定带单位的QLineEdit编辑框(附完整代码)

QT实战:5分钟实现带单位的QLineEdit编辑框 在QT开发中,输入框是最常用的控件之一。但原生QLineEdit并不直接支持单位显示功能,而实际项目中经常需要处理带有单位的数值输入,比如"500px"、"80%"等。传统解决方…...

PSMC可视化进阶:psmc_plot.pl参数调优实战指南

1. PSMC可视化基础与psmc_plot.pl核心功能 PSMC(Pairwise Sequentially Markovian Coalescent)是研究种群历史动态的强大工具,而psmc_plot.pl作为其可视化核心脚本,能将晦涩的数值结果转化为直观的曲线图。我第一次接触这个脚本时…...

PyTorch实战:基于CNN的手写数字识别模型优化与可视化分析

1. 从零搭建CNN手写数字识别模型 第一次接触PyTorch实现手写数字识别时,我被这个看似简单实则精妙的系统深深吸引。用代码教会计算机认识人类的手写体,这个过程就像在数字世界教小孩识字一样有趣。让我们从最基础的模型搭建开始,我会带你避开…...

Deliberate深度解析:图像生成价值与实践路径指南

Deliberate深度解析:图像生成价值与实践路径指南 【免费下载链接】Deliberate 项目地址: https://ai.gitcode.com/hf_mirrors/ai-gitcode/Deliberate 评估技术效能 Deliberate模型在图像生成领域展现出显著的技术优势。其核心特性包括高效生成能力&#xf…...

Android数据备份解决方案实战:基于Shizuku框架的全量数据保护体系构建

Android数据备份解决方案实战:基于Shizuku框架的全量数据保护体系构建 【免费下载链接】awesome-shizuku Curated list of awesome Android apps making use of Shizuku 项目地址: https://gitcode.com/gh_mirrors/awe/awesome-shizuku 在移动设备数据量持续…...

Excel仿真告诉你:中位值+递推滤波的相位滞后到底有多严重?(附波形对比图)

中位值递推滤波相位滞后量化分析:Excel建模与工程实践指南 在工业控制、传感器信号处理等领域,ADC采样数据的实时性与准确性往往决定着整个系统的性能边界。当我们采用中位值平均滤波与递推平均滤波的组合算法时,一个无法回避的核心问题浮出水…...

PlayCover避坑指南:如何安全侧载最新金铲铲之战IPA(含常见问题解决)

PlayCover实战手册:从零开始安全部署金铲铲之战的全流程解析 在Mac上畅玩移动端游戏正成为越来越多用户的新选择。PlayCover作为目前最成熟的iOS应用侧载方案之一,不仅解决了Mac用户无法直接运行iOS应用的痛点,更通过键盘映射、分辨率调整等进…...

Ant Design UI 新手必看:从零开始搭建你的第一个企业级中后台项目

Ant Design UI 新手必看:从零开始搭建你的第一个企业级中后台项目 当你第一次接触企业级中后台项目开发时,面对琳琅满目的UI框架选择,Ant Design无疑是最值得考虑的选择之一。作为由蚂蚁集团推出的React UI组件库,它不仅拥有优雅的…...

手机相册救星!教你用Google Photos隐藏功能快速找出重复照片

手机相册清理术:用Google Photos智能识别高效管理重复照片 每次旅行归来或聚会结束后,手机相册总会莫名其妙多出几十张几乎相同的照片——连拍的夕阳、重复保存的截图、角度微调的自拍。这些视觉"复制品"不仅占用宝贵存储空间,更让…...

手把手教你用git和make编译安装rt8188gu网卡驱动(Ubuntu版)

手把手教你用git和make编译安装rt8188gu网卡驱动(Ubuntu版) 在Linux系统中,手动编译安装网卡驱动是一项常见但颇具挑战性的任务。对于使用rt8188gu芯片无线网卡的用户来说,Ubuntu系统可能无法自动识别并提供开箱即用的驱动支持。本…...

LingBot-Depth与LaTeX结合:学术论文中的3D可视化

LingBot-Depth与LaTeX结合:学术论文中的3D可视化 在学术研究中,如何清晰直观地展示3D数据一直是个挑战。传统的2D图片难以完整呈现三维空间的丰富信息,而专业的3D可视化工具又往往需要复杂的配置和学习成本。 今天给大家介绍一个简单实用的…...

如何用轻量级无头浏览器提升10倍爬虫效率?Lightpanda实战指南

如何用轻量级无头浏览器提升10倍爬虫效率?Lightpanda实战指南 【免费下载链接】browser The open-source browser made for headless usage 项目地址: https://gitcode.com/GitHub_Trending/browser32/browser 在数据驱动的时代,网页抓取和自动化…...

Cursor 进阶功能解析(二) - 后台代理与记忆系统实战

1. 后台代理:解放双手的智能助手 后台代理(Background Agent)是Cursor最实用的功能之一,它就像你团队里不知疲倦的实习生。想象一下,当你正在专注写核心业务逻辑时,可以同时让后台代理帮你处理那些耗时又繁…...

LTspice仿真揭秘:电流镜电路的非理想特性与电压影响分析

1. 电流镜电路基础与仿真必要性 电流镜是模拟电路设计中非常常见的功能模块,它的核心作用就像一面"电流的镜子"——能够精确复制和传递电流信号。在实际项目中,我经常用它来做偏置电路或者有源负载。理想情况下,输出电流应该和参考…...

AIGlasses_for_navigation多场景落地:盲道导航/过街辅助/物品查找三模协同

AIGlasses_for_navigation多场景落地:盲道导航/过街辅助/物品查找三模协同 1. 引言:当眼镜成为你的“智能向导” 想象一下,你戴上一副看似普通的眼镜,眼前的世界却变得“会说话”了。脚下的盲道会告诉你“请直行”,前…...

Fish-Speech 1.5效果实测:多语言支持,生成自然流畅的真人语音

Fish-Speech 1.5效果实测:多语言支持,生成自然流畅的真人语音 1. 开篇:一次令人惊喜的语音合成体验 最近在测试各种文本转语音工具时,我遇到了Fish-Speech 1.5。说实话,刚开始看到“双自回归Transformer架构”这样的…...

BiliNote:AI视频笔记的革新与突破——让知识提取更智能、知识管理更高效

BiliNote:AI视频笔记的革新与突破——让知识提取更智能、知识管理更高效 【免费下载链接】BiliNote AI 视频笔记生成工具 让 AI 为你的视频做笔记 项目地址: https://gitcode.com/gh_mirrors/bi/BiliNote 在信息爆炸的时代,我们每天都在消费大量视…...

新手福音:基于快马平台生成java学习路线配套练习,轻松入门编程

最近在带几个刚接触编程的朋友入门Java,发现他们最大的困扰不是语法看不懂,而是“看懂了,但不知道怎么写,写了也不知道对不对”。理论学了一堆,一打开编辑器就大脑空白。这让我想起自己刚学编程那会儿,也是…...