当前位置: 首页 > news >正文

深度学习(七)-计算机视觉基础

计算机视觉

  • 计算机视觉在广义上是和图像相关的技术总称。包括图像的采集获取,图 像的压缩编码,图像的存储和传输,图像的合成,三维图像重建,图像增强,图像修复,图像的分类和识别,目标的检测、跟踪、表达和描述,特征提取,图像的显示和输出等等。
  • 随着计算机视觉在各种场景的应用和发展,已有的图像技术也在不断的更 新和扩展。

计算机视觉的应用

计算机视觉技术已经在许多领域得到了广泛的应用,以下是一些典型的例子:
  • 公安安防:人脸识别,指纹识别,场景监控,环境建模。
  • 生物医学:染色体分析,X光、CT图像分析,显微医学操作。
  • 文字处理:文字识别,文档修复,办公自动化,垃圾邮件分类。
  • 国防军事:资源探测,军事侦察,导弹路径规划。
  • 智能交通:公路交通管理,电子警察执法抓拍系统,自动驾驶车辆。
  • 休闲娱乐:电影特效,视频编辑,人像美颜,体感游戏,VR。

数字图像处理基础

人眼成像原理

人的眼睛近似为一个球体。物体的光线通过角膜和晶状体的折射,在视网膜上成倒立缩小的实像。
视网膜上分布光线接收的神经细胞,分为锥状体和杆状体。每只眼睛有600万- 700万个锥状体,其对颜色灵敏度很高,负责亮光视觉。有7500万- 15000万杆状体,杆状体没有颜色感觉,负责暗视觉。

计算机成像原理

  • 数字图像的采集过程类似人眼,使用大量的光敏传感器构成的阵列获取图像。成像的质量由传感器的单元数,尺寸和传感性能决定。
  • 多数传感器的输出是连续的电压波形,图像数字化就是将一副画面的数据转换为计算机能够处理的数字形式。
  • 图像数字化包括两种处理过程:采样和量化。

图像采样与分辨率

  • 将空间上连续的图像变换成离散点的操作称为采样
  • 采样是按照某种时间间隔或空间间隔,采集模拟信号的过程,即空间离散化。
  • 图像数字化的采样过程是将空间上连续的图像变化为离散的点。
  • 采样的效果由传感器的采样间隔和采样孔径决定,采样间隔和采样孔径的大小是两个很重要的参数。

图像采样与分辨率

  • 采样后得到离散图像的尺寸称为图像分辨率。分辨率是数字图像可辨别的最小细节。
  • 分辨率由宽(width)和高(height)两个参数构成。宽表示水平方向的细节数,高表示垂直方向的细节数。

例如:

  • 一副640*480分辨率的图像,表示这幅图像是由640*480=307200个点组成。
  • 一副1920*1080分辨率的图像,表示这幅图像是由1920*1080= 2073600个点组成

  • 采样间隔越小,所得图像像素数越多,空间分辨率高,图像质量好,但数据量大。 下图展示了lena图的分辨率从512x512依次降低到8x8的图像效果。

灰度级与灰度图像

  • 灰度级(depth)表征了每个采样点的传感器输出中可分辨的最小变化。
  • 灰度级通常是2的整数次幂。我们用m级或者n位来表示灰度级。图像数据的灰度级越多视觉效果就越好。计算机中最常用的是8位图像。
例如:
  • 一副8位的图像,表示每个采样点有2^8=256级。从最暗到最亮,可以分辨256个级别。
  • 一副32级的灰度图像,每个采样点从最暗到最亮,可以分辨32个级别。
量化等级越多,所得图像层次越丰富,灰度分辨率高,图像质量好,但数据量大。下图展示了lena图的灰度级从256级依次降低到4级的图像效果。
单通道的数字图像被称为灰度图。通常,单通道记录了采样点的亮度信息,例如8位的图像,0表示最暗(黑色),255表示最亮(白色)。

彩色图像与色彩空间

为了表征彩色图像,我们需要使用多通道数字图像。最普遍的方式是使用RGB颜色空间。RGB颜色空间中每个像素点有三个维度,分别记录在红(Red)、绿(Green)、蓝(Blue)三原色的分量上的亮度。
另一种常用的颜色空间是HSV,该颜色空间可以用一个圆锥来表示。
HSV表示色相(hue)、饱和度(saturation)和亮度 (value)。
  • H表示颜色的相位角(hue) ,取值范围是0---360;
  • S表示颜色的饱和度(saturation) ,范围从0到1,它表示成所选颜色的纯度和该颜色最大的纯度之间 的比率;
  • V表示色彩的明亮程度(value) ,范围从0到1。

 

  • YUV:亮度信号Y和两个色差信号R-Y、B-Y,最后发送端将亮度和色差三个信号分别进行编码。采用YUV色彩空间的重要性是它的亮度信号Y和色度信号U、V是分离的。如果只有Y信号分量而没有U、V分量,那么这样表示的图就是黑白灰度图。 YUV(亦称YCrCb)是被欧洲电视系统所采用的一种颜色编码方法。YUV色彩空间正是为了用亮度信号Y解决彩色电视机与黑白电视机的兼容问题,使黑白电视机也能接收彩色电视信号。与RGB视频信号传输相比,YUV只需占用极少的频宽。
  • CMYK :CMYK颜色空间应用于印刷工业,印刷业通过青(C)、品(M)、黄(Y)、黑(BK)四色油墨的不同网点面积率的叠印来表现丰富多彩的颜色和阶调。
  • Lab:Lab的色彩空间要比RGB模式和CMYK模式的色彩空间大,自然界中任何一点色都可以在Lab空间中表达出来。

颜色空间变换

在计算机视觉中,尤其是颜色识别相关的算法设计中,各种颜色空间混合使用是常见的方法。RGB,HSV,YUV等常见颜色空间可以通过计算公式实现相互转化,这个过程叫做颜色空间变化。颜色变换的计算公式比较复杂,通常图像处理库会提供颜色空间变化的API给用户调用。

常用图像处理技术

色彩处理
  • 灰度化:将彩色图像转换为灰度图像
  • 二值化/反二值化:将灰度图像转换为只有两种颜色的图像
  • 色彩提取:提取指定的颜色
  • 直方图均衡化:调节图像统计直方图分布
  • 亮度、饱和度、色调调整
形态相关操作
  • 仿射变换:旋转、平移
  • 缩放、裁剪
  • 图像相加、相减
  • 透视变换
  • 图像腐蚀、膨胀、形态学梯度
色彩梯度
  • 模糊
  • 锐化
  • 边沿检测
轮廓处理
  • 轮廓查找、绘制
  • 绘制矩形、圆型、椭圆包围
  • 多边形拟合

相关文章:

深度学习(七)-计算机视觉基础

计算机视觉 计算机视觉在广义上是和图像相关的技术总称。包括图像的采集获取,图 像的压缩编码,图像的存储和传输,图像的合成,三维图像重建,图像增强,图像修复,图像的分类和识别,目…...

机器人笛卡尔空间轨迹规划原理与MATLAB实现

机器人笛卡尔空间轨迹规划是指在给定的笛卡尔坐标系(通常是三维空间坐标系)中规划机器人的末端执行器(如抓手、焊枪等)的移动路径。这种规划方式直观且易于理解,因为它直接关联到任务空间中机器人的位置和姿态。下面将…...

数据结构:树与二叉树

1、树的基本概念 1.1树的定义 树是n个结点的有限集。 若n0,称为空树;若n>0称为非空树,非空树有且仅有一个称之为根的结点。 除根结点以外的其余结点可分成m个互不相交的有限集T1,T2,......Tm,每个有限集合本身又是一棵树,并…...

BUUCTF—[网鼎杯 2020 朱雀组]phpweb

题解 打开题目是这样子的。 啥也不管抓个包看看,从它返回的信息判断出func后面的是要调用的函数,p后面的是要执行的内容。 那我们直接执行个系统命令看看,可以看到返回了hack,估计是做了过滤。 funcsystem&pls 直接读取源码…...

什么是CDN及其如何影响SEO?

有没有想过,为什么你的网站在谷歌搜索结果的后几页徘徊,即使你已经优化了每一个网页? 有时候, 慢速的网站性能可能是罪魁祸首。 如果这个问题引起了你的共鸣,那么你可能想要探索一下内容分发网络(Content…...

python实现粒子群算

博客目录 引言 什么是粒子群算法(PSO)?粒子群算法的应用场景为什么使用粒子群算法? 粒子群算法的原理 粒子群算法的基本概念粒子位置和速度的更新规则粒子群算法的流程粒子群算法的特点与优势 粒子群算法的实现步骤 初始化粒子群…...

【Unity案例】搭建射击系统与UI

上期将基础的移动系统搭建完毕后就可以开始搭建更加复杂的系统部分了 前排提示,由于一开始仅思考如何完成操作相关功能,以至于到后面重构稍微有些困难,继续写下去恐成屎山,故在搭完射击和武器UI后不再继续泛化到敌人和敌人状态机…...

Python使用zdppy_mysql操作MySQL和MariaDB数据库快速入门教程

zdppy_mysql 使用python操作MySQL 项目开源地址:https://github.com/zhangdapeng520/zdppy_mysql 安装 pip install zdppy_mysql使用教程 连接MySQL import zdppy_mysql from config import host, username, password, database, port# 连接数据库 db zdppy_…...

union 的正确食用方法

0.前情提要 (很久)之前上编译原理时,一次实验课需要补充完善一个用 c 写的词法分析器;而这个分析器在定义语法树结点时使用了 union 存储语言中不同表达式的类型标签或值本身。因为当时刚好学完了 cpp,拿着锤子看啥都…...

汇编语言在虚拟机中输出“Hello World!”

1.软件 Nasmide64.exe(李忠老师编写) Fixvhdw64.exe(李忠老师编写) VirtualBox虚拟机(免费 开源) 2.过程 01.Fixvhdw64.exe输入以下代码: mov ax,0xb800 mov ds,ax mov byte [0x00],H mov byte [0x02],e mov byte [0x04],l mov byte [0x06],l mov byte [0x08],o mov byte…...

JVM类的加载和类的加载器

JVM类的加载和类的加载器 一.类的加载过程 类的加载指的是将类的.class文件中的二进制数据读入到内存中,将其放在运行时数据区的方法区内,然后在堆区创建一个java.lang.Class对象,用来封装类在方法区内的数据结构。类的加载的最终产品是位于…...

MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略

MLM:多模态大型语言模型的简介、微调方法、发展历史及其代表性模型、案例应用之详细攻略 目录 相关文章 AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读 MLM之CLIP:CLIP…...

Java健康养老智慧相伴养老护理小程序系统源码代办陪诊陪护更安心

健康养老,智慧相伴 —— 养老护理小程序,代办陪诊陪护更安心 🌈【开篇:智慧养老,新时代的温馨守护】🌈 在这个快节奏的时代,我们总希望能给予家人更多的关爱与陪伴,尤其是家中的长…...

Python | Leetcode Python题解之第390题消除游戏

题目&#xff1a; 题解&#xff1a; class Solution:def lastRemaining(self, n: int) -> int:a1 1k, cnt, step 0, n, 1while cnt > 1:if k % 2 0: # 正向a1 stepelse: # 反向if cnt % 2:a1 stepk 1cnt >> 1step << 1return a1...

Github 2024-09-01 开源项目月报 Top16

根据Github Trendings的统计,本月(2024-09-01统计)共有16个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目9TypeScript项目5Dart项目2C项目1Jupyter Notebook项目1Rust项目1开发者职业成长指南 创建周期:2670 天开发语言:TypeScript协议类…...

C++ 继承(二)

目录 1. 实现一个不能被继承的类 2. 友元与继承 3.继承与静态成员 4.多继承及其菱形继承问题 (1). 继承模型 (2). 虚继承 (2.1)虚继承解决数据冗余和二义性的原理 (3). 多继承中指针偏移问题 (4). IO库中的菱形虚拟继承 5. 继承和组合 1. 实现一个不能被继承的类 方法1…...

第 2 章:AJAX 的使用

AJAX 的使用 核心对象&#xff1a;XMLHttpRequest&#xff0c;AJAX 的所有操作都是通过该对象进行的。 1. 使用步骤 创建 XMLHttpRequest 对象 var xhr new XMLHttpRequest(); 设置请求信息 xhr.open(method, url);//可以设置请求头&#xff0c;一般不设置 xhr.setReques…...

ROS——视觉抓取

纲要 视觉抓取中的关键技术 内参标定 物体识别定位 抓取姿态分析 运动规划 外参标定 任意两个位姿之间的关系 眼在外 眼在内 手眼标定流程 robot 部分 标定效果 视觉抓取例程 grasping_demo.cpp 获取两个坐标系之间变换关系:waitForTransform 、 LookupTransform 求相…...

EPLAN2022基础教程

EPLAN2022软件介绍 EPLAN是一款专业的电气设计和绘图软件&#xff0c;它可以帮助我创建和管理电气项目&#xff0c;生成各种报表和文档&#xff0c;与其他软件和系统进行交互&#xff0c;优化工程流程和质量。与传统的CAD绘图对比&#xff0c;EPLAN更适合绘制电气原理图。 下…...

【JavaWeb】Servlet 详解(处理逻辑及常见方法)

文章目录 1. Tomcat1.1 常见的错误1.1.1 出现 4041.1.2 出现 4051.1.3 出现 500 1.2 HttpServlet1.2.1 Tomcat 的处理逻辑1.2.2 相关方法 1.3 HttpServletRequest1.3.1 常见方法1.3.2 jackson 处理逻辑 1.4 HttpServletResponse1.4.1 常见方法 1. Tomcat tomcat 是一个 HTTP 服…...

2025届毕业生推荐的AI写作神器实测分析

Ai论文网站排名&#xff08;开题报告、文献综述、降aigc率、降重综合对比&#xff09; TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当下&#xff0c;人工智能技术已然渗透进学术写作范畴&#xff0c;借助AI辅助来撰写毕业论文…...

weixin291基于微信小程序的家政服务预约系统的设计与实现+php(文档+源码)_kaic

第4章 系统详细实现 4.1登录功能模块的界面实现 在系统调试运行后&#xff0c;可以进入本界面&am…...

如何在WPF中捕获窗口外的事件

捕获窗口消息 关于窗口消息&#xff0c;可以参考下面的文章 https://www.cnblogs.com/zhaotianff/p/11285312.html https://www.cnblogs.com/zhaotianff/p/11297319.html 在WPF中&#xff0c;对于操作系统层面的原始输入 / 窗口消息&#xff0c;如 WM_LBUTTONDOWN、WM_MOUSE…...

【AI原生研发协作黄金法则】:20年架构师亲授跨团队对齐的7大断点与3步闭环落地法

第一章&#xff1a;AI原生研发协作范式的本质跃迁 2026奇点智能技术大会(https://ml-summit.org) 传统软件工程依赖人工编写、评审与测试的线性协作链&#xff0c;而AI原生研发将模型能力深度嵌入研发全生命周期——从需求理解、代码生成、单元测试到部署验证&#xff0c;均由…...

OpenVINO™正式进入 llama.cpp:GGUF 模型现已支持 Intel CPU、GPU 与 NPU

作者&#xff1a;武卓 过去&#xff0c;在 llama.cpp 里跑 GGUF 模型这件事&#xff0c;逻辑一直很清晰&#xff1a; 选模型、下模型、运行起来。 简单、直接&#xff0c;而且足够高效。 这也是为什么 GGUF 和 llama.cpp 直到今天依然是本地大模型开发里最受欢迎的组合之一…...

MySQL 单表查询练习题汇总

一、练习数据表&#xff08;my_student_score&#xff09;表结构说明班级&#xff1a;高三 1-5 班&#xff08;共 5 个&#xff09;科目&#xff1a;语文、数学、英语、物理、化学、生物&#xff08;共 6 个&#xff09;数据量&#xff1a;300 条&#xff08;覆盖多班级、多科目…...

PS4手柄Windows完全指南:用DS4Windows解锁专业级游戏体验

PS4手柄Windows完全指南&#xff1a;用DS4Windows解锁专业级游戏体验 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 想在Windows电脑上完美使用PS4手柄吗&#xff1f;DS4Windows为你提供…...

深入AUTOSAR CAN-TP状态机:从首帧(FF)、流控帧(FC)到连续帧(CF)的完整数据流拆解

深入AUTOSAR CAN-TP状态机&#xff1a;从首帧(FF)、流控帧(FC)到连续帧(CF)的完整数据流拆解 在汽车电子系统的开发中&#xff0c;诊断通信扮演着至关重要的角色。AUTOSAR CAN-TP&#xff08;CAN Transport Protocol&#xff09;作为UDS&#xff08;Unified Diagnostic Service…...

从Kubernetes到KubeLLM:AI原生栈告警体系迁移实录(含TensorRT-LLM GPU显存泄漏自动定位脚本)

第一章&#xff1a;AI原生软件研发监控告警体系搭建 2026奇点智能技术大会(https://ml-summit.org) AI原生软件具备动态推理路径、模型权重热更新、多模态输入响应等特性&#xff0c;传统基于静态服务拓扑的监控体系难以捕获其运行时语义异常。构建面向AI原生应用的监控告警体…...

电容是什么?一个“快充快放”的微型充电宝卣

一、前言&#xff1a;什么是 OFA VQA 模型&#xff1f; OFA&#xff08;One For All&#xff09;是字节跳动提出的多模态预训练模型&#xff0c;支持视觉问答、图像描述、图像编辑等多种任务&#xff0c;其中视觉问答&#xff08;VQA&#xff09;是最常用的功能之一——输入一张…...