当前位置: 首页 > news >正文

PyTorch深度学习实战(5)——计算机视觉

PyTorch深度学习实战(5)——计算机视觉

    • 0. 前言
    • 1. 图像表示
    • 2. 将图像转换为结构化数组
      • 2.1 灰度图像表示
      • 2.2 彩色图像表示
    • 3 利用神经网络进行图像分析的优势
    • 小结
    • 系列链接

0. 前言

计算机视觉是指通过计算机系统对图像和视频进行处理和分析,利用计算机算法和方法,使计算机能够模拟和理解人类的视觉系统。通过计算机视觉技术,计算机可以从图像和视频中提取有用的信息,实现对环境的感知和理解,从而帮助人们解决各种问题和提高效率。本节中,将介绍计算机中的图像表示,并介绍如何利用神经网络进行图像分析,为计算机视觉的高级任务和应用奠定基础。

1. 图像表示

数字图像文件(通常扩展名为“JPEG”或“PNG”)由像素数组组成,像素是图像的最小构成元素。在灰度图像中,每个像素都是 0255 之间的标量值,0 表示黑色,255 表示白色,介于 0255 之间的值都是灰色值(像素值越小,像素越暗)。
形式上,图像可以描述为 2D 函数 f ( x , y ) f(x, y) f(x,y),其中 ( x , y ) (x, y) (x,y) 是空间坐标,而 f ( x , y ) f(x, y) f(x,y) 是图像在点 ( x , y ) (x, y) (x,y) 处的亮度或灰度或颜色值,其中:

  1. x ∈ [ 0 , h − 1 ] x∈ [0, h-1] x[0,h1],其中 h h h 是图像的高度
  2. y ∈ [ 0 , w − 1 ] y∈ [0, w-1] y[0,w1],其中 w w w 是图像的宽度
  3. f ( x , y ) ∈ [ 0 , L − 1 ] f(x, y)∈ [0,L-1] f(x,y)[0L1],其中 L = 256 L=256 L=256 (对于8位灰度图像)

而彩色图像中的像素是三维矢量,分别对应于红色、绿色和蓝色通道中的标量值,可以定义三个函数来分别表示红色、绿色和蓝色值。这三个单独的函数中的每一个都遵循与为灰度图像定义的 f ( x , y ) f(x, y) f(x,y) 函数相同的公式。我们将这三个函数的子索引 RGB 分别表示为 f R ( x , y ) f_R(x, y) fR(x,y) f G ( x , y ) f_G(x, y) fG(x,y) f B ( x , y ) f_B(x, y) fB(x,y)
一个图像的像素值数量通常为 height x width x c,其中 height 表示像素的行数,width 表示像素的列数,c 表示通道数,对于彩色图像 c3 (红色、绿色和蓝色强度分量各占据一个通道),对于灰度图像 c1,下图表示包含 4 x 4 像素及其相应标量值的灰度图像:

灰度图像表示

像素值为 0 表示黑色,而 255 表示白色,0-255 中间的值表示不同强度的灰色值。彩色图像中,通常使用 RGB 模型表示图像,RGB 模型是一种加法颜色模型,其中原色(在 RGB 模型中,原色是红色 R、绿色 G 和蓝色 B) 混合在一起就可以用来表示广泛的颜色范围。
每个原色 (R, G, B) 通常表示一个通道,其取值范围为 [0, 255] 内的整数值。因此,每个通道有共 256 个可能的离散值,其对应于用于表示颜色通道值的总比特数 ( 2 8 = 256 2^8=256 28256)。此外,由于有三个不同的通道,使用 RGB 模型表示的图像称为 24 位色深图像:

加色法
在上图中,可以看到 RGB 颜色空间的“加法颜色”属性:

  • 红色加绿色会得到黄色
  • 蓝色加红色会得到品红
  • 蓝色加绿色会得到青色
  • 三种原色加在一起得到白色

因此,如前所述,RGB 颜色模型中,特定颜色可以由红、绿和蓝值分量合成表示,将像素值表示为 RGB 三元组 (r, g, b)。典型的 RGB 颜色选择器如下图所示:

颜色选择器

2. 将图像转换为结构化数组

2.1 灰度图像表示

我们首先介绍如何转换灰度图像,将灰度图像转换为结构化数组,并进行可视化。

(1) 导入 cv2 (用于从磁盘读取图像) 和 matplotlib (用于绘制加载的图像)库,并读取图像:

import cv2
import matplotlib.pyplot as plt
img = cv2.imread('1.jpeg')

在以上代码中,利用 cv2.imread 方法读取图像,将图像转换为像素值数组。

示例图像

(2) 裁剪第 100-600 行以及第 100-900 列之间的图像,将图像转换为灰度图像并进行绘制:

img = img[100:600,100:900]
img_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
plt.imshow(img_gray, cmap='gray')
plt.show()

灰度图像

以上代码得到的图像可以表示为 500 x 800 像素数组。接下来,我们减少用于表示图像的像素数量,例如在 25 x 40 阵列上可视化像素值。

(3) 将图像转换为 25 x 40 数组并进行绘制:

img_gray_small = cv2.resize(img_gray,(40, 25))
plt.imshow(img_gray_small, cmap='gray')
plt.show()

图像缩放

可以看到,用较少的像素来表示相同的图像会导致输出图像变得模糊。

(4) 接下来,我们检查像素值:

print(img_gray_small)

输出结果如下所示,为了便于观察,我们仅查看前四行像素值:

[[251 252 252 252 253 253 253 253 254 254 254 254 254 254 254 254 254 254254 255 255 255 255 255 255 255 255 255 255 249 205 200 183 193 215 199200 192 212 250][250 248 251 252 253 253 253 253 254 254 254 254 254 254 254 254 254 254254 254 254 254 254 255 255 255 255 255 255 252 193 229 234 184 184 176217 178 233 244][222 205 226 237 237 253 253 253 253 254 254 254 254 254 254 254 254 254242 252 254 254 254 254 254 255 255 255 255 253 239 227 243 229 216 166231 205 214 251][221 237 235 228 200  73  46  42 138  91  74  78 237 254 254 254 254 253232 244 248 250 250 253 254 250 253 255 255 251 240 246 250 237 241 206213 229 212 252][...]]

我们可以将像素值显示在对应像素上,如下所示:

在对应像素上现实像素值

如图所示,接近 255 的像素看起来更亮,而接近 0 的像素看起来更暗。

2.2 彩色图像表示

我们也可以将以上步骤用于彩色图像上,每个像素可以表示为 3 维向量,最亮的红色像素表示为 (255,0,0),图像中的纯白色像素表示为 (255,255,255)。接下来,将彩色图像转换为结构化像素值数组。

(1) 导入相关库并加载图像:

import cv2
import matplotlib.pyplot as plt
img = cv2.imread('1.jpeg')

(2) 裁剪图像并绘制图像:

img = img[100:600,100:900]
img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB) 
plt.imshow(img)
plt.show()
print(img.shape)
# (500, 800, 3)

彩色图像裁剪

在以上代码中,使用 cv2.cvtcolor 方法对通道进行了重新排序。这是因为使用 cv2 导入图像时,通道的顺序是:蓝色-绿色-红色 (BGR),但通常,我们习惯于以“红色-绿色-蓝色”的 RGB 通道查看图像。

(3) 打印右下角的 3 x 3 像素阵列,并绘制像素值:

crop = img[-3:,-3:]
print(crop)
'''
[[[ 80 152  86][ 77 148  82][ 74 146  80]][[ 82 153  87][ 81 150  87][ 79 148  85]][[ 81 151  81][ 88 154  90][ 88 154  90]]]
'''
plt.imshow(crop)
plt.show()

彩色图像表示

将图像转换为结构化的数字数组(即将图像读入 Python 内存)使我们能够对图像(表示为数字数组)执行各种数学运算,利用这种数据结构可以执行计算机视觉各种任务,例如分类、检测和分割等。

3 利用神经网络进行图像分析的优势

在传统计算机视觉中,在将数据输入到模型之前需要利用专业知识为每张图像提取一些特征。接下来,我们根据以下示例图像介绍传统计算机视觉如何获取特征,以了解通过训练神经网络避免手动提取图像特征的优势。

  • 直方图特征:对于一些任务,图片中的光照(或者说图像中亮像素和暗像素的比例)十分重要,如夜视应用。下图展示了示例图像的直方图,可以看到图像的亮度较高:

直方图特征

  • 边和角点特征:对于图像分割等任务,需要获取与每个目标对应的像素集,提取边是一种有效的做法;而在图像匹配等任务中,检测关键点则至关重要,这些关键点是图像中角点的子集。下图表示在示例图像中获得的边和角点:

边和角点特征

  • 色彩分离特征:在自动驾驶汽车的交通信号灯检测等任务中,通常需要了解交通信号灯上显示的颜色。下图显示了示例图像的红色、绿色和蓝色通道:

色彩分离特征

  • 图像梯度特征:了解颜色在像素级别的变化同样可能非常重要,不同的纹理具有不同的梯度,因此可以将图像梯度用作纹理检测器。事实上,获取梯度是进行边缘检测的先决条件。下图显示了示例图像的整体梯度及其 xy 方向上的分量:

图像梯度特征

以上特征只是诸多图像特征中的一小部分,构建这些特征需要了解图像和信号分析方面的大量知识,并且应该充分了解哪些特征最适合解决问题。即使满足这两个约束条件,也不能保证能够找到正确的输入特征组合,即使找到这样的特征,也不能保证其在新的应用场景中能够起作用。
基于神经网络的模型不仅能提取正确的特征,还能学习如何进行最佳组合完成目标任务,解决了传统特征提取的缺点,也就是说,神经网络既可以作为特征提取器,也可以作为分类器。
综上,利用神经网络进行图像分析具有以下几个优势:

  • 自动特征学习:传统的图像分析方法需要手动提取特征,而神经网络可以自动学习图像中的特征表示。通过多层神经网络的堆叠和训练,网络可以学习到不同层次的特征抽象,从低层次的边缘和纹理到高层次的对象和语义概念。这种自动特征学习使得神经网络在复杂的图像分析任务中表现出色。
  • 非线性建模能力:神经网络是一种非线性模型,可以更好地建模和捕捉图像中的非线性关系。由于图像具有丰富的结构、纹理和形态信息,线性模型无法充分表示这些复杂特征。神经网络通过激活函数和多层连接来引入非线性变换,从而更好地适应各种图像分析任务。
  • 鲁棒性和泛化能力:神经网络在大规模数据集上进行训练,并具有较强的鲁棒性和泛化能力。这意味着网络能够处理具有不同视角、光照条件、噪声等变化的图像,并且在未见过的数据上也能有良好的表现。通过合理设计和训练,神经网络可以对图像中的变化和干扰具有一定的容忍度。
  • 端到端学习:神经网络可以实现端到端学习,从原始图像输入到最终的输出结果,无需手工设计复杂的流程和特征转换。这简化了图像分析系统的开发和部署过程,同时减少了人工错误和信息损失。通过端到端学习,神经网络可以直接从数据中学习到有效的表示和决策规则。
  • 可扩展性和灵活性:神经网络可以通过增加网络层数、调整神经元数量以及引入不同的模块和结构来提高模型的能力。这使得神经网络具有很强的可扩展性和灵活性,在各类图像分析任务中可以根据需求进行调整和优化。

小结

利用神经网络进行图像分析能够自动学习特征、处理非线性关系、具有鲁棒性和泛化能力,并且支持端到端学习和可扩展性,这使其成为当今计算机视觉领域的主要技术手段之一。本节介绍了计算机视觉的基本概念以及图像在计算机中的表示方法,为计算机视觉的高级任务奠定了基础。

系列链接

PyTorch深度学习实战(1)——神经网络与模型训练过程详解
PyTorch深度学习实战(2)——PyTorch基础
PyTorch深度学习实战(3)——使用PyTorch构建神经网络
PyTorch深度学习实战(4)——常用激活函数和损失函数详解

相关文章:

PyTorch深度学习实战(5)——计算机视觉

PyTorch深度学习实战(5)——计算机视觉 0. 前言1. 图像表示2. 将图像转换为结构化数组2.1 灰度图像表示2.2 彩色图像表示 3 利用神经网络进行图像分析的优势小结系列链接 0. 前言 计算机视觉是指通过计算机系统对图像和视频进行处理和分析,利…...

遥感目标检测(1)--R3Det

目录 一、概述 二、三个挑战 三、网络架构​编辑 1、旋转RetinaNet 2、精细化旋转RetinaNet 3、与RoIAlign(感兴趣区域插值)进行比较 4、消融实验与对比实验 一、概述 R3Det论文中提到一个端到端的精细化的单级旋转检测器,通过从粗到细…...

使用 vue3-tel-input电话组件时,为什么通过v-model绑定的默认值无效而 通过:value绑定有效?

问题: 使用第三方 vue3-tel-input电话组件时,通过v-model绑定具有初始值的电话变量,但input框内显示的初始值为空? 排查过程: 将 v-model绑定改为 :value绑定后,电话变量初始值竟然能够显示在vue3-tel-inp…...

【运维工程师学习二】OS系统管理

【运维工程师学习二】OS系统管理 1、操作系统管理2、进程管理3、进程的启动4、进程信息的查看4.1、STAT 进程的状态:进程状态使用字符表示的(STAT的状态码),其状态码对应的含义:4.2、ps命令常用用法(方便查看系统进程&…...

【前端技巧】CSS常用知识碎片(九)

CSS常用知识碎片(九) mask-image属性 带有半透明的PNG图像的遮罩效果 .mask-image {mask: no-repeat center / contain;mask-image: url(bird.png); }SVG图形遮罩效果 .mask-image {mask-image: url("data:image/svgxml,%3Csvg viewBox0 0 3232…...

SQL 上升的温度

197 上升的温度 SQL架构 表: Weather ---------------------- | Column Name | Type | ---------------------- | id | int | | recordDate | date | | temperature | int | ---------------------- id 是这个表的主键 该表包含特定日期的温度信息 编写一个 SQL …...

Matlab实现最优化(附上多个完整仿真源码)

最优化是一种寻找最优解的数学方法,它在各个领域都有广泛的应用。在Matlab中,有多种工具箱和函数库可以用来实现最优化,下面我们来介绍一下如何用Matlab实现最优化。 1. 定义目标函数 在开始最优化之前,需要定义一个目标函数。目…...

es下载历史的tar文件

第一步进入官网找到历史版本 第二步复制历史版本名称组合成下面的链接 直接get访问下载。如下链接所示只需要修改7.3.0这个版本号 https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.3.0-linux-x86_64.tar.gz...

顺畅下载chatglm2-6b的模型文件

不管是从huggingface下,git下,wget下,都可能卡。 用推荐的清华源的url下,也卡,但url转换之后的,在windows下不了。 但是在linux上就几十兆每秒 wget https://cloud.tsinghua.edu.cn/seafhttp/files/0d8b273…...

go语言 socket: too many open files 错误分析

问题背景: 近期针对老的PHP接口做了迁移重构,用golang重新实现,在上线之前,测试进行了压测,压测的量级为:200请求/s, 连续请求10s,发现接口出现大量超时错误,查看日志发现错误信息为…...

分布式搜索--elasticsearch

一、初识 elasticsearch 1. 了解 ES ① elasticsearch 是一款非常强大的开源 搜索引擎,可以帮助我们从海量数据中 快速找到需要的内容 ② elasticsearch 结合 kibana、Logstash、 Beats,也就是 elastic stack (ELK),被 广泛应用在日志数据分…...

UE5《Electric Dreams》项目PCG技术解析 之 PCGCustomNodes详解(一)

《Electric Dreams》项目中提供了一些自定义节点和子图(文件位置:“/Content/PCG/Assets/PCGCustomNodes”),这些节点和子图在《Electric Dreams》被广泛使用,对于理解《Electric Dreams》非常重要,而且它们可以直接移…...

500万PV的网站需要多少台服务器?

1. 衡量业务量的指标 衡量业务量的指标项有很多,比如,常见Web类应用中的PV、UV、IP。而比较贴近业务的指标项就是大家通常所说的业务用户数。但这个用户数比较笼统,其实和真实访问量有比较大的差距,所以为了更贴近实际业务量及压力…...

拖动排序功能的实现 - 使用HTML、CSS和JavaScript

引言 在现代Web应用程序中,拖动排序是一种常见的用户界面交互方式,它允许用户通过拖动元素来重新排列列表或项目的顺序。本文将介绍如何使用HTML、CSS和JavaScript来实现手动拖动排序功能。 一、HTML结构 首先,我们需要定义一个列表&#…...

【STM32MP135 - ST官方源码移植】第三章:OPTEE源码移植教程

STM32MP135 OPTEE源码移植教程 一、解压optee的源码压缩包二、拷贝新的设备树文件三、修改Makefile.sdk文件(1)增加stm32mp135d-atk设备树编译(2)修改编译器为arm-none-linux-gnueabihf(3)使用buildroot工具…...

云主机安全-私有密钥安全认证

场景描述 云主机凭借其性价比高、生配扩容便利、运维便捷、稳定性高等优势深受用户青睐,越来越多的企业开始租用云主机,将自己的服务器、业务系统等搭建或存储到云主机上。 用户痛点 用户租用或托管的云主机,运维端口(远程桌面&…...

《Web安全基础》02. 信息收集

web 1:CDN 绕过1.1:判断是否有 CDN 服务1.2:常见绕过方法1.3:相关资源 2:网站架构3:WAF4:APP 及其他资产5:资产监控 本系列侧重方法论,各工具只是实现目标的载体。 命令与…...

ffmpeg根据原始视频的帧率进行提取视频帧

直接上代码,自己编写的。。。有问题可以提 安装教程看这个:https://blog.csdn.net/m0_61497715/article/details/129817641 去官网下个最新的ffmpeg,解压到随便的目录,上级目录最好不要用中文; 然后去设置环境变量&am…...

从零搭建秒杀服务

1. 前言 目的:该项目只用于技术交流,不用于过多商业用途。 适用:可用于简历亮点、毕业答辩等。 2. 项目成果 2.1 秒杀主页 包含5个功能点: ①、Product Name:秒杀商品名称 ②、Product Image:秒杀商…...

数据库应用:CentOS 7离线安装PostgreSQL

目录 一、理论 1.PostgreSQL 2.PostgreSQL离线安装 3.PostgreSQL初始化 4.PostgreSQL登录操作 二、实验 1.CentOS 7离线安装PostgreSQL 2.登录PostgreSQL 3.Navicat连接PostgreSQL 三、总结 一、理论 1.PostgreSQL (1)简介 PostgreSQL 是一个…...

基于python大数据的水文数据分析可视化系统

博主介绍:高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了多年的设计程序开发,开发过上千套设计程序,没有什么华丽的语言,只有实实在…...

MySQL间隙锁入手,拿下间隙锁面试与实操

一、MySQL 间隙锁,究竟是什么? 在 MySQL 的世界里,间隙锁(Gap Lock)就像是一个默默守护数据一致性的卫士,看似低调,却在并发控制中扮演着至关重要的角色。​ 想象一下,你去图书馆借…...

金融预测模型开发:数据预处理、机器学习预测与交易策略优化

金融预测模型开发:数据预处理、机器学习预测与交易策略优化 概述 本文将详细介绍一个完整的金融预测模型开发流程,包含数据预处理、机器学习预测和交易策略优化三个核心模块。我们使用Python实现一个端到端的解决方案,适用于股票价格预测和量化交易策略开发。 # 导入必要…...

Redis持久化策略:RDB与AOF详解

目录 1. RDB持久化工作原理触发机制优点缺点配置示例 2. AOF持久化工作原理同步策略重写机制优点缺点配置示例 3. RDB与AOF比较4. 混合持久化(Redis 4.0)5. 选择建议 Redis提供了两种主要的持久化机制来保证数据安全:RDB(Redis Database)和AOF(Append Only File)。本…...

SpringCloudAlibaba和SpringBoot版本问题

SpringCloudAlibaba和SpringBoot版本问题 直接参考官方给出的版本说明,具体地址:https://github.com/alibaba/spring-cloud-alibaba/wiki/%E7%89%88%E6%9C%AC%E8%AF%B4%E6%98%8E Spring Cloud Alibaba VersionSentinel VersionNacos VersionRocketMQ Ver…...

数据源指的是哪里的数据,磁盘中还是内存中

在 MyDB 项目中,特别是这段缓存框架代码: T obj getForCache(key);以及它的上下文: AbstractCache 是一个抽象类,内部有两个抽象方法,留给实现类去实现具体的操作: protected abstract T getForCache(lon…...

Vue3 + Vite 中使用 Lodash-es 的防抖 debounce 详解

Vue3 Vite 中使用 Lodash-es 的防抖(debounce)详解 在 Vue3 Vite 项目中,debounce 是 lodash-es 中最常用的功能之一,它可以帮助我们优化高频事件的处理。下面我将详细讲解 debounce 的使用方法,并提供一个完整的示例。 Debounce 核心概念…...

qt使用笔记二:main.cpp详解

Qt中main.cpp文件详解 main.cpp是Qt应用程序的入口文件&#xff0c;包含程序的启动逻辑。下面我将详细解析其结构和功能。 基本结构 一个典型的Qt main.cpp 文件结构如下&#xff1a; #include <QApplication> // 或者 QGuiApplication/QCoreApplication #include &…...

oracle数据恢复—oracle数据库执行truncate命令后的怎么恢复数据?

oracle数据库误执行truncate命令导致数据丢失是一种常见情况。通常情况下&#xff0c;oracle数据库误操作删除数据只需要通过备份恢复数据即可。也会碰到一些特殊情况&#xff0c;例如数据库备份无法使用或者还原报错等。下面和大家分享一例oracle数据库误执行truncate命令导致…...

【业务框架】3C-相机-Cinemachine

概述 插件&#xff0c;做相机需求&#xff0c;等于相机老师傅多年经验总结的工具 Feature Transform&#xff1a;略Control Camera&#xff1a;控制相机参数Noise&#xff1a;增加随机性Blend&#xff1a;CameraBrain的混合列表指定一个虚拟相机到另一个相机的过渡&#xff…...