当前位置：首页 > news >正文

计算机视觉读书系列（1）——基本知识与深度学习基础

news 2025/7/12 12:11:23

研三即将毕业，后续的工作可能会偏AI方向的计算机视觉方面，因此准备了两条线来巩固计算机视觉基础。

一个是本系列，阅读经典《Deep Learning for Vision System》，做一些总结跑一些例子，也对应本系列文章

二是OpenCV实践系列，根据官方自学OpenCV使用方法，对应"OpenCV-Python自学系列"。

后续准备在实际项目中引入一些目前的大模型的东西，视觉语言模型在传统CV任务上的理解和实践等。

本期主要包括基础知识和深度学习介绍。本篇主要以概念为主

一、计算机视觉通识

1.1 计算机器视觉

视觉系统：传感设备 + 解释设备

1.2 计算机视觉的应用

略

1.3 计算集视觉处理流程

计算机视觉处理流程：输入数据——预处理——特征提取——机器学习模型。

以图像分类算法为例，其流程为：从视觉设备输入一张图像、对图像进行预处理（标准化、重采样、模糊、旋转、颜色变换等等）、特性提取（输出为特征向量）、将特征喂到分类模型中、输出概率（该概率代表输入相片是该类别的概率）

1.4 图像输入

图像坐标系：原点为最左上角，横着为x，向右为正；竖着为y，向下为正。（注意，在代码张对图像数据，也即矩阵，进行索引时，仍然按照直观上的行列进行索引）。

图像映射：图像时多层矩阵的组合，每个矩阵中的元素值可看作该点坐标的映射，也即z=f(x,y)，z表示坐标为（x，y）的像素值。

通道：通常情况下，灰度图像为单通道，取值范围0-255，0为黑色，255为白色。彩色图像由三通道组成，R（红色）G（绿色） B（蓝色）。

1.5 图像预处理

预处理一：将图像由彩色转化为灰度降低计算复杂性。对于那些颜色不是很重要的特征而言，可使用该方法。

预处理二：重采样固定模型输入尺寸。

预处理三：数据增强。

等等。。。

理论：没有一个方法或一个策略能适合于所有的任务。

1.6 特征提取

特征定义：

在机器学习过程中，我们希望将原始数据转换为特征向量（一维向量，能简单表示整个类别），再将特征向量展示于我们的学习算法。

如何选择一个好的特征（如何提取出好的特征）？

传统特征提取和DL的区别：

二、深度学习基础

2.1 理解感知机

感知机的构成主要包括以下几个方面：输入向量、权重向量、神经函数、输出。如图

感知机如何进行学习：感知机通过测试和误差从他的错误中进行学习。

2.2 多层感知机

单层的感知机能力有限（线性问题），无法解决复杂情况的问题。因此使用多层神经元的感知机，也即多层感知机。关于多层感知机的概念需要清楚的是：

隐含层的数量：输入层于输出层之间的网络被称为隐含层，隐含层越多其模型拟合能力越强，但容易过拟合。

激活函数：在某个神经元进行加权求和后进行映射操作，是神经网络具备非线性拟合能力的关键。

误差函数：用于衡量模型的预测结果和真实结果之间差距的函数。

优化器：基于模型现有误差对模型进行调整的优化算法。

Batch-Size：采用MiniBatch方式进行训练的情况下，每个批次的包含样本的多少。

训练轮数：整个训练进行的轮次数。

学习率：（优化过程中）学习速度的控制。

2.3 激活函数

激活函数的目的：往神经网络中引入非线性。

线性激活函数：

步型函数：

Sigmoid函数：将无限连续的变量转移到简单的0-1之间的概率。广泛用于分类中。

softmax函数：对Sigmoid函数的泛化，Sigmoid只能处理单类问题，而sigmoid能处理多类型分类中的概率计算问题。

tanh函数：这个函数在隐含层中表现往往比sigmoid函数更好，因为使用tanh会使得数据的均值更接近于0而不是sigmoid的0.5，使得后续的训练更加简单。

ReLU函数：ReLU函数被认为是目前最优秀的（state-of-the-art）的激活函数。

Leaky ReLU函数：虽然用得不多，但通常略优于ReLU，主要是在小于0是提供了小幅度的导数。

2.4 前馈过程

神经网络的前馈过程，加权求和（矩阵乘法）——激活函数——加权求和——激活函数...

其计算过程可表示为：

表示矩阵乘法可为：

2.5 误差函数

常用的误差函数主要由两大类，MSE（Mean Square Error）和Cross Entropy Error。

MSE主要用于回归问题，用于衡量两个向量在空间中的欧式距离的大小。

交叉熵函数（Cross Entropy Error）：量化预测概率和目标概率之间的差距。

参数描述如下：

2.6 优化算法

Batch Gradient Descent：逐步的根据梯度信息对误差进行优化。

梯度：其方向代表了误差下降最快的方向，梯度仅仅提供误差下降的方向信息。

学习率：决定了迭代速度。

Batch GD：将所有数据放在一个Batch中，进行训练，每一个参数更新都是计算了所有训练数据集后的结果。

Stochastic Gradient Descent（SGD）：在每次参数更新时只随机选择一组样本数据计算误差。

在实际应用中SGD表现要由于Batch GD。

Mini-Batch Gradient Descent（MBGD）：将数据集按一定的尺寸分割为不同批次，每计算一个批次就进行一次参数更新。

其余优化算法：Adam、Adagrad、RMSprop等...

2.7 反向传播

根据链式求导法制对每个参数求偏导，获得梯度，进而计算其参数的改正值。

对网络中某个参数的求解可如下：

相当较为基础，笔记较为简略，欢迎批评交流。

下一期：卷积

共勉。

计算机视觉读书系列（1）——基本知识与深度学习基础

研三即将毕业，后续的工作可能会偏AI方向的计算机视觉方面，因此准备了两条线来巩固计算机视觉基础。一个是本系列，阅读经典《Deep Learning for Vision System》，做一些总结跑一些例子，也对应本系列文章二是OpenCV实…...

编程日记 2024/11/7 7:34:42

怎么查看navicat的数据库密码

步骤1:打开navicat连接数据库工具，顶部的文件栏-导出结果-勾选导出密码-导出步骤2：导出结果使用NotePad或文本打开，找到，数据库对应的的Password"995E66F64A15F6776“”的值复制下来 <Connection ConnectionName"…...

编程日记 2024/11/7 7:30:35

webrtc前端播放器完整案例

https://download.csdn.net/download/jinhuding/89961792...

编程日记 2024/11/7 7:29:34

GORM优化器和索引提示

在使用 GORM 进行数据库操作时，优化器和索引提示可以帮助你提高查询性能。GORM 提供了一些方法来利用这些特性。优化器提示优化器提示（Optimizer Hints）是数据库系统提供的功能，用于指导查询优化器如何处理查询。不同的数据库…...

编程日记 2024/11/7 7:26:32

linux驱动-i2c子系统框架学习(1)

可以将整个 I2C 子系统用下面的框图来描述： 可以将上面这一 I2C 子系统划分为三个层次，分别为用户空间、内核空间和硬件层，内核空间就包括 I2C 设备驱动层、I2C 核心层和 I2C 适配器驱动层， 本篇主要内容就是介绍 I2C 子系统框架中…...

编程日记 2024/11/7 7:22:26

元戎启行嵌入式面试题及参考答案

介绍下 CAN 通信原理控制器局域网（CAN）是一种串行通信协议，主要用于汽车、工业自动化等领域的电子控制单元（ECU）之间的通信。其通信原理是基于多主站架构。在总线上，多个节点（设备）都可以主动发起通信。CAN 协议使用差分信号来传输数据，通过两条信号线 CAN_H 和 CAN…...

编程日记 2024/11/7 7:21:25

【EasyExcel】EasyExcel导出表格包含合计行、自定义样式、自适应列宽

目录 0 EasyExcel简介1 Excel导出工具类设置自定义表头样式设置自适应列宽添加合计行 2 调用导出工具类导出Excel表3 测试结果 0 EasyExcel简介在数据处理和报表生成的过程中，Excel是一个非常常用的工具。特别是在Java开发中，EasyExcel库因其简单高效而…...

编程日记 2024/11/7 7:20:24

es数据同步（仅供自己参考）

数据同步的问题分析： 当MySQL进行增删改查的时候，数据库的数据有所改变，这个时候需要修改es中的索引库的值，这个时候就涉及到了数据同步的问题解决方法： 1、同步方法： 当服务对MySQL进行增删改的时候&…...

编程日记 2024/11/7 7:17:22

# 安装必要的软件 sudo apt-get install -y apt-mirror # 编辑/etc/apt/mirror.list，添加以下内容 set base_path /var/spool/apt-mirror # 指定要镜像的Ubuntu发布和组件-null dir jammy-updates main restricted universe multiverse # 镜像的Ubuntu发布和组件的URL-n…...

编程日记 2024/11/7 7:15:19

libaom 源码分析：预测编码过程梳理

AV1 预测编码中核心技术 AV1（AOMedia Video 1）作为一种开源的视频编码格式，其预测编码核心技术主要包括以下几个方面：分区树分割模块： AV1利用多类型分割模式，递归地对图像/视频序列进行分区，以捕捉更丰富的空间信息，从而提升编码效率。这包括新的方向预测分割模式及…...

编程日记 2024/11/7 7:11:16

从0开始学习Linux——Yum工具

往期目录： 从0开始学习Linux——简介&安装从0开始学习Linux——搭建属于自己的Linux虚拟机从0开始学习Linux——文本编辑器上一个章节我们简单了解了Linux中常用的一些文本编辑器，本次教程我们将学习yum工具。一、Yum简介 Yum（全名…...

编程日记 2024/11/7 7:10:15

【Linux】Linux管道揭秘：匿名管道如何连接进程世界

🌈个人主页：Yui_ 🌈Linux专栏：Linux 🌈C语言笔记专栏：C语言笔记 🌈数据结构专栏：数据结构 🌈C专栏：C 文章目录 1.什么是管道 ？2. 管道的类型2.1 匿…...

编程日记 2024/11/7 7:09:13

【LeetCode】【算法】155. 最小栈

LeetCode 155. 最小栈题目描述设计一个支持 push ，pop ，top 操作，并能在常数时间内检索到最小元素的栈。实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素val推入堆栈。 void pop() 删除堆栈顶部的元素。 int …...

编程日记 2024/11/7 7:08:13

3.3 windows,ReactOS系统中页面的换出----1

系列文章目录文章目录系列文章目录3.3 页面的换出MiBalancerThread()MmTrimUserMemory（）MmPageOutVirtualMemory（） 3.3 页面的换出在前一节中我们看到，如果有映射的页面已经被倒换到磁盘上即倒换文件中&#xff0c…...

编程日记 2024/11/7 7:07:10

QCustomPlot添加自定义的图例，实现隐藏、删除功能（二）

文章目录实现步骤：详细代码示例：实现原理和解释：使用方法：其他参考要实现一个支持复选框来控制曲线显示和隐藏的自定义 QCPLegend 类，可以通过继承 QCPLegend 并重写绘制和事件处理方法来实现，同时发出信号通知曲线的状态变更。实现步骤：继承 QCPLegend 类，添加绘…...

编程日记 2024/11/7 7:05:08

Linux云计算 |【第五阶段】CLOUD-DAY8

主要内容： 掌握DaemonSet控制器、污点策略（NoSchedule、Noexecute）、Job / CronJob资源对象、掌握Service服务、服务名解析CluterIP（服务名自动发现）、（Nodeport、Headless）、Ingress控制器一…...

编程日记 2024/11/7 7:03:07

岛屿数量广搜版BFS C#

和之前的卡码网深搜版是一道题力扣第200题 99. 岛屿数量题目描述给定一个由 1（陆地）和 0（水）组成的矩阵，你需要计算岛屿的数量。岛屿由水平方向或垂直方向上相邻的陆地连接而成，并且四周都是水域。…...

编程日记 2024/11/7 7:01:05

hive切换表底层文件类型以及分隔符

1、改底层文件存储类型，但是一般只会在数据文件与期望类型一致的时候使用，比如load等方式时发现建表时没指定对这样的，因为这个语句不会更改具体的底层文件内容，只改元数据 ALTER TABLE 表名 SET FILEFORMAT 希望类型;2、更改数据…...

编程日记 2024/11/7 7:00:04

ChatGPT o1与GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro的比较

全新的ChatGPT o1模型（代号“Strawberry”）是OpenAI的最新进展，专注于以前的AI模型难以应对的领域：高层次推理、数学和复杂编程。OpenAI设计o1模型以花费更多时间思考问题，使其在需要逐层推理的任务中提高准确性。本文…...

编程日记 2024/11/7 6:59:03

asp.net文件防盗链

URLRewriter实现可以参考下面的文章代码 .net framework 新建asp.net framework的web项目，新建AntiTheftChainHandler using System.Web;namespace AntiTheftChainStu01.Handler {public class AntiTheftChainHandler : IHttpHandler{public bool IsReusable…...

编程日记 2024/11/7 6:58:02

龙虎榜——20250610

上证指数放量收阴线，个股多数下跌，盘中受消息影响大幅波动。深证指数放量收阴线形成顶分型，指数短线有调整的需求，大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技代表标的：御银股份、雄帝科技驱动…...

编程新知 2025/7/11 2:21:39

装饰模式（Decorator Pattern）重构java邮件发奖系统实战

前言现在我们有个如下的需求，设计一个邮件发奖的小系统， 需求 1.数据验证 → 2. 敏感信息加密 → 3. 日志记录 → 4. 实际发送邮件装饰器模式（Decorator Pattern）允许向一个现有的对象添加新的功能，同时又不改变其…...

编程新知 2025/7/12 8:36:24

linux 错误码总结

1，错误码的概念与作用在Linux系统中，错误码是系统调用或库函数在执行失败时返回的特定数值，用于指示具体的错误类型。这些错误码通过全局变量errno来存储和传递，errno由操作系统维护，保存最近一次发生的错误信息。值得注意的是，errno的值在每次系统调用或函数调用失败时…...

编程新知 2025/7/8 20:42:45

页面渲染流程与性能优化

页面渲染流程与性能优化详解（完整版） 一、现代浏览器渲染流程（详细说明） 1. 构建DOM树浏览器接收到HTML文档后，会逐步解析并构建DOM（Document Object Model）树。具体过程如下： (…...

编程新知 2025/7/10 10:42:25

Swagger和OpenApi的前世今生

Swagger与OpenAPI的关系演进是API标准化进程中的重要篇章，二者共同塑造了现代RESTful API的开发范式。本期就扒一扒其技术演进的关键节点与核心逻辑： 🔄 一、起源与初创期：Swagger的诞生（2010-2014） 核心…...

编程新知 2025/6/20 15:14:31

Fabric V2.5 通用溯源系统——增加图片上传与下载功能

fabric-trace项目在发布一年后，部署量已突破1000次，为支持更多场景，现新增支持图片信息上链，本文对图片上传、下载功能代码进行梳理，包含智能合约、后端、前端部分。一、智能合约修改为了增加图片信息上链溯源，需要对底层数据结构进行修改，在此对智能合约中的农产品数…...

编程新知 2025/7/11 21:04:39

怎么开发一个网络协议模块（C语言框架）之(六) ——通用对象池总结(核心)

+---------------------------+ | operEntryTbl[] | ← 操作对象池 (对象数组) +---------------------------+ | 0 | 1 | 2 | ... | N-1 | +---------------------------+↓ 初始化时全部加入 +------------------------+ +-------------------------+ | …...

编程新知 2025/7/6 4:06:38

RabbitMQ 各类交换机

为什么要用交换机？ 交换机用来路由消息。如果直发队列，这个消息就被处理消失了，那别的队列也需要这个消息怎么办？那就要用到交换机交换机类型 1，fanout：广播特点广播所有消息：将消息…...

编程新知 2025/7/11 11:00:26

性能优化中，多面体模型基本原理

1）多面体编译技术是一种基于多面体模型的程序分析和优化技术，它将程序中的语句实例、访问关系、依赖关系和调度等信息映射到多维空间中的几何对象，通过对这些几何对象进行几何操作和线性代数计算来进行程序的分析和优化。其中&#xff0…...

编程新知 2025/7/11 6:50:21