好好说话:深度学习扫盲
大创项目是和目标检测算法YOLO相关的,浅浅了解了一些有关深度学习的知识。在这里根据本人的理解做一些梳理。
深度学习是什么?
之前经常听到AI,机器学习,深度学习这三个概念,但是对于三者的区别一直很模糊。
AI(人工智能)是一个广泛的概念,指的是模拟或模仿人类智能的计算机系统。AI的目标是让机器能够进行感知、推理、学习、决策等操作,像人类一样执行任务。AI不仅限于机器学习和深度学习,它还包括规则系统、专家系统、自然语言处理等技术。比如chatGPT等大语言模型,就是自然语言处理为核心的基于深度学习的AI。
机器学习是人工智能的一个子集,它通过让机器从数据中学习并进行预测或决策,而不需要显式编程。机器学习的核心是利用算法从数据中提取规律,进而使机器能够做出判断或预测。机器学习的方法主要分为监督学习、无监督学习、强化学习等,其中包括了很多传统的算法,如决策树、支持向量机(SVM)、随机森林等。
深度学习是机器学习中的一个子集,它借鉴了人脑的结构,使用深层神经网络(即含有多层神经元的网络)来自动学习数据中的特征和模式。深度学习特别擅长处理图像、语音、文本等大规模数据,并在许多领域取得了突破性的成果。深度学习是目前机器学习中最先进的方法之一,尤其在计算机视觉、语音识别、自然语言处理等领域表现突出。
省流: 三者是一个包含关系
- AI 是一个大框架,包含了所有试图模拟智能的技术。
- 机器学习 是AI中的一种方法,它专注于通过数据和算法进行学习。
- 深度学习 是机器学习中的一种方法,利用神经网络来解决更复杂的任务,尤其适合处理大规模、复杂的数据。
神经网络是什么?
神经网络是一种模拟人脑神经元结构和工作方式的计算模型,广泛应用于机器学习和人工智能领域,尤其是深度学习中。神经网络通过大量的“神经元”节点和它们之间的连接来处理数据、学习规律,并进行预测或分类等任务。
神经网络的基本结构:
神经网络由多个层(layers)组成,每一层都包含多个神经元(neurons)。这些神经元通过连接(称为“权重”)相互连接,形成一个网络。典型的神经网络结构包括以下几层:
-
输入层(Input Layer):
接收外部输入数据,如图片、文本、音频等。在输入层,每个神经元代表一个输入特征(例如,图像中的像素值)。 -
隐藏层(Hidden Layers):
输入层的数据会经过一个或多个隐藏层进行处理和转换。隐藏层包含神经元,它们通过加权和激活函数来进行处理。通过多层处理,网络能够学习到更复杂的特征和规律。
在深度神经网络(DNN)中,隐藏层的数量可能很大,甚至有数十层。 -
输出层(Output Layer):
输出层给出神经网络的最终预测结果,例如分类任务中的类别标签,回归任务中的数值预测。
神经网络的工作原理:
-
前向传播(Forward Propagation):
数据从输入层开始,逐层传递到输出层。每个神经元通过接收输入并与权重相乘,然后通过激活函数生成输出,传递到下一层。 -
权重和偏置:
神经元之间的连接有权重(表示连接强度),每个神经元还有一个偏置(bias),这两个参数会影响神经网络的输出。权重和偏置在训练过程中通过反向传播调整,以使得神经网络的预测更准确。 -
激活函数:
激活函数的作用是给神经元添加非线性因素,帮助网络学习复杂的模式。常见的激活函数有Sigmoid、ReLU(Rectified Linear Unit)等。 -
反向传播(Backpropagation):
反向传播是神经网络训练中的一个关键步骤,用来通过计算输出与真实标签之间的误差,逐层调整网络中的权重和偏置,最小化误差。它使用梯度下降算法来优化模型。
神经网络的分类:
-
前馈神经网络(Feedforward Neural Network, FNN):
最基本的神经网络模型,信息只在网络中前向传播,没有反馈循环。 -
卷积神经网络(CNN):
主要用于图像处理、计算机视觉任务,具有卷积层、池化层等,用于提取图像中的空间特征。 -
循环神经网络(RNN):
主要用于处理序列数据(如时间序列、文本),神经元之间有反馈连接,可以捕捉数据的时间依赖性。 -
生成对抗网络(GAN):
包含两个神经网络:生成器和判别器,用于生成新的数据(如图像、音频等),通常用于生成任务。
所谓的“模型”是什么?
在人工智能(AI)和机器学习(ML)领域,“模型”通常指的是一个经过训练,可以对输入数据进行处理并产生预测、分类或其他输出的数学或计算结构。简单来说,模型是一个用来从数据中学习并作出决策或推理的工具。
听起来和机器学习的概念是不是很像?其实机器学习可以理解为是一种技术,而模型是使用了机器学习这种技术的最终产品。
如果参与过数学建模类型的比赛的话,对此部分的理解会更加深入。
模型的组成:
-
输入数据:
模型的输入可以是任何类型的数据,如图片、文本、数字、音频等。输入数据将通过模型进行处理,得出相应的输出。 -
参数:
模型通常包含一些参数(例如权重和偏置),这些参数是通过训练过程学习到的。模型的目的是通过调整这些参数,使得模型能够更好地适应数据并做出准确的预测。 -
结构或算法:
模型背后有一个特定的结构或算法,决定了它如何处理输入数据。比如在神经网络中,这个结构是由层(如输入层、隐藏层、输出层)组成的神经元连接而成;而在回归模型中,它可能只是一个线性方程。 -
输出:
模型的输出是模型根据输入数据计算得到的结果。输出可以是一个预测值(如回归任务中的数值),也可以是分类标签(如分类任务中的类别)。
模型的训练:
训练是机器学习过程中的一个重要步骤。在训练过程中,模型会通过学习大量的数据,不断调整其内部参数,直到能够最小化预测与实际结果之间的差距。通常使用损失函数来衡量这种差距,通过优化算法(如梯度下降)来调整参数。
模型的类型:
-
监督学习模型:
- 在监督学习中,模型会通过包含输入和已知标签的训练数据进行学习。目标是使模型能够对新的未标记数据进行准确的预测或分类。
- 例子:线性回归、支持向量机(SVM)、决策树、神经网络等。
-
无监督学习模型:
- 在无监督学习中,模型只能看到没有标签的输入数据。目标是从数据中发现隐藏的结构或模式。
- 例子:聚类算法(如K-means)、主成分分析(PCA)等。
-
强化学习模型:
- 强化学习模型通过与环境交互获得反馈,从而学习如何最大化奖励。在训练过程中,模型会不断进行试错,调整策略。
- 例子:Q-learning、Deep Q Networks(DQN)等。
-
生成模型:
- 生成模型能够生成新的数据,它不仅能够对现有数据进行建模,还能根据学到的分布生成新的数据点。
- 例子:生成对抗网络(GAN)、变分自编码器(VAE)等。
模型评估:
训练好的模型通常需要通过一些评估指标来测试它的效果,评估的方式因任务不同而有所不同:
- 分类任务:准确率、精确率、召回率、F1分数等。
- 回归任务:均方误差(MSE)、均方根误差(RMSE)等。
- 生成任务:生成图像的质量、与真实数据的相似度等。
后面的内容就是作者自己看的了
什么是卷积神经网络?
卷积神经网络(Convolutional Neural Network,简称CNN)是一种专门用于处理具有网格结构数据(如图像)的深度学习模型。CNN在计算机视觉领域中非常成功,广泛应用于图像分类、目标检测、图像生成等任务。
1. CNN的基本构成:
CNN的架构通常由以下几个主要部分组成:
1. 1卷积层(Convolutional Layer)
卷积层是CNN的核心,负责从输入数据中提取特征。它使用一组称为卷积核(滤波器,Filter)的权重,对输入数据进行卷积操作。每个卷积核在图像上滑动,计算卷积核与图像局部区域的点积,生成一个新的特征图(Feature Map)。
- 卷积操作:假设输入是一个图像,卷积操作就是用一个小的矩阵(卷积核)在图像上滑动,通过矩阵乘法生成新的特征图。这样可以有效地提取图像的局部特征(如边缘、角落、纹理等)。
- 感受野:卷积核对图像的局部区域进行操作,因此每个卷积层的输出特征图反映了输入图像的局部特征。
1.2 激活层(Activation Layer)
在卷积层的输出之后,通常会使用激活函数(如ReLU)来引入非线性。ReLU(Rectified Linear Unit)是最常用的激活函数,它会对卷积结果进行阈值处理,输出大于零的部分,负值部分输出为零,增强网络的非线性表示能力。
1.3 池化层(Pooling Layer)
池化层用于降低特征图的空间尺寸(宽度和高度),从而减少计算量和参数量,同时防止过拟合。常见的池化方法有:
- 最大池化(Max Pooling):选取池化窗口中的最大值。
- 平均池化(Average Pooling):选取池化窗口中的平均值。
池化层有助于减小特征图的维度,并且能保留重要的特征,使网络对小的平移、旋转和缩放变化具有更好的鲁棒性。
1.4 全连接层(Fully Connected Layer)
全连接层位于网络的后端,通常是在经过多次卷积层和池化层的特征图之后,进行特征的汇总。全连接层的每个神经元与前一层的所有神经元相连接,最终输出的是网络的预测结果(如分类标签、回归值等)。
1.5 归一化层(Normalization Layer)
常见的归一化方法有批量归一化(Batch Normalization),用于加速训练并稳定网络的学习过程。它对每一层的输出进行规范化,使得数据分布保持一致,从而避免训练过程中梯度消失或爆炸。
2. CNN的工作流程:
- 输入:输入数据(通常是图像)被输入到CNN中。
- 卷积操作:卷积层通过卷积核提取图像的特征。
- 池化操作:池化层降低特征图的空间尺寸,保留关键信息。
- 激活:激活函数使得网络能够学习非线性的特征。
- 全连接层:在最终的全连接层中,网络会将所有提取到的特征综合,得出预测结果(如分类标签)。
- 输出:最终通过输出层生成最终的分类结果或者回归结果。
3. CNN的特点:
3.1 局部感受野(Local Receptive Field):
卷积层通过使用局部感受野的方式,只关注输入数据的局部区域(局部感知),而不是整个图像。这样就能有效提取图像中的局部特征(如边缘、角落等)。
3.2 权重共享(Weight Sharing):
在CNN中,卷积核(滤波器)在图像上进行滑动,计算各个局部区域的卷积操作。这意味着同一个卷积核在整个图像上共享权重。这样大大减少了网络需要学习的参数量。
3.3 空间不变性(Spatial Invariance):
卷积操作能够捕捉到图像中局部位置无关的特征,即物体在图像中进行平移时,CNN仍然能够识别出来。池化操作进一步增强了这一能力,使得网络对于输入图像的平移、旋转、缩放等具有较强的鲁棒性。
3.4 层次化特征学习:
CNN通过多层的卷积层,可以逐渐从简单的局部特征(如边缘、角落)学习到更复杂的高级特征(如面部、物体等)。这使得CNN特别适合处理视觉任务。
4. CNN的应用:
CNN的应用非常广泛,尤其在图像处理领域。以下是一些常见的应用:
- 图像分类:识别图像中包含的物体类别,如识别猫、狗、汽车等。
- 目标检测:不仅识别图像中的物体,还标定物体的具体位置(即边界框)。
- 语义分割:为图像中的每个像素分配一个标签,识别图像中的不同区域。
- 图像生成:如图像超分辨率、图像修复等。
- 人脸识别:根据面部图像进行身份识别。
- 医学图像分析:如CT扫描、X光影像等的自动诊断。
5. CNN的优势:
- 自动特征提取:CNN能够自动从数据中提取有效的特征,而不需要人工设计特征。
- 高效性:通过卷积和池化操作,CNN在处理大规模数据时表现出色,尤其在图像数据处理上具有明显优势。
- 较强的泛化能力:由于权重共享和局部感受野,CNN能够在多种不同的图像变换(如平移、缩放、旋转)下依然表现出较好的鲁棒性。
总结:
卷积神经网络(CNN)是一种专门用于处理图像等结构化数据的深度学习模型。通过局部感受野、权重共享和多层次特征学习,CNN能够自动从数据中提取出有效的特征,并在图像分类、目标检测等任务中取得了显著的成功。
YOLO是什么?
YOLO(You Only Look Once)是一种基于深度学习的目标检测算法。它的主要特点是速度快、精度高,在处理图像中的目标检测任务时表现非常优秀。YOLO的核心思想是将目标检测问题视为一个回归问题,通过一个神经网络直接从图像中预测目标的位置(边界框)和类别,而不是像传统方法那样使用多个阶段。
YOLO的工作原理:
-
整体框架:
- YOLO与传统的目标检测方法不同,它采用单一的神经网络来进行整个图像的目标检测任务。这意味着,YOLO会一次性“看”完整个图像(即通过整个图像的前向传播),然后同时输出多个目标的边界框和类别标签。
- 传统目标检测算法(如R-CNN系列)通常先生成候选框(region proposals),然后再进行分类和回归,而YOLO则通过一个端到端的网络直接输出最终结果。
-
网格划分:
- YOLO将输入图像划分为S×S的网格(如13×13、19×19等)。每个网格负责检测图像中该区域内的目标。
- 每个网格不仅预测一个边界框的坐标(x, y, w, h)和置信度(表示该框包含目标的概率),还预测目标的类别。
-
边界框和置信度:
- 每个网格会预测多个边界框,每个边界框都会有一个置信度,表示框内是否存在目标以及该框与真实边界框的重叠程度。
- 置信度 = P(object) × IOU(预测框与真实框的交并比),即它同时考虑了目标存在的概率和框的准确性。
-
多类别预测:
- YOLO不仅仅是做二分类(有目标或无目标),它还能够对每个目标进行多类别的分类。例如,YOLO可以识别图像中的“猫”、“狗”、“车”等不同类型的对象。
YOLO的优点:
-
实时性:
YOLO的最大特点之一是速度快,因为它将整个检测过程集成在一个神经网络中,不需要多阶段的处理。通过这种方式,YOLO能够进行实时目标检测,适用于视频流、自动驾驶等场景。 -
全局信息:
YOLO通过整个图像的分析来做预测,这意味着它能够捕捉到图像的全局信息,而不像一些局部特征的检测算法(如R-CNN)容易忽视全局背景信息。 -
准确性:
尽管YOLO以速度为优势,但它在准确性上也表现不俗,尤其是在大规模物体检测时。
模型的压缩技术?
知乎文章
相关文章:

好好说话:深度学习扫盲
大创项目是和目标检测算法YOLO相关的,浅浅了解了一些有关深度学习的知识。在这里根据本人的理解做一些梳理。 深度学习是什么? 之前经常听到AI,机器学习,深度学习这三个概念,但是对于三者的区别一直很模糊。 AI&…...

【状态空间方程】对于状态空间方程矩阵D≠0时的状态反馈与滑模控制
又到新的一年啦,2025新年快乐~。前几个月都没更新,主要还是因为不能把项目上的私密工作写进去,所以暂时没啥可写的。最近在山里实习,突然想起年前遗留了个问题一直没解决,没想到这两天在deepseek的加持下很快解决了&am…...

腾讯大数据基于 StarRocks 的向量检索探索
作者:赵裕隆,腾讯大数据研发工程师 本文整理自腾讯大数据工程师在 StarRocks 年度峰会上的分享,深入探讨了向量检索技术的原理与应用。此功能已应用到腾讯内部多个场景,引入 StarRocks 后,业务不仅不需要维护多套数据库…...

Linux系统调用
文章目录 系统调用和POSIX标准系统调用表程序直接访问系统调用新增系统调用 在linux中,内核空间和用户空间之间增加了一个中间层——系统调用层,如下图: 系统内调用层主要作用: 为用户空间程序提供一层硬件抽象接口。保证系统稳定…...
如何在Servlet容器中使用HttpServletResponse?
HttpServletResponse 是 Java Servlet API 中的一个接口,它代表了服务器对客户端的响应。通过 HttpServletResponse 对象,可以设置响应的状态码、发送数据到客户端(如 HTML 页面、文件等)、添加响应头信息等。下面是如何在 Servle…...

SpringCloud - Seata 分布式事务
前言 该博客为Sentinel学习笔记,主要目的是为了帮助后期快速复习使用 学习视频:7小快速通关SpringCloud 辅助文档:SpringCloud快速通关 源码地址:cloud-demo 一、简介 官网:https://seata.apache.org/zh-cn/ Seata …...

Ansible批量配置服务器免密登录步骤详解
一、准备工作 192.168.85.138 安装ansible,计划配置到139的免密 192.168.85.139 待配置免密 1. 生成SSH密钥对 在Ansible控制节点生成密钥对,用于后续免密认证: ssh-keygen -t rsa -b 4096 -f ~/.ssh/id_rsa 全部回车默认,无…...

互联网大厂中面试的高频计算机网络问题及详解
前言 哈喽各位小伙伴们,本期小梁给大家带来了互联网大厂中计算机网络部分的高频面试题,本文会以通俗易懂的语言以及图解形式描述,希望能给大家的面试带来一点帮助,祝大家offer拿到手软!!! 话不多说,我们立刻进入本期正题! 一、计算机网络基础部分 1 …...
人工智能时代下ai智能语音机器人如何以假乱真?
智能语音机器人若要达到以假乱真的效果,需要在以下几个关键方面不断提升: 一、语音合成技术 音色模拟 多维度采样 对大量真人语音样本进行多维度采样,包括不同年龄、性别、地域的人的语音。例如,采集不同年龄段男性从低沉到清亮…...

【橘子ES】Aggregations 聚合准备
一、聚合的概念 聚合文档 聚合区别于检索,检索是使用一系列条件把文档从es中搜索回来。但是聚合则是在搜索回来的文档的基础上进一步进行处理。 简单来说聚合就是将数据汇总为指标、统计数据或其他分析。聚合可以解决以下几类问题: 我的网站的平均加载…...
vue3读取webrtc-stream 视频流
一.首先下载webrtc-stream,方便自己本地搭建视频流服务 https://download.csdn.net/download/cyw8998/90373521 解压后,启动命令 webrtc-streamer.exe -H 127.0.0.1:8020 二.vue3代码如下 <template><h1>video</h1><video id&…...

springcloud集成gateway
本篇文章只介绍gateway模块的搭建步骤,并无gateway详细介绍 gateway详解请查看:SpringCloudGateway官方文档详解 前置处理 父模块中已指定版本 不知道如何选择版本看这篇: 手把手教你梳理springcloud与springboot与springcloudalibaba的版本…...

2025常用的SEO工具有哪些?
在互联网时代,如何让自己的网站或内容脱颖而出,成为许多企业和个人站长们最关注的问题。而在这个过程中,SEO(搜索引擎优化)作为一种有效的提升网站曝光度和吸引流量的手段,已经成为了网站运营的核心之一。对…...

C++类和对象进阶:运算符重载深度详解
C类和对象进阶:运算符重载 前言引入运算符重载定义语法注意事项重载为全局函数重载为成员函数运算符重载的本质 默认赋值运算符重载(默认成员函数)编译器自己生成的赋值运算符重载函数需要自己实现的场景总结默认赋值运算符重载 拷贝构造函数和赋值重载的区分验证 总…...

Mybatisplus——Mybatisplus3.5.2版本使用Page分页插件查询,records有数据但是total显示0
目录 一、问题背景 debug 执行Mybatisplus使用Page分页插件查询时,发现 Page 里面的records有数据但是total显示0。 二、问题产生的原因 未配置MybatisPlus的分页插件拦截器导致的或者因mybatis-plus版本3.4或3.5版本导致原先的分页插件paginationInterceptor无法…...

C#(Winform)通过添加AForge添加并使用系统摄像机
先展示效果 AForge介绍 AForge是一个专门为开发者和研究者基于C#框架设计的, 也是NET平台下的开源计算机视觉和人工智能库 它提供了许多常用的图像处理和视频处理算法、机器学习和神经网络模型,并且具有高效、易用、稳定等特点。 AForge主要包括: 计算机视觉与人…...

AI使用场景简单测试
前言 今天来分享下AI的2个实用场景,我这里是使用的博主:小虚竹,搭建的AI服务,用的ChatGPT 4O模型,主要是试了3个场景,服装设计、直播带货话术、检验报告分析。 一、服装设计 对于最后需要的裁片设计上的尺寸…...

Linux 配置 MySQL 定时自动备份到另一台服务器
Linux 配置 MySQL 定时自动备份到另一台服务器 前言1、配置服务器通信1.1:配置过程 2、编写自动备份sh脚本文件3:设置定时自动执行 前言 此方案可使一台服务器上的 MySQL 中的所有数据库每天 0 点自动转储为 .sql 文件,然后将文件同步到另一…...

PostgreSQL 备库的延迟问题
目录标题 1. 查看主备状态计算方式:实际情况:举个例子: 2. 查看历史状态3. 分析日志文件4. 查看数据库层面的复制状态5. 检查活动事务6. 检查系统资源7. 检查网络状况8. 检查复制槽状态9. 检查未提交的两阶段事务 要排查 PostgreSQL 备库的延…...
力扣-二叉树-226 翻转二叉树
思路 利用递归的思路 代码 class Solution { public:TreeNode* invertTree(TreeNode* root) {if(root nullptr){return root;}swap( root->right, root->left);invertTree(root->left);invertTree(root->right);return root;} };...

2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...

家政维修平台实战20:权限设计
目录 1 获取工人信息2 搭建工人入口3 权限判断总结 目前我们已经搭建好了基础的用户体系,主要是分成几个表,用户表我们是记录用户的基础信息,包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题,不同的角色…...

高危文件识别的常用算法:原理、应用与企业场景
高危文件识别的常用算法:原理、应用与企业场景 高危文件识别旨在检测可能导致安全威胁的文件,如包含恶意代码、敏感数据或欺诈内容的文档,在企业协同办公环境中(如Teams、Google Workspace)尤为重要。结合大模型技术&…...

【论文阅读28】-CNN-BiLSTM-Attention-(2024)
本文把滑坡位移序列拆开、筛优质因子,再用 CNN-BiLSTM-Attention 来动态预测每个子序列,最后重构出总位移,预测效果超越传统模型。 文章目录 1 引言2 方法2.1 位移时间序列加性模型2.2 变分模态分解 (VMD) 具体步骤2.3.1 样本熵(S…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...

【笔记】WSL 中 Rust 安装与测试完整记录
#工作记录 WSL 中 Rust 安装与测试完整记录 1. 运行环境 系统:Ubuntu 24.04 LTS (WSL2)架构:x86_64 (GNU/Linux)Rust 版本:rustc 1.87.0 (2025-05-09)Cargo 版本:cargo 1.87.0 (2025-05-06) 2. 安装 Rust 2.1 使用 Rust 官方安…...
Git常用命令完全指南:从入门到精通
Git常用命令完全指南:从入门到精通 一、基础配置命令 1. 用户信息配置 # 设置全局用户名 git config --global user.name "你的名字"# 设置全局邮箱 git config --global user.email "你的邮箱example.com"# 查看所有配置 git config --list…...

关于easyexcel动态下拉选问题处理
前些日子突然碰到一个问题,说是客户的导入文件模版想支持部分导入内容的下拉选,于是我就找了easyexcel官网寻找解决方案,并没有找到合适的方案,没办法只能自己动手并分享出来,针对Java生成Excel下拉菜单时因选项过多导…...

wpf在image控件上快速显示内存图像
wpf在image控件上快速显示内存图像https://www.cnblogs.com/haodafeng/p/10431387.html 如果你在寻找能够快速在image控件刷新大图像(比如分辨率3000*3000的图像)的办法,尤其是想把内存中的裸数据(只有图像的数据,不包…...

uniapp 小程序 学习(一)
利用Hbuilder 创建项目 运行到内置浏览器看效果 下载微信小程序 安装到Hbuilder 下载地址 :开发者工具默认安装 设置服务端口号 在Hbuilder中设置微信小程序 配置 找到运行设置,将微信开发者工具放入到Hbuilder中, 打开后出现 如下 bug 解…...