当前位置：首页 > news >正文

深度学习入门（第三天）——卷积神经网络

news 2025/6/22 4:01:56

一、卷积神经网络应用领域

CV领域发展：

比赛中预测错误率的百分比，每年逐步下降。Human是人类肉眼的识别能力，2016年开始已经远高于人类肉眼死别能力，后面就取消了该方向的比赛了。

检测任务：

分类与检索：

分类：将图片分到对应类别。

检索：找到相似的图片。

还有图片重构、无人驾驶、人脸识别

二、卷积的作用

卷积网络与传统网络的区别：

输出的数据直接是三维的，还多了深度

整体架构：

输入层、卷积层、池化层、全连接层

这里只有卷积层和池化层我们没有了解过

卷积做了什么事：

比如一个猫的图，眼睛鼻子特征和周围环境特征的重要性明显不一样，需要区别对待。先把图像进行分割（最左边），分割成多个小区域，提取其中一个小区域（第二个5×5×3），蓝色图的右下角3×3矩阵，大字体的值是X的值，而小字体的值是w权重，会不断循环获取最优的w权重和对应的值，并输出右边绿色的14（特征值）。

如果看了不理解，下面的具体计算方法一定能帮助你理解。

三、卷积的计算方法

input是输入，W0是第一层的权重，W1是第二层的权重，Output是输出

我们以input三个块（RGB三颜色）左上角3×3矩阵值和第二层W1来计算，内积是乘法再相加。

先来第一个（R颜色）左上角3×3：[0,0,0],[0,0,1],[0,0,1] 和权重 [-1,-1,0],[-1,1,0],[-1,1,0]

(0*(-1) + 0*(-1) + 0*0) + (0*(-1) + 0*1 + 1*0) + (0*(-1) + 0*1 + 1*0) = 0 得出R颜色的左上角矩阵的值为0；
第二个（G颜色）左上角3×3矩阵值和第二层W1来计算

(0*1 + 0*(-1) + 0*0) + (0*(-1) + 1*0 + 1*(-1)) + (0*(-1) + 0*0 + 2*0) = -1
第三个（B颜色）左上角3×3矩阵值和第二层W1来计算

((-1)*0 + 0*0 + 1) + (0*1 + 2*0 + 0*1) + (0*0 + 0*(-1) + 0*0) = 0
最后再把三者结果相加并加上bias b1（偏值b）

0 + (-1) + 0 + 0 = -1

这级得到了output（0[:,:,1]）中左上角的结果 -1。

四、卷积层的参数

卷积层涉及参数：滑动窗口步长、卷积核尺寸、边缘填充、卷积核个数

步长（移动多少个单元格）：
- 步长为1的卷积：
  
  移动一个步长，得到红色绿色特征值，移动的步长越小，特征值越多
- 步长为2的卷积：
  
  移动两个步长，得到特征值越少
- 一般图像识别的用步长为1的，
卷积核尺寸：选择区域的大小，如上面是3×3的矩阵，可以选择4×4、5×5的，核尺寸越小，越细粒度提取，特征越多。
边缘填充：

+pad表示+1边缘，原本数据只有蓝色背景的部分（中间部分），而周围都是边缘增加的0，为什么这么做，滑动窗口时，边缘数据点明显滑动少，中间多，那能说明中间的就重要吗，为了使边缘的数据点也滑动多几次，就增加了这个边缘填充。文本分类中，有的文本有100个字，有的120字，不同长度无法训练，所以也会对其填充20个字，变成同样120的长度。
卷积核个数：最终计算的结果，要得到多少个特征图，个数多少，特征图多少。
卷积参数共享：即input使用的W部分的参数是共享的，卷积网络比之前的全连接大大减少了参数，不再需要每个对应的W。

五、池化层的作用

将原始input的所有数据，进行压缩

减少长宽以减少数据量的体积。

最大池化MAX POOLING：

如上图，从可选中，选出最大的值。为什么选择最大的值，因为前面是有权重W相乘的，还记得前面的W0和W1吗，如果计算完成得到的结果最大，那说明该结果是最重要的，所以这里选最大的，即挑最重要的。
体积也从上图的2×2矩阵变成4×4的矩阵
除了最大池化还有平均池化，不过平均池化基本没人用，既然有最好的结果，就应该拿最好的。
池化层没有结果任何计算，只是选最大的

六、整体网络架构

只有带参数的才能算层，Relu和池化不算

将一张图，通过不断卷积、池化、最后变成一条向量，接上全连接层，进行分类。

七、残差网络ResNet

深度网络遇到的问题：越大的层数理论上意味着越好，但实际是这样吗？下面是一组很早前测试的图

左边的训练集和右边的预测集都是20层的反而比56层的好，那么说明多出的36层起负作用。

解决方案：

我们还是跟原来一样增加层数，但在此基础上增加残差，也就是如果多的一层网络效果并不比上一层好，那么依然使用上一层的结果，可以看到X直接跳过了两层，这样就能保证了效果一定是越来越好的。

传统神经网络和Resnet的对比

ResNet是层数越多效果越好。

下图是某个比赛中，冠军方案使用ResNet的层数是152层，第二名的22层有6.7的残差，而第一名的152层只有3.57的残差，相差近一倍的效果

当然层数越多，可能收益越少，但是保证残差一定是小于等于之前的低层数，也就是结果一定是向好的发展。

深度学习入门（第三天）——卷积神经网络

一、卷积神经网络应用领域 CV领域发展： 比赛中预测错误率的百分比，每年逐步下降。Human是人类肉眼的识别能力，2016年开始已经远高于人类肉眼死别能力，后面就取消了该方向的比赛了。检测任务： 分类与检索：…...

编程日记 2023/11/20 3:06:48

【Unity小技巧】图片使用的一些常见问题

文章目录前言Button不规则按钮点击空白区域不响应点击事件1. 设置资源参数2. 代码设置按钮Image的alphaHitTestMinimumThreshold3. 解释：4. 效果 Unity Image 原图比例控制方法一 Preserve Aspect1. 设置勾选Preserve Aspect（保持长宽比）&am…...

编程日记 2023/11/20 3:05:46

ZJU Beamer学习手册（二）

ZJU Beamer学习手册基于 Overleaf 的 ZJU Beamer模板进行解读，本文则基于该模版进行进一步修改。参考文献首先在frame文件夹中增加reference.tex文件，文件内容如下。这段代码对参考文献的引用进行了预处理。 \usepackage[backendbiber]{biblatex} \…...

编程日记 2023/11/20 3:03:45

Shaderlab的组成部分SubShader

文档渲染标签渲染状态渲染通道 Subshader 一个shader文件至少有一个subshader;多个subshader的顺序一般按照效果好到差的顺序编写显示物体的时候，设备从多个subshader中，按从前到后的顺序找到第一个符合的subshader进行执行 Subshader组成渲染标…...

编程日记 2023/11/20 3:02:44

C语言字符函数汇总，模拟实现各字符函数（炒鸡详细）

目录求字符串长度 strlen 示例模拟实现strlen 长度不受限制的字符串函数 strcpy 示例模拟实现strcpy strcat 模拟实现strcat strcmp 示例模拟实现strcmp 长度受限制的字符串函数介绍 strncpy 示例模拟实现strncpy strncat 示例模拟实现strncat s…...

编程日记 2023/11/20 3:01:42

微积分在神经网络中的本质

calculus 在一个神经网络中我们通常将每一层的输出结果表示为： a [ l ] a^{[l]} a[l] 为了方便记录，将神经网络第一层记为： [ 1 ] [1] [1] 对应的计算记录为为： a [ l ] ： 第 l 层 a [ j ] ： 第 j 个神经…...

编程日记 2023/11/20 3:00:41

一、安装Docker #yum -y install gcc #yum -y install gcc-c #yum install -y yum-utils 设置国内的镜像仓库 #yum-config-manager --add-repo https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo 更新yum软件包索引 #yum makecache fast 安装Docker引擎 #yum …...

编程日记 2023/11/20 2:59:40

window上Clion配置C++版本的opencv

window上Clion配置opencv 注意版本一定要对的上，否则可能会出错，亲测 widnows 11mingw 8.1.0opencv 4.5.5 mingw8.1下载地址https://sourceforge.net/projects/mingw/ 配置环境变量 cmake下载安装完添加环境变量来到官网，下载 windows 对…...

编程日记 2023/11/20 2:58:38

FPGA时序分析与约束（14）——虚拟路径

一、概述到目前为止，我们已经看到了如何约束时钟和端口来指定设计中的时序要求，我们可以通过这些基础的约束命令来进行时序约束，但是时序分析工具默认的时序检查方式可能和我们实际工程实现的情况不同，通常来说是约束过紧&#x…...

编程日记 2023/11/20 2:57:37

【Python】解析CPP类定义代码，获取UML类图信息

参考 & 鸣谢 CppHeaderParser - 官方文档Python解析C头文件win10直接获得文件绝对路径的方法总结目的解析CPP头文件中的类定义，获取UML中的属性。用于画UML类图。如下所示格式，图片来源-链接即获取，类名，成员函数&#x…...

编程日记 2023/11/20 2:56:36

Docker存储驱动之- overlay2

docker支持多种graphDriver，包括vfs、devicemapper、overlay、overlay2、aufs等等，其中最常用的就是aufs了，但随着linux内核3.18把overlay纳入其中，overlay的地位变得更重，最近也在自己的虚拟机上用overlay2作为docker…...

编程日记 2023/11/20 2:55:34

Vue3 shallowRef 和 shallowReactive

一、shallowRef 使用shallowRef之前需要进行引入： import { shallowRef } from vue; 使用方法和ref 的使用方法一致，以下是二者的区别： 1. 如果ref 和 shallowRef 都传入的是普通数据类型的数据，那么他们的效果是一样的&#x…...

编程日记 2023/11/20 2:54:33

Python数据分析实战① Python实现数据可视化

文章目录一、数据可视化介绍二、matplotlib和pandas画图1.matplotlib简介和简单使用2.matplotlib常见作图类型3.使用pandas画图4.pandas中绘图与matplotlib结合使用三、订单数据分析展示四、Titanic灾难数据分析显示一、数据可视化介绍数据可视化是指将数据放在可视环境中…...

编程日记 2023/11/20 2:53:32

ASP.NET 开发几个知识点

1、皮肤设定： 项目右键，建立皮肤 app_themes 文件夹，右键建立 web from 皮肤文件， 设定皮肤样式。全局使用皮肤 web.config 增加 <pages styleSheetTheme"Skin1" /> ，或在具体页面头增加 sty…...

编程日记 2023/11/20 2:52:30

企业微信H5开发遇到的坑

企业微信官方推荐wx.agentConfig引用<script src"https://open.work.weixin.qq.com/wwopen/js/jwxwork-1.0.0.js"></script>是没有效果的必须引用以下代码才有效果，这也是我看了社区的回答才有所收获，是一个坑且VUE引用在线的…...

编程日记 2023/11/20 2:51:28

mysql使用--分组查询

1.分组数据 _1.复杂的数据统计如：SELECT AVG(score) FROM student_score WHERE subject ‘Mysql是怎样运行的’; 上述实现查询指定课程的平均成绩。对FROM得到的结果集1，通过WHER进一步过滤得到结果集2。对结果集2中每一行执行汇总计算。 _2.创建分组 …...

编程日记 2023/11/20 2:50:27

Android网络模块基本实现步骤

Android网络模块主要是用于访问网络和获取数据，下面是网络模块的基本实现步骤： 选择网络框架：Android中常用的网络框架有HttpURLConnection、OkHttp、Volley和Retrofit等。最新的版本已经支持使用Kotlin协程完成网络请求，可以根据…...

编程日记 2023/11/20 2:49:26

Rust6.2 An I/O Project: Building a Command Line Program (mini_grep)

Rust学习笔记 Rust编程语言入门教程课程笔记参考教材: The Rust Programming Language (by Steve Klabnik and Carol Nichols, with contributions from the Rust Community) Lecture 12: An I/O Project: Building a Command Line Program project: minigrep src/main.r…...

编程日记 2023/11/20 2:48:25

云轴科技ZStack信创云平台支撑长江航务管理局35套航运管理系统

信创是数字中国建设的重要组成部分，也是数字经济发展的关键推动力量。作为云基础软件企业，云轴科技ZStack产品矩阵全面覆盖数据中心云基础设施，ZStack信创云首批通过可信云《一云多芯IaaS平台能力要求》先进级，是其中唯一兼容四种…...

编程日记 2023/11/20 2:47:24

Canal+Kafka实现MySQL与Redis数据同步（一）

CanalKafka实现MySQL与Redis数据同步（一） 前言在很多业务情况下，我们都会在系统中加入redis缓存做查询优化。如果数据库数据发生更新，这时候就需要在业务代码中写一段同步更新redis的代码。这种数据同步的代码跟业务代码糅合…...

编程日记 2023/11/20 2:46:23

接口测试中缓存处理策略

在接口测试中，缓存处理策略是一个关键环节，直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性，避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明： 一、缓存处理的核…...

编程新知 2025/6/20 12:22:08

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

在实际项目中，用户注册、登录、修改密码等操作，都涉及到参数传输安全问题。所以我们需要在前端对账户、密码等敏感信息加密传输，在后端接收到数据后能自动解密。 1、引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId...

编程新知 2025/6/17 4:52:56

Qt Http Server模块功能及架构

Qt Http Server 是 Qt 6.0 中引入的一个新模块，它提供了一个轻量级的 HTTP 服务器实现，主要用于构建基于 HTTP 的应用程序和服务。功能介绍： 主要功能 HTTP服务器功能： 支持 HTTP/1.1 协议简单的请求/响应处理模型支持 GET…...

编程新知 2025/6/16 12:49:42

基于Docker Compose部署Java微服务项目

一. 创建根项目根项目（父项目）主要用于依赖管理一些需要注意的点： 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件，否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

编程新知 2025/6/21 12:21:14

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/6/21 2:24:34

Reasoning over Uncertain Text by Generative Large Language Models

https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829https://ojs.aaai.org/index.php/AAAI/article/view/34674/36829 1. 概述文本中的不确定性在许多语境中传达，从日常对话到特定领域的文档（例如医学文档）（Heritage 2013；Landmark、Gulbrandsen 和 Svenevei…...

编程新知 2025/6/22 0:19:50

算法岗面试经验分享-大模型篇

文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer （1）资源论文&a…...

编程新知 2025/6/21 12:43:39

人机融合智能 | “人智交互”跨学科新领域

本文系统地提出基于“以人为中心AI(HCAI)”理念的人-人工智能交互(人智交互)这一跨学科新领域及框架,定义人智交互领域的理念、基本理论和关键问题、方法、开发流程和参与团队等,阐述提出人智交互新领域的意义。然后,提出人智交互研究的三种新范式取向以及它们的意义。最后,总结…...

编程新知 2025/6/17 1:44:24

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

编程新知 2025/6/19 0:27:55

什么是VR全景技术

VR全景技术，全称为虚拟现实全景技术，是通过计算机图像模拟生成三维空间中的虚拟世界，使用户能够在该虚拟世界中进行全方位、无死角的观察和交互的技术。VR全景技术模拟人在真实空间中的视觉体验，结合图文、3D、音视频等多媒体元素…...

编程新知 2025/6/21 16:33:13

深度学习入门（第三天）——卷积神经网络

一、卷积神经网络应用领域

二、卷积的作用

三、卷积的计算方法

四、卷积层的参数

五、池化层的作用

六、整体网络架构

七、残差网络ResNet

相关文章：

深度学习入门（第三天）——卷积神经网络

【Unity小技巧】图片使用的一些常见问题

ZJU Beamer学习手册（二）

Shaderlab的组成部分SubShader

C语言字符函数汇总，模拟实现各字符函数（炒鸡详细）

微积分在神经网络中的本质

CentOS部署Skywalking

window上Clion配置C++版本的opencv

FPGA时序分析与约束（14）——虚拟路径

【Python】解析CPP类定义代码，获取UML类图信息

Docker存储驱动之- overlay2

Vue3 shallowRef 和 shallowReactive

Python数据分析实战① Python实现数据可视化

ASP.NET 开发几个知识点

企业微信H5开发遇到的坑

mysql使用--分组查询

Android网络模块基本实现步骤

Rust6.2 An I/O Project: Building a Command Line Program (mini_grep)

云轴科技ZStack信创云平台支撑长江航务管理局35套航运管理系统

Canal+Kafka实现MySQL与Redis数据同步（一）

接口测试中缓存处理策略

【SpringBoot】100、SpringBoot中使用自定义注解+AOP实现参数自动解密

Qt Http Server模块功能及架构

基于Docker Compose部署Java微服务项目

【HTML-16】深入理解HTML中的块元素与行内元素

Reasoning over Uncertain Text by Generative Large Language Models

算法岗面试经验分享-大模型篇

人机融合智能 | “人智交互”跨学科新领域

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join

什么是VR全景技术