当前位置：首页 > news >正文

卷积神经网络CNN

news 2026/2/9 11:43:33

一、CNN概述

二、图像基础知识

三、卷积层

3.1 卷积的计算

3.2 Padding

3.3 Stride

3.4 多通道卷积计算

3.5 多卷积核卷积计算

3.6 特征图大小计算

3.7 Pytorch 卷积层API

四、池化层

4.1 池化计算

4.2 Stride

4.3 Padding

4.4 多通道池化计算

4.5 Pytorch 池化层API

一、CNN概述

卷积神经网络是深度学习在计算机视觉领域的突破性成果。在计算机视觉领域，往往输入图像都很大，若使用全连接网络，计算代价较高。图像也很难保留原有的特征，导致图像处理的准确率不高

卷积神经网络（Convolutional Neural Network）是含有卷积层的神经网络。卷积层的作用就是用来自动学习、提取图像的特征

CNN网络主要有三部分构成：卷积层、池化层和全连接层构成，其中卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层用来输出想要的结果

二、图像基础知识

图像是由像素点组成的，每个像素点的值范围为[0, 255]，像素值越大意味着较亮。一张 200x200 的图像，则是由 40000 个像素点组成，若每个像素点都是 0，意味着这是一张全黑的图像

彩色图一般都是多通道的图像，所谓多通道可以理解为图像由多个不同的图像层叠加而成。平常的彩色图像一般都是由 RGB 三个通道组成的，还有一些图像具有 RGBA 四个通道，最后一个通道为透明通道，该值越小，则图像越透明

import numpy as np
import matplotlib.pyplot as pltdef test01():# 构建200 * 200, 像素值全为0的图像image = np.zeros([200, 200])plt.imshow(image, cmap='gray', vmin=0, vmax=255)plt.show()# 构建200 * 200, 像素值全为255的图像image = np.full([200, 200], 255)plt.imshow(image, cmap='gray', vmin=0, vmax=255)plt.show()def test02():image = plt.imread('data/彩色图片.png')print(image.shape)# (640, 640, 4) 图像为 RGBA 四通道# 修改数据的维度, 将通道维度放在第一位image = np.transpose(image, [2, 0, 1])# 打印所有通道for channel in image:print(channel)plt.imshow(channel)plt.show()# 修改透明度image[3] = 0.05image = np.transpose(image, [1, 2, 0])plt.imshow(image)plt.show()if __name__ == "__main__":test01()test02()

三、卷积层

3.1 卷积的计算

input 表示输入的图像
filter 表示卷积核, 也叫做滤波器
input 经过 filter 的得到输出为最右侧的图像，即特征图

卷积运算本质上就是在滤波器和输入数据的局部区域间做点积

左上角的点计算方法：

按照上面的计算方法可以得到最终的特征图为：

3.2 Padding

通过上面的卷积计算过程，最终的特征图会比原始图像小很多，若想要保持经过卷积后的图像大小不变，可以在原图周围添加 padding 再进行卷积来实现

3.3 Stride

按照步长为1来移动卷积核，计算特征图如下所示：

若将 Stride 增大为2，也是可以提取特征图的，如下图所示：

3.4 多通道卷积计算

实际中的图像都是多个通道组成的

计算方法如下：

当输入有多个通道(Channel)，如 RGB 三个通道，此时要求卷积核需要拥有相同的通道数
每个卷积核通道与对应的输入图像的各个通道进行卷积
将每个通道的卷积结果按位相加得到最终的特征图

3.5 多卷积核卷积计算

实际对图像进行特征提取时，需要使用多个卷积核进行特征提取。可以理解为从不同到的视角、不同的角度对图像特征进行提取

3.6 特征图大小计算

输出特征图的大小与以下参数息息相关:

size：卷积核大小，一般会选择为奇数，如：1*1，3*3，5*5*
Padding：零填充的方式
Stride：步长

那计算方法如下图所示:

输入图像大小：W * W
卷积核大小: F * F
Stride：S
Padding：P
输出图像大小：N x N

样例

图像大小：5 * 5
卷积核大小：3 * 3
Stride：1
Padding：1
(5 - 3 + 2) / 1 + 1 = 5，即得到的特征图大小为：5 * 5

3.7 Pytorch 卷积层API

import torch
import torch.nn as nn
import matplotlib.pyplot as pltdef show(image):plt.imshow(image)plt.axis('off')plt.show()# 单个多通道卷积核
def test01():# 读取图片, 形状(640, 640, 4) HWCimage = plt.imread('data/彩色图片.png')show(image)# 构建卷积层conv = nn.Conv2d(in_channels=4, out_channels=1, kernel_size=3, stride=1, padding=1)# 卷积层对输入数据的形状有要求,(batch_size, channel, height, weight)image = torch.tensor(image).permute(2, 0, 1)image = image.unsqueeze(0)print(image.shape)# 输入output_image = conv(image)print(output_image.shape)# 调整形状为正常图像形状output_image = output_image.squeeze(0).permute(1, 2, 0)show(output_image.detach().numpy())# 多个多通道卷积核
def test02():# 读取图片, 形状(640, 640, 4) HWCimage = plt.imread('data/彩色图片.png')show(image)# 构建卷积层# 由于out_channels为3, 相当于有3个4通道卷积核conv = nn.Conv2d(in_channels=4, out_channels=3, kernel_size=3, stride=1, padding=1)# 卷积层对输入数据的形状有要求,(batch_size, channel, height, weight)image = torch.tensor(image).permute(2, 0, 1)image = image.unsqueeze(0)# 输入output_image = conv(image)print(output_image.shape)# 调整形状为正常图像形状output_image = output_image.squeeze(0).permute(1, 2, 0)print(output_image.shape)# 打印三个特征图# 每组卷积核的参数不同, 在与输入图像进行卷积运算时会提取出不同的特征信息show(output_image[:, :, 0].unsqueeze(2).detach().numpy())show(output_image[:, :, 1].unsqueeze(2).detach().numpy())show(output_image[:, :, 2].unsqueeze(2).detach().numpy())if __name__ == "__main__":test01()test02()

四、池化层

池化层 (Pooling) 降低维度，缩减模型大小，提高计算速度。主要对卷积层学习到的特征图进行下采样（SubSampling）处理

池化层主要有两种：最大池化、平均池化

4.1 池化计算

最大池化：

max(0，1，3，4)
max(1，2，4，5)
max(3，4，6，7)
max(4，5，7，8)

平均池化：

mean(0，1，3，4)
mean(1，2，4，5)
mean(3，4，6，7)
mean(4，5，7，8)

4.2 Stride

最大池化：

max(0，1，4，5)
max(2，3，6，7)
max(8，9，12，13)
max(10，11，14，15)

平均池化：

mean(0，1，4，5)
mean(2，3，6，7)
mean(8，9，12，13)
mean(10，11，14，15)

4.3 Padding

最大池化：

max(0，0，0，0)
max(0，0，0，1)
max(0，0，1，2)
max(0，0，2，0)
... 以此类推

平均池化：

mean(0，0，0，0)
mean(0，0，0，1)
mean(0，0，1，2)
mean(0，0，2，0)
... 以此类推

4.4 多通道池化计算

在处理多通道输入数据时，池化层对每个输入通道分别池化，而不是像卷积层那样将各个通道的输入相加。这意味着池化层的输出和输入的通道数是相等

即：卷积会改变通道数，池化不会改变通道数

4.5 Pytorch 池化层API

import torch
import torch.nn as nn# 基本使用
def test01():inputs = torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# (1,1,3,3)print(inputs.shape)# 最大池化, 输入形状(batch_size, channel, height, weight)polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)# 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)# stride
def test02():inputs = torch.tensor([[0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11], [12, 13, 14, 15]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 最大池化, 输入形状(batch_size, channel, height, weight)polling = nn.MaxPool2d(kernel_size=2, stride=2, padding=0)output = polling(inputs)print(output)# 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=2, padding=0)output = polling(inputs)print(output)# padding
def test03():inputs = torch.tensor([[0, 1, 2], [3, 4, 5], [6, 7, 8]]).float()inputs = inputs.unsqueeze(0).unsqueeze(0)# 最大池化, 输入形状(batch_size, channel, height, weight)polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=1)output = polling(inputs)print(output)# 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=1)output = polling(inputs)print(output)# 多通道池化
def test04():inputs = torch.tensor([[[0, 1, 2], [3, 4, 5], [6, 7, 8]],[[10, 20, 30], [40, 50, 60], [70, 80, 90]],[[11, 22, 33], [44, 55, 66], [77, 88, 99]]]).float()inputs.unsqueeze(0)# 最大池化, 输入形状(batch_size, channel, height, weight)polling = nn.MaxPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)# 平均池化polling = nn.AvgPool2d(kernel_size=2, stride=1, padding=0)output = polling(inputs)print(output)if __name__ == "__main__":# test01()# test02()# test03()test04()

卷积神经网络CNN

目录一、CNN概述二、图像基础知识三、卷积层 3.1 卷积的计算 3.2 Padding 3.3 Stride 3.4 多通道卷积计算 3.5 多卷积核卷积计算 3.6 特征图大小计算 3.7 Pytorch 卷积层API 四、池化层 4.1 池化计算 4.2 Stride 4.3 Padding 4.4 多通道池化计算 4.5 Pytorc…...

编程日记 2025/2/18 11:18:54

一.SurfaceView Mediaplayer XML中添加SurfaceView: <SurfaceViewandroid:id"id/surface_view"android:layout_width"match_parent"android:layout_height"match_parent"/> Activity代码： package com.android.rtsp;impor…...

编程日记 2025/2/18 11:16:47

web信息泄露 ctfshow-web入门web1-web10

01做题思路判断做题的思路是读取，写入，还是执行判断大概的类型，有登录逻辑就尝试sql注入，有下载逻辑就尝试文件读取，有源码就做源码审计 02信息泄露及利用 robots.txt 以ctfshow的web1为例，访问robots…...

编程日记 2025/2/18 11:12:41

Log4j在Spring项目中的应用与实践

在现代Java开发中，日志记录是不可或缺的一部分。它不仅帮助开发者调试和监控应用程序的运行状态，还能在出现问题时快速定位原因。今天，我们就来探讨如何在Spring项目中使用Log4j进行日志管理，并通过具体的实例来展示其强大的功能。…...

编程日记 2025/2/18 11:10:35

docker安装mysql:8.0

1.docker源目前docker国内的源基本上用不了了，建议去淘宝找一找，我整了一个大概是10R一个月。 2.拉取镜像 docker pull mysql:8.0 3.启动容器命令如下： docker run \-p 3306:3306 \-e MYSQL_ROOT_PASSWORD123456 \-v /home/data/mysq…...

编程日记 2025/2/18 11:08:30

搭建一个 Spring Boot 项目，解决jdk与springboot版本不匹配

搭建一个 Spring Boot 项目方式一：使用 Spring Initializr Spring Initializr 是一个基于 Web 的工具，用于快速生成 Spring Boot 项目的基础结构。访问 Spring Initializr 网站：https://start.spring.io/配置项目信息： …...

编程日记 2025/2/18 11:07:24

心心相系：十颗心

心心相系：十颗心【1】心脏；人心，热心 heart //注：h-通c-或k- warmhearted a.热心的，热心肠的；亲切的a warm-hearted person 为人古道热肠词根cardi(o)-(heart)，例词：cardiology(…...

编程日记 2025/2/18 11:02:15

ChatGPT行业热门应用提示词案例-AI绘画类

AI 绘画指令是一段用于指导 AI 绘画工具（如 DALLE、Midjourney 等）生成特定图像的文本描述。它通常包含场景、主体、风格、色彩、氛围等关键信息，帮助 AI 理解创作者的意图，从而生成符合要求的绘画作品。 ChatGPT 拥有海量的知识…...

编程日记 2025/2/18 11:01:13

前端面试手写--虚拟列表

目录一.问题背景二.代码讲解三.代码改装四.代码发布今天我们来学习如何手写一个虚拟列表,本文将把虚拟列表进行拆分并讲解,然后发布到npm网站上. 一.问题背景为什么需要虚拟列表呢?这是因为在面对大量数据的时候,我们的浏览器会将所有数据都渲染到表格上面,但是渲…...

编程日记 2025/2/18 10:58:06

达梦数据库针对慢SQL，收集统计信息清除执行计划缓存

前言：若遇到以下场景，大概率是SQL走错了执行计划： 1、一条SQL在页面上查询特别慢，但拿到数据库终端执行特别快 2、一条SQL在某种检索条件下查询特别慢，但拿到数据库终端执行特别快此时，可以尝试按照下述步…...

编程日记 2025/2/18 10:56:01

李沐--动手学深度学习序列模型

1.使用正弦函数和可加性噪声生成序列数据 import torch from torch import nn from d2l import torch as d2l#使用正弦函数和可加性噪声生成序列数据 T 1000 #总共产生1000个点 time torch.arange(1,T1,dtypetorch.float32) x torch.sin(0.01*time) torch.normal(0,0.2,(…...

编程日记 2025/2/18 10:54:58

数据分析、商业智能、业务分析三者之间的关系

商业智能 (Business Intelligence, BI)、业务分析 (Business Analytics, BA) 和数据分析 (Data Analytics, DA) 三者都与数据密切相关，但在目标、方法和应用上存在差异。为了能够清晰地解释，下面将从定义入手，然后阐述它们之间的联系和区别。…...

编程日记 2025/2/18 10:51:49

【Spring+MyBatis】留言墙的实现

目录 1. 添加依赖 2. 配置数据库 2.1 创建数据库与数据表 2.2 创建与数据库对应的实体类 3. 后端代码 3.1 目录结构 3.2 MessageController类 3.3 MessageService类 3.4 MessageMapper接口 4. 前端代码 5. 单元测试 5.1 后端接口测试 5.2 使用前端页面测试在Spri…...

编程日记 2025/2/18 10:50:47

让编程变成一种享受-明基RD320U显示器

引言作为一名有着多年JAVA开发经验的从业者，在工作过程中，显示器的重要性不言而喻。它不仅是我们与代码交互的窗口，更是影响工作效率和体验的关键因素。在多年的编程生涯中，我遇到过各种各样的问题。比如，在进行代码…...

编程日记 2025/2/18 10:49:44

【嵌入式Linux应用开发基础】fork()函数

目录一、fork 函数概述 1.1. 函数作用 1.2. 函数原型与头文件 1.3. 返回值 1.4. 核心特性二、父子进程的区别与联系 2.1. 相同点 2.2. 不同点三、典型应用场景 3.1. 多任务处理 3.2. 守护进程创建 3.3. 执行外部程序 3.4. 并行计算四、fork 函数的关键注意事…...

编程日记 2025/2/18 10:48:38

2024 年 CSDN 博客之星年度评选：技术创作与影响力的碰撞（统计时间2025-02-17 11:06:06）

摘要：在技术的海洋里，每一位博主都像是一座独特的灯塔，用自己创作的光芒照亮他人前行的道路。2024 年 CSDN 博客之星年度评选活动，正是对这些灯塔的一次盛大检阅，让我们看到了众多优秀博主在技术创作领域的卓越表现以及…...

编程日记 2025/2/18 10:47:36

串的基本操作--数据结构

目录一、串的基本概述二、串的存储结构 2.1定义属性存储结构串长有两种表示方法: 1、用一个额外的变量length来存放串的长度； 2、串值后面加一个不计入串长的结束标记字符“\0”，此时的串长为隐含值。 2.2堆的顺序存储结构三、串的基本操…...

编程日记 2025/2/18 10:45:30

Unity 命令行设置运行在指定的显卡上

设置运行在指定的显卡上 -force-device-index...

编程日记 2025/2/18 10:44:26

Dest1ny漏洞库: 美团代付微信小程序系统任意文件读取漏洞

大家好，今天是Dest1ny漏洞库的专题！！ 会时不时发送新的漏洞资讯！！ 大家多多关注，多多点赞！！！ 0x01 产品简介美团代付微信小程序系统是美团点评旗下的一款基于微信小程…...

编程日记 2025/2/18 10:41:20

设计模式：状态模式

状态机有3个要素：状态，事件，动作。假如一个对象有3个状态:S1、S2、S3。影响状态的事件有3个：E1、E2、E3。每个状态下收到对应事件的时候，对象的动作为AXY。那么该对象的状态机就可以用如下表格来表示。S1收到事件E1的…...

编程日记 2025/2/18 10:40:18

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端，它允许HTTP与Elasticsearch 集群通信，而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点轻量级&#xff…...

编程新知 2025/11/30 15:33:36

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。相对于RMAN恢复需要很长时间， 数据库闪回只需要几分钟。 2.技术实现数据库设置 2个db_recovery参数创建guarantee闪回点，不需要开启数据库闪回。…...

编程新知 2026/1/14 22:12:47

C++：std::is_convertible

C++标志库中提供is_convertible，可以测试一种类型是否可以转换为另一只类型： template <class From, class To> struct is_convertible; 使用举例： #include <iostream> #include <string>using namespace std;struct A { }; struct B : A { };int main…...

编程新知 2025/6/11 15:23:57

循环冗余码校验CRC码算法步骤+详细实例计算

通信过程：（白话解释） 我们将原始待发送的消息称为 M M M，依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)（意思就是 G （ x ) G（x) G（x) 是已知的）&#xff0…...

编程新知 2026/2/8 8:16:14

Go 语言接口详解

Go 语言接口详解核心概念接口定义在 Go 语言中，接口是一种抽象类型，它定义了一组方法的集合： // 定义接口 type Shape interface {Area() float64Perimeter() float64 } 接口实现 Go 接口的实现是隐式的： // 矩形结构体…...

编程新知 2026/1/4 5:19:25

JVM垃圾回收机制全解析

Java虚拟机（JVM）中的垃圾收集器（Garbage Collector，简称GC）是用于自动管理内存的机制。它负责识别和清除不再被程序使用的对象，从而释放内存空间，避免内存泄漏和内存溢出等问题。垃圾收集器在Ja…...

编程新知 2026/1/9 14:53:35

多种风格导航菜单 HTML 实现（附源码）

下面我将为您展示 6 种不同风格的导航菜单实现，每种都包含完整 HTML、CSS 和 JavaScript 代码。 1. 简约水平导航栏 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport&qu…...

编程新知 2026/2/2 2:49:11

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。您还将了解如何分析列，以便知晓哪些列包含有价值的数据，…...

编程新知 2026/1/30 9:51:12

无人机侦测与反制技术的进展与应用

国家电网无人机侦测与反制技术的进展与应用引言随着无人机（无人驾驶飞行器，UAV）技术的快速发展，其在商业、娱乐和军事领域的广泛应用带来了新的安全挑战。特别是对于关键基础设施如电力系统，无人机的“黑飞”&…...

编程新知 2026/1/26 6:01:03

Qemu arm操作系统开发环境

使用qemu虚拟arm硬件比较合适。步骤如下： 安装qemu apt install qemu-system安装aarch64-none-elf-gcc 需要手动下载，下载地址：https://developer.arm.com/-/media/Files/downloads/gnu/13.2.rel1/binrel/arm-gnu-toolchain-13.2.rel1-x…...

编程新知 2026/1/31 9:18:40

一、CNN概述

二、图像基础知识

三、卷积层

3.1 卷积的计算

3.2 Padding

3.3 Stride

3.4 多通道卷积计算

3.5 多卷积核卷积计算

3.6 特征图大小计算

3.7 Pytorch 卷积层API

四、池化层

4.1 池化计算

4.2 Stride

4.3 Padding

4.4 多通道池化计算

4.5 Pytorch 池化层API

相关文章：