当前位置：首页 > news >正文

卷积神经网络可视化的探索

news 2026/2/8 18:10:42

文章目录

- 训练LeNet模型
- - 下载FashionMNIST数据
  - 训练
  - 保存模型
- 卷积神经网络可视化
- - 加载模型
  - 一个测试图像
  - 不同层对图像处理的可视化
  - 第一个卷积层的处理
  - 第二个卷积层的处理

卷积神经网络是利用图像空间结构的一种深度学习网络架构，图像在经过卷积层、激活层、池化层、全连接层等处理后得到输出。

本次想探索一下图像经过每一层都发生了什么变化，比如不同的卷积核(滤波器)都提取了图像的什么特征？越深层是否会对图像更抽象化？

带着这些问题，本文将使用FashionMNIST数据、简单的LeNet模型来探索CNN是如何处理图像的。

训练LeNet模型

首先来训练一个LeNet模型(换成其他卷积神经网络也可以)，目的是为了利用训练好的模型参数获得输入图像的各层输出，以供可视化之用。

下载FashionMNIST数据

root：设置下载路径；

train：为True表示下载训练集，反之为测试集；

download：首次下载设为True，下载好后可以改为False。

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"from matplotlib import pyplot as plt
%matplotlib inline
from PIL import Imageimport torch
from torch import nn
import torchvision
from torch.utils import data
from torchvision import transforms#下载数据
def load_fashion_mnist(batch_size):trans = transforms.Compose([transforms.ToTensor()])train = torchvision.datasets.FashionMNIST(root="../data", train=True, transform=trans, download=False)test = torchvision.datasets.FashionMNIST(root="../data", train=False,transform=trans,download=False)return (data.DataLoader(train, batch_size, shuffle=True), data.DataLoader(test, batch_size, shuffle=False))

训练

简单地训练网络

#批量大小
batch_size = 512
train_iter, test_iter = load_fashion_mnist(batch_size=batch_size)#LeNet网络
net = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.ReLU(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.ReLU(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Flatten(),nn.Linear(16 * 5 * 5, 120), nn.ReLU(),nn.Linear(120, 84), nn.ReLU(),nn.Linear(84, 10))#参数初始化
def init_network(model, method='xavier'):for name, w in model.named_parameters():if 'weight' in name:if method == 'xavier':nn.init.xavier_normal_(w)elif method == 'kaiming':nn.init.kaiming_normal_(w)else:nn.init.normal_(w)elif 'bias' in name:nn.init.constant_(w, 0)else:pass    
init_network(net)#损失函数
loss=nn.CrossEntropyLoss()#优化算法
lr=0.05
updater=torch.optim.SGD(net.parameters(),lr=lr)#训练
def train(net, train_iter, test_iter, loss, num_epochs, updater,device):net.to(device)for epoch in range(num_epochs):if isinstance(net, torch.nn.Module):net.train()for X, y in train_iter:X,y=X.to(device),y.to(device)         y_hat = net(X)        l = loss(y_hat, y)updater.zero_grad() l.backward()                updater.step()device = torch.device("mps" if torch.backends.mps.is_available else "cpu") #Mac使用mps
num_epochs = 20
train(net, train_iter, test_iter, loss, num_epochs, updater,device)

保存模型

#保存模型参数
torch.save(net.state_dict(),'LeNet.params')

卷积神经网络可视化

本节将使用上文训练好的模型来可视化卷积神经网络不同层对图像的处理过程。

加载模型

#LeNet网络结构
net = nn.Sequential(nn.Conv2d(1, 6, kernel_size=5, padding=2), nn.ReLU(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Conv2d(6, 16, kernel_size=5), nn.ReLU(),nn.AvgPool2d(kernel_size=2, stride=2),nn.Flatten(),nn.Linear(16 * 5 * 5, 120), nn.ReLU(),nn.Linear(120, 84), nn.ReLU(),nn.Linear(84, 10))#加载模型参数
net.load_state_dict(torch.load('LeNet.params'))
net.eval()

一个测试图像

#批量大小
batch_size = 1
train_iter, test_iter = load_fashion_mnist(batch_size=batch_size)

#随机选择一个图像
for x,y in train_iter:_=plt.imshow(x.squeeze(0).permute(1,2,0).numpy())break

看上去我们抽到了一件T恤。

在这里插入图片描述

不同层对图像处理的可视化

#计算到给定层的输出
def cnn_net(X,net,l=1):for i,layer in enumerate(net[0:l]):X=layer(X)  if i==l-1:print('第%s层：%-10s 输出形状：%s'%(i+1, layer.__class__.__name__, X.shape))        return X#可视化
def cnn_visual(imgs,nrows,ncols,scale):figsize = (ncols * scale, nrows * scale)fig,axes = plt.subplots(nrows=nrows, ncols=ncols,figsize=figsize)axes = axes.flatten()for i, (ax, img) in enumerate(zip(axes, imgs.squeeze(0))):   _ = ax.imshow(img.detach().numpy())ax.axes.get_xaxis().set_visible(False)ax.axes.get_yaxis().set_visible(False)return axesfor l in [1,2,3,4,5,6]:imgs=cnn_net(x.clone(),net,l=l)nrows=2ncols=int(imgs.shape[1]/nrows)axes=cnn_visual(imgs,nrows,ncols,2)

在这里插入图片描述

第一个卷积层的处理

我们先来看看第一个卷积层中不同卷积核分别从图像中提取了什么信息，第一个卷积层有6个输出通道，因此查看每个通道输出的图像。

从下图可以看出，第一个卷积层提取到了不同轮廓层次信息。

在这里插入图片描述

经过ReLU处理后：

在这里插入图片描述

再经平均池化处理后，变化不大：

在这里插入图片描述

第二个卷积层的处理

第二个卷积层有16个输出通道，随着层次加深，感受野扩大，通道的融合后，从下图看已经比较抽象了，但隐隐约约还能看出点端倪：

在这里插入图片描述

再经ReLU和池化处理后，基本上已经面目全非：

在这里插入图片描述

以上就是对卷积神经网络可视化的初步探索，感兴趣的读者可以在不同卷积神经网络和图像上多做尝试。
另附一个卷积神经网络可视化网站

卷积神经网络可视化的探索

文章目录训练LeNet模型下载FashionMNIST数据训练保存模型卷积神经网络可视化加载模型一个测试图像不同层对图像处理的可视化第一个卷积层的处理第二个卷积层的处理卷积神经网络是利用图像空间结构的一种深度学习网络架构，图像在经过卷积层、激活层、池化层、全连…...

编程日记 2024/7/9 9:03:27

RxJava学习记录

文章目录 1. 总览1.1 基本原理1.2 导入包和依赖 2. 操作符2.1 创建操作符2.2 转换操作符2.3 组合操作符2.4 功能操作符 1. 总览 1.1 基本原理参考文献构建流：每一步操作都会生成一个新的Observable节点(没错，包括ObserveOn和SubscribeOn线程变换操作…...

编程日记 2024/7/9 9:00:20

Spring Boot Vue 毕设系统讲解 3

目录项目配置类项目中配置的相关代码 spring Boot 拦截器相关知识一、基于URL实现的拦截器： 二、基于注解的拦截器三、把拦截器添加到配置中，相当于SpringMVC时的配置文件干的事儿： 项目配置类项目中配置的相关代码首先定义项目认…...

编程日记 2024/7/9 8:58:18

Spring Boot对接大模型：实战价值与技巧

Spring Boot对接大模型：实战价值与技巧随着大数据和人工智能技术的飞速发展，大模型（Large-scale Models）在各个行业中的应用越来越广泛。为了充分利用这些大模型的能力，我们需要将其与现有的应用框架进行对接。Sprin…...

编程日记 2024/7/9 8:57:17

完美解决NameError: name ‘file‘ is not defined的正确解决方法，亲测有效！！！

完美解决NameError: name ‘file’ is not defined的正确解决方法，亲测有效！！！ 亲测有效完美解决NameError: name file is not defined的正确解决方法，亲测有效！！！报错问题解决思路…...

编程日记 2024/7/9 8:53:11

Witness Table 的由来

“Witness Table” 是 Swift 中的一个术语，源于编译原理和类型系统的概念。它被用来表示一种机制，通过这个机制，编译器可以确保某个类型确实实现了它声明遵循的协议中的所有方法和属性。下面是对这个术语的详细解释： 1. 术语来源…...

编程日记 2024/7/9 8:51:09

Python 3 AI 编程助手

Python 3 AI 编程助手 Python 3 是当前最流行的编程语言之一，特别是在人工智能（AI）领域。Python 3 的语法简洁明了，拥有丰富的库和框架，使其成为开发 AI 应用程序的首选语言。本文将介绍 Python 3 在 AI 编程中的关键特性、常用库以及如何使用 Python 3 构建 AI 应用程序…...

编程日记 2024/7/9 8:50:08

【nginx】nginx的配置文件到底是什么结构，到底怎么写？

背景：我window中下载了一个nginx，想要通过nginx来对本地的两个项目做动态代理，但是没想到下载启动都没遇见什么问题，但是在配置nginx.conf配置文件时，遇见了很多问题，查了好久没查到什么特别有用的内容&…...

编程日记 2024/7/9 8:47:05

基于React 实现井字棋

一、简介这篇文章会基于React 实现井字棋小游戏功能。二、效果演示三、技术实现 import {useEffect, useState} from "react";export default (props) > {return <Board/> }const Board () > {let initialState [[, , ], [, , ], [, , ]];const [s…...

编程日记 2024/7/9 8:45:03

文件的换行符，Windows 的 CRLF 和 Linux 的 LF

文件的换行符，Windows 的 CRLF 和 Linux 的 LF，在开发项目时用哪种比较合适？ 在开发项目时选择文件的换行符（Windows 的 CRLF 或 Linux 的 LF），通常取决于几个因素，包括项目的运行环境、项目的…...

编程日记 2024/7/9 8:43:00

怎样优化 PostgreSQL 中对日期时间范围的模糊查询？

文章目录一、问题分析（一）索引未有效利用（二）日期时间格式不统一（三）复杂的查询条件二、优化策略（一）使用合适的索引（二）规范日期时间格式（三&a…...

编程日记 2024/7/9 8:40:59

B端设计：任何不顾及用户体验的设计，都是在装样子，花架子

B端设计是指面向企业客户的设计，通常涉及产品、服务或系统的界面和功能设计。与C端设计不同，B端设计更注重实用性和专业性，因为它直接影响企业的效率和利益。在B端设计中，用户体验同样至关重要。不顾及用户体验的设计只是空洞的表…...

编程日记 2024/7/9 8:39:57

React@16.x（51）路由v5.x（16）- 手动实现文件目录参考

作为前面几篇文章的参考： 实现 Router实现 Route实现 Switch实现 withRouter实现 Link 和 NavLink 以上。...

编程日记 2024/7/9 8:38:56

从零开始读RocketMq源码(二)Message的发送详解

目录前言准备消息发送方式深入源码消息发送模式选择发送方式同步发送消息校验消息体获取Topic订阅信息高级特性-消息重投选择消息队列-负载均衡装载消息体发送消息压缩消息内容构造发送message的请求的Header 更新broker故障信息异步发送消息 …...

编程日记 2024/7/9 8:37:54

怎样优化 PostgreSQL 中对布尔类型数据的查询？

文章目录一、索引的合理使用1. 常规 B-tree 索引2. 部分索引二、查询编写技巧1. 避免不必要的类型转换2. 逻辑表达式的优化三、表结构设计1. 避免过度细分的布尔列2. 规范化与反规范化四、数据分布与分区1. 数据分布的考虑2. 表分区五、数据库参数调整1. 相关配置参数2. 定…...

编程日记 2024/7/9 8:35:49

mysql在linux系统下重置root密码

mysql在linux系统下重置root密码登录服务器时候mysql密码忘记了，没办法只能重置，找了一圈，把行之有效的方法介绍在这里。错误展示： 我还以为yes就可以了呢，这是不行的意思。关掉mysql服务 sudo systemctl stop …...

编程日记 2024/7/9 8:34:48

设计模式探索：观察者模式

1. 观察者模式 1.1 什么是观察者模式观察者模式用于建立一种对象与对象之间的依赖关系，当一个对象发生改变时将自动通知其他对象，其他对象会相应地作出反应。在观察者模式中有如下角色： Subject（抽象主题/被观察者&#xf…...

编程日记 2024/7/9 8:32:45

Perl语言入门到高级学习

Perl语言介绍 Perl，全称为Practical Extraction and Report Language，即“实用报表提取语言”，是一种高级、通用、直译式、动态的编程语言。Perl最初由Larry Wall设计，并于1987年12月18日首次发布。经过多年的不断发展和更新，Perl已经成为一种功能丰富且应用广泛的计算机程…...

编程日记 2024/7/9 8:31:44

DOM 基本操作 - 获取元素

theme: smartblue 一、简介 1.1 概念文档对象模型(Document Object Model),是 W3C 组织推荐的处理可拓展标记语言的标准编程接口。 1.2 DOM 树二、获取元素获取页面中的元素主要可以使用以几种方式： - 根据 ID 获取 - 根据标签名获取 - 通过 HTML5 新增的方法…...

编程日记 2024/7/9 8:28:41

Google 搜索引擎：便捷高效、精准查询，带来无与伦比的搜索体验

Google搜索引擎不仅具备检索功能，实则是引领探索万千世界的神秘钥匙。试想，无论何时何地，只需轻触屏幕，所需信息即可唾手可得。便捷与高效，令人叹为观止。其界面设计简约直观，操控体验犹如与未来对话&#…...

编程日记 2024/7/9 8:27:40

Opencv中的addweighted函数

一.addweighted函数作用 addweighted（）是OpenCV库中用于图像处理的函数，主要功能是将两个输入图像（尺寸和类型相同）按照指定的权重进行加权叠加（图像融合），并添加一个标量值&#x…...

编程新知 2026/2/1 1:50:03

React19源码系列之事件插件系统

事件类别事件类型定义文档 Event Event 接口表示在 EventTarget 上出现的事件。 Event - Web API | MDN UIEvent UIEvent 接口表示简单的用户界面事件。 UIEvent - Web API | MDN KeyboardEvent KeyboardEvent 对象描述了用户与键盘的交互。 KeyboardEvent - Web…...

编程新知 2026/2/7 8:31:55

【AI学习】三、AI算法中的向量

在人工智能（AI）算法中，向量（Vector）是一种将现实世界中的数据（如图像、文本、音频等）转化为计算机可处理的数值型特征表示的工具。它是连接人类认知（如语义、视觉特征）与…...

编程新知 2026/1/1 14:01:45

【Java_EE】Spring MVC

目录 Spring Web MVC 编辑注解 RestController RequestMapping RequestParam RequestParam RequestBody PathVariable RequestPart 参数传递注意事项编辑参数重命名 RequestParam 编辑编辑传递集合 RequestParam 传递JSON数据编辑RequestBody …...

编程新知 2026/2/1 16:32:53

CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题：CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者：Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...

编程新知 2026/2/1 6:11:51

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”（装配）

船舶制造装配管理现状：装配工作依赖人工经验，装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书，但在实际执行中，工人对指导书的理解和遵循程度参差不齐。船舶装配过程中的挑战与需求挑战 (1…...

编程新知 2026/2/6 2:16:18

算法岗面试经验分享-大模型篇

文章目录 A 基础语言模型A.1 TransformerA.2 Bert B 大语言模型结构B.1 GPTB.2 LLamaB.3 ChatGLMB.4 Qwen C 大语言模型微调C.1 Fine-tuningC.2 Adapter-tuningC.3 Prefix-tuningC.4 P-tuningC.5 LoRA A 基础语言模型 A.1 Transformer （1）资源论文&a…...

编程新知 2026/1/23 11:58:06