当前位置：首页 > news >正文

动手学深度学习（pytorch）学习记录27-深度卷积神经网络(AlexNet)[学习记录]

news 2025/7/6 23:46:51

AlexNet 是由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年提出的深度卷积神经网络，它在当年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）中取得了显著的成绩，从而引起了深度学习和卷积神经网络（CNN）在计算机视觉领域的广泛关注。AlexNet 的成功标志着深度学习在图像识别和分类任务中的一个重大突破，它采用了以下关键技术和创新：

ReLU激活函数：AlexNet 首次在大规模的深度网络中使用了 Rectified Linear Unit（ReLU）激活函数，这有助于解决梯度消失问题，并加速了网络的训练过程。
Dropout 正则化：为了防止过拟合，AlexNet 引入了 Dropout 技术，这是一种在训练过程中随机丢弃一部分神经元的技术。
最大池化层：AlexNet 使用了最大池化层来降低特征的空间尺寸，同时保持重要的特征信息。
数据增强：为了提高模型的泛化能力，AlexNet 采用了图像数据增强技术，包括随机裁剪和水平翻转。
GPU 加速：AlexNet 利用了 GPU 并行计算的能力，显著提高了训练速度。
深度架构：AlexNet 采用了8层深度网络结构，包括5个卷积层和3个全连接层，这在当时是一个相对较深的网络。
局部响应归一化（LRN）：在某些卷积层之后，AlexNet 使用了局部响应归一化来增强网络的泛化能力。

AlexNet 的成功不仅推动了深度学习在图像识别领域的研究，也为后续的深度学习模型，如 VGG、GoogLeNet 和 ResNet 等奠定了基础。它的出现是深度学习历史上的一个重要里程碑。

import torch
from torch import nn
from d2l import torch as d2l

创建模型

# 搭建网络
net = nn.Sequential(# 这里使用一个11*11的更大窗口来捕捉对象。# 同时，步幅为4，以减少输出的高度和宽度。# 另外，输出通道的数目远大于LeNetnn.Conv2d(1, 96, kernel_size=11, stride=4, padding=1), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),# 减小卷积窗口，使用填充为2来使得输入与输出的高和宽一致，且增大输出通道数nn.Conv2d(96, 256, kernel_size=5, padding=2), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),# 使用三个连续的卷积层和较小的卷积窗口。# 除了最后的卷积层，输出通道的数量进一步增加。# 在前两个卷积层之后，汇聚层不用于减少输入的高度和宽度nn.Conv2d(256, 384, kernel_size=3, padding=1), nn.ReLU(),nn.Conv2d(384, 384, kernel_size=3, padding=1), nn.ReLU(),nn.Conv2d(384, 256, kernel_size=3, padding=1), nn.ReLU(),nn.MaxPool2d(kernel_size=3, stride=2),nn.Flatten(),# 这里，全连接层的输出数量是LeNet中的好几倍。使用dropout层来减轻过拟合nn.Linear(6400, 4096), nn.ReLU(),nn.Dropout(p=0.5),nn.Linear(4096, 4096), nn.ReLU(),nn.Dropout(p=0.5),# 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000nn.Linear(4096, 10))

构造高度和宽度都为224的单通道数据，观察每一层的输出形状是否符合预期

X = torch.randn(1, 1, 224, 224)
for layer in net:X=layer(X)print(layer.__class__.__name__,'output shape:\t',X.shape)

Conv2d output shape:	 torch.Size([1, 96, 54, 54])
ReLU output shape:	 torch.Size([1, 96, 54, 54])
MaxPool2d output shape:	 torch.Size([1, 96, 26, 26])
Conv2d output shape:	 torch.Size([1, 256, 26, 26])
ReLU output shape:	 torch.Size([1, 256, 26, 26])
MaxPool2d output shape:	 torch.Size([1, 256, 12, 12])
Conv2d output shape:	 torch.Size([1, 384, 12, 12])
ReLU output shape:	 torch.Size([1, 384, 12, 12])
Conv2d output shape:	 torch.Size([1, 384, 12, 12])
ReLU output shape:	 torch.Size([1, 384, 12, 12])
Conv2d output shape:	 torch.Size([1, 256, 12, 12])
ReLU output shape:	 torch.Size([1, 256, 12, 12])
MaxPool2d output shape:	 torch.Size([1, 256, 5, 5])
Flatten output shape:	 torch.Size([1, 6400])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 10])

读取数据集

本文使用Fashion-MNIST, 为了利用AlexNet的架构，将Fashion-MNIST的图像放大到224×224

batch_size = 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)

训练AlexNet

经验表明，随着网络规模的增大，适当降低学习率有助于获得更好的训练结果，与前一篇文章相比，使用了更低的学习率

lr, num_epochs = 0.01, 10
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

在这里插入图片描述

· 本文使用了大量d2l包，这极大地减少了代码编辑量，需要安装d2l包才能运行本文代码

封面图片来源
欢迎点击我的主页查看更多文章。
本人学习地址https://zh-v2.d2l.ai/
恳请大佬批评指正。

动手学深度学习（pytorch）学习记录27-深度卷积神经网络(AlexNet)[学习记录]

目录创建模型读取数据集训练AlexNet AlexNet 是由 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 在 2012 年提出的深度卷积神经网络，它在当年的 ImageNet 大规模视觉识别挑战赛（ILSVRC）中取得了显著的成绩，从而引起了深度…...

编程日记 2024/9/10 19:21:13

zookeeper是啥？在kafka中有什么作用

一、Zookeeper是啥问AI，它是这么说： ZooKeeper是一个开源的分布式协调服务。 ZooKeeper最初由雅虎研究院开发，用于解决大型分布式系统中的协调问题，特别是为了避免分布式单点故障。它被设计成一个简单易用的接口集，封…...

编程日记 2024/9/10 19:20:12

华为手机集大成之作？带你看全球首款三折叠手机 Mate XT 非凡大师

北京时间9月10日14:30分，华为终端在深圳召开了华为见证非凡品牌盛典及鸿蒙智行新品发布会。这次发布会最受瞩目的莫过于非凡大师系列的新品、全球首款三折叠手机Mate XT 非凡大师。三折叠形态，内外铰链存于一体尽管三折叠的概念被提出来的时间并不算…...

编程日记 2024/9/10 19:19:11

构建安全畅通的道路网络：EasyCVR视频汇聚平台在道路监控中的创新应用

随着城市化进程的加速和交通流量的不断增加，道路监控已成为确保交通安全、维护社会秩序的重要手段。道路上的监控摄像头多种多样，大致可以分为这几类：交通道路监控、治安监控、路口违章监控，以及车辆测速监控等。基于智慧交通的需…...

编程日记 2024/9/10 19:18:06

Mac M1安装Hive

一、下载解压Hive 1.官网地址 https://dlcdn.apache.org/hive/ 2.选择对应版本进行下载，这里我以3.1.3为例； 3.下载好后，进行解压，并重命名为hive-3.1.3，放到资源库目录下； 二、配置系统环境 1.打开~/…...

编程日记 2024/9/10 19:16:03

shader 案例学习笔记之绘制圆

环境搭建：参考glsl vscode环境搭建先上代码 #ifdef GL_ES precision mediump float; #endifuniform vec2 u_resolution;void main(){vec2 st gl_FragCoord.xy/u_resolution.xy;st - 0.5;st.x * u_resolution.x/u_resolution.y;float r length(st);float d ste…...

编程日记 2024/9/10 19:14:59

c++的模板编程技术及其发展历程

C模板编程技术及其发展历程一、早期阶段（C98及之前） 在C98标准中，模板是首次被引入的关键特性之一。模板允许开发人员编写参数化的类型或函数，从而创建通用的算法和数据结构。这种通用性不仅提高了代码的复用性，还确…...

编程日记 2024/9/10 19:12:53

Unity 一个比较适合学习的FSM状态机(汉化和功能简述)

该轮子由网络资源而来，遵从作者开源意愿，仅作免费学习和分享，不作任何商业行为 ，本文不支持任何交易行为，侵权删！！！ 至于我为什么不将此文章设置为转载，是因为该代码所在…...

编程日记 2024/9/10 19:07:24

25、Wpf之App资源应用

开发平台：Win10 64位开发环境：VS2022(64位) Preview .NET Framework：.NET 6 文章目录一 Resources1.1 Application中定义资源1.2 样式（Styles）1.3 模板（Templates）1.4 数据转换器（…...

编程日记 2024/9/10 19:05:18

【深度好文】反模式：10种滥用设计模式案例分析

Hello，大家好，我是V哥。很多文章都在介绍设计模式怎么用，讲解设计模式的原理等等，设计模式的思想是编程中的精髓，用好了可以让代码结构利于维护和扩展，同时代码风格也更加优雅，V 哥也写过这样一…...

编程日记 2024/9/10 19:04:17

OkHttp Interceptor日志上报

最近为了做一些网络上的优化，所以就得提前埋点，为后续网络优化提供数据支持。主要是对发起请求埋点，请求错误埋点，客户端请求耗时埋点。事件上报到阿里云，接入的是阿里的应用实时监控服务。网络请求使用的是OhHttp…...

编程日记 2024/9/10 19:03:16

高性能反向代理--HAProxy

文章目录 Web架构负载均衡介绍为什么使用负载均衡负载均衡类型 HAProxy简介应用场景HAProxy是什么HAProxy功能脚本安装HAProxy基础配置global多进程和线程HAProxy日志配置项 Proxies配置-listen-frontend-backendserver配置 frontendbackend配置实例子配置文件 HAProxy调度算法…...

编程日记 2024/9/10 19:02:11

数据结构应用实例(四)——最小生成树

Content： 一、问题描述二、算法思想三、代码实现四、两种算法的比较五、小结一、问题描述利用 prim 算法和 kruskal 算法实现最小生成树问题； 二、算法思想首先判断图是否连通，只有在连通的情况下才进行最小树的生成； 三、代…...

编程日记 2024/9/10 19:01:10

为OneAPI配置MySQL数据库及设置开机启动

OneAPI启动时，如果发现没有数据库他会在项目根目录自动创建SqlLit，为提高OneAPI的性能及管理，这里给出一个使用MySQL数据库的案例，同时本文介绍如何在源码部署的情况下，设置OneAPI的开机自动启动。 OneAPI的源代码安装…...

编程日记 2024/9/10 18:58:59

完整的k8s搭建服务器流程

一、准备 1、禁用selinux #临时禁用 setenforce 0 #永久禁用 sed -i s/enforcing/disabled/ /etc/selinux/config #检查selinux是否已禁用 sestatus 2、禁用交换分区 #命令行临时禁用 swapoff -a #永久禁用 vim /etc/fstab 注释掉有swap字样的那行，重启 3、允许…...

编程日记 2024/9/10 18:57:58

【Petri网导论学习笔记】Petri网导论入门学习（一）

Petri 网导论如需学习转载请注明原作者并附本帖链接！！！ 如需学习转载请注明原作者并附本帖链接！！！ 如需学习转载请注明原作者并附本帖链接！！！ 发现网上关于Petri网的学习…...

编程日记 2024/9/10 18:56:56

Zabbix监控自动化

监控在运维工作中所占的比例为 30%左右，监控做得好，会省很多事，让工作能有序地进行。理想的监控应该是自动化的，只需要配置规则，即可自动完成所有的事情，比如主机的自动添加和注册、模板的自动添加、分组的…...

编程日记 2024/9/10 18:54:27

pytorch pyro 贝叶斯神经网络 bnn beyesean neure network svi 定制SVI目标和培训循环，变更推理

定制SVI目标和培训循环 Pyro支持各种基于优化的贝叶斯推理方法，包括Trace_ELBO作为SVI(随机变分推理)的基本实现。参见文件（documents的简写）有关各种SVI实现和SVI教程的更多信息I, 二，以及罗马数字3了解SVI的背景。在本教程中…...

编程日记 2024/9/10 18:53:27

Openeuler22 部署 RackTables0.22.0

目录 0、前言一、部署lamp环境，lamp环境测试 1、部署Apache，apache环境测试 2、部署php、mysql，php环境测试二、放文件三、配置mysql 四、安装racktables 第一步、点击proceed继续第二步、点击proceed 第三步、根据提示进行操作…...

编程日记 2024/9/10 18:52:26

从传统到智能：高标准农田灌区信息化助力农业现代化

从传统农业的粗放式管理，到如今智能化、精准化的现代农业转型，高标准农田灌区信息化建设无疑是推动这一历史进程的关键力量。它不仅标志着农业生产方式的根本性变革，还深刻影响着农业资源的高效利用与可持续发展策略，为实现农业现…...

编程日记 2024/9/10 18:51:24

蓝牙 BLE 扫描面试题大全(2)：进阶面试题与实战演练

前文覆盖了 BLE 扫描的基础概念与经典问题蓝牙 BLE 扫描面试题大全(1)：从基础到实战的深度解析-CSDN博客，但实际面试中，企业更关注候选人对复杂场景的应对能力（如多设备并发扫描、低功耗与高发现率的平衡）和前沿技术的…...

编程新知 2025/7/5 3:15:14

Caliper 配置文件解析：config.yaml

Caliper 是一个区块链性能基准测试工具，用于评估不同区块链平台的性能。下面我将详细解释你提供的 fisco-bcos.json 文件结构，并说明它与 config.yaml 文件的关系。 fisco-bcos.json 文件解析这个文件是针对 FISCO-BCOS 区块链网络的 Caliper 配置文件，主要包含以下几个部…...

编程新知 2025/6/20 18:29:18

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据

微软PowerBI考试 PL300-在 Power BI 中清理、转换和加载数据 Power Query 具有大量专门帮助您清理和准备数据以供分析的功能。您将了解如何简化复杂模型、更改数据类型、重命名对象和透视数据。您还将了解如何分析列，以便知晓哪些列包含有价值的数据，…...

编程新知 2025/7/5 23:15:29

回溯算法学习

一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...

编程新知 2025/6/25 22:29:44

AGain DB和倍数增益的关系

我在设置一款索尼CMOS芯片时，Again增益0db变化为6DB，画面的变化只有2倍DN的增益，比如10变为20。这与dB和线性增益的关系以及传感器处理流程有关。以下是具体原因分析： 1. dB与线性增益的换算关系 6dB对应的理论线性增益应为&…...

编程新知 2025/6/17 12:11:08

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

编程新知 2025/6/28 13:45:29

处理vxe-table 表尾数据是单独一个接口，表格tableData数据更新后，需要点击两下，表尾才是正确的

修改bug思路： 分别把 tabledata 和表尾相关数据 console.log() 发现更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行升级↑：async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...

编程新知 2025/7/6 19:34:45

省略号和可变参数模板

本文主要介绍如何展开可变参数的参数包 1.C语言的va_list展开可变参数 #include <iostream> #include <cstdarg>void printNumbers(int count, ...) {// 声明va_list类型的变量va_list args;// 使用va_start将可变参数写入变量argsva_start(args, count);for (in…...

编程新知 2025/6/23 4:18:07

探索Selenium：自动化测试的神奇钥匙

目录一、Selenium 是什么1.1 定义与概念1.2 发展历程1.3 功能概述二、Selenium 工作原理剖析2.1 架构组成2.2 工作流程2.3 通信机制三、Selenium 的优势3.1 跨浏览器与平台支持3.2 丰富的语言支持3.3 强大的社区支持四、Selenium 的应用场景4.1 Web 应用自动化测试4.2 数据…...

编程新知 2025/7/5 11:48:54

SpringAI实战：ChatModel智能对话全解

一、引言：Spring AI 与 Chat Model 的核心价值 🚀 在 Java 生态中集成大模型能力，Spring AI 提供了高效的解决方案 🤖。其中 Chat Model 作为核心交互组件，通过标准化接口简化了与大语言模型（LLM&#xff0…...

编程新知 2025/7/6 16:11:09

目录

创建模型

读取数据集

训练AlexNet

相关文章：