当前位置：首页 > news >正文

16 PyTorch 神经网络基础【李沐动手学深度学习v2】

news 2025/11/18 19:45:25

1. 模型构造

在构造自定义块之前，我们先回顾一下多层感知机的代码。下面的代码生成一个网络，其中包含一个具有256个单元和ReLU激活函数的全连接隐藏层，然后是一个具有10个隐藏单元且不带激活函数的全连接输出层。

层和块

构造单层神经网咯：线性层+RELU+线性层

生成2x20（2是批量大小，20是批量维度）的随机矩阵

在这个例子中，我们通过实例化nn.Sequential来构建我们的模型，层的执行顺序是作为参数传递的。简而言之，nn.Sequential定义了一种特殊的Module，即在PyTorch中表示一个块的类，它维护了一个由Module组成的有序列表。注意，两个全连接层都是Linear类的实例，Linear类本身就是Module的子类。另外，到目前为止，我们一直在通过net(X)调用我们的模型来获得模型的输出。这实际上是net.__call__(X)的简写。这个前向传播函数非常简单：它将列表中的每个块连接在一起，将每个块的输出作为下一个块的输入。

1.1 自定义

要想直观地了解块是如何工作的，最简单的方法就是自己实现一个。在实现我们自定义块之前，我们简要总结一下每个块必须提供的基本功能。

将输入数据作为其前向传播函数的参数。
通过前向传播函数来生成输出。请注意，输出的形状可能与输入的形状不同。例如，我们上面模型中的第一个全连接的层接收一个20维的输入，但是返回一个维度为256的输出。
计算其输出关于输入的梯度，可通过其反向传播函数进行访问。通常这是自动发生的。
存储和访问前向传播计算所需的参数。
根据需要初始化模型参数

自定义快

MLP是nn.Module的子类，所以nn.Module有两个函数

实例化多层感知机的层

# 动手打一遍吧，加深一下印象嘞 class MLP(nn.Module): # 用模型参数声明层。这里，我们声明两个全连接的层 def __init__(self): # 调用MLP的父类Module的构造函数来执行必要的初始化。 # 这样，在类实例化时也可以指定其他函数参数，例如模型参数params（稍后将介绍） super().__init__() self.hidden = nn.Linear(20, 256) # 隐藏层 self.out = nn.Linear(256, 10) # 输出层 # 定义模型的前向传播，即如何根据输入X返回所需的模型输出 def forward(self, X): # 注意，这里我们使用ReLU的函数版本，其在nn.functional模块中定义。 return self.out(F.relu(self.hidden(X)))

上述代码的解析

# 测试上述代码 net = MLP() net(X) # 块的一个主要优点是它的多功能性。 # 我们可以子类化块以创建层（如全连接层的类）、整个模型（如上面的MLP类）或具有中等复杂度的各种组件。 # 我们在接下来的章节中充分利用了这种多功能性，比如在处理卷积神经网络时。

1.2 顺序块

现在我们可以更仔细地看看Sequential类是如何工作的，回想一下Sequential的设计是为了把其他模块串起来。为了构建我们自己的简化的MySequential，我们只需要定义两个关键函数：

一种将块逐个追加到列表中的函数；
一种前向传播函数，用于将输入按追加块的顺序传递给块组成的“链条”。

下面的MySequential类提供了与默认Sequential类相同的功能。

顺序块

*args: lists of inputs of arguments

super( )._init_( ) 调用父类的初始化函数

self._modeules[block] : ordered dictionary. 放进去key. 【也就是说把传进去的每一层layer都按照顺序放在这个容器里，感觉相当于是数组的作用，只不过她存的是神经网络层】

class MySequential(nn.Module): def __init__(self, *args): super().__init__() for idx, module in enumerate(args): # 这里，module是Module子类的一个实例。我们把它保存在'Module'类的成员 # 变量_modules中。_module的类型是OrderedDict self._modules[str(idx)] = module def forward(self, X): # OrderedDict保证了按照成员添加的顺序遍历它们 for block in self._modules.values(): X = block(X) return X net = MySequential(nn.Linear(20, 256), nn.ReLU(), nn.Linear(256, 10)) net(X)

1.3 在前向传播函数中执行代码

Sequential类使模型构造变得简单，允许我们组合新的架构，而不必定义自己的类。然而，并不是所有的架构都是简单的顺序架构。当需要更强的灵活性时，我们需要定义自己的块。例如，我们可能希望在前向传播函数中执行Python的控制流。此外，我们可能希望执行任意的数学运算，而不是简单地依赖预定义的神经网络层。

添加图片注释，不超过 140 字（可选）

class FixedHiddenMLP(nn.Module): def __init__(self): super().__init__() # 不计算梯度的随机权重参数。因此其在训练期间保持不变 self.rand_weight = torch.rand((20, 20), requires_grad=False) self.linear = nn.Linear(20, 20) def forward(self, X): X = self.linear(X) # 使用创建的常量参数以及relu和mm函数 X = F.relu(torch.mm(X, self.rand_weight) + 1) # 复用全连接层。这相当于两个全连接层共享参数 X = self.linear(X) # 控制流 while X.abs().sum() > 1: X /= 2 return X.sum() net = FixedHiddenMLP() net(X)

添加图片注释，不超过 140 字（可选）

我们可以混合搭配各种组合块的方法。在下面的例子中，我们以一些想到的方法嵌套块。

class NestMLP(nn.Module): def __init__(self): super().__init__() self.net = nn.Sequential(nn.Linear(20, 64), nn.ReLU(), nn.Linear(64, 32), nn.ReLU()) self.linear = nn.Linear(32, 16) def forward(self, X): return self.linear(self.net(X)) chimera = nn.Sequential(NestMLP(), nn.Linear(16, 20), FixedHiddenMLP()) chimera(X)

不是很能完全理解....先这样，学到后面应该这里会好一些，迷茫抛在这里啦

2. 参数管理

我们首先看一下具有单隐藏层的多层感知机。

import torch from torch import nn net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(), nn.Linear(8, 1)) X = torch.rand(size=(2, 4)) net(X)

2.1 参数访问

print(net[2].state_dict())

输出的结果告诉我们一些重要的事情：首先，这个全连接层包含两个参数，分别是该层的权重和偏置。两者都存储为单精度浮点数（float32）。注意，参数名称允许唯一标识每个参数，即使在包含数百个层的网络中也是如此。

net[2] 拿到的是nn.Linear(8, 1)

state_dict() 就是权重

目标参数

一次性访问所有参数

添加图片注释，不超过 140 字（可选）

3. 自定义层

添加图片注释，不超过 140 字（可选）

4. 读写文件

添加图片注释，不超过 140 字（可选）

看不懂的可以看看这本书的讲解：

http://www.feiguyunai.com/index.php/2019/09/11/pytorch-char03/

Pytorch神经网络工具箱

jupyter路径：pytorch/chapter_deep-learning-computation/model-construction.ipynb

https://github.com/Miraclelucy/dive-into-deep-learning 将李沐老师课堂中的jupyter notebook代码整理成了py格式的，欢迎关注，共同学习。

16 PyTorch 神经网络基础【李沐动手学深度学习v2】

1. 模型构造在构造自定义块之前，我们先回顾一下多层感知机的代码。下面的代码生成一个网络，其中包含一个具有256个单元和ReLU激活函数的全连接隐藏层， 然后是一个具有10个隐藏单元且不带激活函数的全连接输出层。层和块构造单层神经网咯…...

编程日记 2024/3/10 11:48:08

java数据结构与算法刷题-----LeetCode216. 组合总和 III

java数据结构与算法刷题目录（剑指Offer、LeetCode、ACM）-----主目录-----持续更新(进不去说明我没写完)：https://blog.csdn.net/grd_java/article/details/123063846 文章目录解题思路此题是77题的扩展题，仅仅加了一个条件而已&…...

编程日记 2024/3/10 11:45:05

vscode remote ssh 连接 ubuntu/linux报错解决方法

1、问题: WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED! IT IS POSSIBLE THAT SOMEONE IS DOING SOMETHING NASTY! Someone could be eavesdropping on you right now (man-in-the-middle attack)! It is also possible that a host key has just been changed. The fin…...

编程日记 2024/3/10 11:36:58

Normalizer（归一化）和MinMaxScaler（最小-最大标准化）的区别详解

1.Normalizer（归一化）（更加推荐使用） 优点：将每个样本向量的欧几里德长度缩放为1，适用于计算样本之间的相似性。缺点：只对每个样本的特征进行缩放，不保留原始数据的分布形状。公式…...

编程日记 2024/3/10 11:35:56

覆盖element-ui的el-menu样式记录：背景图片、菜单图标、菜单高亮与鼠标悬浮高亮、调整子菜单等样式

页面中修改el-menu 设置background-color"transparent"，menu菜单下的背景图片则能正常显示了 <el-menuclass"el-menu-demo"mode"horizontal"background-color"transparent"><el-menu-item index"1">…...

编程日记 2024/3/10 11:33:55

接口自动化测试从入门到高级实战！

接口测试背景和必要性接口测试是测试系统组件间接口（API）的一种测试，主要用于检测内部与外部系统、内部子系统之间的交互质量，其测试重点是检查数据交换、传递的准确性，控制和交互管理过程，以及系统间相互…...

编程日记 2024/3/10 11:31:53

【STC8A8K64D4开发板】第2-14讲：I2C总线的应用

第2-14讲：I2C总线的应用学习目的了解I2C总线的特点。掌握I2C地址的定义，对I2C地址要有深刻的了解，之后再看到I2C接口设备中描述的7位地址或8位地址，不会再有疑惑。掌握STC8A8K64D4系列单片机I2C的特点以及编程方法。掌握通过I2C读…...

编程日记 2024/3/10 11:29:51

前端框架的发展史

随着互联网技术的飞速发展和用户需求的日益增长，前端开发作为构建用户界面和交互体验的关键环节，经历了从简单到复杂、从静态到动态的演变过程。在这个过程中，前端框架作为提升开发效率和代码质量的重要工具，也经历了多个阶段的发…...

编程日记 2024/3/10 11:24:47

Unity Hololens2开发|（二）MRTK3导入和配置

目录 1.从 MRTK3 模板项目开始2.从新项目开始2.1 创建新的 Unity 项目2.2 使用混合现实功能工具导入所需的依赖项和 MRTK3 包2.3 打开 Unity 项目2.4 在导入后配置 MRTK 配置文件2.5 配置 OpenXR 相关设置2.6 使用模板项目资源1.从 MRTK3 模板项目开始获取并试用 MRTK3 最简单…...

编程日记 2024/3/10 11:23:46

VMware下载与安装

准备一个Linux的系统，成本最低的方式就是在本地安装一台虚拟机，VMware是业界最好用的虚拟机软件之一官网：https://www.vmware.com/ 下载页面：https://www.vmware.com/products/workstation-pro/workstation-pro-evaluation.html …...

编程日记 2024/3/10 11:22:44

9、Linux-安装JDK、Tomcat和MySql

目录一、安装JDK 1、传输JDK文件（.tar.gz） 2、解压 3、备份环境变量 4、配置环境变量 5、重新加载环境变量 6、验证（java -version） 二、安装Tomcat 1、传输文件，解压到/usr/local 2、进入Tomcat的bin目录 …...

编程日记 2024/3/10 11:20:41

深度学习图像算法工程师--面试准备（2）

深度学习面试准备深度学习图像算法工程师–面试准备（1） 深度学习图像算法工程师–面试准备（2） 文章目录深度学习面试准备前言一、Batch Normalization(批归一化)1.1 具体步骤1.2 BN一般用在网络的哪个部分二、Layer Normaliza…...

编程日记 2024/3/10 11:17:38

解锁安卓开发利器：深度探析ADB【安卓开发】

引言在安卓开发与维护过程中，我们经常会遇到一些限制，比如无法直接访问某些系统功能，或者在某些定制系统中受到限制。为了解决这些问题，我们需要一种有效的工具来管理和调试安卓设备，而这时候ADB（Andro…...

编程日记 2024/3/10 11:15:37

【Python】FTP库的介绍及用法

目录 1、应用场景 2、FTP-标准库 1、应用场景 FTP库（ftplib）在Python中的应用场景主要包括： 文件上传和下载： 通过FTP服务器，可以提供用于上传和下载文件的功能。这在需要在服务器和客户端之间共享数据的情况下非常…...

编程日记 2024/3/10 11:13:35

C++——string模拟实现

前言：上篇文章我们对string类及其常用的接口方法的使用进行了分享，这篇文章将着重进行对这些常用的接口方法的内部细节进行分享和模拟实现。目录一.基础框架二.遍历字符串 1.[]运算符重载 2.迭代器 3.范围for 三.常用方法 1.增加 2.删除 3.调…...

编程日记 2024/3/10 11:10:33

从零开始：神经网络（2）——MP模型

声明：本文章是根据网上资料，加上自己整理和理解而成，仅为记录自己学习的点点滴滴。可能有错误，欢迎大家指正。神经元相关知识，详见从零开始：神经网络——神经元和梯度下降-CSDN博客 1、什么是M-P 模型人…...

编程日记 2024/3/10 11:09:32

Python调用edge-tts实现在线文字转语音

edge-tts是一个 Python 模块，允许通过Python代码或命令的方式使用 Microsoft Edge 的在线文本转语音服务。项目源码 GitHub - rany2/edge-tts: Use Microsoft Edges online text-to-speech service from Python WITHOUT needing Microsoft Edge or Windows or an…...

编程日记 2024/3/10 11:06:29

植物病害识别：YOLO甘蔗叶片病害识别分类数据集

YOLO甘蔗叶片病害识别数据集, 包含尾孢菌叶斑病，眼斑病，健康，红腐病，锈病，黄叶病6个常见病类别，3300多张图像，yolo标注完整，全部原始图像，未应用增强。适用于CV项目&…...

编程日记 2024/3/10 11:05:28

pyqt QTextEdit 捕获enter按键

参考： https://blog.csdn.net/qq_27061049/article/details/101550616 方法一： 在PyQt中，可以通过重写QTextEdit的keyPressEvent()函数来捕获Enter按键。下面是示例代码： from PyQt5.QtWidgets import QApplication, QMainWindo…...

编程日记 2024/3/10 11:03:26

一劳永逸的方法解决：LNK1168无法打开 xxx.exe 进行写入报错问题

这种错误的产生原因： 运行程序退出不是按正常流退出，是按窗口右上角的 “X” 来关闭程序，但是后台的xxx.exe控制台程序还在运行；修改程序的代码后再运行，就会报LNK1168的错误； 报错示例： 解决方…...

编程日记 2024/3/10 10:57:21

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述通过动态调整节点通信的能量开销，平衡网络负载，延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

编程新知 2025/11/17 1:25:59

从深圳崛起的“机器之眼”：赴港乐动机器人的万亿赛道赶考路

进入2025年以来，尽管围绕人形机器人、具身智能等机器人赛道的质疑声不断，但全球市场热度依然高涨，入局者持续增加。以国内市场为例，天眼查专业版数据显示，截至5月底，我国现存在业、存续状态的机器人相关企…...

编程新知 2025/11/16 21:20:37

如何在看板中有效管理突发紧急任务

在看板中有效管理突发紧急任务需要：设立专门的紧急任务通道、重新调整任务优先级、保持适度的WIP（Work-in-Progress）弹性、优化任务处理流程、提高团队应对突发情况的敏捷性。其中，设立专门的紧急任务通道尤为重要，这能…...

编程新知 2025/11/18 1:06:11

tree 树组件大数据卡顿问题优化

问题背景项目中有用到树组件用来做文件目录，但是由于这个树组件的节点越来越多，导致页面在滚动这个树组件的时候浏览器就很容易卡死。这种问题基本上都是因为dom节点太多，导致的浏览器卡顿，这里很明显就需要用到虚拟列表的技术&…...

编程新知 2025/11/16 21:56:23

鸿蒙DevEco Studio HarmonyOS 5跑酷小游戏实现指南

1. 项目概述本跑酷小游戏基于鸿蒙HarmonyOS 5开发，使用DevEco Studio作为开发工具，采用Java语言实现，包含角色控制、障碍物生成和分数计算系统。 2. 项目结构 /src/main/java/com/example/runner/├── MainAbilitySlice.java // 主界…...

编程新知 2025/9/24 10:52:31

#Uniapp篇：chrome调试unapp适配

chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器：Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...

编程新知 2025/9/14 3:58:53

短视频矩阵系统文案创作功能开发实践，定制化开发

在短视频行业迅猛发展的当下，企业和个人创作者为了扩大影响力、提升传播效果，纷纷采用短视频矩阵运营策略，同时管理多个平台、多个账号的内容发布。然而，频繁的文案创作需求让运营者疲于应对，如何高效产出高质量文案成…...

编程新知 2025/11/17 21:58:35

Linux 中如何提取压缩文件？

Linux 是一种流行的开源操作系统，它提供了许多工具来管理、压缩和解压缩文件。压缩文件有助于节省存储空间，使数据传输更快。本指南将向您展示如何在 Linux 中提取不同类型的压缩文件。 1. Unpacking ZIP Files ZIP 文件是非常常见的，要在 …...

编程新知 2025/11/17 11:40:16

Python竞赛环境搭建全攻略

Python环境搭建竞赛技术文章大纲竞赛背景与意义竞赛的目的与价值Python在竞赛中的应用场景环境搭建对竞赛效率的影响竞赛环境需求分析常见竞赛类型（算法、数据分析、机器学习等）不同竞赛对Python版本及库的要求硬件与操作系统的兼容性问题 Pyth…...

编程新知 2025/9/5 19:04:58

ubuntu22.04 安装docker 和docker-compose

首先你要确保没有docker环境或者使用命令删掉docker sudo apt-get remove docker docker-engine docker.io containerd runc安装docker 更新软件环境 sudo apt update sudo apt upgrade下载docker依赖和GPG 密钥 # 依赖 apt-get install ca-certificates curl gnupg lsb-rel…...

编程新知 2025/10/31 16:09:12

1. 模型构造

1.1 自定义

1.2 顺序块

1.3 在前向传播函数中执行代码

2. 参数管理

2.1 参数访问

3. 自定义层

4. 读写文件

相关文章：