当前位置：首页 > news >正文

深度学习(4):torch.nn.Module

news 2025/7/9 0:14:23

文章目录

一、是什么
二、`nn.Module` 的核心功能
三、`nn.Module` 的基本用法
- 1. 定义自定义模型
- 2. 初始化模型
- - 3. 模型的使用
四、`nn.Module` 的关键特性
- 1. 自动注册子模块和参数
- 2. `forward` 方法
- 3. 不需要定义反向传播
五、常用的内置模块
六、示例：创建一个简单的神经网络
- 1. 问题描述
- 2. 模型定义
- 3. 训练过程
七、深入理解 `nn.Module` 的一些重要概念
- 1. 参数访问
- 2. 模块访问
- 3. 保存和加载模型
- 4. 自定义层和模块
八、`nn.Module` 的实践技巧
- 1. 使用 `Sequential` 快速构建模型
- 2. 模型的嵌套
九、总结
- 十、参考示例：完整的训练脚本

一、是什么

torch.nn.Module 是 PyTorch 中所有神经网络模块的基类，是构建神经网络模型的核心组件。

二、`nn.Module` 的核心功能

参数管理：自动管理模型的可训练参数（parameters），方便参数的访问和更新。
子模块管理：支持将模型分解为多个子模块，便于组织复杂的网络结构。
前向计算（forward）：定义模型的前向传播逻辑。

三、`nn.Module` 的基本用法

1. 定义自定义模型

要创建自定义的神经网络模型，需要继承 nn.Module，并实现以下内容：

构造函数 __init__：在这里定义网络的层和子模块。
前向方法 forward：定义数据如何经过网络进行前向传播。

import torch
import torch.nn as nnclass MyModel(nn.Module):def __init__(self):super(MyModel, self).__init__()# 定义网络层self.layer1 = nn.Linear(10, 20)self.relu = nn.ReLU()self.layer2 = nn.Linear(20, 1)def forward(self, x):# 定义前向传播过程out = self.layer1(x)out = self.relu(out)out = self.layer2(out)return out

2. 初始化模型

model = MyModel()

3. 模型的使用

前向传播：
```
output = model(input_data)
```

获取模型参数：

for name, param in model.named_parameters():print(name, param.size())

四、`nn.Module` 的关键特性

1. 自动注册子模块和参数

在 __init__ 方法中，当你将 nn.Module 的实例（如 nn.Linear、nn.Conv2d 等）赋值给模型的属性时，nn.Module 会自动将这些子模块注册到模型中。这意味着：

参数管理：模型的所有参数都会被自动收集，存储在 model.parameters() 中。
子模块管理：可以通过 model.children() 或 model.modules() 访问子模块。

class MyModule(nn.Module):def __init__(self):super(MyModule, self).__init__()self.fc = nn.Linear(10, 5)self.conv = nn.Conv2d(3, 16, kernel_size=3)model = MyModule()
print(list(model.parameters()))  # 自动包含了 fc 和 conv 的参数

2. `forward` 方法

forward 方法定义了模型的前向传播逻辑。在调用模型实例时，会自动调用 forward 方法。

output = model(input_data)  # 等价于 output = model.forward(input_data)

3. 不需要定义反向传播

在大多数情况下，不需要手动实现反向传播函数。PyTorch 的自动求导机制（autograd）会根据前向传播中的操作，自动计算梯度。

五、常用的内置模块

PyTorch 提供了大量的内置模块，继承自 nn.Module，可以直接使用：

线性层：nn.Linear
卷积层：nn.Conv1d、nn.Conv2d、nn.Conv3d
循环神经网络：nn.RNN、nn.LSTM、nn.GRU
归一化层：nn.BatchNorm1d、nn.BatchNorm2d
激活函数：nn.ReLU、nn.Sigmoid、nn.Softmax
损失函数：nn.MSELoss、nn.CrossEntropyLoss

六、示例：创建一个简单的神经网络

1. 问题描述

创建一个多层感知机（MLP），用于对 MNIST 手写数字进行分类。

2. 模型定义

class MNISTClassifier(nn.Module):def __init__(self):super(MNISTClassifier, self).__init__()self.flatten = nn.Flatten()  # 将输入展开为一维self.fc1 = nn.Linear(28 * 28, 128)self.relu = nn.ReLU()self.fc2 = nn.Linear(128, 64)self.relu2 = nn.ReLU()self.fc3 = nn.Linear(64, 10)  # 输出10个类别的分数def forward(self, x):x = self.flatten(x)x = self.relu(self.fc1(x))x = self.relu2(self.fc2(x))x = self.fc3(x)return x

3. 训练过程

import torch.optim as optim# 初始化模型、损失函数和优化器
model = MNISTClassifier()
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)# 假设有数据加载器 data_loader
for epoch in range(num_epochs):for images, labels in data_loader:# 前向传播outputs = model(images)loss = criterion(outputs, labels)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')

七、深入理解 `nn.Module` 的一些重要概念

1. 参数访问

parameters()：返回一个生成器，包含模型所有可训练的参数。
named_parameters()：返回一个生成器，生成 (name, parameter) 对，方便查看参数名称和形状。

for name, param in model.named_parameters():print(f'Parameter {name}: shape {param.shape}')

2. 模块访问

children()：返回直接子模块的迭代器。
modules()：返回自身及所有子模块的迭代器。

for child in model.children():print(child)for module in model.modules():print(module)

3. 保存和加载模型

保存模型状态：

torch.save(model.state_dict(), 'model.pth')

加载模型状态：

model = MNISTClassifier()
model.load_state_dict(torch.load('model.pth'))

4. 自定义层和模块

通过继承 nn.Module，可以创建自定义的层或模块。

class CustomLayer(nn.Module):def __init__(self, in_features, out_features):super(CustomLayer, self).__init__()self.weight = nn.Parameter(torch.randn(in_features, out_features))self.bias = nn.Parameter(torch.zeros(out_features))def forward(self, x):return torch.matmul(x, self.weight) + self.bias

八、`nn.Module` 的实践技巧

1. 使用 `Sequential` 快速构建模型

对于简单的模型，可以使用 nn.Sequential 将多个层按顺序组合。

model = nn.Sequential(nn.Flatten(),nn.Linear(28 * 28, 128),nn.ReLU(),nn.Linear(128, 64),nn.ReLU(),nn.Linear(64, 10)
)

2. 模型的嵌套

可以将模块嵌套使用，构建复杂的网络结构。

class ComplexModel(nn.Module):def __init__(self):super(ComplexModel, self).__init__()self.block1 = nn.Sequential(nn.Conv2d(1, 32, kernel_size=3),nn.ReLU())self.block2 = nn.Sequential(nn.Conv2d(32, 64, kernel_size=3),nn.ReLU())self.fc = nn.Linear(64 * 24 * 24, 10)def forward(self, x):x = self.block1(x)x = self.block2(x)x = x.view(x.size(0), -1)  # 展平x = self.fc(x)return x

九、总结

nn.Module 是 PyTorch 构建神经网络的基础，提供了参数管理、子模块管理和前向传播等功能。
通过继承 nn.Module，可以方便地创建自定义模型或层，满足各种复杂的需求。
在使用 nn.Module 时，注意正确地定义 __init__ 和 forward 方法，并确保在 forward 方法中定义前向计算逻辑。
PyTorch 提供了大量的内置模块，可以直接使用或作为自定义模块的基石。
善于利用 nn.Module 的特性和工具，可以大大提高模型开发的效率和代码的可读性。

十、参考示例：完整的训练脚本

import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms# 定义超参数
batch_size = 64
learning_rate = 0.01
num_epochs = 5# 数据集和数据加载器
train_dataset = datasets.MNIST(root='./data', train=True, transform=transforms.ToTensor(), download=True)
train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)# 定义模型
class MNISTClassifier(nn.Module):def __init__(self):super(MNISTClassifier, self).__init__()self.flatten = nn.Flatten()self.fc1 = nn.Linear(28 * 28, 128)self.relu = nn.ReLU()self.fc2 = nn.Linear(128, 64)self.relu2 = nn.ReLU()self.fc3 = nn.Linear(64, 10)def forward(self, x):x = self.flatten(x)x = self.relu(self.fc1(x))x = self.relu2(self.fc2(x))x = self.fc3(x)return x# 初始化模型、损失函数和优化器
model = MNISTClassifier()
criterion = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=learning_rate)# 训练模型
for epoch in range(num_epochs):for images, labels in train_loader:# 前向传播outputs = model(images)loss = criterion(outputs, labels)# 反向传播和优化optimizer.zero_grad()loss.backward()optimizer.step()print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {loss.item():.4f}')# 保存模型
torch.save(model.state_dict(), 'mnist_classifier.pth')

深度学习(4):torch.nn.Module

文章目录一、是什么二、nn.Module 的核心功能三、nn.Module 的基本用法1. 定义自定义模型2. 初始化模型3. 模型的使用四、nn.Module 的关键特性1. 自动注册子模块和参数2. forward 方法3. 不需要定义反向传播五、常用的内置模块六、示例：创建一个简单的神经网络1…...

编程日记 2024/9/25 21:11:11

（14）关于docker如何通过防火墙做策略限制

关于docker如何通过防火墙做策略限制 1、iptables相关问题在Iptables防火墙中包含四种常见的表，分别是filter、nat、mangle、raw。 filter：负责过滤数据包。 filter表可以管理INPUT、OUTPUT、FORWARD链。 nat：用于网络地址转换。 nat表…...

编程日记 2024/9/25 21:09:02

新React开发人员应该如何思考

React是一个用于构建用户界面的流行JavaScript库，通过使开发人员能够创建可重用组件并有效管理复杂的UI，彻底改变了前端开发。然而，采用正确的心态对于新开发人员驾驭React独特的范式至关重要。让我们来探索塑造“React思维模式”的基本原则和…...

编程日记 2024/9/25 21:07:00

解密.bixi、.baxia勒索病毒：如何安全恢复被加密数据

导言在数字化时代，数据安全已成为个人和企业面临的重大挑战之一。随着网络攻击手段的不断演进，勒索病毒的出现尤为引人关注。其中，.bixi、.baxia勒索病毒是一种新型的恶意软件，它通过加密用户的重要文件，迫使受害者支…...

编程日记 2024/9/25 21:05:58

开源 AI 智能名片与 S2B2C 商城小程序：嫁接权威实现信任与增长

摘要：本文探讨了嫁接权威在产品营销中的重要性，并结合开源 AI 智能名片与 S2B2C 商城小程序，阐述了如何通过与权威关联来建立客户信任，提升产品竞争力。强调了在当今商业环境中，巧妙运用嫁接权威的方法，能够…...

编程日记 2024/9/25 21:02:55

S-Clustr-Simple 飞机大战:骇入现实的建筑灯光游戏

项目地址:https://github.com/MartinxMax/S-Clustr/releases Video https://www.youtube.com/watch?vr3JIZY1olro 飞机大战按键操作: ←:向左移动 →:向右移动 Space:发射子弹这是一个影子集群的游戏插件，可以将游戏画面映射到现实的设备，允许恶…...

编程日记 2024/9/25 21:00:53

MySQL：存储引擎简介和库的基本操作

目录一、存储引擎 1、什么是存储引擎？ 2、存储引擎的分类关系型数据库存储引擎： 非关系型数据库存储引擎： 分布式数据库存储引擎： 3、常用的存储引擎及优缺点 1、InnoDb存储引擎 2、MyISAM存储引擎 3、MEMORY存储引擎 …...

编程日记 2024/9/25 20:58:51

JavaScript类型判断（总结）

1. 使用typeof操作符 typeof操作符可以返回一个值的类型的字符串表示。例如： typeof 42; // "number" typeof "Hello"; // "string" typeof true; // "boolean" typeof undefined; // "undefined" typeof null…...

编程日记 2024/9/25 20:56:49

SpringBoot之登录校验关于JWT、Filter、interceptor、异常处理的使用

什么是登录校验？ 所谓登录校验，指的是我们在服务器端接收到浏览器发送过来的请求之后，首先我们要对请求进行校验。先要校验一下用户登录了没有，如果用户已经登录了，就直接执行对应的业务操作就可以了；如果用…...

编程日记 2024/9/25 20:53:46

我的AI工具箱Tauri版-FunAsr音频转文本

本教程基于自研的AI工具箱Tauri版进行FunAsr音频转文本服务。 FunAsr音频转文本服务是自研AI工具箱Tauri版中的一个高效模块，专为将音频或视频中的语音内容自动转化为文本或字幕而设计。用户只需简单配置输入、输出路径，即可通过FunAsr工具快速批量处理…...

编程日记 2024/9/25 20:52:45

C++：模版初阶

目录一、泛型编程二、函数模版概念格式原理实例化模版参数的匹配原则三、类模版定义格式实例化一、泛型编程如何实现一个通用的交换函数呢？ void Swap(int& left, int& right) {int temp left;left right;right temp; } void Swa…...

编程日记 2024/9/25 20:49:41

Python Web 与区块链集成的最佳实践：智能合约、DApp与安全

Python Web 与区块链集成的最佳实践：智能合约、DApp与安全 📚 目录 🏗 区块链基础区块链的基础概念与应用场景使用 Web3.py 与 Python Web 应用集成区块链网络在 Web 应用中实现加密货币支付与转账功能 🔑 智能合约与 DApp 编写…...

编程日记 2024/9/25 20:48:40

使用工具将截图公式转换为word公式

引言： 公式越复杂，心情越凌乱，手写都会觉得很麻烦，何况敲到电脑里面呢，特别是在写论文时，word有专属的公式格式，十分繁杂，如果照着mathTYPE软件敲，那么会耗费很长的时间…...

编程日记 2024/9/25 20:47:39

深度学习(6):Dataset 和 DataLoader

文章目录 Dataset 类DataLoader 类 Dataset 类概念： Dataset 是一个抽象类，用于表示数据集。它定义了如何获取数据集中的单个样本和标签。作用： 为数据集提供统一的接口，便于数据的读取、预处理和管理。关键方法&#xff…...

编程日记 2024/9/25 20:45:37

Qt窗口——QToolBar

文章目录工具栏创建工具栏设置toolTip工具栏配合菜单栏工具栏浮动状态工具栏 QToolBar工具栏是应用程序中集成各种功能实现快捷键使用的一个区域。可以有多个，也可以没有。创建工具栏 #include "mainwindow.h" #include "ui_mainwindow.h&qu…...

编程日记 2024/9/25 20:42:34

MySQL—存储过程详解

基本介绍存储过程和函数是数据库中预先编译并存储的一组SQL语句集合。它们的主要目的是提高代码的复用性、减少数据传输、简化业务逻辑处理，并且一旦编译成功，可以永久有效。存储过程和函数的好处提高代码的复用性：存储过程和函数可以在…...

编程日记 2024/9/25 20:41:33

2024ICPC网络赛2记录：CK

这一次网络赛我们过8题，排名71，算是发挥的非常好的了。这一把我们三个人手感都很好，前六题都是一遍过，然后我又切掉了非签到的E和C，最后时间不是很多，K只想到大概字典树的思路，细节不是很懂就直…...

编程日记 2024/9/25 20:37:30

PerparedStatement概述

PreparedStatement 是 Java 中的一个接口，用于预编译 SQL 语句并执行数据库操作。一、主要作用提高性能： 数据库在首次执行预编译语句时会进行语法分析、优化等操作，并将其存储在缓存中。后续执行相同的预编译语句时，数据库可…...

编程日记 2024/9/25 20:36:28

联影医疗嵌入式面试题及参考答案（3万字长文）

假如你要做机器人控制，你会遵循怎样的开发流程？首先，需求分析阶段。明确机器人的功能需求，例如是用于工业生产中的物料搬运、还是家庭服务中的清洁打扫等。了解工作环境的特点，包括空间大小、障碍物分布、温度湿度等因素。同时，确定机器人的性能指标，如运动速度、精度、…...

编程日记 2024/9/25 20:35:27

Rust的作用？

在Linux中，Rust可以开发命令行工具，如FD、SD、Ripgep、Bat、EXA、SKIM等。虽然Rust是面向系统编程，但也不妨碍使用Rust写命令行工具，因为Rust具备现代语言特性、无依赖、生成的目标文件小。在云计算和区块链区域，Rus…...

编程日记 2024/9/25 20:34:26

JavaSec-RCE

简介 RCE(Remote Code Execution)，可以分为:命令注入(Command Injection)、代码注入(Code Injection) 代码注入 1.漏洞场景：Groovy代码注入 Groovy是一种基于JVM的动态语言，语法简洁，支持闭包、动态类型和Java互操作性&#xff0c…...

编程新知 2025/7/8 5:01:55

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中，iftop是网络管理的得力助手，能实时监控网络流量、连接情况等，帮助排查网络异常。接下来从多方面详细介绍它。目录【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

编程新知 2025/6/17 9:25:03

五年级数学知识边界总结思考-下册

目录一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解：由来、作用与意义**一、知识点核心内容****二、知识点的由来：从生活实践到数学抽象****三、知识的作用：解决实际问题的工具****四、学习的意义：培养核心素养…...

编程新知 2025/6/20 13:47:44

Matlab | matlab常用命令总结

常用命令一、基础操作与环境二、矩阵与数组操作（核心）三、绘图与可视化四、编程与控制流五、符号计算 (Symbolic Math Toolbox)六、文件与数据 I/O七、常用函数类别重要提示这是一份 MATLAB 常用命令和功能的总结，涵盖了基础操作、矩阵运算、绘图、编程和文件处理等…...

编程新知 2025/6/20 11:09:49

用docker来安装部署freeswitch记录

今天刚才测试一个callcenter的项目，所以尝试安装freeswitch 1、使用轩辕镜像 - 中国开发者首选的专业 Docker 镜像加速服务平台编辑下面/etc/docker/daemon.json文件为 {"registry-mirrors": ["https://docker.xuanyuan.me"] }同时可以进入轩…...

编程新知 2025/7/6 22:52:33

Unsafe Fileupload篇补充-木马的详细教程与木马分享（中国蚁剑方式）

在之前的皮卡丘靶场第九期Unsafe Fileupload篇中我们学习了木马的原理并且学了一个简单的木马文件本期内容是为了更好的为大家解释木马（服务器方面的）的原理，连接，以及各种木马及连接工具的分享文件木马：https://w…...

编程新知 2025/7/8 17:32:32

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join

纯 Java 项目（非 SpringBoot）集成 Mybatis-Plus 和 Mybatis-Plus-Join 1、依赖1.1、依赖版本1.2、pom.xml 2、代码2.1、SqlSession 构造器2.2、MybatisPlus代码生成器2.3、获取 config.yml 配置2.3.1、config.yml2.3.2、项目配置类 2.4、ftl 模板2.4.1、…...

编程新知 2025/6/19 0:27:55

基于IDIG-GAN的小样本电机轴承故障诊断

目录 🔍 核心问题一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) 梯度归一化（Gradient Normalization） (2) 判别器梯度间隙正则化（Discriminator Gradient Gap Regularization） (3) 自注意力机制（Self-Attention） 3. 完整损失函数二…...

编程新知 2025/7/7 14:29:27

免费数学几何作图web平台

光锐软件免费数学工具，maths,数学制图，数学作图，几何作图，几何，AR开发,AR教育,增强现实,软件公司,XR,MR,VR,虚拟仿真,虚拟现实,混合现实,教育科技产品,职业模拟培训,高保真VR场景,结构互动课件,元宇宙http://xaglare.c…...

编程新知 2025/7/6 0:31:20

LabVIEW双光子成像系统技术

双光子成像技术的核心特性双光子成像通过双低能量光子协同激发机制，展现出显著的技术优势： 深层组织穿透能力：适用于活体组织深度成像高分辨率观测性能：满足微观结构的精细研究需求低光毒性特点：减少对样本的损伤…...

编程新知 2025/7/7 14:25:57