当前位置：首页 > news >正文

深度学习中的模块复用原则（定义一次还是多次）

news 2025/7/14 13:23:25

文章目录

- 1. 模块复用的核心原则
- - （1）模块是否有**可学习参数**
  - （2）模块是否有**内部状态**
  - （3）模块的功能需求是否一致
- 2. 必须单独定义的模块
- - （1）`nn.Linear`（全连接层）
  - （2）`nn.Conv2d`（卷积层）
  - （3）`nn.LSTM`（长短时记忆网络）
  - （4）`nn.Transformer`（Transformer 模块）
  - （5）`nn.Embedding`（嵌入层）
- 3. 可以复用的模块
- - （1）`nn.Dropout`
  - （2）激活函数（如 `nn.ReLU`、`nn.Sigmoid`）
  - （3）归一化层（如 `nn.BatchNorm`、`nn.LayerNorm`）
- 4. 模块复用的最佳实践
- - （1）明确设计需求
  - （2）遵循复用原则
  - （3）代码清晰优先
- 5. 总结

在实际开发中，我们经常会遇到这样的问题：

哪些模块可以复用，哪些模块需要单独定义？
模块的复用是否会影响模型的训练效果？
如何设计代码结构，使模块复用更加合理？

1. 模块复用的核心原则

在决定是否复用一个模块时，可以从以下几个核心原则出发：

（1）模块是否有可学习参数

有可学习参数的模块（如 nn.Linear、nn.Conv2d、nn.LSTM）：
这些模块在训练过程中会更新自己的权重和偏置。如果复用同一个实例，就会导致这些模块共享参数，这通常不是我们想要的。
- 结论：需要为每个用途单独定义实例。
无可学习参数的模块（如 nn.ReLU、nn.Dropout）：
这些模块没有参数，或者它们的行为仅与输入有关，与状态或权重无关。因此可以安全复用同一个实例。
- 结论：可以复用实例。

（2）模块是否有内部状态

有内部状态的模块（如 nn.BatchNorm、nn.LayerNorm、nn.LSTM）：
这些模块会维护一些内部状态（如均值、方差或隐藏状态），并在训练过程中更新。如果输入特征之间的分布或结构不同，则需要定义独立的实例。
- 结论：根据输入特征的独立性决定是否复用。
无内部状态的模块（如 nn.ReLU）：
模块的行为是固定的，与外部数据无关，因此可以复用。
- 结论：可以复用实例。

（3）模块的功能需求是否一致

即使一个模块可以复用，是否复用还取决于它的功能需求：

如果模块在多个地方的功能完全一致，可以复用；
如果模块在不同地方需要执行不同的功能，即使可以复用，也建议单独定义以保持逻辑清晰。

2. 必须单独定义的模块

下面列出了 必须单独定义 的常见模块及原因。

（1）`nn.Linear`（全连接层）

特点：全连接层内部有可学习的权重矩阵和偏置。
复用的影响：如果复用同一个实例，多个地方的全连接操作会共享参数，导致模型学习能力受限。
实践建议：为每个全连接层单独定义实例。

代码示例：

import torch.nn as nn# 独立定义两个全连接层
fc1 = nn.Linear(256, 128)
fc2 = nn.Linear(128, 64)

（2）`nn.Conv2d`（卷积层）

特点：卷积层内部有可学习的卷积核参数。
复用的影响：如果复用同一个卷积层实例，不同的卷积操作会共享卷积核，无法提取多样化的特征。
实践建议：为每个卷积层单独定义实例。

代码示例：

conv1 = nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1)
conv2 = nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1)

（3）`nn.LSTM`（长短时记忆网络）

特点：LSTM 模块内部有可学习参数（如权重矩阵）和动态的隐藏状态。
复用的影响：
- 如果复用同一个 LSTM 实例，多个输入序列会共享参数和隐藏状态，导致训练和推理结果不正确。
- 即使输入序列完全相同，也可能因为隐藏状态的复用导致意外行为。
实践建议：为每个 LSTM 使用场景单独定义实例。

代码示例：

# 独立定义两个 LSTM 模块
lstm1 = nn.LSTM(input_size=128, hidden_size=256, num_layers=1)
lstm2 = nn.LSTM(input_size=256, hidden_size=128, num_layers=1)

（4）`nn.Transformer`（Transformer 模块）

特点：nn.Transformer 和 nn.TransformerEncoder、nn.TransformerDecoder 模块内部有可学习的参数（如多头注意力的权重）。
复用的影响：复用同一个 Transformer 模块实例会导致不同输入共享参数，无法正确建模序列间的关系。
实践建议：为每个 Transformer 模块定义独立实例。

代码示例：

# 独立定义两个 Transformer 模块
transformer1 = nn.Transformer(d_model=512, nhead=8, num_encoder_layers=6)
transformer2 = nn.Transformer(d_model=256, nhead=4, num_encoder_layers=4)

（5）`nn.Embedding`（嵌入层）

特点：嵌入层将离散的索引映射到连续的向量空间。
复用的影响：不同任务或输入需要不同的嵌入维度或索引空间，因此不能复用。
实践建议：为每个嵌入需求单独定义实例。

代码示例：

embedding1 = nn.Embedding(1000, 128)  # 输入空间为 1000，嵌入维度为 128
embedding2 = nn.Embedding(5000, 256)  # 输入空间为 5000，嵌入维度为 256

3. 可以复用的模块

下面列出了 可以复用 的常见模块及原因。

（1）`nn.Dropout`

特点：Dropout 在训练时会随机将部分神经元置零，用于正则化，但其行为是随机的，与状态无关。
复用的影响：复用不会导致任何冲突，因为每次调用会生成新的随机掩码。
实践建议：可以复用 Dropout 实例。

代码示例：

dropout = nn.Dropout(p=0.5)# 复用 Dropout 实例
x1 = dropout(layer1_output)
x2 = dropout(layer2_output)

（2）激活函数（如 `nn.ReLU`、`nn.Sigmoid`）

特点：激活函数执行固定的数学运算，没有参数或状态。
复用的影响：复用激活函数实例不会引起冲突。
实践建议：可以复用激活函数实例。

代码示例：

relu = nn.ReLU()# 复用 ReLU 实例
x1 = relu(layer1_output)
x2 = relu(layer2_output)

（3）归一化层（如 `nn.BatchNorm`、`nn.LayerNorm`）

特点：归一化层具有内部状态（如均值和方差），并会根据输入更新这些统计量。
复用的影响：
- 如果输入特征是相同的（例如相同维度的多部分分割特征），可以复用；
- 如果输入特征是不同的，则需要定义独立的实例。
实践建议：根据特征的独立性选择是否复用。

代码示例：

# 相同特征可以复用
bn_shared = nn.BatchNorm1d(128)
x1 = bn_shared(feature1)
x2 = bn_shared(feature2)# 不同特征需要独立实例
bn1 = nn.BatchNorm1d(128)
bn2 = nn.BatchNorm1d(64)

4. 模块复用的最佳实践

（1）明确设计需求

在模型设计之前，明确每个模块的功能和输入特征的独立性。
如果模块的功能和输入特征彼此独立，则单独定义实例。

（2）遵循复用原则

有可学习参数的模块：独立定义。
无可学习参数的模块：可以复用。

（3）代码清晰优先

即使某些模块可以复用，为了代码逻辑更清晰，某些场景下也可以选择单独定义。
比如，虽然 ReLU 可以复用，但在多层网络中为每一层定义独立的 ReLU 可能会让代码更直观。

5. 总结

在深度学习中，模块复用直接影响到模型的行为和性能。以下是一个总结表：

模块	是否可以复用	原因
Linear	否	有可学习参数，需要独立权重和偏置
Conv2d	否	有可学习参数，需要独立卷积核
LSTM	否	有可学习参数和动态隐藏状态
Transformer	否	有可学习参数，需要独立权重
Embedding	否	索引空间和嵌入维度不同
Dropout	是	无状态，随机行为
ReLU	是	无状态，固定行为
BatchNorm	视情况而定	有状态，特征相同可复用，特征不同需独立定义

深度学习中的模块复用原则（定义一次还是多次）

文章目录 1. 模块复用的核心原则（1）模块是否有**可学习参数**（2）模块是否有**内部状态**（3）模块的功能需求是否一致 2. 必须单独定义的模块（1）nn.Linear（全连接层&#x…...

编程日记 2025/1/16 22:03:02

Mac——Cpolar内网穿透实战

摘要本文介绍了在Mac系统上实现内网穿透的方法，通过打开远程登录、局域网内测试SSH远程连接，以及利用cpolar工具实现公网SSH远程连接MacOS的步骤。包括安装配置homebrew、安装cpolar服务、获取SSH隧道公网地址及测试公网连接等关键环节。 1. MacOS打开…...

编程日记 2025/1/16 21:59:56

安全测评主要标准

大家读完觉得有帮助记得关注和点赞！！！ 安全测评的主要标准‌包括多个国际和国内的标准，这些标准为信息系统和产品的安全评估提供了基础和指导。一、安全测评的主要标准 1.1、国际标准 ‌可信计算机系统评估准则（TC…...

编程日记 2025/1/16 21:57:51

qBittorent访问webui时提示unauthorized解决方法

现象描述 QNAP使用Container Station运行容器，使用Docker封装qBittorrent时，访问IP:PORT的方式后无法访问到webui，而是提示unauthorized，如图： 原因分析此时通常是由于设备IP与qBittorrent的ip地址不在同一个网段导致…...

编程日记 2025/1/16 21:55:44

504 Gateway Timeout：网关超时解决方法

一、什么是 504Gateway Timeout？ 1. 错误定义 504 Gateway Timeout 是 HTTP 状态码的一种，表示网关或代理服务器在等待上游服务器响应时超时。通俗来说，这是服务器之间“对话失败”导致的。 2. 常见触发场景 Nginx 超时：反向代…...

编程日记 2025/1/16 21:53:42

Vue 实现当前页面刷新的几种方法

以下是 Vue 中实现当前页面刷新的几种方法： 方法一：使用 $router.go(0) 方法通过Vue Router进行重新导航，可以实现页面的局部刷新，而不丢失全局状态。具体实现方式有两种： 实现代码： <template&g…...

编程日记 2025/1/16 21:52:40

MCP Server开发的入门教程（python和pip）

使用python技术栈开发的简单mcp server 需要安装 MCP server的需要使用python-sdk，python需要 3.10，安装如下 pip install mcpPS： MCP官方使用的是uv包管理工具，我平时使用pip比较多，所以文中以pip为主。因为mcp的一些依赖包版本并不是最新的，所以最好弄一个干净的环境…...

编程日记 2025/1/16 21:49:36

手撕Transformer -- Day7 -- Decoder

手撕Transformer – Day7 – Decoder Transformer 网络结构图目录手撕Transformer -- Day7 -- DecoderTransformer 网络结构图Decoder 代码Part1 库函数Part2 实现一个解码器Decoder，作为一个类Part3 测试参考 Transformer 网络结构 Decoder 代码 Part1 库函数…...

编程日记 2025/1/16 21:45:12

C#异步和多线程,Thread,Task和async/await关键字--12

目录一.多线程和异步的区别 1.多线程 2.异步编程多线程和异步的区别二.Thread,Task和async/await关键字的区别 1.Thread 2.Task 3.async/await 三.Thread,Task和async/await关键字的详细对比 1.Thread和Task的详细对比 2.Task 与 async/await 的配合使用 3. asy…...

编程日记 2025/1/16 21:39:02

使用分割 Mask 和 K-means 聚类获取天空的颜色

引言在计算机视觉领域，获取天空的颜色是一个常见任务，广泛应用于天气分析、环境感知和图像增强等场景。本篇博客将介绍如何通过已知的天空区域 Mask 提取天空像素，并使用 K-means 聚类分析天空颜色，最终根据颜色占比查表得到主导…...

编程日记 2025/1/16 21:37:58

145.《redis原生超详细使用》

文章目录什么是redisredis 安装启动redis数据类型redis key操作key 的增key 的查key 的改key 的删key 是否存在key 查看所有key 「设置」过期时间key 「查看」过期时间key 「移除」过期时间key 「查看」数据类型key 「匹配」符合条件的keykey 「移动」到其他数据库 redis数据类…...

编程日记 2025/1/16 21:35:56

Pytorch基础教程：从零实现手写数字分类

文章目录 1.Pytorch简介2.理解tensor2.1 一维矩阵2.2 二维矩阵2.3 三维矩阵 3.创建tensor3.1 你可以直接从一个Python列表或NumPy数组创建一个tensor：3.2 创建特定形状的tensor3.3 创建三维tensor3.4 使用随机数填充tensor3.5 指定tensor的数据类型 4.tensor基本运算…...

编程日记 2025/1/16 21:34:55

【SH】Xiaomi9刷Windows10系统研发记录、手机刷Windows系统教程、小米9重装win10系统

文章目录参考资料云盘资料软硬件环境手机解锁刷机驱动绑定账号和设备解锁手机 Mindows工具箱安装工具箱和修复下载下载安卓和woa资源包第三方Recovery 一键安装Windows准备工作创建分区安装系统效果展示Windows和Android一键互换Win切换安卓安卓切换Win 删除分区参考资料解…...

编程日记 2025/1/16 21:33:53

excel仅复制可见单元格，仅复制筛选后内容

背景我们经常需要将内容分给不同的人，做完后需要合并遇到情况如下那是因为直接选择了整列，当然不可以了。下面提供几种方法，应该都可以直接选中要复制区域然后复制，不要选中最上面的列alt;选中可见单元格正常复制&#xff…...

编程日记 2025/1/16 21:26:46

HBASE学习（一）

1.HBASE基础架构， 1.1 参考： HBase集群架构与读写优化：理解核心机制与性能提升-CSDN博客 1.2问题： 1.FLUSH对hbase的影响 2. HLog和memstore的区别 hlog中存储的是操作记录，比如写、删除。而memstor中存储的是写入…...

编程日记 2025/1/16 21:25:44

element select 绑定一个对象{}

背景： select组件的使用，适用广泛的基础单选 v-model 的值为当前被选中的 el-option 的 value 属性值。但是我们这里想绑定一个对象，一个el-option对应的对象。 <el-select v-model"state.form.modelA" …...

编程日记 2025/1/16 21:20:34

Sprint Boot教程之五十八：动态启动/停止 Kafka 监听器

Spring Boot – 动态启动/停止 Kafka 监听器当 Spring Boot 应用程序启动时，Kafka Listener 的默认行为是开始监听某个主题。但是，有些情况下我们不想在应用程序启动后立即启动它。要动态启动或停止 Kafka Listener，我们需要三种主要方法…...

编程日记 2025/1/16 21:17:22

C：JSON-C简介

介绍 JSON-C是一个用于处理JSON格式数据的C语言库，提供了一系列操作JSON数据的函数。一、json参数类型 typedef enum json_type { json_type_null, json_type_boolean, json_type_double, json_type_int, json_type_object, json_type_ar…...

编程日记 2025/1/16 21:12:14

业务幂等性技术架构体系之消息幂等深入剖析

在系统中当使用消息队列时，无论做哪种技术选型，有很多问题是无论如何也不能忽视的，如：消息必达、消息幂等等。本文以典型的RabbitMQ为例，讲解如何保证消息幂等的可实施解决方案，其他MQ选型均可参考。一、…...

编程日记 2025/1/16 21:09:10

【Go】Go Gin框架初识（一）

1. 什么是Gin框架 Gin框架：是一个由 Golang 语言开发的 web 框架，能够极大提高开发 web 应用的效率！ 1.1 什么是web框架 web框架体系图（前后端不分离）如下图所示： 从上图中我们可以发现一个Web框架最重要…...

编程日记 2025/1/16 21:06:05

挑战杯推荐项目

“人工智能”创意赛 - 智能艺术创作助手：借助大模型技术，开发能根据用户输入的主题、风格等要求，生成绘画、音乐、文学作品等多种形式艺术创作灵感或初稿的应用，帮助艺术家和创意爱好者激发创意、提高创作效率。 - 个性化梦境…...

编程新知 2025/6/17 7:15:49

centos 7 部署awstats 网站访问检测

一、基础环境准备（两种安装方式都要做） bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats&#xff0…...

编程新知 2025/7/12 21:03:56

定时器任务——若依源码分析

分析util包下面的工具类schedule utils： ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类，封装了定时任务的创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz，先构建任务的 JobD…...

编程新知 2025/7/14 10:03:43

在四层代理中还原真实客户端ngx_stream_realip_module

一、模块原理与价值 PROXY Protocol 回溯第三方负载均衡（如 HAProxy、AWS NLB、阿里 SLB）发起上游连接时，将真实客户端 IP/Port 写入 PROXY Protocol v1/v2 头。Stream 层接收到头部后，ngx_stream_realip_module 从中提取原始信息…...

编程新知 2025/7/6 17:42:11

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

1. 项目配置与权限设置 1.1 配置module.json5 {"module": {"requestPermissions": [{"name": "ohos.permission.MICROPHONE","reason": "录音需要麦克风权限"},{"name": "ohos.permission.WRITE…...

编程新知 2025/6/23 15:05:31

JVM暂停（Stop-The-World，STW）的原因分类及对应排查方案

JVM暂停（Stop-The-World，STW）的完整原因分类及对应排查方案，结合JVM运行机制和常见故障场景整理而成：一、GC相关暂停 1. 安全点（Safepoint）阻塞现象：JVM暂停但无GC日志，日志显示No GCs detected。原因：JVM等待所有线程进入安全点（如…...

编程新知 2025/7/9 3:40:34

Python 包管理器 uv 介绍

Python 包管理器 uv 全面介绍 uv 是由 Astral（热门工具 Ruff 的开发者）推出的下一代高性能 Python 包管理器和构建工具，用 Rust 编写。它旨在解决传统工具（如 pip、virtualenv、pip-tools）的性能瓶颈，同时…...

编程新知 2025/6/19 4:13:08

Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信

文章目录 Linux C语言网络编程详细入门教程：如何一步步实现TCP服务端与客户端通信前言一、网络通信基础概念二、服务端与客户端的完整流程图解三、每一步的详细讲解和代码示例1. 创建Socket（服务端和客户端都要）2. 绑定本地地址和端口&#x…...

编程新知 2025/6/25 4:41:54

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析

Java求职者面试指南：Spring、Spring Boot、MyBatis框架与计算机基础问题解析一、第一轮提问（基础概念问题） 1. 请解释Spring框架的核心容器是什么？它在Spring中起到什么作用？ Spring框架的核心容器是IoC容器&#…...

编程新知 2025/6/16 22:53:40

一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...

编程新知 2025/7/13 22:50:13

文章目录

1. 模块复用的核心原则

（1）模块是否有可学习参数

（2）模块是否有内部状态

（3）模块的功能需求是否一致

2. 必须单独定义的模块

（1）nn.Linear（全连接层）

（2）nn.Conv2d（卷积层）

（3）nn.LSTM（长短时记忆网络）

（4）nn.Transformer（Transformer 模块）

（5）nn.Embedding（嵌入层）

3. 可以复用的模块

（1）nn.Dropout

（2）激活函数（如 nn.ReLU、nn.Sigmoid）

（3）归一化层（如 nn.BatchNorm、nn.LayerNorm）

4. 模块复用的最佳实践

（1）明确设计需求

（2）遵循复用原则

（3）代码清晰优先

5. 总结

相关文章：

（1）`nn.Linear`（全连接层）

（2）`nn.Conv2d`（卷积层）

（3）`nn.LSTM`（长短时记忆网络）

（4）`nn.Transformer`（Transformer 模块）

（5）`nn.Embedding`（嵌入层）

（1）`nn.Dropout`

（2）激活函数（如 `nn.ReLU`、`nn.Sigmoid`）

（3）归一化层（如 `nn.BatchNorm`、`nn.LayerNorm`）