当前位置：首页 > news >正文

nn.TransformerEncoderLayer详细解释，使用方法！！

news 2026/5/20 0:38:07

在这里插入图片描述

nn.TransformerEncoderLayer

nn.TransformerEncoderLayer 是 PyTorch 的 torch.nn 模块中提供的一个类，用于实现 Transformer 编码器的一个单独的层。Transformer 编码器层通常包括一个自注意力机制和一个前馈神经网络，中间可能还包含层归一化（Layer Normalization）和残差连接（Residual Connection）。

构造函数参数

nn.TransformerEncoderLayer 的构造函数通常包含以下参数：

d_model：输入和输出的特征维度。
nhead：自注意力机制中的头数。
dim_feedforward：前馈神经网络中隐藏层的维度。
dropout：dropout 的比例。
activation：前馈神经网络中的激活函数。

主要组件

自注意力机制：使模型能够关注输入序列的不同部分。
前馈神经网络：用于增强模型的表示能力。
层归一化：帮助模型更快地收敛，并稳定训练过程。
残差连接：有助于解决深度网络中的梯度消失问题。

例子

下面是一个使用 nn.TransformerEncoderLayer 的简单例子：

import torch
import torch.nn as nn# 假设输入序列的长度为 10，特征维度为 512
seq_len = 10
d_model = 512# 创建一个 Transformer 编码器层
encoder_layer = nn.TransformerEncoderLayer(d_model=d_model,nhead=8,  # 使用 8 个头dim_feedforward=2048,  # 前馈神经网络中的隐藏层维度为 2048dropout=0.1,  # dropout 的比例为 0.1activation='relu'  # 使用 ReLU 激活函数
)# 创建一个输入张量，形状为 (batch_size, seq_len, d_model)
# 这里假设 batch_size 为 1
batch_size = 1
input_tensor = torch.randn(batch_size, seq_len, d_model)# 创建一个 Transformer 编码器，只包含一个编码器层
encoder = nn.TransformerEncoder(encoder_layer, num_layers=1)# 将输入张量传递给编码器
output_tensor = encoder(input_tensor)print("Input shape:", input_tensor.shape)
print("Output shape:", output_tensor.shape)

输出结果

在这个例子中，我们首先创建了一个 nn.TransformerEncoderLayer 实例，然后将其传递给 nn.TransformerEncoder 来创建一个包含一个编码器层的 Transformer 编码器。最后，我们创建了一个随机的输入张量，并将其传递给编码器，以得到输出张量。

nn.TransformerEncoderLayer详细解释，使用方法！！

nn.TransformerEncoderLayer

构造函数参数

主要组件

例子

输出结果

相关文章：

nn.TransformerEncoderLayer详细解释，使用方法！！

巨控GRM561/562/563/564Q杀菌信息远程监控

RT-DETR-20240507周更说明|更新Inner-IoU、Focal-IoU、Focaler-IoU等数十种IoU计算方式

Web3：下一代互联网的科技进化

SQL注入-基础知识

npx 有什么作用跟意义？为什么要有 npx？什么场景使用？

Docker搭建LNMP+Wordpress

PCIE相关总结

OpenCV 入门（五） —— 人脸识别模型训练与 Windows 下的人脸识别

C++基础-编程练习题2

Linux下GraspNet复现流程

Linux——MySQL5.7编译安装、RPM安装、yum安装

LSTM递归预测（matlab）

计算机网络备查

查看软件包依赖关系

C++ 中 strcmp(a,b) 函数的用法

Servlet（一些实战小示例）

【JVM】垃圾回收机制(Garbage Collection)

C++中的priority_queue模拟实现

【Kafka】1.Kafka核心概念、应用场景、常见问题及异常

你的TP53基因在哪个数据库？一文搞懂Ensembl ID、Entrez ID、UniProt ID在生信分析中的实战选择

【JavaSE全面教学】Java集合框架下Day13（2026年）

从FM收音机到5G基站：拆解DDS技术如何悄悄改变我们的通信设备

企业号码认证服务：实现座机、手机来电显示公司名称+品牌LOGO

Chrome 90+ 跨域请求突然失败？手把手教你排查 strict-origin-when-cross-origin 这个‘新’策略

B站视频下载神器：如何优雅地将Bilibili内容保存到本地

Perplexity + Obsidian + LlamaIndex三端联动：打造个人知识库响应延迟＜800ms的私有化查询方案

Simscape Electrical电机控制器设计实战：5大核心技术深度解析与性能优化

为什么你的Perplexity总搜不到知网核心期刊？97.6%用户忽略的3个元数据过滤阈值（附知网后台原始字段对照表）

京东购物自动化评价：3步解放双手的Python智能助手