当前位置：首页 > article >正文

torch.nn.Conv2d介绍——Pytorch中的二维卷积层

article 2026/2/13 23:51:39

torch.nn.Conv2d是torch.nn模块中的二维卷积层类，用于构建神经网络中的二维卷积层。

1、基本语法

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

将 2D 卷积应用于由多个输入平面组成的输入信号。
在最简单的情况下，具有 input size $N,C_{in},H,W)$ 和 output $N,C_{out},H_{out},W_{out})$ 的层的输出值可以精确描述为：
$out(N_i,C_{out_{j}})=bias(C_{out_{j}})+\sum_{k=0}^{C_{in}-1}weight(C_{out_{j}},k)*input(N_{i},k)$

其中 $⋆$ 是有效的 2D 互相关运算符， $N$ 是批量大小， $C$ 表示通道数， $H$ 是输入平面的高度（以像素为单位）， $W$ 是宽度（以像素为单位）。
该模块支持 TensorFloat32。

stride 控制互相关的步幅，单个数字或元组。
padding 控制应用于输入的填充量。它可以是一个字符串 {‘valid’， ‘same’} 或一个 int / 一个 int 元组，给出在两侧应用的隐式填充量。
dilation 控制内核点之间的间距;也称为 à trous 算法。这更难描述，但这个链接很好地可视化了 dilation 它的作用。
groups 控制输入和输出之间的连接。 in_channels ，并且 out_channels 两者都必须能被 groups 整除。例如
在 groups=1 时，所有输入都与所有输出进行卷积。
在 groups=2 时，该作相当于并排有两个 conv 层，每个 conv 层看到一半的 input channels，产生一半的 output channels，然后两个级联。
在 groups= in_channels 处，每个输入通道都与自己的一组滤波器（大小 $\frac{out\_channels}{in\_channels}$ ）进行卷积。

参数 kernel_size ， stride dilation ， padding ，可以是：

一个整数 – 在这种情况下，height 和 width 维度使用相同的值
两个整数的元组 – 在这种情况下，第一个 int 用于高度维度，第二个 int 用于宽度维度

2、Parameters 参数

in_channels （int） – 输入图像中的通道数
out_channels （int） – 卷积产生的通道数
kernel_size （int or tuple） – 卷积内核的大小
stride （int or tuple， optional） - 卷积的步幅。默认值：1
padding （int， tuple or str， optional） – 添加到输入的所有四个边的填充。默认值：0
dilation （int 或 tuple，可选） – 内核元素之间的间距。默认值：1
groups （int， optional） – 从输入通道到输出通道的阻塞连接数。默认值：1
bias （bool， optional） – 如果，则 True 向输出添加可学习的偏差。默认值： True
padding_mode （str，可选） – ‘zeros’ 、 ‘reflect’ ‘replicate’ 或 ‘circular’ .默认值： ‘zeros’

3、Shape: 形状

输入： $N,C_{in},H_{in},W_{in})$ 或 $C_{in},H_{in},W_{in})$
输出： $N,C_{out},H_{out},W_{out})$ 或 $C_{out},H_{out},W_{out})$
其中：
$H_{out}=[\frac{H_{in}+2\times padding[0]-dilation[0]\times (kernel_size[0]-1)-1}{stride[0]}+1]$
$W_{out}=[\frac{W_{in}+2 \times padding[1]-dilation[1] \times (kernek_size[1]-1)-1}{stride[1]}+1]$

4、Variables 变量:

weight (Tensor) ：形状为 $(out\_channels,\frac{in\_channels}{groups} , kernel\_size[0],kerne\_size[1])$ 的模型的可学习权重。这些权重的值是从 $u((-\sqrt{k},\sqrt{k})$ 中抽样的， $k=\frac{groups}{C_{in}* {\textstyle \prod_{i=0}^{1}}kernel\_size[i] }$
bias (Tensor) ：形状 $out\_channels)$ 的模型的可学习偏差。如果 bias 是True 则这些权重的值从 $u((-\sqrt{k},\sqrt{k})$ 中抽样， $k=\frac{groups}{C_{in}* {\textstyle \prod_{i=0}^{1}}kernel\_size[i] }$

5、例子

# With square kernels and equal stride
m = nn.Conv2d(16, 33, 3, stride=2)
# non-square kernels and unequal stride and with padding
m = nn.Conv2d(16, 33, (3, 5), stride=(2, 1), padding=(4, 2))
# non-square kernels and unequal stride and with padding and dilation
m = nn.Conv2d(16, 33, (3, 5), stride=(2, 1), padding=(4, 2), dilation=(3, 1))
input = torch.randn(20, 16, 50, 100)
output = m(input)

torch.nn.Conv2d介绍——Pytorch中的二维卷积层

1、基本语法

2、Parameters 参数

3、Shape: 形状

4、Variables 变量:

5、例子

相关文章：

torch.nn.Conv2d介绍——Pytorch中的二维卷积层

阻止上传可执行程序

DirectX修复工具免费版下载安装教程（附安装包）

UE5学习笔记 FPS游戏制作33 游戏保存

Git与SVN的区别以及各自的优势

PipeWire 音频设计与实现分析三——日志子系统

TypeScript vs. JavaScript：技术对比与核心差异解析

关于 @Autowired 和 @Value 使用 private 字段的警告问题分析与解决方案

MySQL 进阶面经级

《C奥林匹斯宝典：基础篇 - 重载函数》

【408--考研复习笔记】计算机网络----知识点速览

TiDB 可观测性解读（二）丨算子执行信息性能诊断案例分享

15：00开始面试，15：08就出来了，问的问题有点变态。。。

蓝桥杯准备（前缀和差分）

试用thymeleaf引入vue-element-admin（一）

Minimind 训练一个自己专属语言模型

C++11QT复习（七）

STM32八股【5】----- TIM定时器

单元测试之Arrange-Act-Assert（简称AAA）

厘米级定位赋能智造升级：品铂科技UWB技术驱动工厂全流程自动化与效能跃升”

C++刷题（四）：vector

学习记录706@微信小程序+springboot项目真机测试 WebSocket错误: {errMsg: Invalid HTTP status.}连接不上

【虚拟仪器技术】Labview虚拟仪器技术应用教程习题参考答案[13页]

【工作梳理】怎么把f12里面的东西导入到postman

UE5学习笔记 FPS游戏制作34 触发器切换关卡

智谱大模型(ChatGLM3)PyCharm的调试指南

新专栏预告《AI大模型应知应会短平快系列100篇》 - 整体规划设计

SwanLab Slack通知插件：让AI训练状态同步更及时

收集的 JavaScript 数组方法表格

操作系统高频（六）linux内核