当前位置：首页 > news >正文

深度学习：计算卷积神经网络中输出特征图尺寸的关键公式

news 2026/2/9 13:12:24

计算卷积神经网络中输出特征图尺寸的关键公式

在设计卷积神经网络（CNN）时，准确计算每个卷积层的输出特征图尺寸是至关重要的。这不仅关系到网络的结构设计，也直接影响参数优化和整体性能。适当的计算可以确保网络层正确连接，避免资源浪费，并优化性能。以下内容提供了详细的参数说明和计算过程，包括如何从期望的输出特征图尺寸反向推导所需的padding量。

核心公式及参数详解

卷积层的输出特征图尺寸 (H_{out}) 和 (W_{out}) 通常通过以下公式计算：

对于输出高度 ( $H_{out}$ )：
[ $H_{out} = \left\lfloor \frac{H_{in} + 2 \times padding[0] - dilation[0] \times (kernel\_size[0] - 1) - 1}{stride[0]} + 1 \right\rfloor$ ]

对于输出宽度 ( $W_{out} $)：
[ $W_{out} = \left\lfloor \frac{W_{in} + 2 \times padding[1] - dilation[1] \times (kernel_size[1] - 1) - 1}{stride[1]} + 1 \right\rfloor $]

参数详解

( $H_{in}$ ), ( $W_{in}$ )：分别代表输入特征图的高度和宽度。
( $p a dd in g [0]$ ), ( $p a dd in g [1]$ )：分别在高度和宽度方向上的padding值，用于调整输入尺寸以适应特定的输出需求或操作边界条件。
( $d i l a t i o n [0]$ ), ( $d i l a t i o n [1]$ )：在高度和宽度方向上的扩张率。扩张卷积通过在卷积核元素之间插入“空格”，增加其感受野，使得卷积核能覆盖更大的区域，而不增加额外的参数。
( $kernel\_size[0]$ ), ( $kernel\_size[1]$ )：卷积核在高度和宽度方向上的尺寸，影响感受野的大小和参数数量。
( $s t r i d e [0]$ ), ( $s t r i d e [1]$ )：步长定义了卷积核在输入特征图上移动时的间距，直接影响输出特征图的尺寸。

反向推导Padding

已知输入尺寸、卷积核尺寸、步长、扩张率以及目标输出尺寸时，可以通过以下方式计算所需的padding：

对于高度方向的padding ( $p a dd in g [0]$ )：
[ $\left(\left(H_{out} - 1\right) \times stride[0] + dilation[0] \times (kernel\_size[0] - 1) + 1 - H_{in}\right) / 2$ ]

对于宽度方向的padding ( $p a dd in g [1]$ )：
[ $\left(\left(W_{out} - 1\right) \times stride[1] + dilation[1] \times (kernel\_size[1] - 1) + 1 - W_{in}\right) / 2$ ]

这些公式允许从期望的输出尺寸反向计算出必要的padding值，以确保输出尺寸符合设计规范。

示例

考虑一个输入特征图尺寸 ( $H_{in} = 32$ ), ( $W_{in} = 32$ )，使用 ( $\times 3$ ) 的卷积核，步长 ( $\times 1$ )，无扩张（ $d i l a t i o n 为 1$ ），并需输出特征图尺寸也为 ( $32 \times 32$ ) 的情况。

根据公式计算所需的padding：

[ $\left(\left(32 - 1\right) \times 1 + 1 \times (3 - 1) + 1 - 32\right) / 2 = 1$ ]

这表明，为保持输出特征图的尺寸不变，每个方向需要添加 ( $\times 1$ ) 的padding。

结论

通过准确应用和反向推导公式，可以精确控制CNN中的层输出尺寸，优化网络设计，确保达到预定的性能目标。这种方法不仅节省了调试时间，还提高了网络设计的效率和可预测性。

深度学习：计算卷积神经网络中输出特征图尺寸的关键公式

核心公式及参数详解

参数详解

反向推导Padding

示例

结论

相关文章：

深度学习：计算卷积神经网络中输出特征图尺寸的关键公式

【惠州大亚湾】之维修戴尔服务器DELLR730XD

跟我学C++中级篇——Design Patterns的通俗说法

消息队列原理面试题及参考答案

有序数组的平方(leetcode 977)

网页抓取API，让数据获取更简单

23.＜Spring图书管理系统（强制登录版本）＞

【插件】重复执行 pytest-repeat

pip/conda install bugs汇总

通过shell脚本分析部署nginx网络服务

Java基础——继承和多态

长江存储嵌入式面试题及参考答案

WordPress设置自动更新CSS版本号

【Qt聊天室】客户端实现总结

服务器数据恢复—raid5阵列故障导致上层系统分区无法识别的数据恢复案例

mysql bin log分析

深入理解 Vue 3 中的 emit

#lwIP 的 Raw API 使用指南

Elasticsearch开启认证及kibana密码登陆

【论文阅读】Large Language Models for Equivalent Mutant Detection: How Far Are We?

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

P3 QT项目----记事本（3.8）

【2025年】解决Burpsuite抓不到https包的问题

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

现代密码学 | 椭圆曲线密码学—附py代码

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词

Rapidio门铃消息FIFO溢出机制

人工智能（大型语言模型 LLMs）对不同学科的影响以及由此产生的新学习方式

SQL慢可能是触发了ring buffer

Go 并发编程基础：通道（Channel）的使用