当前位置: 首页 > news >正文

深度学习中的卷积和反卷积(四)——卷积和反卷积的梯度

本系列已完结,全部文章地址为:

深度学习中的卷积和反卷积(一)——卷积的介绍

深度学习中的卷积和反卷积(二)——反卷积的介绍

深度学习中的卷积和反卷积(三)——卷积和反卷积的计算

深度学习中的卷积和反卷积(四)——卷积和反卷积的梯度

1 卷积的梯度计算

1.1 Tensorflow中矩阵梯度运算的说明

请注意,计算y对x的梯度时,如果y、x都是矩阵,梯度理应是每一个y对每一个x求偏导的结果。但在Tensorflow中,gradient是返回了总和的梯度。如果想求出每个分量的梯度,应该使用Jacobian矩阵。这一点困扰了笔者很久,直到翻到文档才恍然大悟。文档地址:梯度和自动微分简介  |  TensorFlow Core

import tensorflow as tfx = tf.Variable(2.0)
# 求gradient,结果为7
with tf.GradientTape() as tape:y = x * [3., 4.]
print(tape.gradient(y, x).numpy())
# 求gradient,结果为[3. 4.]
with tf.GradientTape() as tape:y = x * [3., 4.]
print(tape.jacobian(y, x).numpy())

1.2 卷积对input的梯度

沿用上一篇的例子如下图:

数值例子为:

 输入是3*3的维度,因此梯度维度也是3*3,表示对每一个a中的元素求梯度的结果

观察卷积输出的结果,例如a_{11}​,参与了y_{11}​的计算,系数是k_{11}​,因此梯度为k_{11}​。同理,所有的y对所有的输入都可以计算梯度。以y_{11}​为例:

\frac{\partial {y_{11}}}{\partial {a_{11}}}=k_{11}=1\frac{\partial {y_{11}}}{\partial {a_{12}}}=k_{12}=2\frac{\partial {y_{11}}}{\partial {a_{13}}}=0
\frac{\partial {y_{11}}}{\partial {a_{21}}}=k_{21}=3\frac{\partial {y_{11}}}{\partial {a_{22}}}=k_{22}=4\frac{\partial {y_{11}}}{\partial {a_{23}}}=0
\frac{\partial {y_{11}}}{\partial {a_{31}}}=0\frac{\partial {y_{11}}}{\partial {a_{32}}}=0\frac{\partial {y_{11}}}{\partial {a_{33}}}=0

在Tensorflow中验证如下

@tf.function
def compute_gradient(x, filters):with tf.GradientTape() as tape:tape.watch(x)  # 监视xy = tf.nn.conv2d(x, filters, [1, 1, 1, 1], "VALID")return tape.jacobian(y, x)  # 计算y相对于x的梯度print(compute_gradient(x, filters).numpy().reshape([4, 3, 3]))

输出如下,y_{11}​的输出结果与上文中表格一致,其余y分量不再赘述。

[[[1. 2. 0.][3. 4. 0.][0. 0. 0.]][[0. 1. 2.][0. 3. 4.][0. 0. 0.]][[0. 0. 0.][1. 2. 0.][3. 4. 0.]][[0. 0. 0.][0. 1. 2.][0. 3. 4.]]]

1.3 卷积对kernel的梯度

 对卷积核计算的梯度,就是每一个y对每一个k求梯度,例如每一个y对于k_{11}​的梯度,就是下图红框中的部分,分别是1、2、4、5。

还是以y_{11}​为例,在Tensorflow中验证如下

@tf.function
def compute_kernel_gradient(x, filters):with tf.GradientTape() as tape:tape.watch(filters)  # 监视xy = tf.nn.conv2d(x, filters, [1, 1, 1, 1], "VALID")return tape.jacobian(y, filters)print(compute_kernel_gradient(x, filters).numpy().reshape([4, 2, 2]))

输出如下,符合预期。

[[[1. 2.][4. 5.]][[2. 3.][5. 6.]][[4. 5.][7. 8.]][[5. 6.][8. 9.]]]

2 反卷积的梯度计算

由于反卷积的计算相当于对矩阵先做填充再做卷积,因此反卷积的梯度等价于对填充后的输入矩阵做卷积的梯度。

2.1 反卷积对input的梯度

以前文的数据为例,首先对输入矩阵填充0,然后翻转卷积核,得到4*4的输出。

我们计算每一个输出对每一个输入的梯度,输出是4*4,输入是3*3,因此算梯度的Jacobian矩阵维度是4*4*3*3。

我们以y_{32}a_{22}的梯度为例,先看y_{32}是怎么算出来的

y_{32}=a_{21}*k_{22}+a_{22}*k_{21}+a_{31}*k_{12}+a_{32}*k_{11}

因此y_{32}a_{22}的梯度为k_{21}=3

Tensorflow中验证如下:

import numpy as np
import tensorflow as tfdef conv2d_transpose(x, filters):return tf.nn.conv2d_transpose(x, filters, [1, 4, 4, 1], strides=1, padding="VALID")@tf.function
def compute_conv2d_transpose_i_gradient(x, filters):with tf.GradientTape() as tape:tape.watch(x)y = conv2d_transpose(x, filters)return tape.jacobian(y, x)x = tf.constant(np.arange(1, 10).reshape([1, 3, 3, 1]), dtype=tf.float32)
filters = tf.constant(np.arange(1, 5).reshape(2, 2, 1, 1), dtype=tf.float32)
print(compute_conv2d_transpose_i_gradient(x, filters).numpy().reshape([4, 4, 3, 3])[2][1][1][1])  # 注意下标是从0开始的,[2][1]代表y32,[1][1]代表a22

输出为3,与手算结果一致。

3.0

2.2 反卷积对kernel的梯度

与反卷积对input梯度类似,也等价于对填充后的输入矩阵做卷积时计算梯度。同样用数值例子验证。

计算 y_{32}k_{21}的梯度,结合上节的表达式,得到梯度为a_{22}=5

Tensorflow中验证如下:

import numpy as np
import tensorflow as tfdef conv2d_transpose(x, filters):return tf.nn.conv2d_transpose(x, filters, [1, 4, 4, 1], strides=1, padding="VALID")@tf.function
def compute_conv2d_transpose_k_gradient(x, filters):with tf.GradientTape() as tape:tape.watch(filters)y = conv2d_transpose(x, filters)return tape.jacobian(y, filters)x = tf.constant(np.arange(1, 10).reshape([1, 3, 3, 1]), dtype=tf.float32)
filters = tf.constant(np.arange(1, 5).reshape(2, 2, 1, 1), dtype=tf.float32)
print(compute_conv2d_transpose_k_gradient(x, filters).numpy().reshape([4, 4, 2, 2])[2][1][1][0])

输出为5,与手算结果一致。

5.0

3 反卷积等价于误差反向传播

https://zhuanlan.zhihu.com/p/338780702

下图是Tensorflow中反卷积函数的源码,可以看出反卷积等价于将input作为卷积下层误差反向传播,本节进行推导。

@tf_export("nn.conv2d_transpose", v1=[])
@dispatch.add_dispatch_support
def conv2d_transpose_v2(input,  # pylint: disable=redefined-builtinfilters,  # pylint: disable=redefined-builtinoutput_shape,strides,padding="SAME",data_format="NHWC",dilations=None,name=None):......return gen_nn_ops.conv2d_backprop_input(input_sizes=output_shape,filter=filters,out_backprop=input,strides=strides,padding=padding,explicit_paddings=explicit_paddings,data_format=data_format,dilations=dilations,name=name)

3.1 全连接网络的误差反向传播

卷积可视作特殊的全连接网络。全连接网络中每一个输出与每一个输入都使用权重边相连,输出是各输入的加权求和。对于卷积而言,输出只与某些输入有关,但可以理解为所有输出与所有输入相连,只是其中有些权重边固定为0而已。因此,本节先回顾全连接网络的误差反向传播过程,随后推广到卷积的误差反向传播。

如下图所示,我们构造了一个全连接神经网络,忽略偏置。

符号表示如下:

符号含义
A_{i}^{L}L层第i个输入。A指activation,表示L-1层激活后传递给L层的输入
W_{ij}^{L}L层第i个输入连接到第j个输出的权重
Z_{i}^{L}L层第i个输出
B^LL层偏置
L损失函数
\delta_{i}^L最终的误差对于L层第i个输出的梯度,表示反向传播过来的误差

对于L层来说,误差反向传播需要做两件事情:(1)计算误差对本层权重的梯度,从而更新权重;(2)将误差反向传播到上一层,从而更新上层的权重。

3.1.1 误差对本层权重的梯度

根据链式法则,有:

\partial {L}/\partial {W_{ij}^{L}}=\partial {L}/\partial {Z_{j}^{L}}*\partial {Z_{j}^{L}}/\partial {W_{ij}^{L}}

根据\delta_{j}^{L}的定义,前一项即为\delta_{j}^{L}。后一项比较简单,因为Z是由W加权求和而来,因此该项等于A_j^L。在卷积中,卷积核其实就是特殊的权重,因此该项即对应前文讨论的卷积对kernel的梯度。

\delta_{j}^{L}表示误差传播到Z_j^L这个节点的误差,表示节点对于最后误差负的责任,注意这里的Z_j^L是激活之前的输出。\delta_{j}^{L}可以继续分解为最终误差对激活后的结果A的梯度乘A对于Z的梯度,如果是最后一层,则代表损失函数的梯度。后者代表激活函数的梯度。

求出梯度后,根据神经网络的学习规则,权重根据学习率、梯度动态更新。

3.1.2 误差反向传播到上一层

本层需要求出\delta^{L-1},从而使得下一层根据此结果更新权重。以L-1层第j个输出为例

\delta_{j}^{L-1}=\partial {L}/\partial {Z_{j}^{L-1}}=\partial {L}/\partial {A_{j}^{L}}*\partial {A_{j}^{L}}/\partial {Z_{j}^{L-1}}

注意乘号后一项就是激活函数的导数,下面分析乘号前一项。注意L层的Aj会参与到多个输出Z,因此需要将所有输出Zi都考虑在内。

\partial {L}/\partial {A_{j}^{L}}=\sum_i {\partial {L}/\partial {Z_i^L} * \partial {Z_i^L}/\partial {A_{j}^{L}}}=\sum_i {\delta_i^L * \partial {Z_i^L}/\partial {A_{j}^{L}}}

此式后一项即为卷积中对input的梯度。可进一步化简,结果为\partial {L}/\partial {A_{j}^{L}}=\sum_i {\delta_i^L * W_{ji}},因此损失函数对L层输入的梯度可表示为\delta与权重相乘后求和。

3.2 卷积的误差反向传播

误差反向传播,对应前文中“误差反向传播到上一层”这一小节。在卷积中,卷积核其实就是特殊的稀疏权重,其中有很多权重为0。

还是以前文卷积计算为例,我们列出损失函数对所有输入的梯度。代入上式,得到:

注意这里符号表示有所调整,因为全连接网络是把输入和输出展开的,卷积这里输入和输出是二维的,因此下标用二维坐标表示。同时此处只讨论第L层网络情况,不再保留上标。

\partial {L}/\partial{a_{11}}=\delta_{11}*k_{11}

\partial {L}/\partial{a_{12}}=\delta_{11}*k_{12}+\delta_{12}*k_{11}

\partial {L}/\partial{a_{13}}=\delta_{11}*k_{12}+\delta_{12}*k_{12}

\partial {L}/\partial{a_{21}}=\delta_{11}*k_{21}+\delta_{21}*k_{11}

\partial {L}/\partial{a_{22}}=\delta_{11}*k_{22}+\delta_{12}*k_{21}+\delta_{21}*k_{12}+\delta_{22}*k_{11}

\partial {L}/\partial{a_{23}}=\delta_{12}*k_{22}+\delta_{22}*k_{12}

\partial {L}/\partial{a_{31}}=\delta_{21}*k_{21}

\partial {L}/\partial{a_{32}}=\delta_{21}*k_{22}+\delta_{22}*k_{21}

\partial {L}/\partial{a_{33}}=\delta_{22}*k_{22}

可以看到由于a22参与了所有的输出,所以表达式有4项,其他输入只参与了1或2项输出,相当于对剩余输出的权重为0,因此表达式只有1、2项。

这种计算结果等价于对下式求卷积:

可以发现,这正好是反卷积的计算过程。

3.3 Tensorflow的验证

在Tensorflow中验证如下:

def conv2d_transpose(x, filters):return tf.nn.conv2d_transpose(x, filters, [1, 4, 4, 1], strides=1, padding="VALID")x = tf.constant(np.arange(1, 10).reshape([1, 3, 3, 1]), dtype=tf.float32)
filters = tf.constant(np.arange(1, 5).reshape(2, 2, 1, 1), dtype=tf.float32)
print("反卷积结果:")
print(conv2d_transpose(x, filters).numpy().reshape([4, 4]))
# 卷积反向传播
x = tf.constant(np.array([[0, 0, 0, 0, 0],[0, 1, 2, 3, 0],[0, 4, 5, 6, 0],[0, 7, 8, 9, 0],[0, 0, 0, 0, 0]]).reshape([1, 5, 5, 1]), dtype=tf.float32)
filters = tf.constant(np.array([[4, 3],[2, 1]]).reshape(2, 2, 1, 1), dtype=tf.float32)
print("卷积反向传播结果:")
print(tf.nn.conv2d(x, filters, [1, 1, 1, 1], "VALID").numpy().reshape(4, 4))

输出如下图所示,二者一致。

反卷积结果:
[[ 1.  4.  7.  6.][ 7. 23. 33. 24.][19. 53. 63. 42.][21. 52. 59. 36.]]
卷积反向传播结果:
[[ 1.  4.  7.  6.][ 7. 23. 33. 24.][19. 53. 63. 42.][21. 52. 59. 36.]]

参考资料

《卷积神经网络(CNN)反向传播算法详细解析》

《反向传播算法中的权重更新是如何进行的?》

相关文章:

深度学习中的卷积和反卷积(四)——卷积和反卷积的梯度

本系列已完结,全部文章地址为: 深度学习中的卷积和反卷积(一)——卷积的介绍 深度学习中的卷积和反卷积(二)——反卷积的介绍 深度学习中的卷积和反卷积(三)——卷积和反卷积的计算 …...

ASP.NET Core - IStartupFilter 与 IHostingStartup

ASP.NET Core - IStartupFilter 与 IHostingStartup 1. IStartupFilter2 IHostingStartup2.5.1 创建外部程序集2.5.2 激活外部程序集 1. IStartupFilter 上面讲到的方式虽然能够根据不同环境将Startup中的启动逻辑进行分离,但是有些时候我们还会可以根据应用中的功能…...

【零基础租赁实惠GPU推荐及大语言模型部署教程01】

租赁GPU推荐及大语言模型部署简易教程 1 官网地址2 注册账号及登录3 租用GPU3.1 充值(不限制充值最低金额,1元亦可)3.2 容器实例(实际就是你租用的GPU电脑)3.3 选择镜像(选择基础环境:框架版本和…...

接口传参 data格式和json格式区别是什么

接口传参 data格式和json格式区别是什么 以下是接口传参 data 格式和 JSON 格式的区别: 定义和范围 Data 格式: 是一个较为宽泛的概念,它可以指代接口传递参数时所使用的任何数据的组织形式。包括但不限于 JSON、XML、Form 数据、纯文本、二进…...

踏上 C++ 编程之旅:开篇之作

踏上 C 编程之旅:开篇之作 在计算机编程的广袤天地中,C 宛如一座巍峨的高峰,吸引着无数开发者攀登探索。今天,就让我们一同开启这段充满挑战与惊喜的 C 编程之旅,在代码的世界里开辟属于自己的道路。 一、为什么选择…...

docker在不删除容器的情况下修改端口映射

注意:必须先停止docker服务!!!! 1) 停止容器 2) 停止docker服务(systemctl stop docker) 3) 修改这个容器的hostconfig.json和config.v2.json文件中的端口 先查看容器id docker inspect jenkins 进入该目录 hostcon…...

Mysql tinyint与Java的数据类型的对应关系

参考资料 理解误区——mysql中tinyint与Java的数据类型的对应关系;tinyint(1) 与tinyint(4)的区别 1.1 tinyint字段取值 数据库字段类型为 tinyint,值为0或1,直接通过SQL语句查询的话,0会取出false;1会取出true目前就想取出的结果为 0 或 1 selectpg_id ,pg_name…...

mac intel芯片下载安卓模拟器

一、调研 目前主流两个模拟器: 雷神模拟器 不支持macosmumu模拟器pro版 不支持macos intel芯片 搜索到mumu的Q&A中有 “Intel芯片Mac如何安装MuMu?” q&a🔗:https://mumu.163.com/mac/faq/install-on-intel-mac.html 提…...

掌握 Ubuntu 终端 mv 与 rename 命令的高效重命名使用方法

在日常的计算任务中,文件重命名是一个经常性的需求。对于熟悉图形用户界面(GUI)的人来说,通过右键点击并选择“重命名”选项,这个过程简单直接。然而,当涉及到大量文件或需要自动化流程时,命令行…...

【Python】数据容器:列表,元组,字符串,集合字典及通用操作

文章目录 一.序列1.1list列表定义常用操作列表的遍历 1.2tuple元组定义常见操作元组的遍历 1.3str字符串定义常见操作字符串的遍历 1.4序列常用操作——切片 二.set集合定义常见操作集合的遍历 三.dict字典定义常用操作字典的嵌套 *数据容器对比总结四.数据容器的通用操作4.1通…...

基于Oracle与PyQt6的电子病历多模态大模型图形化查询系统编程构建

一、引言 1.1 研究背景阐述 在当今数字化时代,医疗行业正经历着深刻的变革,数字化转型的需求日益迫切。电子病历(EMR)作为医疗信息化的核心,其管理的高效性和数据利用的深度对于提升医疗服务质量、优化临床决策以及推动医学研究具有至关重要的意义。传统的电子病历管理系…...

2025智能网联汽车数据分类分级白皮书

智能网联汽车作为现代交通技术的重要成果,其核心特征之一是产生了大量的、多样化的数据,这些数据不仅对提升车辆性能和用户体验至关重要,对维护交通安全、推动智能交通系统的发展具有深远影响。在数字经济时代,数据的价值日益凸显…...

使用Dify创建个问卷调查的工作流

为啥要使用Dify创建工作流呢?一个基于流程的智能体的实现,特别是基于业务的实现,使用Dify去实现时,通常都是一个对话工作流,当设计到相对复杂一些的流程时,如果将所有逻辑都放在对话工作流中去实现&#xf…...

紫光无人机AI飞控平台介绍

随着无人机技术的迅猛发展,无人机飞控平台的智能化需求不断提升。紫光无人机AI飞控平台作为一款创新型产品,为用户提供了从飞行控制到任务管理的一站式解决方案,尤其在AI实时识别和事件分析方面具有显著优势。本文将介绍平台的核心功能、技术…...

UI自动化测试:异常截图和page_source

自动化测试过程中,是否遇到过脚本执行中途出错却不知道原因的情况?测试人员面临的不仅是问题的复现,还有对错误的快速定位和分析。而异常截图与页面源码(Page Source)的结合,正是解决这一难题的利器。 在实…...

47,【5】BUUCTF web lovesql

进入靶场 可知是单引号闭合,属于字符串型注入 则后续方法与字符串型无异 使用order by 判断出字节数为3 使用union select寻找注入点时切记第一个select为空 库名geek 表名group_concat(table_name) from information_schema.tables where table_schemageek# geek…...

网络安全——常用语及linux系统

一、网络安全概念及法规 网络安全:网络空间安全 cyber security 信息系统:由计算机硬件、网络和通信设备、计算机软件、信息资源、信息用户和规章制度组成的已处理信息流为目的的人机一体化系统 信息系统安全三要素(CIA) 保密…...

json().get() 和 json[““] 的区别

以下是 json().get() 和 json[“”] 的区别: 使用方法和语法 json[“”]: 这是使用字典的索引操作符 [] 来访问 JSON 数据。假设 json 是一个字典,你可以通过 json[“key”] 的方式来获取对应 key 的值。 示例: python import js…...

深入解析CSS属性值计算:从声明到渲染的完整流程

目录 引言1. 确定声明值2. 层叠冲突3. 使用继承4. 使用默认值总结 引言 在网页开发中,理解CSS属性值的计算过程对于开发者来说至关重要。它不仅影响页面样式的最终呈现,还涉及到浏览器如何解析和应用样式规则。本文将深入探讨从无属性值到每个属性都有…...

npm发布工具包+使用

1.初始化package包 npm init -y {"name": "common-cjs-tools","version": "1.0.0","main": "index.js","scripts": {"test": "echo \"Error: no test specified\" &&…...

OpenLayers 可视化之热力图

注:当前使用的是 ol 5.3.0 版本,天地图使用的key请到天地图官网申请,并替换为自己的key 热力图(Heatmap)又叫热点图,是一种通过特殊高亮显示事物密度分布、变化趋势的数据可视化技术。采用颜色的深浅来显示…...

线程与协程

1. 线程与协程 1.1. “函数调用级别”的切换、上下文切换 1. 函数调用级别的切换 “函数调用级别的切换”是指:像函数调用/返回一样轻量地完成任务切换。 举例说明: 当你在程序中写一个函数调用: funcA() 然后 funcA 执行完后返回&…...

家政维修平台实战20:权限设计

目录 1 获取工人信息2 搭建工人入口3 权限判断总结 目前我们已经搭建好了基础的用户体系,主要是分成几个表,用户表我们是记录用户的基础信息,包括手机、昵称、头像。而工人和员工各有各的表。那么就有一个问题,不同的角色&#xf…...

JAVA后端开发——多租户

数据隔离是多租户系统中的核心概念,确保一个租户(在这个系统中可能是一个公司或一个独立的客户)的数据对其他租户是不可见的。在 RuoYi 框架(您当前项目所使用的基础框架)中,这通常是通过在数据表中增加一个…...

JavaScript基础-API 和 Web API

在学习JavaScript的过程中,理解API(应用程序接口)和Web API的概念及其应用是非常重要的。这些工具极大地扩展了JavaScript的功能,使得开发者能够创建出功能丰富、交互性强的Web应用程序。本文将深入探讨JavaScript中的API与Web AP…...

十九、【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建

【用户管理与权限 - 篇一】后端基础:用户列表与角色模型的初步构建 前言准备工作第一部分:回顾 Django 内置的 `User` 模型第二部分:设计并创建 `Role` 和 `UserProfile` 模型第三部分:创建 Serializers第四部分:创建 ViewSets第五部分:注册 API 路由第六部分:后端初步测…...

Docker拉取MySQL后数据库连接失败的解决方案

在使用Docker部署MySQL时,拉取并启动容器后,有时可能会遇到数据库连接失败的问题。这种问题可能由多种原因导致,包括配置错误、网络设置问题、权限问题等。本文将分析可能的原因,并提供解决方案。 一、确认MySQL容器的运行状态 …...

基于开源AI智能名片链动2 + 1模式S2B2C商城小程序的沉浸式体验营销研究

摘要:在消费市场竞争日益激烈的当下,传统体验营销方式存在诸多局限。本文聚焦开源AI智能名片链动2 1模式S2B2C商城小程序,探讨其在沉浸式体验营销中的应用。通过对比传统品鉴、工厂参观等初级体验方式,分析沉浸式体验的优势与价值…...

PH热榜 | 2025-06-08

1. Thiings 标语:一套超过1900个免费AI生成的3D图标集合 介绍:Thiings是一个不断扩展的免费AI生成3D图标库,目前已有超过1900个图标。你可以按照主题浏览,生成自己的图标,或者下载整个图标集。所有图标都可以在个人或…...

【若依】框架项目部署笔记

参考【SpringBoot】【Vue】项目部署_no main manifest attribute, in springboot-0.0.1-sn-CSDN博客 多一个redis安装 准备工作: 压缩包下载:http://download.redis.io/releases 1. 上传压缩包,并进入压缩包所在目录,解压到目标…...