当前位置：首页 > news >正文

反向传播的微积分原理 | Chapter 4 | Deep Learning | 3Blue1Brown

news 2026/2/10 7:34:43

前言

3Blue1Brown 视频笔记，仅供自己参考

这个章节主要来深度讲解反向传播中的一些微积分理论

官网：https://www.3blue1brown.com

视频：https://www.bilibili.com/video/BV16x411V7Qg

1. 简介

在这里插入图片描述

这章开始我们就假设你已经看过第三章了，上章让大家直观上感受了反向传播算法的原理

在这里插入图片描述

在这章里，我们会更深入讲解一些其中的微积分理论，这个看不太懂很正常，所以我们的六字格言 “停一停想一想” 在这依旧管用，这章我们的目标是给大家展示在机器学习中，我们一般是怎么理解链式法则的，这点跟别的基础微积分课讲得会有点不一样

在这里插入图片描述

对于微积分不够熟悉的观众，我之前已经做了一整个系列了，大家感兴趣的可以看看：Calculus

2. 神经网络中的链式法则

在这里插入图片描述

我们从最最简单的网络讲起吧，每层只有一个神经元

在这里插入图片描述

图上这个网络就是由 3 个权重和 3 个偏置决定的，我们的目标是理解代价函数对于这些变量有多敏感，这样我们就知道怎么调整这些变量才可以使得代价降低得最快，

在这里插入图片描述

我们先来关注最后两个神经元吧，我给最后一个神经元的激活值一个上标 L，表示它处于第 L 层，那么，前一个神经元的激活值就是 $a^{(L-1)}$ ，这里的上标不是指数，而是用来标记我们正在讨论哪一层，过一会我会用到下标来表示别的意思

在这里插入图片描述

给定一个训练样本，我们把这个最终层激活值要接近的目标叫做 y，例如 y 可能是 0 或者 1，那么这个简易网络对于单个训练样本的代价就等于 $\color{black}(a^{(L)}-\color{gold}y\color{black})^2$ ，对于这个样本，我们把这个代价值标记为 $\color{red}C_0$

在这里插入图片描述

还记得吗，最终层的激活值是这么算出来的，即一个权重 $\color{blue}w^L$ 乘上前一个神经元的激活值再加上一个偏置 $\color{pink}b^L$ ，最后把加权和塞进一个特定的非线性函数，例如 sigmoid 或者 ReLU 之类的，给这个加权和起一个名字会方便很多，就叫它 $\color{green}z^L$ 好了，跟对应的激活值用同一个上标

在这里插入图片描述

这里的项挺多，概括起来我们拿权重 $\color{blue}w^L$ 、前一个激活值 $a^{(L-1)}$ 以及偏置值 $\color{pink}b^L$ 一起来算出 $\color{green}z^L$ 再算出 $a^{(L)}$ ，最后再用上常量 $\color{gold}y$ 算出代价值 $\color{red}C_0$ ，当然 $a^{(L-1)}$ 也是由它自己的权重和偏置决定的，以此类推，但我们现在重点不在那里

在这里插入图片描述

上面这些东西都是数字，没错吧，我们可以想象每个数字都对应一个数轴，我们第一个目标是理解代价函数对权重 $\color{blue}w^L$ 的微小变化有多敏感，或者换句话讲求 $\color{red}C_0$ 对 $\color{blue}w^L$ 的导数

在这里插入图片描述

当你看到 $\color{blue}\partial w$ 之类的项时，请把它当做这是对 $\color{blue}w$ 的微小扰动，好比改变 0.01，然后把 $\color{red}\partial C_0$ 当做 “改变 $\color{blue}w$ 对 $\color{red}C_0$ 的值造成的变化”，我们求得是这两个数的比值

在这里插入图片描述

概念上说 $\color{blue}w^L$ 的微小变化会导致 $\color{green}z^L$ 产生些变化，然后会导致 $a^L$ 产生变化，最终影响到代价值

在这里插入图片描述

那么，我们把式子拆开，首先求 $\color{green}z^L$ 的变化量比上 $\color{blue}w^L$ 的变化量，也就是求 $\color{green}z^L$ 关于 $\color{blue}w^L$ 的导数，同理考虑 $a^L$ 的变化量比上因变量 $\color{green}z^L$ 的变化量，以及最终的 $\color{red}C_0$ 的变化量比上直接改动 $a^L$ 产生的变化量

在这里插入图片描述

这不就是链式法则么，把三个比值相乘就可以算出 $\color{red}C_0$ 对 $\color{blue}w^L$ 的微小变化有多敏感

3. 微积分的计算

在这里插入图片描述

现在图上多了一大堆符号，稍微花点时间理解一下每个符号都是什么意思吧，因为马上我们就要对各个部分求导了

在这里插入图片描述

$\color{red}C_0$ 关于 $a^L$ 的导数就是 $\color{black}2(a^{(L)}-\color{gold}y\color{black})$ ，这也就意味着导数的大小跟网络最终的输出减目标结果的差成正比，如果网络的输出差别很大，即使 $\color{blue}w$ 稍稍变一点代价也会改变非常大

在这里插入图片描述

$a^L$ 对 $\color{green}z^L$ 求导就是求 sigmoid 的导数，或就你选择的非线性激活函数求导

在这里插入图片描述

而 $\color{green}z^L$ 对 $\color{blue}w^L$ 求导结果就是 $a^{L-1}$

4. 公式含义

在这里插入图片描述

对我自己来说，这里如果不退一步好好想想这些公式的含义，很容易卡住

在这里插入图片描述

就最后这个导数来说，这个权重的改变量 $\color{blue}\partial w$ 对最后一层的影响有多大取决于之前一层的神经元，所谓的 “一同激活的神经元关联在一起” 的出处即来源于此

在这里插入图片描述

不过这只是包含一个训练样本的代价对 $\color{blue}w^{(L)}$ 的导数，由于总的代价函数是许许多多训练样本所有代价的总平均，它对 $\color{blue}w^{(L)}$ 的导数就需要求 $\frac{\color{red}\partial C}{\color{blue}\partial w^ {(L)}}$ 这个表达式之于每一个训练样本的平均

在这里插入图片描述

当然这只是梯度向量 $\color{red}\nabla C$ 的一个分量，而梯度向量 $\color{red}\nabla C$ 本身则由代价函数对每一个权重和每一个偏置求偏导构成的

5. 代价函数对权重偏置的敏感度

在这里插入图片描述

值得注意的是，求出这些偏导中的一个就完成了一大半的工作量，对偏置的求导步骤也就基本相同，只要把 $\frac{\color{green}\partial z}{\color{blue} \partial w}$ 替换成 $\frac{\color{green}\partial z}{\color{pink} \partial b}$ ，对应的公式中可以看出导数 $\frac{\color{green}\partial z}{\color{pink} \partial b}$ 等于 1