当前位置：首页 > news >正文

吴恩达深度学习笔记：神经网络的编程基础2.9-2.14

news 2026/2/11 5:09:46

第一门课：神经网络和深度学习 (Neural Networks and Deep Learning)

第二周：神经网络的编程基础 (Basics of Neural Network programming)

2.9 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）

本节我们讨论怎样通过计算偏导数来实现逻辑回归的梯度下降算法。它的关键点是几个重要公式，其作用是用来实现逻辑回归中梯度下降算法。但是在本节视频中，我将使用计算图对梯度下降算法进行计算。我必须要承认的是，使用计算图来计算逻辑回归的梯度下降算法有点大材小用了。但是，我认为以这个例子作为开始来讲解，可以使你更好的理解背后的思想。从而在讨论神经网络时，你可以更深刻而全面地理解神经网络。接下来让我们开始学习逻辑回归的梯度下降算法。

假设样本只有两个特征 $x_1$ 和 $x_2$ ，为了计算𝑧，我们需要输入参数 $w_1、w_2$ 和𝑏，除此之外还有特征值 $x_1$ 和 $x_2$ 。因此𝑧的计算公式为： $z = w_1x_1 + w_2x_2 + b$ ；

回想一下逻辑回归的公式定义如下：

$\hat{y}= a = σ(z) 其中 z= w^Tx + b， σ(z) =\frac{1}{1+e^{-z}}$
损失函数： $\hat{y}^{(i)},y^{(i)}) = -y^{(i)} \log(\hat{y}^{(i)}) - (1-y^{(i)}) \log(1-\hat{y}^{(i)})$
代价函数： $\frac{1}{m} \sum_{i=1}^{m} L( \hat{y}^{(i)},y^{(i)})$

假设现在只考虑单个样本的情况，单个样本的代价函数定义如下：
$\log(a) + (1-y) \log(1-a))$
其中𝑎是逻辑回归的输出，𝑦是样本的标签值。现在让我们画出表示这个计算的计算图。
这里先复习下梯度下降法，𝑤和𝑏的修正量可以表达如下：

在这里插入图片描述
如图：在这个公式的外侧画上长方形。然后计算： 𝑦^ = 𝑎 = 𝜎(𝑧) 也就是计算图的下一步。最后计算损失函数𝐿(𝑎, 𝑦)。有了计算图，我就不需要再写出公式了。因此，为了使得逻辑回归中最小化代价函数𝐿(𝑎, 𝑦)，我们需要做的仅仅是修改参数𝑤和𝑏的值。前面我们已经讲解了如何在单个训练样本上计算代价函数的前向步骤。现在让我们来讨论通过反向计算出导数。因为我们想要计算出的代价函数𝐿(𝑎, 𝑦)的导数，首先我们需要反向计算出代价函数𝐿(𝑎, 𝑦)关于𝑎的导数，在编写代码时，你只需要用𝑑𝑎 来表示 $\frac{dL(a,y)}{da}$ 。

通过微积分得到： $\frac{dL(a,y)}{da}=\frac{-y}{a}+\frac{1-y}{1-a}$

如果你不熟悉微积分，也不必太担心，我们会列出本课程涉及的所有求导公式。那么如果你非常熟悉微积分，我们鼓励你主动推导前面介绍的代价函数的求导公式，使用微积分直接求出𝐿(𝑎, 𝑦)关于变量𝑎的导数。如果你不太了解微积分，也不用太担心。现在我们已经计算出𝑑𝑎，也就是最终输出结果的导数。现在可以再反向一步，在编写 Python 代码时，你只需要用𝑑𝑧来表示代价函数𝐿关于𝑧 的导数 $\frac{dL}{dz}$ ，也可以写成 $\frac{dL(a,y)}{dz}$ ，这两种写法都是正确的。 $\frac{dL}{dz} = a-y$ 。
因为 $\frac{dL(a,y)}{dz} =\frac{dL}{dz}=(\frac{dL}{da})*(\frac{da}{dz})$ ,并且 $\frac{da}{dz} =a*(1-a)$ ,而 $\frac{dL}{da}= (\frac{-y}{a}+ \frac{1-y}{1-a})$ ,因此将这两项相乘，得到：

$dz=\frac{dL(a,y)}{dz} =\frac{dL}{dz}=\frac{dL}{da}*\frac{da}{dz}=(\frac{-y}{a}+\frac{1-y}{1-a})*a(1-a) =a-y$

视频中为了简化推导过程，假设𝑛𝑥这个推导的过程就是我之前提到过的链式法则。如果你对微积分熟悉，放心地去推导整个求导过程，如果不熟悉微积分，你只需要知道𝑑𝑧 = (𝑎 −𝑦)已经计算好了。

现在进行最后一步反向推导，也就是计算𝑤和𝑏变化对代价函数𝐿的影响，特别地，可以用:
$dw_1=\frac{1}{m}\sum_{n=i}^mx_1^{(i)}(a^{(i)} -y^{(i)})$
$dw_2=\frac{1}{m}\sum_{n=i}^mx_2^{(i)}(a^{(i)} -y^{(i)})$
$db=\frac{1}{m}\sum_{n=i}^m(a^{(i)} -y^{(i)})$

视频中， 𝑑𝑤1 表示 $L ∂w_1= x_1 ⋅ dz$ ， 𝑑𝑤2 表示 $L∂w_2= x_2 ⋅ dz$ ， $d b = d z$ 。
因此，关于单个样本的梯度下降算法，你所需要做的就是如下的事情：
使用公式 $d z = (a - y)$ 计算𝑑𝑧，
使用 $dw_1 = x_1 ⋅ dz$ 计算𝑑𝑤1， $dw_2 = x_2 ⋅ dz$ 计算𝑑𝑤2， $d b = d z$ 来计算𝑑𝑏，
然后: 更新 $w_1 = w_1 − αdw_1$ ，更新 $w_2 = w_2 − αdw_2$ ，更新 $b = b - α d b$ 。
这就是关于单个样本实例的梯度下降算法中参数更新一次的步骤。
在这里插入图片描述

现在你已经知道了怎样计算导数，并且实现针对单个训练样本的逻辑回归的梯度下降算法。但是，训练逻辑回归模型不仅仅只有一个训练样本，而是有𝑚个训练样本的整个训练集。因此在下一节视频中，我们将这些思想应用到整个训练样本集中，而不仅仅只是单个样本上。

吴恩达深度学习笔记：神经网络的编程基础2.9-2.14

目录

第一门课：神经网络和深度学习 (Neural Networks and Deep Learning)

第二周：神经网络的编程基础 (Basics of Neural Network programming)

2.9 逻辑回归中的梯度下降（Logistic Regression Gradient Descent）

相关文章：

吴恩达深度学习笔记：神经网络的编程基础2.9-2.14

在C++项目中使用python脚本（四种）常见报错解决

微前端框架 qiankun 配置使用【基于 vue/react脚手架创建项目】

nodejs切换淘宝源

怎么避免电脑数据被拷贝？电脑如何禁用USB功能？

给电脑加硬件的办法先找电脑支持的接口，再买相同接口的

uniapp微信小程序_自定义交费逻辑编写

论文阅读——RingMo

Hadoop，Hive 数据预处理CR

小程序开发——获取设备信息 API（三）

Vue2 + node.js项目

如何使用IDE端通义灵码

微服务分布式springcloud的体育场地预约系统演kdm1z

IDEA开启Run Dashboard

小程序学习3 goods-card

【投稿优惠-EI稳定检索】2024年图像处理与机械系统工程国际学术会议 (ICIPMSE 2024)

Linux系列

SQL笔记 -- 黑马程序员

C# MES通信从入门到精通（1）——串口传输文件

论文阅读-federated unlearning via class-discriminative pruning

椭圆曲线密码学(ECC)

前端倒计时误差!

Qt Widget类解析与代码注释

UE5 学习系列（三）创建和移动物体

dedecms 织梦自定义表单留言增加ajax验证码功能

Springcloud：Eureka 高可用集群搭建实战（服务注册与发现的底层原理与避坑指南）

ardupilot 开发环境eclipse 中import 缺少C++

大学生职业发展与就业创业指导教学评价

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

CVE-2020-17519源码分析与漏洞复现(Flink 任意文件读取)