当前位置：首页 > news >正文

深度学习：（七）梯度下降法在神经网络中的应用

news 2026/2/11 3:22:21

梯度下降法在神经网络中的应用

事先规定：

用 $n$ 表示个数（维度）:

$n^{[0]}=n_x$ ，表示单个训练样本 $x$ 的元素个数；

$n^{[1]}$ 表示隐藏层 $1$ 的单元（节点）个数；

$n^{[1]}$ 表示……

梯度下降法公式：

① $w$ 和 $b$ 参数随机初始化；

②计算预测值

③求导： $dw^{[1]}$ 、 $db^{[1]}$ 、 $dw^{[2]}$ 、 $db^{[2]}$ 。

④更新参数：
$\begin{align*} &W^{[1]}=W^{[1]}-\alpha·dW^{[1]}\\ &b^{[1]}=b^{[1]}-\alpha·db^{[1]}\\ &W^{[2]}=W^{[2]}-\alpha·dW^{[2]}\\ &b^{[2]}=b^{[2]}-\alpha·db^{[2]} \end{align*}$
第三步反向传播求导的详细步骤：
$\begin{align*} &dZ^{[2]}=A^{[2]}-Y\\ &dW^{[2]}=\frac{1}{m}dZ^{[2]}A^{[1]T}\\ &db^{[2]}=\frac{1}{m}np.sum(dZ^{[2]},axis=1,keepdims=True)\\ &dZ^{[1]}=W^{[2]T}dZ^{[2]}*g^{[1]'}(Z^{[1]})//这里的*是元素对应相乘\\ &dW^{[1]}=\frac{1}{m}dZ^{[1]}X^{T}//这里的转置是因为W^{[1]}是由w_i^{[1]T}组成的\\ &db^{[1]}=\frac{1}{m}np.sum(dZ^{[1]},axis=1,keepdims=True)\\ \end{align*}$

参数随机初始化

神经网络的参数 $w_i^{[l]}$ 和不能像逻辑回归一样，初始化为零，否则梯度下降算法就会无效。

也不要将隐藏层中的所有节点参数都初始化成一样的，否则每个节点都在做相同的运算，毫无意义。

$\begin{align*} &W^{[1]}=np.random.randn((n^{[1]},n^{[0]}))·0.01~//高斯分布随机变量再乘以0.01\\ &b^{[1]}=np.zeros((n^{[1]},1))\\ &W^{[2]}=...\\ &b^{[2]}=... \end{align*}$

通常情况下，会把参数随机初始化成很小很小的值，这也是乘以 $0.01$ 的原因。

因为参数大的话， $z$ 计算出来就会大， $a$ 也会大，就会落在激活函数 $\sigma(z)$ 或 $t anh (z)$ 的平缓区域，就会降低梯度下降法的速度，甚至形成梯度消失问题。

深度学习：（七）梯度下降法在神经网络中的应用

梯度下降法在神经网络中的应用

梯度下降法公式：

参数随机初始化

相关文章：

深度学习：（七）梯度下降法在神经网络中的应用

HarmonyOS---权限和http/Axios网络请求

信号量SEM

828华为云征文 | 基于华为云Flexus云服务器X搭建部署——AI知识库问答系统（使用1panel面板安装）

从零预训练一个tiny-llama#Datawhale组队学习Task2

【Linux探索学习】第二弹——Linux的基础指令（中）——夯实基础第二篇

Python和QT哪个更适合嵌入式方向的上位机开发？

Unity实战案例全解析：RTS游戏的框选和阵型功能（5）阵型功能优化

Android compose 的基本环境搭建

git | 合并 commit 的两种方法

Grafana链接iframe嵌入Web前端一直跳登录页面的问题记录

后端Java-SpringBoot整合MyBatisPlus步骤(超详细）

8609 哈夫曼树

docker的harbor仓库登录问题

ENV | docker 安装使用（简单实操版）

【Golang】深入解读Go语言中的错误（error）与异常（panic）

DMDSC更换DCR和VOTE磁盘

国产化框架PaddleYOLO结合Swanlab进行作物检测

Linux编译部署PHP环境

Win11禁止搜索栏查找互联网内容

（二）TensorRT-LLM | 模型导出（v0.20.0rc3）

Spring AI与Spring Modulith核心技术解析

【VLNs篇】07：NavRL—在动态环境中学习安全飞行

Linux 内存管理实战精讲：核心原理与面试常考点全解析

C语言中提供的第三方库之哈希表实现

论文阅读笔记——Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing

windows系统MySQL安装文档

华为OD机试-最短木板长度-二分法(A卷,100分)

CVPR2025重磅突破：AnomalyAny框架实现单样本生成逼真异常数据，破解视觉检测瓶颈！

《Docker》架构