当前位置：首页 > news >正文

Pytorch深度学习实战2-1：详细推导Xavier参数初始化(附Python实现)

news 2025/11/22 4:56:47

1 参数初始化

参数初始化在深度学习中起着重要的作用。在神经网络中，参数初始化是指为模型中的权重和偏置项设置初始值的过程。合适的参数初始化可以帮助模型更好地学习和收敛到最优解。参数初始化的目标是使模型具有良好的初始状态，以便在训练过程中快速且稳定地收敛。错误的参数初始化可能导致模型无法正常学习，梯度消失或梯度爆炸等问题。

常见的参数初始化方法包括随机初始化、零初始化、正态分布初始化和均匀分布初始化等。这些方法根据不同的分布特性和模型结构选择合适的初始值。在某些情况下，不同层或不同类型的参数可能需要不同的初始化策略。例如使用预训练模型时，可以采用迁移学习的方法，将预训练模型的参数作为初始值，从而加速收敛并提高性能。

除了设置初始值外，参数初始化还可以与其他优化技术相结合，如学习率调整、正则化和批归一化等，以进一步提高模型的性能和稳定性

举例而言，如图所示是在 $\rm{tanh(\cdot)}$ 下九层神经网络各层激活输出，可以看到在网络深层激活输出逐渐衰减或保持不变

在这里插入图片描述

2 Xavier参数初始化原理

Xavier初始化的核心原理是保证各层网络的前向传播激活值和反向传播梯度值方差保持一致。Xavier初始化基于如下假设：

输入样本独立同分布采样，且各个特征维度方差相等；
激活函数 $\sigma \left( \cdot \right)$ 对称且近似线性区间满足 $\sigma \left( \boldsymbol{z} \right) \approx \boldsymbol{z}\Leftrightarrow \sigma '\left( \boldsymbol{z} \right) \approx 1$ ；
激活输入 $\boldsymbol{z}$ 处于激活函数的线性区间

2.1 前向传播阶段

根据

$\boldsymbol{a}^l=\sigma \left( \boldsymbol{z}^l \right) =\sigma \left( \boldsymbol{W}^l\boldsymbol{a}^{l-1}-\boldsymbol{b}^l \right)$

可得

$\mathrm{var}\left[ \boldsymbol{a}^l \right] \approx \mathrm{var}\left[ \boldsymbol{z}^l \right] =\mathrm{var}\left[ \boldsymbol{W}^l\boldsymbol{a}^{l-1}-\boldsymbol{b}^l \right]$

初始阶段第 $l$ 层的网络权重 $\boldsymbol{W}^l$ 的各个元素独立采样自某个分布 $P$ ，即

$\left[ \begin{array}{c} z_{1}^{l}\\ z_{2}^{l}\\ \vdots\\ z_{n_l}^{l}\\\end{array} \right] =\left[ \begin{matrix} w_{1,1}^{l}& w_{1,2}^{l}& \cdots& w_{1,n_{l-1}}^{l}\\ w_{2,1}^{l}& w_{2,2}^{l}& \cdots& w_{2,n_{l-1}}^{l}\\ \vdots& \vdots& \ddots& \vdots\\ w_{n_l,1}^{l}& w_{n_l,2}^{l}& \cdots& w_{n_l,n_{l-1}}^{l}\\\end{matrix} \right] \left[ \begin{array}{c} a_{1}^{l-1}\\ a_{2}^{l-1}\\ \vdots\\ a_{n_{l-1}}^{l-1}\\\end{array} \right] \Rightarrow \mathrm{var}\left[ z_{i}^{l} \right] =\mathrm{var}\left[ \sum_{k=1}^{n_{l-1}}{w_{1,k}^{l}a_{k}^{l-1}} \right]$

考虑到 $w_{i,j}^{l}$ 与前一层激活值 $\boldsymbol{a}^{l-1}$ 独立，所以

$\begin{aligned}\mathrm{var}\left[ z_{i}^{l} \right] &=\mathrm{var}\left[ \sum_{k=1}^{n_{l-1}}{w_{i,k}^{l}a_{k}^{l-1}} \right]\\& =\sum_{k=1}^{n_{l-1}}{\mathrm{var}\left[ w_{i,k}^{l}a_{k}^{l-1} \right]}\\&=\sum_{k=1}^{n_{l-1}}{\left( \mathrm{var}\left[ w_{i,k}^{l} \right] \mathrm{var}\left[ a_{k}^{l-1} \right] +\mathrm{var}\left[ w_{i,k}^{l} \right] \mathbb{E} ^2\left[ a_{k}^{l-1} \right] +\mathrm{var}\left[ a_{k}^{l-1} \right] \mathbb{E} ^2\left[ w_{i,k}^{l} \right] \right)}\end{aligned}$

根据激活函数对称性，可令 $\boldsymbol{W}^l$ 、 $\boldsymbol{a}^{l-1}$ 均值为0，根据假设中的方差关系

$\begin{cases} \forall i\,\,\mathrm{var}\left[ a_{i}^{l} \right] =\mathrm{var}\left[ \boldsymbol{a}^l \right]\\ \forall i,j\,\,\mathrm{var}\left[ w_{i,j}^{l} \right] =\mathrm{var}\left[ \boldsymbol{W}^l \right]\\\end{cases}$

上式可简化为 $\mathrm{var}\left[ z_{i}^{l} \right] =n_{l-1}\mathrm{var}\left[ w_{i,1}^{l} \right] \mathrm{var}\left[ a_{1}^{l-1} \right]$ ，改写成矩阵形式

$\mathrm{var}\left[ \boldsymbol{a}^l \right] \approx n_{l-1}\mathrm{var}\left[ \boldsymbol{W}^l \right] \mathrm{var}\left[ \boldsymbol{a}^{l-1} \right]$

结合 $\boldsymbol{a}^0=\boldsymbol{x}$ 可递推得到

${\mathrm{var}\left[ \boldsymbol{a}^l \right] \approx \mathrm{var}\left[ \boldsymbol{x} \right] \prod_{k=1}^l{n_{k-1}\mathrm{var}\left[ \boldsymbol{W}^k \right]}}$

2.2 反向传播阶段

根据 $\boldsymbol{\delta }^l=\left( \boldsymbol{W}^{l+1} \right) ^T\boldsymbol{\delta }^{l+1}\odot \sigma '\left( \boldsymbol{z}^l \right)$ 可得

$\mathrm{var}\left[ \boldsymbol{\delta }^l \right] \approx n_{l+1}\mathrm{var}\left[ \boldsymbol{W}^{l+1} \right] \mathrm{var}\left[ \boldsymbol{\delta }^{l+1} \right]$

结合 $\boldsymbol{\delta }^L=\nabla _{\boldsymbol{\tilde{y}}}E\odot \sigma '\left( \boldsymbol{z}^L \right) \approx \nabla _{\boldsymbol{\tilde{y}}}E$ 可递推得到

${\mathrm{var}\left[ \boldsymbol{\delta }^l \right] \approx \nabla _{\boldsymbol{\tilde{y}}}E\prod_{k=l+1}^L{n_k\mathrm{var}\left[ \boldsymbol{W}^k \right]}}$

为保证前向传播激活和反向传播梯度在网络中顺利流动，应保持各层参数方差相等，即满足

$\begin{cases} n_l\mathrm{var}\left[ \boldsymbol{W}^l \right] =1\\ n_{l-1}\mathrm{var}\left[ \boldsymbol{W}^l \right] =1\\\end{cases}$

由于第 $l$ 层的输入神经元个数 $n_{l-1}$ 和输出神经元个数 $n_l$ 一般不相等，故取折中

$\mathrm{var}\left[ \boldsymbol{W}^l \right] =\frac{2}{n_{l-1}+n_l}$

所以网络连接权采样自服从方差满足上式的分布即可，例如

$\boldsymbol{W}\sim \mathcal{N} \left( 0,\frac{2}{n_{l-1}+n_l} \right) \,\, \mathrm{or} \boldsymbol{W}\sim U\left( -\sqrt{\frac{6}{n_{l-1}+n_l}},\sqrt{\frac{6}{n_{l-1}+n_l}} \right)$

2.3 可视化思考

如图所示，经过Xavier初始化后网络各层前向和反向传播时的方差保持一致

在这里插入图片描述

如图所示，经过Xavier初始化后的测试误差通常更小

在这里插入图片描述

Xavier进一步指出：观察层与层之间传播的激活值和梯度有利于理解深层网络的训练复杂度；保持层与层之间激活值和梯度的良好流动对学习效果非常重要。尽管在Xavier初始化做出了比较苛刻的假设，且在工程上很容易被违反，但其在实践中被证明是有效的，已经成为很多深度学习框架的默认初始化方法之一。

3 Python实现

简单实现一下Xavier初始化

def initialize_parameters_xavier(layers_dims):parameters = {}L = len(layers_dims)for l in range(1, L):mu = 0sigma = np.sqrt(2.0 / (layers_dims[l - 1] + layers_dims[l]))parameters['W' + str(l)] = np.random.normal(loc=mu, scale=sigma, size=(layers_dims[l], layers_dims[l - 1]))parameters['b' + str(l)] = np.zeros((layers_dims[l], 1))return parameters

可视化

for l in range(1, num_layers):A_pre = AW = parameters['W' + str(l)]b = parameters['b' + str(l)]z = np.dot(W, A_pre) + b # z = Wx + bA = tanh(z)print(A)plt.subplot(1, 8, l)plt.hist(A.flatten(), facecolor='g')plt.xlim([-2, 2])plt.ylim([0, 1000000])plt.yticks([])
plt.show()

如下所示
在这里插入图片描述
可以看出各层输出方差基本一致，实现了良好的初始化效果

完整工程代码请联系下方博主名片获取

🔥 更多精彩专栏：

《ROS从入门到精通》
《Pytorch深度学习实战》
《机器学习强基计划》
《运动规划实战精讲》
…

👇源码获取 · 技术交流 · 抱团学习 · 咨询分享请联系👇

Pytorch深度学习实战2-1：详细推导Xavier参数初始化(附Python实现)

目录

1 参数初始化

2 Xavier参数初始化原理

2.1 前向传播阶段

2.2 反向传播阶段

2.3 可视化思考

3 Python实现

相关文章：

Pytorch深度学习实战2-1：详细推导Xavier参数初始化(附Python实现)

Java的threadd常用方法

一键修复0xc000007b错误代码，科普关于0xc000007b错误的原因

使用Selenium、Python和图鉴打码平台实现B站登录

嵌入式设备视频编码比较：H.264、H.265、MPEG-2和MJPG

创意二维码案例：意大利艺术家的最新二维码艺术展！

XML映射文件

AlDente Pro v1.22.2(mac电池最大充电限制工具)

原生小程序图表

UniPro集成华为云WeLink 为企业客户构建互为联接的协作平台

【论文解读】基于生成式面部先验的真实世界盲脸修复

蓝桥杯第四场双周赛（1~6）

【Web】CmsEasy 漏洞复现

Spring 中存储 Bean 的相关注解

Proteus下仿真AT89C51单片机串行口的问题

java学习part17

Centos 7、Debian、Ubuntu中tree指令的检查与下载

深拷贝函数

python小数据分析小结及算法实践集锦

【docker系列】docker高阶篇

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

相机Camera日志实例分析之二：相机Camx【专业模式开启直方图拍照】单帧流程日志详解

视频字幕质量评估的大规模细粒度基准

Spring AI 入门：Java 开发者的生成式 AI 实践之路

Java求职者面试指南：计算机基础与源码原理深度解析

mac 安装homebrew (nvm 及git)

Python Einops库：深度学习中的张量操作革命

Rust 开发环境搭建

[特殊字符] 手撸 Redis 互斥锁那些坑

GAN模式奔溃的探讨论文综述（一）