当前位置：首页 > news >正文

神经网络的初始化方式都有哪些？

news 2025/7/8 7:58:00

一、概念

神经网络的初始化是深度学习中的一个关键步骤，它指的是在训练开始前为神经网络的权重和偏置设置初始值。合适的初始化方法可以加速模型的收敛，提高训练效果，甚至影响模型的最终性能。当然，目前我们使用Torch、TensorFlow等深度学习库进行建模的过程中，这些第三方库已经默认为我们选择了初始化的方式来设置神经网络的权重和偏置（不同神经网络有不同的默认方法），从而使得很多人往往都会忽略初始化竟然还能玩花样。

二、类型

1、随机初始化

随机初始化是神经网络中常用的一种权重初始化方法，其基本思想是在训练开始前为网络的权重和偏置赋予随机值。随机初始化有助于打破网络的对称性，使得不同的神经元可以学习不同的特征，从而避免神经元之间冗余。随机初始化方法一般是从某个概率分布中随机抽取权重值，常见的分布有：

均匀分布（Uniform Distribution）：权重从一个均匀分布中随机抽取，通常范围是[−a,a]，其中 a 是一个较小的正数，可以根据网络的具体需求来设置。
正态分布（Normal Distribution）：权重从一个正态分布（高斯分布）中随机抽取，均值为0，标准差为 σ，而标准差控制了权重值的分散程度。

import torch
import torch.nn as nn# 定义一个简单的神经网络
class SimpleNet(nn.Module):def __init__(self):super(SimpleNet, self).__init__()self.fc1 = nn.Linear(10, 50)self.fc2 = nn.Linear(50, 1)# 初始化网络
net = SimpleNet()# 应用随机初始化
def init_weights(m):if type(m) == nn.Linear:# 均匀分布初始化nn.init.uniform_(m.weight, -0.1, 0.1)# 正态分布初始化# nn.init.normal_(m.weight, mean=0.0, std=0.01)# 初始化偏置为0nn.init.zeros_(m.bias)# 遍历网络中的所有模块并应用初始化
net.apply(init_weights)

2、Xaiver初始化

Xavier初始化，也称为Glorot初始化，由Xavier Glorot提出，目的是解决在深度神经网络中随机初始化可能导致的梯度消失或梯度爆炸问题。Xavier初始化的基本思想是保持每一层输出的方差与输入的方差一致，以防止信号在深度网络中的传播过程中出现衰减或放大。

Xavier初始化考虑了前一层的节点数（ $n_{in}$ ）和当前层的节点数（ $n_{out}$ ）。权重的初始化范围是 $- \sqrt{\frac{6}{n_{in}+n_{out}}}$ 到 $\sqrt{\frac{6}{n_{in}+n_{out}}}$ ，这个范围确保了权重既不会太小也不会太大，从而避免了梯度消失或爆炸的问题。这个公式是基于保持激活值方差的稳定性来推导的，使得每层的输出值（激活值）保持高斯分布。尽管Xavier初始化在很多情况下都非常有效，但它假设激活函数是线性的（因此更适合sigmoid或者tanh之类的激活函数），这在实际中并不总是成立。例如，在ReLU激活函数的网络中，Xavier初始化可能不是最优的选择，因此出现了He初始化作为替代。

import torch
import torch.nn as nn
import torch.nn.init as init# 定义一个简单的神经网络
class SimpleNet(nn.Module):def __init__(self):super(SimpleNet, self).__init__()self.fc1 = nn.Linear(10, 50)  # 输入层到隐藏层self.fc2 = nn.Linear(50, 1)  # 隐藏层到输出层def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 初始化网络
net = SimpleNet()# 使用Xavier均匀分布初始化
init.xavier_uniform_(net.fc1.weight)
init.xavier_uniform_(net.fc2.weight)# 或者使用Xavier正态分布初始化
init.xavier_normal_(net.fc1.weight)
init.xavier_normal_(net.fc2.weight)# 打印初始化后的权重
print(net.fc1.weight)
print(net.fc2.weight)

3、He初始化

He初始化（也称为Kaiming初始化，由何凯明提出）是一种专门为ReLU激活函数设计的权重初始化方法。He初始化的目的是为了解决在使用ReLU激活函数的深度神经网络中出现的梯度消失或爆炸问题。它通过合理设置权重的初始值，使得在网络的前向传播和反向传播过程中，激活值和梯度的方差保持相对稳定。

He初始化基于以下原理：在ReLU激活函数下，权重应该按照均值为0的正态分布进行初始化，其标准差为 $\sqrt{\frac{2}{n_{in}}}$ ，其中 $n_{in}$ 是前一层的节点数。这样做的目的是为了保持每层激活值的方差大致相同，从而避免梯度消失或爆炸。

import torch
import torch.nn as nn
import torch.nn.init as initclass SimpleNet(nn.Module):def __init__(self):super(SimpleNet, self).__init__()self.fc1 = nn.Linear(10, 50)  # 输入层到隐藏层self.fc2 = nn.Linear(50, 1)  # 隐藏层到输出层def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 初始化网络
net = SimpleNet()# 使用He初始化
init.kaiming_normal_(net.fc1.weight, mode='fan_in', nonlinearity='relu')
init.kaiming_normal_(net.fc2.weight, mode='fan_in', nonlinearity='relu')# 打印初始化后的权重
print(net.fc1.weight)
print(net.fc2.weight)

4、正交初始化

正交初始化（Orthogonal Initialization）核心目标是使权重矩阵正交化。这种方法通过确保权重矩阵的每一列变成单位向量，并且每个列向量与其他列向量垂直，从而减少神经网络中的冗余性和过拟合，提高网络的泛化能力和性能。

正交初始化基于保持向量长度和角度的数学性质，通过正交化权重矩阵来减少神经网络中的冗余性和过拟合。具体来说，正交初始化的过程可以分为以下几个步骤：

高斯分布初始化：首先，使用均值为0、方差为1的高斯分布随机生成权重矩阵中的每个元素的初始值。
QR分解：然后，对初始权重矩阵进行QR分解或SVD分解，得到两个正交矩阵。
选择正交矩阵：最后，选择其中一个正交矩阵作为权重矩阵。

import torch
import torch.nn as nn
import torch.nn.init as initclass Net(nn.Module):def __init__(self):super(Net, self).__init__()self.fc1 = nn.Linear(10, 20)self.fc2 = nn.Linear(20, 10)def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 初始化网络
net = Net()# 应用正交初始化
def orthogonal_init(module):if isinstance(module, nn.Linear):init.orthogonal_(module.weight)if module.bias is not None:init.zeros_(module.bias)net.apply(orthogonal_init)

神经网络的初始化方式都有哪些？

一、概念

二、类型

1、随机初始化

2、Xaiver初始化

3、He初始化

4、正交初始化

相关文章：

神经网络的初始化方式都有哪些？

const成员函数

物理知识1——电流

车载通信架构 --- 智能汽车通信前沿技术

Flutter中添加全局防护水印的实现

BGP（Border Gateway Protocol）路由收集器

【DAGMM】直接跑tip

vscode中调用deepseek实现AI辅助编程

AI大模型语音识别转文字

可由（5V）单片机直接驱动的模块

vue使用树形结构展示文件和文件夹

PHP框架+gatewayworker实现在线1对1聊天--聊天界面布局+创建websocket连接（5）

LinuxUbuntu打开VSCode白屏解决方案

在 ESP 上运行 AWTK

硬件工程师面试题 21-30

开源架构的容器化部署优化版

Qt使用CMake编译项目时报错：#undefined reference to `vtable for MainView‘

python学习笔记—12—

==和===的区别，被坑的一天

基于 GPUTasker 的 GPU 使用情况钉钉推送机器人实现

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

Java 语言特性(面试系列2)

论文解读：交大港大上海AI Lab开源论文 | 宇树机器人多姿态起立控制强化学习框架（二）

云启出海，智联未来｜阿里云网络「企业出海」系列客户沙龙上海站圆满落地

STM32+rt-thread判断是否联网

服务器硬防的应用场景都有哪些？

selenium学习实战【Python爬虫】

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

云原生玩法三问：构建自定义开发环境

在Ubuntu24上采用Wine打开SourceInsight