当前位置: 首页 > news >正文

神经网络的初始化方式都有哪些?

一、概念

        神经网络的初始化是深度学习中的一个关键步骤,它指的是在训练开始前为神经网络的权重和偏置设置初始值。合适的初始化方法可以加速模型的收敛,提高训练效果,甚至影响模型的最终性能。当然,目前我们使用Torch、TensorFlow等深度学习库进行建模的过程中,这些第三方库已经默认为我们选择了初始化的方式来设置神经网络的权重和偏置(不同神经网络有不同的默认方法),从而使得很多人往往都会忽略初始化竟然还能玩花样。

二、类型

1、随机初始化

        随机初始化是神经网络中常用的一种权重初始化方法,其基本思想是在训练开始前为网络的权重和偏置赋予随机值。随机初始化有助于打破网络的对称性,使得不同的神经元可以学习不同的特征,从而避免神经元之间冗余。随机初始化方法一般是从某个概率分布中随机抽取权重值,常见的分布有:

  • 均匀分布(Uniform Distribution):权重从一个均匀分布中随机抽取,通常范围是[−a,a],其中 a 是一个较小的正数,可以根据网络的具体需求来设置。
  • 正态分布(Normal Distribution):权重从一个正态分布(高斯分布)中随机抽取,均值为0,标准差为 σ,而标准差控制了权重值的分散程度。
import torch
import torch.nn as nn# 定义一个简单的神经网络
class SimpleNet(nn.Module):def __init__(self):super(SimpleNet, self).__init__()self.fc1 = nn.Linear(10, 50)self.fc2 = nn.Linear(50, 1)# 初始化网络
net = SimpleNet()# 应用随机初始化
def init_weights(m):if type(m) == nn.Linear:# 均匀分布初始化nn.init.uniform_(m.weight, -0.1, 0.1)# 正态分布初始化# nn.init.normal_(m.weight, mean=0.0, std=0.01)# 初始化偏置为0nn.init.zeros_(m.bias)# 遍历网络中的所有模块并应用初始化
net.apply(init_weights)

2、Xaiver初始化

        Xavier初始化,也称为Glorot初始化,由Xavier Glorot提出,目的是解决在深度神经网络中随机初始化可能导致的梯度消失或梯度爆炸问题。Xavier初始化的基本思想是保持每一层输出的方差与输入的方差一致,以防止信号在深度网络中的传播过程中出现衰减或放大。

        Xavier初始化考虑了前一层的节点数(n_{in})和当前层的节点数(n_{out})。权重的初始化范围是- \sqrt{\frac{6}{n_{in}+n_{out}}}\sqrt{\frac{6}{n_{in}+n_{out}}},这个范围确保了权重既不会太小也不会太大,从而避免了梯度消失或爆炸的问题。这个公式是基于保持激活值方差的稳定性来推导的,使得每层的输出值(激活值)保持高斯分布。尽管Xavier初始化在很多情况下都非常有效,但它假设激活函数是线性的(因此更适合sigmoid或者tanh之类的激活函数),这在实际中并不总是成立。例如,在ReLU激活函数的网络中,Xavier初始化可能不是最优的选择,因此出现了He初始化作为替代。

import torch
import torch.nn as nn
import torch.nn.init as init# 定义一个简单的神经网络
class SimpleNet(nn.Module):def __init__(self):super(SimpleNet, self).__init__()self.fc1 = nn.Linear(10, 50)  # 输入层到隐藏层self.fc2 = nn.Linear(50, 1)  # 隐藏层到输出层def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 初始化网络
net = SimpleNet()# 使用Xavier均匀分布初始化
init.xavier_uniform_(net.fc1.weight)
init.xavier_uniform_(net.fc2.weight)# 或者使用Xavier正态分布初始化
init.xavier_normal_(net.fc1.weight)
init.xavier_normal_(net.fc2.weight)# 打印初始化后的权重
print(net.fc1.weight)
print(net.fc2.weight)

3、He初始化

        He初始化(也称为Kaiming初始化,由何凯明提出)是一种专门为ReLU激活函数设计的权重初始化方法。He初始化的目的是为了解决在使用ReLU激活函数的深度神经网络中出现的梯度消失或爆炸问题。它通过合理设置权重的初始值,使得在网络的前向传播和反向传播过程中,激活值和梯度的方差保持相对稳定。

        He初始化基于以下原理:在ReLU激活函数下,权重应该按照均值为0的正态分布进行初始化,其标准差为\sqrt{\frac{2}{n_{in}}}​​,其中n_{in}是前一层的节点数。这样做的目的是为了保持每层激活值的方差大致相同,从而避免梯度消失或爆炸。

import torch
import torch.nn as nn
import torch.nn.init as initclass SimpleNet(nn.Module):def __init__(self):super(SimpleNet, self).__init__()self.fc1 = nn.Linear(10, 50)  # 输入层到隐藏层self.fc2 = nn.Linear(50, 1)  # 隐藏层到输出层def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 初始化网络
net = SimpleNet()# 使用He初始化
init.kaiming_normal_(net.fc1.weight, mode='fan_in', nonlinearity='relu')
init.kaiming_normal_(net.fc2.weight, mode='fan_in', nonlinearity='relu')# 打印初始化后的权重
print(net.fc1.weight)
print(net.fc2.weight)

4、正交初始化

        正交初始化(Orthogonal Initialization)核心目标是使权重矩阵正交化。这种方法通过确保权重矩阵的每一列变成单位向量,并且每个列向量与其他列向量垂直,从而减少神经网络中的冗余性和过拟合,提高网络的泛化能力和性能。

        正交初始化基于保持向量长度和角度的数学性质,通过正交化权重矩阵来减少神经网络中的冗余性和过拟合。具体来说,正交初始化的过程可以分为以下几个步骤:

  • 高斯分布初始化:首先,使用均值为0、方差为1的高斯分布随机生成权重矩阵中的每个元素的初始值。
  • QR分解:然后,对初始权重矩阵进行QR分解或SVD分解,得到两个正交矩阵。
  • 选择正交矩阵:最后,选择其中一个正交矩阵作为权重矩阵。
import torch
import torch.nn as nn
import torch.nn.init as initclass Net(nn.Module):def __init__(self):super(Net, self).__init__()self.fc1 = nn.Linear(10, 20)self.fc2 = nn.Linear(20, 10)def forward(self, x):x = torch.relu(self.fc1(x))x = self.fc2(x)return x# 初始化网络
net = Net()# 应用正交初始化
def orthogonal_init(module):if isinstance(module, nn.Linear):init.orthogonal_(module.weight)if module.bias is not None:init.zeros_(module.bias)net.apply(orthogonal_init)

相关文章:

神经网络的初始化方式都有哪些?

一、概念 神经网络的初始化是深度学习中的一个关键步骤,它指的是在训练开始前为神经网络的权重和偏置设置初始值。合适的初始化方法可以加速模型的收敛,提高训练效果,甚至影响模型的最终性能。当然,目前我们使用Torch、TensorFlow…...

const成员函数

在c中经常看到这样的声明: class A{ ... int fun1() const; //const成员函数 int fun2() const; //const成员函数private: int a; //属于状态 static int b; //不属于状态,属于类 } 这个const关键字声明了这个函数是const成员函数,con…...

物理知识1——电流

说起电流,应该从电荷说起,而说起电荷,应该从原子说起。 1 原子及其结构 常见的物质是由分子构成的,而分子又是由原子构成的,有的分子是由多个原子构成,有的分子只由一个原子构成。而原子的构成如图1所示。…...

车载通信架构 --- 智能汽车通信前沿技术

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所谓鸡汤,要么蛊惑你认命,要么怂恿你拼命,但都是回避问题的根源,以现象替代逻辑,以情绪代替思考,把消极接受现实的懦弱,伪装成乐观面对不幸的…...

Flutter中添加全局防护水印的实现

随着版权意识的加强,越来越多的应用开始在应用内部增加各种各样的水印信息,防止核心信息泄露,便于朔源。 效果如下: 在Flutter中增加全局水印的方式,目前有两种实现。 方案一,在native层添加一个遮罩层&a…...

BGP(Border Gateway Protocol)路由收集器

全球 BGP(边界网关协议)路由收集器的分布情况以及相关数据。以下是主要的信息解读: 地图标记: 每个绿色点代表一个路由收集器的位置。路由收集器分布在全球不同的地区,覆盖了五大区域: ARIN(美…...

【DAGMM】直接跑tip

1.from sklearn.externals import joblib 版本高 joblib没有 直接pip install joblib&#xff0c;然后 import joblib 2.AttributeError: module ‘tensorflow’ has no attribute ‘set_random_seed’ # tf.set_random_seed(args.seed)#tf<2.0 tf.random.set_seed(args.s…...

vscode中调用deepseek实现AI辅助编程

来自 Python大数据分析 费弗里 1 简介 大家好我是费老师&#xff0c;最近国产大模型Deepseek v3新版本凭借其优秀的模型推理能力&#xff0c;讨论度非常之高&#x1f525;&#xff0c;且其官网提供的相关大模型API接口服务价格一直走的“价格屠夫”路线&#xff0c;性价比很高…...

AI大模型语音识别转文字

提取音频 本项目作用在于将常见的会议录音文件、各种语种音频文件进行转录成相应的文字&#xff0c;也可从特定视频中提取对应音频进行转录成文字保存在本地。最原始的从所给网址下载对应视频和音频进行处理。下载ffmpeg(https://www.gyan.dev/ffmpeg/builds/packages/ffmpeg-…...

可由 (5V) 单片机直接驱动的模块

可由 &#xff08;5V&#xff09; 单片机 直接驱动的模块 1. 传感器类 元器件描述温度传感器DS18B20&#xff08;数字温度传感器&#xff09;光强传感器光敏电阻&#xff08;通过 ADC 读取&#xff09;红外传感器红外接收模块&#xff08;如 VS1838&#xff09;超声波传感器HC…...

vue使用树形结构展示文件和文件夹

1. 树形结构显示 显示文件夹和文件&#xff1a;使用 el-tree 组件展示树形结构&#xff0c;文件夹和文件的图标通过 el-icon 进行动态显示。文件夹使用 Folder 图标&#xff0c;文件使用 Files 图标。节点点击&#xff1a;点击树形节点后&#xff0c;会将选中的节点保存到 sel…...

PHP框架+gatewayworker实现在线1对1聊天--聊天界面布局+创建websocket连接(5)

文章目录 聊天界面布局html代码 创建websocket连接为什么要绑定&#xff1f; 聊天界面布局 在View/Index目录下创建index.html html代码 <div id"chat"><div id"nbar"><div class"pull-left">与牛德胜正在聊天...</div…...

LinuxUbuntu打开VSCode白屏解决方案

解决方法是 以root权限打开VSCode sudo /usr/share/code/code --no-sandbox --unity-launch...

在 ESP 上运行 AWTK

AWTK 基于 esp 的移植。 测试硬件平台为 ESP32-S3-Touch-LCD-4.3&#xff0c;其它平台请根据实际平台自行调整。 安装下载工具 建议下载离线版本 ESP IDF v5.3.2 下载代码 git clone https://github.com/zlgopen/awtk-esp.git cd awtk-esp git clone https://github.com/zlg…...

硬件工程师面试题 21-30

把常见的硬件面试题进行总结&#xff0c;方便及时巩固复习。其中包括网络上的资源、大佬们的大厂面试题&#xff0c;其中可能会题目类似&#xff0c;加强印象即可。 更多硬件面试题&#xff1a;硬件工程师面试题 1-10硬件工程师面试题 11-20 21、单片机最小系统需要什么&#x…...

开源架构的容器化部署优化版

上三篇文章推荐&#xff1a; 开源架构的微服务架构实践优化版&#xff08;New&#xff09; 开源架构中的数据库选择优化版&#xff08;New&#xff09; 开源架构学习指南&#xff1a;文档与资源的智慧锦囊&#xff08;New&#xff09; 我管理的社区推荐&#xff1a;【青云交社区…...

Qt使用CMake编译项目时报错:#undefined reference to `vtable for MainView‘

博主将.h文件和.cpp文件放到了不同的文件目录下面&#xff0c;如下图所示&#xff1a; 于是构建项目的时候就报错了#undefined reference to vtable for MainView&#xff0c;这个是由于src/view目录下的CMake无法自动moc头文件导致的&#xff0c;需要手动moc include/view目录…...

python学习笔记—12—

1. 布尔类型 (1) 定义 (2) 比较运算符 (3) 代码演示 1. 手动定义 bool_1 True bool_2 False print(f"bool_1的内容是&#xff1a;{bool_1}, 类型是&#xff1a;{type(bool_1)}") print(f"bool_2的内容是&#xff1a;{bool_2}, 类型是&#xff1a;{type(bool…...

==和===的区别,被坑的一天

在 JavaScript 中&#xff0c; 和 都用于比较两个值&#xff0c;但它们有一个重要的区别&#xff1a; 1. (宽松相等运算符) 进行比较时&#xff0c;会 自动类型转换&#xff08;也叫做强制类型转换&#xff09;&#xff0c;即如果比较的两个值的类型不同&#xff0c;JavaScr…...

基于 GPUTasker 的 GPU 使用情况钉钉推送机器人实现

引言 https://github.com/cnstark/gputasker 随着 AI 模型的广泛应用&#xff0c;GPU 成为团队中最重要的资源之一。然而&#xff0c;如何实时监控 GPU 的使用情况并及时通知团队是一个值得关注的问题。为了更好地管理显卡资源&#xff0c;本文基于 GPUTasker&#xff0c;实现了…...

如何保证 Session ID 的随机性和不可猜测性?

你的 Session ID 安全吗&#xff1f;—— 从可预测的“门禁卡”到安全的“加密钥匙”1. 引言&#xff1a;一张编号可以被猜到的门禁卡2. Session 与 Session ID&#xff1a;会话的“钥匙”3. 为什么 Session ID 必须随机且不可预测&#xff1f;4. 攻击详解&#xff1a;会话劫持…...

MaxENT模型结果美化不求人:手把手教你用MATLAB自定义ROC与Omission曲线样式(附配色方案)

MaxENT模型结果可视化进阶&#xff1a;MATLAB定制化ROC与Omission曲线全攻略 科研图表的美观程度直接影响论文的发表成功率。许多生态学研究者在使用MaxENT进行物种分布建模时&#xff0c;常对默认生成的HTML报告图表样式感到不满——单调的配色、缺乏细节的线条以及不符合期刊…...

2026长沙GEO优化公司权威实测:基于稳定性与转化效率的TOP5服务商深度推荐

2026长沙GEO优化公司权威实测&#xff1a;基于稳定性与转化效率的TOP5服务商深度推荐2026年&#xff0c;生成式AI搜索已深度重塑商业决策与品牌获客的路径。在全国GEO&#xff08;生成式引擎优化&#xff09;的版图中&#xff0c;长沙凭借活跃的数字经济生态与扎实的产业基础&a…...

Subtitle Edit:实现专业级字幕制作的7大创新方法指南

Subtitle Edit&#xff1a;实现专业级字幕制作的7大创新方法指南 【免费下载链接】subtitleedit the subtitle editor :) 项目地址: https://gitcode.com/gh_mirrors/su/subtitleedit 在视频内容创作与传播领域&#xff0c;字幕不仅是辅助理解的工具&#xff0c;更是提升…...

实战应用:基于快马平台开发一个具备节点测速功能的网络工具面板

最近在折腾服务器节点管理时&#xff0c;发现手动测试各个节点的延迟特别麻烦。正好看到InsCode(快马)平台这个在线开发环境&#xff0c;就尝试用它快速搭建了一个带测速功能的网络工具面板。整个过程比想象中简单很多&#xff0c;分享下具体实现思路。 项目构思 这个工具的核…...

别只知道微软和WPS!2026年这5款高效率办公软件,懂行的人都在用

日常办公里&#xff0c;我们几乎都离不开办公软件&#xff0c;不管是上班族写报告、做表格&#xff0c;还是学生党写论文整理资料&#xff0c;亦或是自由职业者处理各类文档&#xff0c;微软Office和WPS一直是大众默认的首选。然而&#xff0c;微软Office功能全面但软件体积大&…...

Windows DLL注入工具Xenos实战指南:问题解决与效能优化

Windows DLL注入工具Xenos实战指南&#xff1a;问题解决与效能优化 【免费下载链接】Xenos Windows dll injector 项目地址: https://gitcode.com/gh_mirrors/xe/Xenos 引言 在Windows系统开发与调试过程中&#xff0c;DLL注入技术扮演着重要角色&#xff0c;无论是插件…...

通过WireShark与WinHex从pcap数据流中提取并修复损坏的JPG图片

1. 从pcap文件中筛选JPG数据流 当你拿到一个网络抓包文件&#xff08;pcap格式&#xff09;&#xff0c;里面可能混杂着各种网络流量数据。要从中提取出图片文件&#xff0c;首先得学会用WireShark这个神器来筛选目标数据。我处理过不少类似的案例&#xff0c;发现很多新手容易…...

Event-B精化实战(三)——分布式文件传输协议的奇偶校验优化

1. 从数值比较到奇偶校验的逻辑跃迁 第一次看到用奇偶性替代数值比较的方案时&#xff0c;我正坐在实验室调试一个分布式存储系统。当时系统里两个节点的指针同步逻辑已经让状态机复杂得像团乱麻&#xff0c;直到偶然翻到Event-B的奇偶校验优化案例&#xff0c;才恍然大悟——原…...

CyberChef:数据处理的万能工具箱

CyberChef&#xff1a;数据处理的万能工具箱 【免费下载链接】CyberChef The Cyber Swiss Army Knife - a web app for encryption, encoding, compression and data analysis 项目地址: https://gitcode.com/GitHub_Trending/cy/CyberChef 数据处理的困境与破局之道 你…...