当前位置：首页 > news >正文

机器学习深度学习——数值稳定性和模型化参数（详细数学推导）

news 2025/7/7 9:35:39

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er
🌌上期文章：机器学习&&深度学习——Dropout
📚订阅专栏：机器学习&&深度学习
希望文章对你们有所帮助

这一部分包括了很多概率论和数学的知识，而书上的推导很少，这边会做个比较细致的讨论，数学基础不行就去补，不能拖，深入浅出的感觉是最让人感到心情愉悦的。

数值稳定性和模型初始化

梯度消失和梯度爆炸
- 梯度消失
- 梯度爆炸
让训练更加稳定
参数初始化
- 讨论（各种概率论思维推导）
- 默认初始化
- Xavier初始化

梯度消失和梯度爆炸

一个具有L层、输入x和输出o的深层网络。每一层l由f定义，变换的参数权重为W^(l)，其隐藏变量为h^(l)（令h⁽⁰⁾=x）。则我们的网络可以定义为：
$h^{(l)}=f_l(h^{(l-1)})因此o=f_L○...○f_1(x)$
若所有隐藏向量和输入都是向量，我们可以将o关于任何一组参数W^{(l)}的梯度写为：
$\partial_h(L-1)h^{(L)}·...·\partial_h(l)h^{(l+1)}\partial_w(l)h^{(l)}$
换言之，该梯度是一个L-l个矩阵M^(L)·…·M^(l+1)与梯度向量v^{l}的乘积。
这么多的乘积放在一起会出现严重的问题：可能会造成梯度的不稳定。要么是梯度爆炸：参数更新过大，破坏了模型的稳定收敛；要么是梯度消失：参数更新过小，在每次更新时几乎不会移动，导致模型无法学习。

梯度消失

sigmoid就是一个造成梯度消失的常见原因，我们可以绘制sigmoid函数以及它的导数函数观察：

import torch
from d2l import torch as d2lx = torch.arange(-8.0, 8.0, 0.1, requires_grad=True)
y = torch.sigmoid(x)
y.backward(gradient=torch.ones_like(x))  # 参与的参数是非标量的时候，就需要指定gradient为和x形状相同的全1向量（矩阵）d2l.plot(x.detach().numpy(), [y.detach().numpy(), x.grad.numpy()],legend=['sigmoid', 'gradient'], figsize=(4.5, 2.5))
d2l.plt.show()

在这里插入图片描述
如上图，当sigmoid函数的输入很大或者很小时梯度会消失。此外，当反向传播通过许多层时，除非函数的输入接近于0，否则整个成绩的梯度都可能会消失。因此，更稳定的ReLU系列函数已经成为从业者的默认选择（虽然在神经科学的角度看起来不太合理）。

梯度爆炸

梯度爆炸可能同样令人烦恼。为了更好地说明这一点，我们生成100个高斯随机矩阵，并将它们与某个初始矩阵相乘。对于我们选择的尺度（方差σ²=1），矩阵乘积发生爆炸。当这种情况是由于深度网络的初始化所导致时，我们没有机会让梯度下降优化器收敛。

import torchM = torch.normal(0, 1, size=(4, 4))
print('一个矩阵\n', M)
for i in range(100):M = torch.mm(M, torch.normal(0, 1, size=(4, 4)))print('乘以100个矩阵后\n', M)

一个矩阵
tensor([[ 2.2266, 0.1844, -0.1071, -0.7712],
[-0.1580, -0.3028, -0.9375, -0.2922],
[ 0.0616, -1.1593, 1.8516, 1.6285],
[ 0.2703, -0.5483, -0.6187, -1.2804]])
乘以100个矩阵后
tensor([[ 1.3260e+25, -6.2655e+25, 1.2841e+25, 1.5429e+25],
[ 1.5770e+24, -7.4518e+24, 1.5273e+24, 1.8351e+24],
[ 8.5330e+23, -4.0321e+24, 8.2638e+23, 9.9294e+23],
[ 5.7656e+24, -2.7244e+25, 5.5837e+24, 6.7091e+24]])

让训练更加稳定

而如何让我们的训练更加稳定呢？也就是要避免掉梯度消失和梯度爆炸问题。
目标：让梯度值在合理范围内，如[1e-6,1e3]
将乘法变加法：ResNet，LSTM
归一化：梯度归一化，梯度裁剪
合理的权重和激活函数（这是我们的重点）

参数初始化

减轻上面问题的一种方法就是进行参数初始化，优化期间的注意以及适当的正则化也可以使得训练更加的稳定。

讨论（各种概率论思维推导）

我们现在做一个假设：
（1）假设w都是独立同分布的，那么：
$E[w_{i,j}^t]=0，D[w_{i,j}^t]=γ_t^2$
（2）h^t-1独立于w^t（也就是层的权重与输入是无关的）
我们大胆假设此时没有激活函数，那么
$h^t=W^th^{t-1}，这里W^t∈R^{n_t×n_{t-1}}$
则容易推出：
$E[h_i^t]=E[\sum_jw_{i,j}^th_j^{t-1}]=\sum_jE[w_{i,j}]E[h_j^{t-1}]=0（独立同分布的推广）$
此时我们分别计算正向方差与反向方差，并且让他们都相同。

正向方差
$D[h_i^t]=E[(h_i^t)^2]-E[h_i^t]^2=E[(\sum_jw_{i,j}^th_j^{t-1})^2]（前面假设过独立同分布那么E[h_i^t]=0）\\ =E[\sum_j(w_{i,j}^t)^2(h_j^{t-1})^2+\sum_{j≠k}w_{i,j}^tw_{i,k}^th_j^{t-1}h_k^{t-1}]（这里就是(a+b+c+...)^2的计算方式）\\ 由于独立同分布，所以\sum_{j≠k}w_{i,j}^tw_{i,k}^th_j^{t-1}h_k^{t-1}=0，则\\ 上式=\sum_jE[(w_{i,j}^t)^2]E[(h_j^{t-1})^2]\\ =\sum_j(E[(w_{i,j}^t)^2]-E[w_{i,j}^t]^2)(E[(h_j^{t-1})^2]-E[h_j^{t-1}]^2)（构造出D）\\ =\sum_jD[w_{i,j}^t]D[h_j^{t-1}]=n_{t-1}γ_t^2D[h_j^{t-1}]$
我们让t层输入的反差与输出的方差都是相同的，那么可以推出：
$n_{t-1}γ_t^2=1（其中n_{t-1}代表第t层输入的规模）$
其他层也是同理的。

反向方差
而反向和正向的情况就类似了，可以这么推导：
$\frac{\partial l}{\partial h^{t-1}}=\frac{\partial l}{\partial h^t}W^t$
分别取转置，得：
$(\frac{\partial l}{\partial h^{t-1}})^T=(W^t)^T(\frac{\partial l}{\partial h^t})^T$
依旧假设：
$E[\frac{\partial l}{\partial h_i^{t-1}}]=0$
则
$D[\frac{\partial l}{\partial h_i^{t-1}}]=n_tγ_t^2D[\frac{\partial l}{\partial h_j^t}]$
这时我们可以推出：
$n_tγ_t^2=1（其中n_t代表第t层输出的规模）$
其他层也是同理的。

照着上面的方式推下去，我们最终整合起来的结论是
$n_{t-1}γ_t^2=1和n_tγ_t^2=1$
显然我们要满足上面的式子，当且仅当：
$n_{t-1}=n_t$
这并不容易满足，因为我们很难说对于一层中，我们的输入和输出的规模（神经元的数量）是相同的。
接下来就会谈到Xavier初始化，将会用另外一种方式来解决这一问题。

默认初始化

在前面的学习中，我们初始化权重值的方式都是使用正态分布来。而如果我们不指定初始化方法的话，框架会使用默认的随机初始化方法（比如Linear就会提供，具体原理可以自行去了解），简单问题用默认初始化还是很有效的。

Xavier初始化

回到之前的讨论，我们已知很难同时满足
$n_{t-1}γ_t^2=n_tγ_t^2=1$
我们推广到每一层，即为：
$n_{in}\sigma^2=n_{out}\sigma^2=1$
虽然难以满足输入和输出规模相同，但是我们可以先将两个式子相加并调整：
$\sigma^2(n_{in}+n_{out})/2=1→\sigma=\sqrt\frac{2}{(n_{in}+n_{out})}$
对于上面的式子，我们就可以有两种采样方式：
（1）Xavier初始化从均值为0，方差为
$\sigma^2=\frac{2}{n_{in}+n_{out}}$
的高斯分布中采样权重，即为
$正态分布N(0,\sqrt\frac{2}{n_{in}+n_{out}})$
（2）从均匀分布从抽取权重时的方差，我们先注意一个定理：
$均匀分布U(-a,a)的方差为\frac{a^2}{3}$
此时我们将其带入到σ²的条件中，将得到初始化值域：
$均匀分布U(-\sqrt\frac{6}{n_{in}+n_{out}},\sqrt\frac{6}{n_{in}+n_{out}})$

机器学习深度学习——数值稳定性和模型化参数（详细数学推导）

👨‍🎓作者简介：一位即将上大四，正专攻机器学习的保研er 🌌上期文章：机器学习&&深度学习——Dropout 📚订阅专栏：机器学习&&深度学习希望文章对你们有所帮助这一部…...

编程日记 2023/8/6 19:46:43

layui 整合UEditor 百度编辑器

layui 整合UEditor 百度编辑器第一步：下载百度编辑器并配置好路径百度编辑器下载地址：http://fex.baidu.com/ueditor/ 第二步：引入百度编辑器代码如下： <div class"layui-form-item layui-form-text"><…...

编程日记 2023/8/6 19:45:42

1、sparkStreaming概述

1、sparkStreaming概述 1.1 SparkStreaming是什么它是一个可扩展，高吞吐具有容错性的流式计算框架吞吐量：单位时间内成功传输数据的数量之前我们接触的spark-core和spark-sql都是处理属于离线批处理任务，数据一般都是在固定位置上&…...

编程日记 2023/8/6 19:44:41

【Spring Boot】Spring Boot 集成 RocketMQ 实现简单的消息发送和消费

文章目录前言基本概念消息和主题相关发送普通消息发送顺序消息RocketMQTemplate的API介绍参考资料： 前言本文主要有以下内容： 简单消息的发送顺序消息的发送RocketMQTemplate的API介绍环境搭建： RocketMQ的安装教程：在官网…...

编程日记 2023/8/6 19:43:40

uniapp：图片验证码检验问题处理

图形验证码功能实现 uniapp：解决图形验证码问题及利用arraybuffer二进制转base64格式图片（后端传的图片数据形式：x00\x10JFIF\x00\x01\x02\x00…）_❆VE❆的博客-CSDN博客 UI稿： 需求：向后端请求验证码图片&…...

编程日记 2023/8/6 19:42:39

将Visio和Excel导出成没有白边的PDF文件

1、VISIO如何无白边导出pdf格式在使用Latex时，要导入矢量图eps格式。但是VISIO无法输出eps格式，这就需要将其导出为pdf。但是导出pdf时，往往会有大量的白边。VISIO无白边导出pdf格式的方法如下： 1.文件——开发工具——显示sha…...

编程日记 2023/8/6 19:41:37

String类及其工具类

一、String类 1.字符串对象 String str new String("hello");String对象是final修饰的，不可修改的，修改后的字符串对象是另外一个对象，只是修改了引用地址。每次创建都会创建一个新的对象。 2. 字面量 String s "hello&…...

编程日记 2023/8/6 19:40:36

踩坑（5）整合kafka 报错 java.net.UnknownHostException: 不知道这样的主机

java.net.UnknownHostException: 不知道这样的主机。 (5c0c3c629db9)at java.base/java.net.Inet6AddressImpl.lookupAllHostAddr(Native Method) ~[na:na]at java.base/java.net.InetAddress$PlatformNameService.lookupAllHostAddr(InetAddress.java:933) ~[na:na]at java.ba…...

编程日记 2023/8/6 19:39:34

rust持续学习 get_or_insert_with

通常使用一个值 if(xnull)xsome_valid_value 忽然今天看见一段代码 pub fn get_id() -> u64 { let mut res struct.data.borrow_mut(); *res.get_or_insert_with(||{let mut xx ...... some logiclet id xx.id; id}); }感觉这个名字蛮奇怪的 insert 然后翻了一下代码&a…...

编程日记 2023/8/6 19:38:32

卡尔曼滤波 | Matlab实现无迹kalman滤波仿真

文章目录效果一览文章概述研究内容程序设计参考资料效果一览文章概述卡尔曼滤波 | Matlab实现无迹kalman滤波仿真研究内容无迹kalman滤波（UKF）不是采用的将非线性函数线性化的做法。无迹kalman仍然采用的是线性kalman滤波的架构，对于一步预测方程，使用无迹变换（UT）来…...

编程日记 2023/8/6 19:37:30

C++---list常用接口和模拟实现

list---模拟实现 list的简介list函数的使用构造函数迭代器的使用list的capacitylist element accesslist modifiers list的模拟实现构造函数，拷贝构造函数和迭代器begin和endinsert和eraseclear和析构函数源码 list的简介 list是用双向带头联表实现的一个容器&…...

编程日记 2023/8/6 19:36:28

[openCV]基于赛道追踪的智能车巡线方案V1

import cv2 as cv import os import numpy as npimport time# 遍历文件夹函数 def getFileList(dir, Filelist, extNone):"""获取文件夹及其子文件夹中文件列表输入 dir：文件夹根目录输入 ext: 扩展名返回： 文件路径列表""&quo…...

编程日记 2023/8/6 19:35:27

SpringIoc-个人学习笔记

Spring的Ioc、DI、AOP思想 Ioc Ioc思想：Inversion of Control，控制反转，在创建Bean的权利反转给第三方 DI DI思想：Dependency Injection，依赖注入，强调Bean之间的关系，这种关系由第三方负责去设…...

编程日记 2023/8/6 19:34:25

【一文搞懂泛型】

3.3泛型 3.3.1泛型出现的背景泛型出现的背景有两点： 第一点是在集合容器中，如果没有指定对应类型的话，那么底层的元素就是object，要对容器中的元素进行存取的时候，取出来的同时需要进行类型转换，如果有…...

编程日记 2023/8/6 19:33:23

概念解析 | 利用MIMO雷达技术实现高性能目标检测的关键技术解析

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:MIMO雷达目标检测技术参考资料：何子述, 程子扬, 李军, 等. 集中式 MIMO 雷达研究综述[J]. 雷达学报, 2022, 11(5): 805-829. 利用MIMO雷达技术实现高性能目标检测的关键技术解…...

编程日记 2023/8/6 19:32:22

Grafana制作图表-自定义Flink监控图表

简要有时候我们在官网的Grafana下载的图表是这样的，如下图 #算子的处理时间，就是处理数据的延迟数据抓取，这个的说明看下下面的文章 metrics.latency.interval: 60 metrics.reporter.promgateway.class: org.apache.flink.metrics.prometh…...

编程日记 2023/8/6 19:31:20

【TypeScript】初识TypeScript和变量类型介绍

TypeScript 1，TypeScript是什么?2，类型的缺失带来的影响3，Ts搭建环境-本博主有专门的文章专说明这个4，使用tsc对ts文件进行编译5，TS运行初体验简化Ts运行步骤解决方案1解决方案2（常见） 开始学习…...

编程日记 2023/8/6 19:30:18

阿里云瑶池 PolarDB 开源官网焕新升级上线

导读近日，阿里云开源云原生数据库 PolarDB 官方网站全新升级上线。作为 PolarDB 开源项目与开发者、生态伙伴、用户沟通的平台，将以开放、共享、促进交流为宗旨，打造开放多元的环境，以实现共享共赢的目标。立即体验全新官网&…...

编程日记 2023/8/6 19:29:13

泡水书为什么不能再出售

近日，京津冀持续强降雨，多家出版机构位于涿州等地的图书库房受到影响。中图网11日发文称，其位于涿州的仓储中心被洪水淹了，一库房有400多万册的书籍。网友纷纷在文章下暖心留言：注意人身安全，泡水的书也…...

编程日记 2023/8/6 19:28:11

Mac 执行 .sh命令报错 command not found

使用终端执行.sh命令，可输入： ./FileName.sh如果提示 Permission denied 权限不足，可增加sudo，命令如下： sudo ./FileName.sh如果提示 command not found 可以这样: chmod ux *.sh sudo ./FileName.sh...

编程日记 2023/8/6 19:27:10

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API，用于在函数组件中使用 state 和其他 React 特性（例如生命周期方法、context 等）。Hooks 通过简洁的函数接口，解决了状态与 UI 的高度解耦，通过函数式编程范式实现更灵活 Rea…...

编程新知 2025/7/7 6:59:35

Python爬虫实战：研究MechanicalSoup库相关技术

一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库，专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力，提供了直观的 API，让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...

编程新知 2025/6/21 11:59:52

VB.net复制Ntag213卡写入UID

本示例使用的发卡器：https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...

编程新知 2025/7/4 3:16:01

【WiFi帧结构】

文章目录帧结构MAC头部管理帧帧结构 Wi-Fi的帧分为三部分组成：MAC头部frame bodyFCS，其中MAC是固定格式的，frame body是可变长度。 MAC头部有frame control，duration，address1，address2，addre…...

编程新知 2025/7/5 22:21:56

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/6/21 0:42:19

线程同步：确保多线程程序的安全与高效！

全文目录： 开篇语前序前言第一部分：线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案第二部分：synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块第三部分&#xff…...

编程新知 2025/6/17 15:52:48

MySQL账号权限管理指南：安全创建账户与精细授权技巧

在MySQL数据库管理中，合理创建用户账号并分配精确权限是保障数据安全的核心环节。直接使用root账号进行所有操作不仅危险且难以审计操作行为。今天我们来全面解析MySQL账号创建与权限分配的专业方法。一、为何需要创建独立账号？ 最小权限原则&#xf…...

编程新知 2025/6/21 13:00:47

网站指纹识别

网站指纹识别网站的最基本组成：服务器（操作系统）、中间件（web容器）、脚本语言、数据厍为什么要了解这些？举个例子：发现了一个文件读取漏洞，我们需要读/etc/passwd，如…...

编程新知 2025/7/4 11:46:51

git: early EOF

macOS报错： Initialized empty Git repository in /usr/local/Homebrew/Library/Taps/homebrew/homebrew-core/.git/ remote: Enumerating objects: 2691797, done. remote: Counting objects: 100% (1760/1760), done. remote: Compressing objects: 100% (636/636…...

编程新知 2025/7/6 14:39:04

Elastic 获得 AWS 教育 ISV 合作伙伴资质，进一步增强教育解决方案产品组合

作者：来自 Elastic Udayasimha Theepireddy (Uday), Brian Bergholm, Marianna Jonsdottir 通过搜索 AI 和云创新推动教育领域的数字化转型。我们非常高兴地宣布，Elastic 已获得 AWS 教育 ISV 合作伙伴资质。这一重要认证表明，Elastic 作为 …...

编程新知 2025/7/4 23:22:40