当前位置：首页 > news >正文

Dive into Deep Learning-优化算法(1)

news 2026/2/9 21:58:36

优化和深度学习的关系

优化是最小化损失函数，而深度学习的目标是在给定有限数据量的情况下寻找合适的模型，分别对应着训练误差和泛化误差；
需要注意过拟合；

优化面临的挑战（求解数值解）

局部最小值：当优化问题的数值解接近局部最优值的时候，目标函数解的梯度接近或者变为0，通过迭代获得的数值解可能仅使目标函数局部最优，而不是全局最优，一定程度的噪声会使参数跳出局部最小值，这是小批量随机梯度下降的有利特性之一，此时小批量上梯度的自然变化能够将参数从局部最小资中跳出；
鞍点：定义为梯度为0但是既不是全局最小值也不是局部最小值的点，尽管不是最小值，但是优化可能会停止，假设输入是k维向量，假设在0梯度处的Hessian矩阵的k个特征值均为正，此时局部最小值，均为负，为局部最大值，有正有负为鞍点；
梯度消失

凸性

凸集：对于任意的 $a,b\in X$ ，连接 $a, b$ 的线段也位于 $X$ ，则集合 $X$ 是凸集，数学化表示，对于任意 $\lambda\in[0,1]$ ，有 $\lambda a + (1-\lambda) b\in X$ ，例如实数集，两个凸集的交集也是凸集；
凸函数：对于所有 $x,x'\in X,\lambda\in [0,1]$ ，有 $\lambda f(x) + (1-\lambda)f(x') \geq f(\lambda x + (1-\lambda)x')$ ;
詹森不等式：凸性定义的推广 $\sum_i\alpha_if(x_i)\geq f(\sum_i\alpha_i x_i),\sum_i\alpha_i=1$ ;
凸函数的性质：凸函数的局部极小值是全局极小值

i. 特征值和特征向量， $Av=\lambda v$ ，其中 $v$ 是特征向量， $\lambda$ 是特征值；例如对于 $\begin{bmatrix} 2 & 1\\ 2 & 3\end{bmatrix}$ ，他的特征值是 $4, 1$ 对应的两个特征向量是 $\begin{bmatrix} 1\\ 2\end{bmatrix}$ 和 $\begin{bmatrix} 1 \\ -1\end{bmatrix}$
ii. 求解特征值和特征向量： $(A-\lambda I)v = 0$ ，所以 $(A-\lambda I)$ 不可逆，也就是 $det(A-\lambda I)= 0$ ，即可解得特征值
iii. 延续上面的例子，特征向量组成的矩阵 $W=\begin{bmatrix}1 & 1\\-1 & 2\end{bmatrix}$ ，特征值组成的矩阵 $\sum=\begin{bmatrix}1 & 0\\0 & 4\end{bmatrix}$ ，可得 $AW=W\sum$ ，而且 $W$ 是可逆的，所以等式两边同乘 $W^{-1}$ 得到 $A=W\sum W^{-1}$
iv. 一些良好的性质： $A^n = W\sum^n W^{-1}$ ，也就是对应一个矩阵的乘方进行特征值分解，只需要将特征值进行同样的n次方即可，此时n需要时正数；对于矩阵的求逆， $A^{-1}=W\sum^{-1}W^{-1}$ ，可以看到对矩阵的逆进行特征值分解，直接对特征值求逆即可；矩阵的行列式等于矩阵的特征值的乘积 $\lambda_1\cdots \lambda_n$ ；矩阵的秩等于非0特征值的个数；
v. https://d2l.ai/chapter_appendix-mathematics-for-deep-learning/eigendecomposition.html

Dive into Deep Learning-优化算法(1)

相关文章：

Dive into Deep Learning-优化算法(1)

Partisia Blockchain 生态首个zk跨链DEX现已上线

.NET操作 Access （MSAccess）

shell脚本，删除30天以前的日志，并将日志推送到nas，但运行出现/bin/bash^M。

现身说法暑期三下乡社会实践团一个好的投稿方法胜似千军万马

小程序账号设置以及request请求的封装

怎么解决端口被占用

JavaScript 循环方法详解

树莓派4b测量PM2.5

恒生电子，快手25届实习内推

蓝桥杯练习系统（算法训练）ALGO-949 勇士和地雷阵

腾讯安全客户端（电脑管家部门）一面

激励与关怀并行：员工工作动力倍增之道

软件系统安全设计规范（word原件）

做题速度太慢了，面不上

Vue 路由

docker-compose-itd和d

WordPress MasterStudy LMS插件 SQL注入漏洞复现(CVE-2024-1512)

初识Vue-组件通信（详解props和emit）

二叉树的前序、中序、后序遍历的C++实现

UE5 学习系列（二）用户操作界面及介绍

C++初阶-list的底层

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中，手势开发全攻略：

如何为服务器生成TLS证书

Psychopy音频的使用

selenium学习实战【Python爬虫】

企业如何增强终端安全？

10-Oracle 23 ai Vector Search 概述和参数

Spring是如何解决Bean的循环依赖：三级缓存机制

人工智能（大型语言模型 LLMs）对不同学科的影响以及由此产生的新学习方式