当前位置：首页 > news >正文

机器学习-New Optimization

news 2025/7/8 0:38:17

机器学习(New Optimization)

前言：
学习资料

video	ppt	blog

下面的PPT里面有一些符号错误，但是我还是按照PPT的内容编写公式，自己直到符号表示什么含义就好了

Notation

符号	解释
$\theta_t$	第 t 步时，模型的参数
$\Delta L(\theta)$ or $g_t$	模型参数为 $\theta_t$ 时，对应的梯度，用于计算 $\theta_{t+1}$
$m_{t+1}$	从第 0 步到第 t 步累计的momentum，用于计算 $\theta_{t+1}$

Notation

On-line VS Off-line

On-line：每次参数更新，只给一对 ( $x_t$ , $y_t$ )
Off-line：每次更新参数，考虑所有的训练资料

常用优化算法

intention:

Find a 𝜃 to get the lowest $\sum_x L(\theta; x)$ !!
Or, Find a 𝜃 to get the lowest $L(\theta)$ !!

1. 随机梯度下降法（SGD，Stochastic gradient descent）

算法思想：少量多次

GD算法进行梯度更新的时候，一般都使所有数据训练完成以后才进行一次更新，每一次都是对参数进行一大步的更新
SGD算法每次选取其中的一个样本进行梯度的计算，然后再进行参数的更新，每一次都是对参数进行一小步的更新

注意

SGD随机梯度下降本质是只取一个样本来计算梯度，避免了梯度下降用全部样本计算梯度的大量运算，而在上面的代码里的loss.backward()会使用全部样本来计算梯度，可以去看看这个问答
先在的主流框架中所谓的SGD实际上都是Mini-batch Gradient Descent (MBGD，亦成为SGD）。对于含有N个训练样本的数据集，每次参数更新，仅依据一部分数据计算梯度。小批量梯度下降法既保证了训练速度，也保证了最后收敛的准确率。

图解：

2. SGD with Momentum (SGDM)

算法思想：在SGD的基础上，考虑前一次更新的梯度。

将前面的梯度考虑在内，防止出现局部最优解
Local Minimum，此时的gradient是0，但是不是全局最优解，如果我们考虑前面的梯度的history，那么他会继续优化前进，达到更好的效果

算法：

参数： $\theta^t$
梯度： $\Delta L(\theta^t)$
移动：
$v^0 = 0$
$v^{t+1} = \lambda v^t + \eta \Delta L(\theta^t)$

参数更新： $\theta^{t+1} = \theta^t + v^{t+1}$

Movement not just based on gradient, but previous movement
图解：

Why momentum?

Momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。这样一来，可以在一定程度上增加稳定性，从而学习地更快，并且还有一定摆脱局部最优的能力
防止局部最优解
在进入梯度为0的地方，并不会马上停下来，而因为gradient of previous 而继续前进

3. Adagrad

算法思想：根据所有的梯度自行调整学习率，使得模型在较短的时间内达到较好的收敛效果
算法：
$\theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{\sum_{i=0}^{t-1}(g_i)^2}} g_{t-1}$
优缺点：

优点：
自适应学习率，根据每个参数的历史梯度信息调整学习率，有助于更稳定地收敛。
不需要手动调整学习率，适应不同参数的更新频率。
适用于稀疏数据，对出现频率较低的参数使用较大的学习率。

缺点：
学习率逐渐减小可能导致学习率过小，使得模型停止学习或更新过于缓慢。
对非凸优化问题可能表现不佳，难以跳出局部最小值。
内存开销较大，对大规模模型和数据集可能不适用。

图解：

4. RMSProp（Root Mean Square Propagation）

算法思想：实现学习率的自动更新

用微分平方移动加权平均解决了vt一直增大，防止在t很大以后，系数太小，无法走出去的问题。vt如果是前t个gradient的平方和，分母会永无止境的增加。
与Adagrad一致，但解决了Adagrad的缺点

算法：

$v_1 = g_0^2$
$v_t = \alpha v_{t-1} + (1 - \alpha)g_{t-1}^2$
$\theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{v_t}}g_{t-1}$
$\alpha$ ：衰减因子（一般取值较接近1，如0.9）

优缺点：

优点：
自适应学习率，可以在训练过程中调整学习率，有助于稳定收敛。
解决Adagrad的学习率衰减问题，避免学习率过小导致停止学习。
在非凸优化问题中表现良好，有助于跳出局部最小值。
适用于大规模模型和数据集，内存开销较小。

缺点：
学习率仍可能衰减过快，导致收敛较慢。
对于不同问题，对超参数敏感，需要调参。
不适用于稀疏数据。

图解：

5. Adam（Adaptive Moment Estimation）

算法思想：将SGDM与RMSProp合在一起使用
算法：

$m_t = \beta_1m_{t-1} + (1 - \beta_1)g_t \qquad(1)$
$v_t = \beta_2v_{t-1} + (1 - \beta_2)g_t^2 \qquad(2)$
$\widehat{m}_t = \frac{m_t}{1 - \beta_1^t} \qquad(3)$
$\widehat{v}_t = \frac{v_t}{1 - \beta_2^t} \qquad(4)$
$\theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{\widehat{v}_t + \varepsilon}}\widehat{m}_t \qquad(5)$

注解：

公式(1)取自SGDM算法，保留了Momentum即动量，它模拟的是物体运动时的惯性，即更新的时候在一定程度上保留之前更新的方向，同时利用当前batch的梯度微调最终的更新方向。
$m_t$ 是本次的Momentum
$m_{t-1}$ 是上一次的Momentum
$g_t$ 是本次的梯度
$\beta_1$ 是超参数，默认为0.9。通过修改这个参数实现前面动量对后面动向的影响。
$\beta_1$ 看起感觉只考虑了0.1的本次梯度，考虑了0.9的历史梯度，但本次梯度会在下次更新时被考虑进来。

公式(2)取自RMSProp算法， $\beta_2$ 是超参数，默认0.999。
公式(3)和(4)是分别对 $m_t$ 和 $v_t$ 进行了放大，而且是放大得越来越少。
注意:Adam算法中的矩变量（一阶矩估计m和二阶矩估计v）在训练的初期可能会有偏差。这是因为在初始时，这些变量会被初始化为零，导致它们在训练初期偏向于较小的值。

公式(5)是我们最后更新的公式，分母加入 $\varepsilon$ 是为了防止分母为0，一般很小，默认 $10^{-8}$ .
矩：通过这种方式，Adam算法能够更快地收敛并避免陷入局部最小值。
一阶矩变量m类似于动量的作用，有助于平滑梯度更新方向；
二阶矩变量v类似于RMSProp的作用，对历史梯度平方进行衰减，适应不同参数的更新频率。

优缺点：

优点：
自适应学习率，稳定收敛，适应不同参数的更新频率。
综合了动量和自适应学习率，高效优化模型参数。
适用于稀疏数据和大规模模型，内存开销较小。

缺点：
对非平稳目标函数可能不稳定。
对超参数敏感，需要调参。

图解：

6. AMSGrad（Adaptive Moment Estimation with Slower Learning Rates）

算法思想：与Adam算法基本一样（Adam算法的优化）
调整：二阶矩变量（自适应学习率）
$\widehat{v}_t = max(\widehat{v}_{t-1},v_t)$
在对二阶矩变量进行纠正之前，先与前一次纠正后的二阶矩变量进行大小比较，直接赋值给纠正后的二阶矩变量，然后在对纠正后的二阶矩变量再进行纠正
算法：

$m_t = \beta_1m_{t-1} + (1 - \beta_1)g_t \qquad(1)$
$v_t = \beta_2v_{t-1} + (1 - \beta_2)g_t^2 \qquad(2)$
$\widehat{v}_t = max(\widehat{v}_{t-1},v_t) \qquad(3)$
$\widehat{m}_t = \frac{m_t}{1 - \beta_1^t} \qquad(4)$
$\widehat{v}_t = \frac{\widehat{v}_t}{1 - \beta_2^t} \qquad(5)$
$\theta_t = \theta_{t-1} - \frac{\eta}{\sqrt{\widehat{v}_t + \varepsilon}}\widehat{m}_t \qquad(6)$

优缺点：

优点：
防止学习率过大，更稳定地收敛。
适用于不同问题，在某些复杂的优化问题中表现优于Adam算法。

缺点：
需要额外的存储开销，可能增加内存需求。
需要调参，同样需要调节学习率和衰减因子等超参数。

7. SWATS（Simply combine Adam with SGDM）

算法思想：将Adam算法和SGDM（随机梯度下降法与动量）算法简单地结合在一起的优化算法。

在SGDM中，动量被用来加速优化过程，通过将上一次的更新的一部分加到当前的更新中，帮助算法在某个方向上“保持运动”，从而加快收敛速度。
Adam算法结合了自适应学习率和动量的优点。它根据历史梯度信息为每个参数自适应地调整学习率，从而在不同场景下实现更高效的优化。
在SWATS算法中，主要思想是同时使用Adam的自适应学习率和SGDM的动量。通过这样做，算法可以充分利用Adam对每个参数使用不同学习率的能力，以及SGDM的加速特性。

8. RAdam（Rectified Adam）

算法思想：
算法：

初始化：设置学习率 $\alpha$ ，一阶矩估计的衰减因子 $\beta_1$ 和二阶矩估计的衰减因子 $\beta_2$ ，并初始化一阶矩变量 $m$ 和二阶矩变量 $v$ 。
计算梯度：计算当前迭代的梯度 $g_t = \nabla_{\theta} L(\theta)$ 。
更新一阶矩变量：计算一阶矩估计 $m_t = \beta_1 m_{t-1} + (1 - \beta_1) g_t$ 。
更新二阶矩变量：计算二阶矩估计 $v_t = \beta_2 v_{t-1} + (1 - \beta_2) g_t^2$ 。
计算修正后的一阶矩估计：计算修正后的一阶矩估计 $\widehat m_t = \frac{m_t}{1 - \beta_1^t}$ 。
计算修正项 $\rho$ ：计算 $\rho = \sqrt{\frac{(2 - \beta_2^t)}{(1 - \beta_2^t)}}$ 。
计算修正后的学习率：计算修正后的学习率 $lr_t = \alpha \rho$ 。
计算RAdam更新量：如果 $\widehat v_t = \max(\widehat v_{t-1}, v_t)$ ，则 $r_t = \frac{lr_t \widehat m_t}{\sqrt{\widehat v_t} + \epsilon}$ ，否则 $r_t = \frac{lr_t m_t}{\sqrt{v_t} + \epsilon}$ 。
更新参数： $\theta_t = \theta_{t-1} - r_t$ 。

优缺点：

优点：
稳定性改进：修正学习率在训练初期的偏差，提高了算法的稳定性，更容易收敛。
自适应学习率：无需手动调节学习率，算法能够自适应地调整学习率。
高效：在大规模模型和数据集上具有较快的收敛速度。

缺点：
适用性限制：对于某些问题可能不如其他优化算法效果好。
需要额外存储开销：算法需要额外存储梯度平方估计的历史信息，增加一些内存开销。
需要调参：虽然不需手动调节学习率，但仍需调节其他超参数以获得最佳性能。

机器学习-New Optimization

机器学习(New Optimization) 前言： 学习资料 videopptblog 下面的PPT里面有一些符号错误，但是我还是按照PPT的内容编写公式，自己直到符号表示什么含义就好了 Notation 符号解释 θ t \theta_t θt第 t 步时，模型的参数 Δ L …...

编程日记 2023/8/2 12:34:14

3d虚拟vr汽车实景展厅吸引更多潜在消费者

随着人们对生活品质的追求，越来越多的消费者开始关注汽车的外观设计、内饰配置等方面。传统的展示方式已经不能满足消费者的需求，车辆VR虚拟漫游展示应运而生。借助VR虚拟现实和web3d开发建模技术，对汽车的外观、造型及信息数据进行数字化处理…...

编程日记 2023/8/2 12:33:13

Java里的static import使用小结

Java里的static import使用小结换了工作要把Java重新捡起来了，这个在大学里用过的语言，虽然不复杂，还是有一些奇怪的地方的。比如static Slgluimport。 Static import是JDK 1.5中引进的特性，不过读大学那会还真没注意到。它的作…...

编程日记 2023/8/2 12:32:12

go程序使用tcp短连接报：only one usage of each socket address

环境及现象 Win10上位机（C#,WPF）后台使用go作为服务。连接情况 C#连接大概60个TCP长连接（设备）。后台go服务连接60个UDP短连接（设备附属硬件）， 10个TCP短连接（PLC,modbus通讯&a…...

编程日记 2023/8/2 12:31:11

十分钟配置好Neovim go开发环境（其他语言一样）

文章目录前言仓库地址用法快捷键问题反馈前言这篇文章的目的是为了分享下我自己的Neovim配置。本人是Golang程序员，最开始使用的IDE是JetBrains Goland。有一说一这个ide适配度很高，认识的很多人都使用这个。但是它也有几个对我来说的缺点&#xf…...

编程日记 2023/8/2 12:29:10

Linux第八章之进程概念

一、冯诺依曼体系结构关于冯诺依曼，必须强调几点： 这里的存储器指的是内存不考虑缓存情况，这里的CPU能且只能对内存进行读写，不能访问外设(输入或输出设备)外设(输入或输出设备)要输入或者输出数据，也只能写入内存或…...

编程日记 2023/8/2 12:28:09

怎么学习Java并发编程相关技术？ - 易智编译EaseEditing

学习Java并发编程可以通过多种方式进行，包括但不限于以下几种： 在线教程和学习平台： 网上有许多免费和付费的Java并发编程教程和学习平台，如Coursera、Udemy、edX、Codecademy等。这些平台提供结构化的课程和练习，适…...

编程日记 2023/8/2 12:27:07

vue3 +element动态表单实现

可以直接复制，接口看后端父页面 <schedulesref"schedulesRef":dxbz"props.dxbz":jdlx"props.jdlx":woId"myWoId":addendumList"formInline.addendumList"v-if"addendumShow"addendum"addendu…...

编程日记 2023/8/2 12:26:05

Linux部署jar包，隐藏命令行参数

Linux部署jar包，隐藏命令行参数一、背景需求二、查阅资料三、实现隐藏库3.1、测试test.c3.2、设置隐藏库3.3、验证四、应用jar启动命令五、直接应用结果最新项目安全检测，发现配置文件中数据库密码，redis密码仍处理明文状态于是整理了一篇…...

编程日记 2023/8/2 12:25:04

JDBC-笔记

JDBC 1. JDBC介绍 JDBC（Java Database Connectivity）是一种用于连接和操作数据库的 Java API。通过Java操作数据库的流程第一步：编写Java代码第二步：Java代码将SQL发送到MySQL服务端第三步：MySQL服务端接收到SQ…...

编程日记 2023/8/2 12:24:03

Rust的入门篇(中) 这是接上面一篇rust入门篇(上)文章 22. 包管理一 mod nation {pub mod government {pub fn govern() {}}mod congress {pub fn legislate() {}}mod court {fn judicial() {super::congress::legislate();}} }fn main() {nation::government::govern(); }23.…...

编程日记 2023/8/2 12:23:02

手机设置全局代理ip步骤

在互联网时代，隐私和安全问题备受关注。使用全局代理能够帮助我们保护个人信息，突破地理限制，并提高网络速度。但是，你是否对全局代理的安全性存有疑虑？而且，如何在手机上设置全局代理呢？今天就…...

编程日记 2023/8/2 12:21:59

spring boot+thymeleaf+semantic ui 分页

参考： https://my.oschina.net/ayyao/blog/898041 后端 springboot 使用： com.github.pagehelper.PageInfo，作为分页对象  <dependency><groupId>com.github.pagehelper</groupId><artifa…...

编程日记 2023/8/2 12:20:57

【JVM】（一）深入理解JVM运行时数据区

文章目录一、JVM 运行流程二、虚拟机栈（线程私有）三、本地方法栈 （线程私有）四、方法区（元数据区）五、堆（线程共享）六、程序计数器（线程私有） 一、JVM 运行流…...

编程日记 2023/8/2 12:19:57

C++ QRegExpValidator

//正在表达式限制输入 QString str "\\b(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\\b"; ui->lineEdit->setValidator(new QRegExpValidator(QRegExp(str))); //用于占位 ui->lineEdit->setI…...

编程日记 2023/8/2 12:18:55

备战秋招 | 笔试强训19

目录一、选择题二、编程题三、选择题题解四、编程题题解一、选择题 1、二分查找的时间复杂度（） A. O(N*log(N)) B. O(N) C. O(log(N)) D. O(N^2) 2、有一个单向链表中有一个A、B两个相邻元素，有一个指针p指向元素A，现将…...

编程日记 2023/8/2 12:17:54

第一章计算机网络概述

第一章计算机网络概述 1.1 计算机网络在信息时代的作用 1.2 因特网概述网络分类： 网络：许多计算机连接在一起的的局域网； 互联网：internet许多网络连接在一起； 因特网：Internet 全球最大的互联网&…...

编程日记 2023/8/2 12:16:53

谷粒商城第六天-商品服务之分类管理下的获取三级分类树形列表

目录一、总述 1.1 前端思路 1.2 后端思路二、前端部分 2.1 在网页中建好目录及菜单 2.1.1 建好商品目录 2.1.2 建好分类管理菜单编辑 2.2 编写组件 2.2.1 先完成组件文件的创建 2.2.2 编写组件 2.2.2.1 显示三级分类树形列表三、后端部分 3.1 编写商品分类…...

编程日记 2023/8/2 12:15:52

【UI自动化测试】Appium+Python+Unittest+HTMLRunner

简介获取AppPackage和AppActivity 定位UI控件的工具脚本结构 PageObject分层管理 HTMLTestRunner生成测试报告启动appium server服务以python文件模式执行脚本生成测试报告【B站最通俗易懂】Python接口自动化测试从入门到精通，超详细的进阶教程，看完…...

编程日记 2023/8/2 12:14:50

【限时优惠】红帽openstack管理课程(CL210) 即将开课

课程介绍通过实验室操作练习，学员将能够深入学习红帽企业 Linux OpenStack 平台各服务的手动安装方法，还将了解 OpenStack 开发社区的未来发展计划。培训地点： 线下面授：苏州市姑苏区干将东路666号401室； 远程…...

编程日记 2023/8/2 12:13:49

label-studio的使用教程(导入本地路径)

文章目录 1. 准备环境2. 脚本启动2.1 Windows2.2 Linux 3. 安装label-studio机器学习后端3.1 pip安装(推荐)3.2 GitHub仓库安装 4. 后端配置4.1 yolo环境4.2 引入后端模型4.3 修改脚本4.4 启动后端 5. 标注工程5.1 创建工程5.2 配置图片路径5.3 配置工程类型标签5.4 配置模型5.…...

编程新知 2025/7/7 6:42:33

【Redis技术进阶之路】「原理分析系列开篇」分析客户端和服务端网络诵信交互实现（服务端执行命令请求的过程 - 初始化服务器）

服务端执行命令请求的过程【专栏简介】【技术大纲】【专栏目标】【目标人群】1. Redis爱好者与社区成员2. 后端开发和系统架构师3. 计算机专业的本科生及研究生初始化服务器1. 初始化服务器状态结构初始化RedisServer变量 2. 加载相关系统配置和用户配置参数定制化配置参数案…...

编程新知 2025/7/7 16:31:37

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2025/7/7 11:58:13

优选算法第十二讲：队列 + 宽搜优先级队列

优选算法第十二讲：队列宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...

编程新知 2025/7/6 22:41:36

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

Redis 的发布订阅（Pub/Sub）模式与专业的 MQ（Message Queue）如 Kafka、RabbitMQ 进行比较，核心的权衡点在于：简单与速度 vs. 可靠与功能。下面我们详细展开对比。 Redis Pub/Sub 的核心特点它是一个发后…...

编程新知 2025/6/21 2:22:29

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数在软件开发中，单例模式（Singleton Pattern）是一种常见的设计模式，确保一个类仅有一个实例，并提供一个全局访问点。在多线程环境下，实现单例模式时需要注意线程安全问题，以防止多个线程同时创建实例，导致…...

编程新知 2025/6/21 15:17:11

C#中的CLR属性、依赖属性与附加属性

CLR属性的主要特征封装性： 隐藏字段的实现细节提供对字段的受控访问访问控制： 可单独设置get/set访问器的可见性可创建只读或只写属性计算属性： 可以在getter中执行计算逻辑不需要直接对应一个字段验证逻辑： 可以…...

编程新知 2025/6/16 10:20:03

深度学习水论文：mamba＋图像增强

🧀当前视觉领域对高效长序列建模需求激增，对Mamba图像增强这方向的研究自然也逐渐火热。原因在于其高效长程建模，以及动态计算优势，在图像质量提升和细节恢复方面有难以替代的作用。 🧀因此短时间内，就有不…...

编程新知 2025/7/6 1:03:44

C++.OpenGL （20/64）混合（Blending）

混合（Blending）透明效果核心原理 #mermaid-svg-SWG0UzVfJms7Sm3e {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-icon{fill:#552222;}#mermaid-svg-SWG0UzVfJms7Sm3e .error-text{fill…...

编程新知 2025/7/6 20:05:42

DingDing机器人群消息推送

文章目录 1 新建机器人2 API文档说明3 代码编写 1 新建机器人点击群设置下滑到群管理的机器人，点击进入添加机器人选择自定义Webhook服务点击添加设置安全设置，详见说明文档成功后，记录Webhook 2 API文档说明点击设置说明查看自…...

编程新知 2025/7/6 18:11:22

机器学习(New Optimization)

Notation

On-line VS Off-line

常用优化算法

1. 随机梯度下降法（SGD，Stochastic gradient descent）

2. SGD with Momentum (SGDM)

Why momentum?

3. Adagrad

4. RMSProp（Root Mean Square Propagation）

5. Adam（Adaptive Moment Estimation）

6. AMSGrad（Adaptive Moment Estimation with Slower Learning Rates）

7. SWATS（Simply combine Adam with SGDM）

8. RAdam（Rectified Adam）

相关文章：