当前位置: 首页 > article >正文

深度学习 —— 梯度下降法的优化方法

目录一、梯度下降法 回顾二、梯度下降法的缺点三、如何选择优化方法1.了解 —— 指数移动加权平局1.1 公式1.2 图例说明1.3 结论2.优化方法2.1 图解2.2 如何选择优化方法2.3 对应API动量法 MomentumAdaGrad 自适应学习率RMSprop 自适应学习率Adam 自适应矩估计AdamW 自适应矩估计2.4 梯度下降法优化方法总结一、梯度下降法 回顾W新 W旧 - 学习率 * 梯度假设 学习率 lr 0.1.① 6.4 8.0 - 0.1 * 16.0② 5.12 6.4 - 0.1 * 12.8③ 4.01 5.12 - 0.1 * 10.24...二、梯度下降法的缺点1.碰到平缓区间梯度值较小参数优化变慢2.碰到”鞍点“梯度为0参数无法优化3.碰到局部最小值参数不是最优。无法跳出比如 y x ^ 3 。x 0的时候 就是”鞍点“ 导数为0三、如何选择优化方法1.了解 ——指数移动加权平局1.1 公式1.2 图例说明β beta 一组散点天气数据beta 0 beta 0.5beta 0.9 beta 11.3 结论1.对于指数移动加权平均值β 值调节系数越大移动加权平均值越平缓越考虑历史数据。β 值 越小移动加权平均值越接近当前数据。2.特例β 值 0就是当前数据的原始值β 值 1就是第一天的初始值2.优化方法2.1 图解2.2 如何选择优化方法* Adam / AdamW (推荐) - RMSprop - 动量法 Momentum - 原始SGDAdaGrad 不建议对比 Adam 和 AdamWAdam① 同时调整 学习率 和 梯度② 使用梯度一阶矩来调整梯度二阶矩来调整学习率AdamW① Adam的优化版② 解耦了权重衰减③ 原始Adam直接在梯度中添加了 权重衰减项使得调整梯度和调整学习率藕合在一起会造成模型训练后期不稳定。④ AdaW 使用原始梯度在更新参数时直接添加权重衰减项目解耦了调整梯度和调整学习率2.3 对应API# 优化器模块实现梯度下降法以及梯度下降的优化方法 import torch.optim as optim动量法 Momentumoptim.SGD([w],lr0.01,momentum0.95)AdaGrad 自适应学习率optim.Adagrad([w],lr0.01)RMSprop 自适应学习率optim.RMSprop([w],lr0.01)Adam 自适应矩估计optim.Adam([w],lr0.01)AdamW 自适应矩估计optim.AdamW([w],lr0.01)2.4梯度下降法优化方法总结1. SGD原始梯度下降法optim.SGD, 使用当前梯度直接更新参数用于凸优化问题容易陷入局部最优解2. 动量法Momentum: optim.SGD(momentum0.9), 引入动量概念利用历史梯度信息加速收敛3. AdaGrad: optim.Adagrad, 自动调整学习率学习率下降过快过早导致模型更新慢4. RMSprop: optim.RMSprop, 自动调整学习率对AdaGrad的改进5. Adam: optim.Adam, 结合 动量法和RMSprop同时调整学习率和梯度训练稳定6. AdamW: optim.AdamW, 对Adam的改进解决权重衰减问题推荐使用

相关文章:

深度学习 —— 梯度下降法的优化方法

目录 一、梯度下降法 回顾 二、梯度下降法的缺点 三、如何选择优化方法 1.了解 —— 指数移动加权平局 1.1 公式 1.2 图例说明 1.3 结论 2.优化方法: 2.1 图解 2.2 如何选择优化方法 2.3 对应API 动量法 Momentum AdaGrad 自适应学习率 RMSprop 自适…...

拯救者笔记本终极优化指南:Lenovo Legion Toolkit深度探索与实战应用

拯救者笔记本终极优化指南:Lenovo Legion Toolkit深度探索与实战应用 【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit …...

Python3 模块精讲:StringIO —— 内存字符串 IO 全解与实战

文章标签:#Python #后端开发 #数据处理 #IO 操作 #StringIO 一、引言:为什么 StringIO 是 Python 内存 IO 必备核心 在 Python 数据处理、文件模拟、日志捕获、接口测试等场景中,StringIO 早已成为轻量高效、开箱即用的内存级字符串操作工具…...

Windows PDF处理神器:Poppler零依赖安装指南

Windows PDF处理神器:Poppler零依赖安装指南 【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 还在为Windows系统上的PDF处理工具安装繁琐…...

Scarab:基于Avalonia框架的空洞骑士模组管理解决方案

Scarab:基于Avalonia框架的空洞骑士模组管理解决方案 【免费下载链接】Scarab An installer for Hollow Knight mods written in Avalonia. 项目地址: https://gitcode.com/gh_mirrors/sc/Scarab Scarab是一款专为空洞骑士游戏设计的开源模组管理器&#xff…...

Python3 模块精讲:queue —— 线程安全队列全解与实战

一、引言:为什么 queue 模块是 Python 并发必备核心在 Python 多线程、多进程、异步编程高速发展的今天,queue 模块早已从一个简单的 “数据容器” 升级为支撑高并发、线程安全、任务调度的底层基石。无论是爬虫数据采集、后台任务队列、生产者 - 消费者…...

Python 内存泄漏排查:生产环境定位、分析、解决全攻略(完整版・含大量实战代码)

本文结构严格对标 CSDN 技术博客格式,包含:内存泄漏原理 → 生产监控 → 工具实战 → 8 类真实泄漏场景代码复现 → 定位代码 → 修复代码 → 线上最佳实践。可直接发布技术博客。一、引言:为什么 Python 内存泄漏是生产环境的致命隐患在后端…...

避开蓝桥杯单片机ADC采样的那些坑:PCF8591 I2C通信与光敏电阻电压读取详解

蓝桥杯单片机ADC采样实战:PCF8591光敏电阻数据采集全解析 当光敏电阻的数值始终显示255,或者I2C通信死活不响应时,很多单片机初学者会忍不住反复检查接线——但其实八成是时序问题。我们团队带过上百个蓝桥杯选手,发现ADC采样这个…...

Verilog实战:5分钟搞定Johnson计数器(附完整代码与仿真测试)

Verilog实战:5分钟搞定Johnson计数器(附完整代码与仿真测试) 在数字电路设计中,计数器是最基础也最常用的模块之一。Johnson计数器以其独特的环形结构和高效的资源利用率,成为许多FPGA项目中的首选方案。不同于普通的二…...

(397页PPT)麦肯锡高级咨询顾问技能培训手册(附下载方式)

篇幅所限,本文只提供部分资料内容,完整资料请看下面链接 https://download.csdn.net/download/AI_data_cloud/89624161 资料解读:《麦肯锡高级咨询顾问技能培训手册》 详细资料请看本解读文章的最后内容。 本手册系统性地构建了高级咨询顾…...

nli-MiniLM2-L6-H768惊艳效果:630MB模型支持batch_size=32高吞吐推理

nli-MiniLM2-L6-H768惊艳效果:630MB模型支持batch_size32高吞吐推理 1. 模型效果惊艳展示 nli-MiniLM2-L6-H768作为一款仅630MB的轻量级自然语言推理模型,在实际应用中展现了令人印象深刻的效果。这款基于Transformer架构的模型在保持小巧体积的同时&a…...

告别旧版Ubuntu!在Ubuntu 24.04 LTS上为i.MX6ULL开发板编译U-Boot 2022.04(含设备树)

在Ubuntu 24.04 LTS上为i.MX6ULL开发板构建U-Boot 2022.04全流程指南 当现代开发环境遇上经典嵌入式硬件,总会碰撞出意想不到的火花。最近在为一款基于NXP i.MX6ULL处理器的工业控制设备升级固件时,我遇到了一个典型困境:客户要求使用最新的U…...

**用Python + Stable Diffusion 实现AI绘画自

用Python Stable Diffusion 实现AI绘画自动化流水线:从提示词到图像输出的全流程实战 在当前人工智能快速发展的背景下,AI绘画技术已成为创意产业的重要工具。本文将带你构建一个完整的 Python驱动的AI绘画自动化系统,基于Stable Diffusion模…...

BetterJoy:解决Switch控制器在PC模拟器中兼容性问题的开源方案

BetterJoy:解决Switch控制器在PC模拟器中兼容性问题的开源方案 【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitc…...

局域网概述

一、什么是局域网局域网(LAN,Local Area Network) 是指在较小地理范围内(如一栋楼、一个校园、一家公司内部),将多台计算机、服务器、打印机等设备通过通信介质连接起来,实现资源共享和数据通信…...

完全指南:3种高效方法快速掌握百度网盘直连解析工具

完全指南:3种高效方法快速掌握百度网盘直连解析工具 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 百度网盘直连解析工具是一款实用的Python脚本,专门…...

【微软官方未公开的EF Core 10向量陷阱】:为什么AsNoTracking()会导致相似度计算偏移?

第一章:EF Core 10 向量搜索扩展的核心机制解析EF Core 10 向量搜索扩展并非官方内置功能,而是通过社区驱动的 NuGet 包(如 EntityFrameworkCore.Vector)对 EF Core 查询管道进行深度增强,使 LINQ 查询可原生表达向量相…...

百度网盘高速下载终极指南:告别限速,轻松获取真实下载地址

百度网盘高速下载终极指南:告别限速,轻松获取真实下载地址 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 百度网盘直连解析工具是一款专门解决百度网盘…...

自动化扩展:应对流量洪峰的 Agent Harness

自动化扩展:应对流量洪峰的 Agent Harness 1. 标题 (Title) 智能驱动的云原生弹性:深入理解 Agent Harness 自动扩展架构 告别被动响应!Agent Harness 如何让你的系统主动迎接流量洪峰 从“手忙脚乱”到“运筹帷幄”:基于 Agent Harness 的自动化扩展实战指南 下一代自动扩…...

用5块钱的Digispark(Attiny85)做个自动填表小工具,附完整Arduino代码

5元Digispark变身办公神器:零基础打造智能填表机器人 每次重复填写相同的网页表单是否让你抓狂?电商平台的收货地址、OA系统的日报提交、社交媒体的自动登录…这些机械操作正在吞噬你的宝贵时间。今天我将分享如何用一块仅5元的Digispark开发板&#xff…...

告别闪烁!STM32 HAL库硬件I2C驱动SSD1306 OLED的缓冲区设计与局部刷新实战

STM32 HAL库硬件I2C驱动SSD1306 OLED的缓冲区设计与局部刷新实战 当你在嵌入式设备上实现一个动态仪表盘时,是否遇到过屏幕频繁闪烁的问题?这种闪烁不仅影响用户体验,还可能掩盖关键数据的瞬时变化。本文将带你深入解决这个痛点,通…...

告别裸机调试:在STC8A8K64S4上玩转printf与外部中断的共存之道

STC8A8K64S4实战:printf与外部中断的完美协作方案 调试嵌入式系统时,开发者常面临一个经典矛盾:既需要实时响应外部事件(如按键中断),又希望保留printf这类便捷的调试工具。在STC8A8K64S4这类资源有限的8位…...

深度解析:IDE Eval Resetter 的技术实现与架构设计

深度解析:IDE Eval Resetter 的技术实现与架构设计 【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter IDE Eval Resetter 是一款针对 JetBrains 系列 IDE 试用期管理的高级工具,通过精密的系统…...

G-Helper终极指南:3步实现华硕笔记本性能优化与电池保护

G-Helper终极指南:3步实现华硕笔记本性能优化与电池保护 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, …...

JetBrains IDE试用期重置完整解决方案:告别30天限制的智能工具

JetBrains IDE试用期重置完整解决方案:告别30天限制的智能工具 【免费下载链接】ide-eval-resetter 项目地址: https://gitcode.com/gh_mirrors/id/ide-eval-resetter 你是否曾因JetBrains IDE试用期到期而被迫中断开发工作?无论是IntelliJ IDEA…...

Java项目如何72小时内完成Loom响应式升级?一线大厂已验证的5个避坑清单

第一章:Loom响应式升级的必要性与72小时落地可行性论证现代Java应用在高并发、低延迟场景下面临线程模型瓶颈,传统Thread-per-Request模式导致资源开销剧增、GC压力攀升、上下文切换成本不可忽视。Project Loom引入虚拟线程(Virtual Threads&…...

B站视频转文字终极指南:4步免费提取视频内容,高效学习创作必备

B站视频转文字终极指南:4步免费提取视频内容,高效学习创作必备 【免费下载链接】bili2text Bilibili视频转文字,一步到位,输入链接即可使用 项目地址: https://gitcode.com/gh_mirrors/bi/bili2text 还在为手动记录B站视频…...

3步掌握百度网盘解析工具:告别限速困扰的终极指南

3步掌握百度网盘解析工具:告别限速困扰的终极指南 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否曾因百度网盘的蜗牛下载速度而抓狂?面对宝贵的…...

Windows用户终极指南:零依赖PDF处理神器Poppler

Windows用户终极指南:零依赖PDF处理神器Poppler 【免费下载链接】poppler-windows Download Poppler binaries packaged for Windows with dependencies 项目地址: https://gitcode.com/gh_mirrors/po/poppler-windows 还在为Windows上的PDF处理烦恼吗&#…...

AKAZE源码全解析——非线性扩散方程、FED加速与MLDB描述子的2319行C++

SIFT 用高斯模糊构建尺度空间。ORB 用图像金字塔暴力缩放。它们的共同缺陷是什么? 高斯模糊不分青红皂白,把边缘和噪声一起抹掉了。 2012年,Alcantarilla 提出了 KAZE 算法,用非线性扩散方程替代高斯平滑,让尺度空间的构建第一次做到了"该模糊的地方模糊,该保留的…...