当前位置: 首页 > article >正文

【优化器】带动量 Momentum 的SGD算法

思想让参数更新具有惯性每一步更新都是由前面梯度累积v vv和当前点梯度g gg组合而成公式累计梯度动量更新v ← α v ( 1 − α ) g v \leftarrow \alpha v (1-\alpha) gv←αv(1−α)g参数更新x ← x − η ⋅ v x \leftarrow x - \eta \cdot vx←x−η⋅v其中α \alphaα为动量参数v vv为累计梯度g gg为当前梯度η \etaη为学习率优点加快收敛能帮助参数在正确的方向上加速前进可以帮助跳出局部最小值实验一损失函数f ( x ) 0.1 x 1 2 2 x 2 2 f(x) 0.1x_1^2 2x_2^2f(x)0.1x12​2x22​初始值x 1 − 5 x_1 -5x1​−5x 2 − 2 x_2 -2x2​−2 学习率η 0.4 \eta 0.4η0.4我们使用不带动量的传统梯度下降法观察下降过程预期分析因为x 1 x_1x1​和x 2 x_2x2​的系数分别为 0.1 和 2。这就使得x 1 x_1x1​和x 2 x_2x2​的梯度相差一个量级 如果使用相同的学习率x 2 x_2x2​的更新幅度会较x 1 x_1x1​的更大些importnumpyasnpimportmatplotlib.pyplotaspltdefloss_func(x1,x2):# 定义目标函数return0.1*x1**22*x2**2x1,x2-5,-2eta0.4num_epochs20result[(x1,x2)]forepochinrange(num_epochs):gd10.2*x1 gd24*x2 x1-eta*gd1 x2-eta*gd2 result.append((x1,x2))plt.plot(*zip(*result),-o,color#ff7f0e)x1,x2np.meshgrid(np.arange(-5.5,1.0,0.1),np.arange(-3.0,1.0,0.1))plt.contour(x1,x2,loss_func(x1,x2),colors#1f77b4)plt.title(learning rate {}.format(eta))plt.xlabel(x1)plt.ylabel(x2)plt.show()结果分析与预想一致使用相同的学习率x 2 x_2x2​的更新幅度会较x 1 x_1x1​的更大些变化快得多而x 1 x_1x1​收敛速度太慢实验二依然使用不带动量的梯度下降算法将学习率设置为 0.6更新过程x 1 ← x 1 − 0.06 x 1 x_1 \leftarrow x_1 - 0.06x_1x1​←x1​−0.06x1​x 2 ← x 2 − 2.4 x 2 x_2 \leftarrow x_2-2.4x_2x2​←x2​−2.4x2​更新过程如下这时我们会陷入一个两难的选择如果我们选择小的学习率x 1 x_1x1​收敛速度慢如果我们选择大的学习率x 1 x_1x1​方向会收敛很快但在x 2 x_2x2​方向不会收敛实验三我们使用带动量的梯度下降法将历史的梯度考虑在内动量参数设置为 0.5 学习率设置为0.4累计梯度更新v ← α v ( 1 − α ) g v \leftarrow \alpha v (1-\alpha) gv←αv(1−α)g权重更新x ← x − η ⋅ v x \leftarrow x - \eta \cdot vx←x−η⋅vimportnumpyasnpimportmatplotlib.pyplotaspltdefloss_func(x1,x2):# 定义目标函数return0.1*x1**22*x2**2x1,x2-5,-2v1,v20,0eta,alpha0.4,0.5num_epochs20result[(x1,x2)]forepochinrange(num_epochs):v1alpha*v1(1-alpha)*(0.2*x1)v2alpha*v2(1-alpha)*(4*x2)x1-eta*v1 x2-eta*v2 result.append((x1,x2))plt.plot(*zip(*result),-o,color#ff7f0e)x1,x2np.meshgrid(np.arange(-5.5,1.0,0.1),np.arange(-3.0,1.0,0.1))plt.contour(x1,x2,loss_func(x1,x2),colors#1f77b4)plt.xlabel(x1)plt.ylabel(x2)plt.show()即使我们将学习率设置为 0.6 x 2 x_2x2​的梯度也不会发散了参考连接https://www.bilibili.com/video/BV1jh4y1q7ua/?spm_id_from333.1387.favlist.content.clickvd_sourcecf0b4c9c919d381324e8f3466e714d7a

相关文章:

【优化器】带动量 Momentum 的SGD算法

思想: 让参数更新具有惯性,每一步更新都是由前面梯度累积 vvv 和当前点梯度 ggg 组合而成 公式: 累计梯度(动量更新):v←αv(1−α)gv \leftarrow \alpha v (1-\alpha) gv←αv(1−α)g参数更新&#xf…...

29、css 哪些属性会继承

目录 一、先给面试里的标准回答 二、常见会继承的属性 1. 字体相关 2. 文本相关 3. 列表相关 4. 可见性/光标相关 三、常见不会继承的属性 1. 盒模型相关 2. 背景相关 3. 定位布局相关 4. 弹性布局 / 网格布局相关 四、最好记的一条规律 会继承的 不会继承的 五…...

FireRedASR-AED-L模型安全:对抗样本攻击与防御策略

FireRedASR-AED-L模型安全:对抗样本攻击与防御策略 1. 引言 语音识别技术已经深入到我们生活的方方面面,从智能助手到语音输入,再到各种语音交互场景。FireRedASR-AED-L作为一款工业级的自动语音识别模型,在普通话、方言和英语识…...

SITS2026权威发布:基于12家头部平台实测数据,多模态推荐提升GMV 18.7%的4个不可复制因子

第一章:SITS2026多模态推荐系统权威实测全景概览 2026奇点智能技术大会(https://ml-summit.org) SITS2026是面向下一代工业级推荐场景设计的开源多模态协同推理框架,由ML-Summit联合实验室于2025年Q4正式发布。本实测覆盖其在电商、短视频、新闻资讯三…...

28、absolute定位,如果父亲不是relative,那么是参考谁?

目录 一、先给一个标准面试回答 二、最关键的一句话 三、什么叫“已定位祖先元素”? 四、如果父元素不是 relative,到底参考谁? 情况 1:父元素不是 relative,但更上层祖先里有非 static 元素 情况 2:…...

10个Illustrator脚本工具:彻底改变你的设计工作流程

10个Illustrator脚本工具:彻底改变你的设计工作流程 【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 你是否厌倦了在Adobe Illustrator中重复执行繁琐的操作?…...

如何快速为视频添加字幕:VideoSrt自动字幕生成完整指南

如何快速为视频添加字幕:VideoSrt自动字幕生成完整指南 【免费下载链接】video-srt-windows 这是一个可以识别视频语音自动生成字幕SRT文件的开源 Windows-GUI 软件工具。 项目地址: https://gitcode.com/gh_mirrors/vi/video-srt-windows 你是否正在为视频字…...

如何在绝地求生中配置罗技鼠标宏实现精准压枪:3分钟快速上手指南

如何在绝地求生中配置罗技鼠标宏实现精准压枪:3分钟快速上手指南 【免费下载链接】logitech-pubg PUBG no recoil script for Logitech gaming mouse / 绝地求生 罗技 鼠标宏 项目地址: https://gitcode.com/gh_mirrors/lo/logitech-pubg 你是否在《绝地求生…...

Windows上安装安卓应用的终极指南:告别模拟器的轻量级解决方案

Windows上安装安卓应用的终极指南:告别模拟器的轻量级解决方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾在Windows电脑上想要运行安卓应用&a…...

Python Celery + FastAPI + Vue 全栈异步任务实战

本文将手把手带你搭建FastAPI(后端 API) Celery(异步任务队列) Redis(消息中间件 / 结果存储) Vue(前端) 的全栈异步项目,实现异步任务提交、任务状态查询、前端实时查看…...

如何在3分钟内让Jellyfin媒体库显示中文电影信息?

如何在3分钟内让Jellyfin媒体库显示中文电影信息? 【免费下载链接】jellyfin-plugin-metashark jellyfin电影元数据插件 项目地址: https://gitcode.com/gh_mirrors/je/jellyfin-plugin-metashark MetaShark是一款专为Jellyfin设计的智能元数据插件&#xff…...

基于GEE与MODIS/006/MCD64A1的长时间序列林火动态监测与空间格局分析

1. 从零开始理解GEE与MODIS火点监测 第一次接触Google Earth Engine(GEE)平台时,我被它强大的云端计算能力震撼到了。这个由谷歌开发的免费平台,让普通研究者也能处理PB级的地理空间数据。而MODIS/006/MCD64A1数据集,就…...

数据结构--基于顺序表实现通讯录项目

欢迎阅读本篇学习笔记。 作为计算机专业的学习记录,本文将系统梳理通讯录项目的相关知识点,从基础概念到代码实现逐步展开,便于后续复习巩固,这里我们会用到上篇的知识,(如果其中有不懂的,大家可…...

企业级Windows日志监控架构设计:构建高可用分布式日志系统

企业级Windows日志监控架构设计:构建高可用分布式日志系统 【免费下载链接】visualsyslog Syslog Server for Windows with a graphical user interface 项目地址: https://gitcode.com/gh_mirrors/vi/visualsyslog 在当今复杂的IT环境中,企业级日…...

ECharts 从版本4升级到版本5的实战指南与常见问题解析

1. 为什么要升级到ECharts 5? 如果你还在使用ECharts 4,可能会遇到一些困扰:某些API突然报错、文档里找不到对应的配置项、或者看到控制台频繁弹出"DEPRECATED"警告。这些都是因为ECharts 5带来了大量优化和改动。我在去年负责公司…...

微信小程序文件缓存优化:从基础到高级的完整实践指南

1. 微信小程序文件缓存的核心挑战 第一次开发微信小程序时,我遇到了一个棘手的问题:用户反馈图片加载慢,尤其是重复访问时仍然需要等待。这才意识到文件缓存没做好,不仅影响用户体验,还浪费流量。微信小程序的缓存系统…...

高效百度网盘直链解析架构解析:从协议逆向到企业级部署方案

高效百度网盘直链解析架构解析:从协议逆向到企业级部署方案 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 百度网盘直链解析技术作为解决云存储资源访问效率瓶颈的…...

deepin25.10安装claude

deepin25.10安装claude 软件备注nodejscladue运行环境git版本控制国产大模型api-key商业策略cc switch管理大模型claduevscode如果不习惯命令行操作可以选择一个图画工具 准备 创建软件安装目录 mkdir ~/optnodejs 下载nodejs wget https://nodejs.org/dist/v24.14.1/node-v…...

LMS自适应滤波器算法:从原理到实践

1. LMS自适应滤波器:让机器学会"自动调音" 想象一下你戴着降噪耳机坐地铁,周围人声嘈杂,但耳机却能神奇地保留音乐声、消除环境噪音。这种"智能降噪"的核心技术之一,就是我们要聊的LMS自适应滤波器。它就像个…...

怎么鉴定用了Tritan材质?2026权威指南:从感官体验到官方溯源

在健康消费成为主流的今天,Tritan材质凭借其“近似玻璃般透亮、塑料般坚韧”的特性,成为水杯、奶瓶等日用品的“明星材料”。然而,随着市场热度攀升,部分商家开始用普通PET、劣质回收料冒充Tritan。究竟怎么鉴定用了Tritan材质&am…...

HunterPie终极指南:如何通过现代叠加层提升《怪物猎人世界》游戏体验

HunterPie终极指南:如何通过现代叠加层提升《怪物猎人世界》游戏体验 【免费下载链接】HunterPie-legacy A complete, modern and clean overlay with Discord Rich Presence integration for Monster Hunter: World. 项目地址: https://gitcode.com/gh_mirrors/h…...

歌词滚动姬:3分钟学会制作专业LRC歌词的免费神器

歌词滚动姬:3分钟学会制作专业LRC歌词的免费神器 【免费下载链接】lrc-maker 歌词滚动姬|可能是你所能见到的最好用的歌词制作工具 项目地址: https://gitcode.com/gh_mirrors/lr/lrc-maker 还在为制作歌词同步而烦恼吗?每次都要反复暂…...

京东云鼎环境配置与API安全接入实战:ISV服务商如何搞定数据加密与商家授权

京东云鼎环境配置与API安全接入实战:ISV服务商如何搞定数据加密与商家授权 在电商生态系统中,京东开放平台为ISV(独立软件开发商)服务商提供了强大的技术支撑和商业机会。不同于普通开发者,ISV服务商需要处理多商家数据…...

【Gin】参数处理练习题

学生编号动态获取接口 题目描述 使用 Gin 框架编写 Web 服务,定义 GET 路由 /student/:id,通过 c.Param("id") 获取学生编号,返回字符串:学生编号:xxx,立志成才,报效祖国&#xff0…...

泊松-高斯模型:从理论到实践,构建更真实的图像噪声模拟

1. 泊松-高斯模型的核心原理 当你用手机在夜晚拍照时,是否发现照片总有些奇怪的颗粒感?这就是图像噪声在作祟。泊松-高斯模型就像一位"噪声翻译官",能把相机传感器接收到的光信号转化为我们看到的带噪图像。这个模型之所以重要&am…...

如何用MPC-HC打造完美的家庭影院体验:终极Windows播放器指南

如何用MPC-HC打造完美的家庭影院体验:终极Windows播放器指南 【免费下载链接】mpc-hc MPC-HCs main repository. For support use our Trac: https://trac.mpc-hc.org/ 项目地址: https://gitcode.com/gh_mirrors/mpc/mpc-hc 想要在Windows电脑上享受流畅、高…...

如何利用CompressO实现高效本地视频图片压缩:完整指南与实战技巧

如何利用CompressO实现高效本地视频图片压缩:完整指南与实战技巧 【免费下载链接】compressO Convert any video/image into a tiny size. 100% free & open-source. Available for Mac, Windows & Linux. 项目地址: https://gitcode.com/gh_mirrors/co/c…...

Zotero重复文献智能合并方案:解决学术文献库数据冗余问题的自动化工具

Zotero重复文献智能合并方案:解决学术文献库数据冗余问题的自动化工具 【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 在学术研究过…...

杰理之用cis 实现对讲机功能【篇】

增加回音消除算法节点。...

ChatTTS在非遗传承场景应用:老艺人语音风格复现与濒危方言保存实践

ChatTTS在非遗传承场景应用:老艺人语音风格复现与濒危方言保存实践 1. 引言:当技术遇见传承 想象一下,一位年过八旬的皮影戏老艺人,用他独特的嗓音和语调,讲述着流传百年的故事。他的声音里不仅有词句,还…...