一部分优化算法
一、优化问题
1、优化目标
(1)优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标,后者则关注在给定有限数据量的情况下寻找合适的模型。
(2)优化算法的目标函数通常是基于训练数据集的损失函数,因此优化的目标是减少训练误差;深度学习(或更广义地说,统计推断)的目标是减少泛化误差,因此除了使用优化算法来减少训练误差之外,我们还需要注意过拟合。
(3)f(x)就是我们代码中的loss()函数,我们想要最小化损失。
![]()
(4)目标函数,是不管输入时什么矩阵,都处理为一个向量
![]()
(5)限制集合:给C的取值设置条件,比如说令权重方差为1均值为0的限制

2、局部最小与全局最小
(1)x处对应的f(x)值小于在x附近任意其他点的f(x)值,那么f(x)可能是局部最小值。如果f(x)在x处的值是整个域中目标函数的最小值,那么f(x)是全局最小值。

(2)数学公式

(3)使用迭代优化算法求解,一般只能得到局部最小值:深度学习模型的目标函数通常有许多局部最优解。当优化问题的数值解接近局部最优值时,随着目标函数解的梯度接近或变为零,通过最终迭代获得的数值解可能仅使目标函数局部最优,而不是全局最优。
(4)只有一定程度的噪声可能会使参数跳出局部最小值(是小批量随机梯度下降的有利特性之一,小批量上梯度的自然变化能够将参数从局部极小值中跳出)。
3、总结
(1)最小化训练误差并不能保证我们找到最佳的参数集来最小化泛化误差。
(2)优化问题可能有许多局部最小值。
二、凸性
1、凸集
(1)数学公式

(2)集合
2、凸函数
(1)数学公式

(2)在x!=f(x)时成立,为严格凸函数

(3)凸优化问题

(4)深度学习中的凸和非凸:学习的模型基本上都是非凸的,因为凸的(比如线性)很简单,那么信息就不多,非凸更接近实际生活中的例子。

二、梯度下降
1、梯度下降
(1)学习率的大小很重要:学习率太大会使模型发散,学习率太小会没有进展。
(2)梯度下降会可能陷入局部极小值,而得不到全局最小值。
(3)在高维模型中,调整学习率是很复杂的。
(4)预处理方法适当有助于调节比例。

2、随机梯度下降
(1)在样本中随机选择一个,虽然没有计算每一个梯度求平均平滑,但是总体趋势是差不多的
(2)对于凸问题,在广泛的学习率选择,随机梯度下降将收敛到最优解。
(3)当训练数据集中有更多样本时,计算梯度下降的每次迭代的代价更高,因此在这些情况下,首选随机梯度下降。

3、小批量随机梯度下降
(1)将计算机并行考虑进去。
(2)但是需要考虑合适的小批量,批量很小的时候,收敛快但计算慢,批量大的时候,计算代价很大。
(3)小批量随机梯度下降比随机梯度下降和梯度下降的速度快,收敛风险较小。
(4)在训练期间降低学习率有助于训练,前期学习率大一些,后期学习率调小。
(5)小批量随机梯度下降兼顾了计算和统计效率。
(6)在小批量随机梯度下降中,我们处理通过训练数据的随机排列获得的批量数据(即每个观测值只处理一次,但按随机顺序)。

三、冲量法
1、动量法用过去梯度的平均值来替换梯度,这大大加快了收敛速度。
2、动量法可以防止在随机梯度下降的优化过程停滞的问题。
3、由于对过去的数据进行了指数降权,有效梯度数为1/1−β。
4、动量法的实现非常简单,但它需要我们存储额外的状态向量(动量v)。

四、Adam
1、t比较大的时候
2、在t小的时候进行修正

3、g_t'

五、总结
1、深度学习模型大多是非凸
2、小批量随机梯度下降是最常用的优化算法
3、冲量对梯度会更加平滑
4、Adam对梯度做平滑,并且对梯度各个维度值都做重新调整
相关文章:
一部分优化算法
一、优化问题 1、优化目标 (1)优化和深度学习的目标是根本不同的。前者主要关注的是最小化目标,后者则关注在给定有限数据量的情况下寻找合适的模型。 (2)优化算法的目标函数通常是基于训练数据集的损失函数&#x…...
图论(强联通分量)
在图论中,特别是在讨论有向图(Directed Graph)时,我们常常需要了解图的结构特性,比如强联通分量(Strongly Connected Components, SCC)。了解强联通分量中的各种边对于理解图的整体结构以及某些…...
LLaMA- Adapter V2: Parameter-Efficient Visual Instruction Model
发表时间:28 Apr 2023 论文链接:https://arxiv.org/pdf/2304.15010 作者单位: Shanghai Artificial Intelligence Laboratory Motivation:如何有效地将大型语言模型 (LLM) 转换为指令追随者最近是一个流行的研究方向࿰…...
【爬虫实战】利用代理爬取Temu电商数据
引言 在行业竞争激烈、市场变化快速的跨境电商领域,数据采集可以帮助企业深入了解客户需求和行为,分析市场趋势和竞争情况,从而优化产品和服务,提高客户满意度和忠诚度。同时,数据采集可以实时跟踪库存水平和销售情况&…...
【MATLAB源码-第244期】基于MATLAB的BP神经网络语音特征信号分类,输出原信号与预测信号对比图以及预测误差和正确率。
操作环境: MATLAB 2022a 1、算法描述 BP神经网络(Back Propagation Neural Network)是一种广泛应用于模式识别和分类问题的人工神经网络。在本次语音特征信号分类任务中,我们将详细描述如何通过BP神经网络实现对四类语音信号的…...
HarmonyOS 习题(二)
1、在类Web开发范式自定义组件创建后,加入到Page组件树时,会触发以下哪一项回调。 A)Onlnit B)OnAttached C)OnLayoutReady D)OnDetached 答案:B 分析: onlnit:自定义组件初始化生命周期回调&a…...
如何搭建一个圈子社区系统?开源社交陪玩交友圈子论坛帖子系统保姆级搭建教程!
整体部署流程如下: 1.获取源码/前后端分离,前端Uniapp vue2.0 后端thinkphp6(Gitee直达) 2.服务器安装宝塔(已有宝塔请安装环境,Nginx或者Apache/ php 7.3/ mysql 5.6 ) 3.进入宝塔添加网站&…...
Delphi5实现身份证检验(DLL版)
效果图 身份证行政区划分代码 识别归属地需要行政区划分,都在data.txt文档里面了。 最后一位校验码 根据上面的原理编写程序即可。 {这个函数计算最后一位检验码是否正确,ID是18位身份证号字符串,结果返回字符串} function IDcheck(ID:stri…...
linux下的C++程序
1.安装g编译环境(c)、gcc编译环境(c语言) sudo yum install gcc或者gcc-c //安装gcc/g编译(用管理员权限弄) 验证是否安装成功 gcc或者g --version //如果显示版本号,则表示安装成功 sudo yum remove g…...
selfAttention 中的dk到底是什么
在Self-Attention机制中,为什么需要对 Q K T QK^T QKT 的结果进行缩放,除以 d k \sqrt{d_k} dk 。以下是详细解释: 缩放的原因 除以 d k \sqrt{d_k} dk 的原因有两个: 防止输入过大:如果不缩放…...
安装MongoDB UI客户端工具:mongodb-compass-1.40.2-win32-x64.msi
文章目录 1、安装 mongodb-compass-1.40.2-win32-x64.msi2、安装后配置链接地址: 1、安装 mongodb-compass-1.40.2-win32-x64.msi 2、安装后配置链接地址:...
一行命令搞定内网穿透
一行命令搞定内网穿透 一款开源免费的内网穿透工具:localtunnel ,基于 nodejs 实现,无需修改 DNS 和防火墙设置,方便快捷的将内网服务暴露到外网,为开发人员、测试人员以及需要分享本地项目的人提供实时的公网访问方式…...
C语言——扫雷游戏
扫雷游戏通常是一个由方格组成的区域内进行的,其中随机分布着一定数量的地雷 。玩家的目标是通过点击方格来标记出所有地雷的位置,同时避免自己点到地雷而导致游戏失败。游戏开始时,玩家通常只能看到一部分方格,而其余的方格则需要…...
【LLM】-16-评估LLM-与标准答案的差距
目录 1、评估回答是否正确 1.1、util_zh 1.2、eval_zh 1.3、评估 2、评估生成答案与标准答案的差距 2.1、eval_zh2 2.2、评估 即使没有提供的理想答案,只要能制定一个评估标准,就可以使用一个 LLM 来评估另一个 LLM 的输出。 如果可以提供理想答…...
WeNet 2.0:更高效的端到端语音识别工具包
WeNet 2.0:更高效的端到端语音识别工具包 原文链接:[2203.15455] WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit (arxiv.org) 1.摘要 WeNet是一个开源的端到端语音识别工具包,WeNet 2.0在此基础上进行了四项主要更新,…...
阿里大模型调用 = 》通义千问大语言模型
背景:简单的通过API或者SDK在线调用阿里云大模型(基于百炼平台),基于在线知识库 参考地址:安装阿里云百炼SDK_大模型服务平台百炼(Model Studio)-阿里云帮助中心 (aliyun.com) 1、获取API-KEY 当您通过API/SDK调用大模…...
idea使用free流程,2024idea免费使用
1.先到官网下载,这里选择win系统的,点击下图的.exe https://www.jetbrains.com/idea/download/?sectionwindows 2.下载好后基本上就是一直点击“下一步”到直到安装好,安装好后先打开软件后关闭退出 3.下载配配套资料 链接: https://pan.ba…...
算法_链表专题---持续更新
文章目录 前言两数相加题目要求题目解析代码如下 两两交换链表中的结点题目要求题目解析代码如下 重排链表题目要求题目解析代码如下 合并K个升序链表题目要求题目解析 K个一组翻转链表题目要求题目解析代码如下 前言 本文将记录leetcode链表算法题解,包含题目有&a…...
在Windows MFC\C++编程中,如何使用OnCopyData函数
在C中,OnCopyData 函数通常不是标准C库的一部分,而是与特定的图形用户界面(GUI)框架相关联,如Microsoft Foundation Classes (MFC) 或 Windows API 编程。在MFC应用程序中,OnCopyData 是用于处理来自其他应…...
【Qt】项目代码
main.cpp文件 argc:命令行参数个数。*argv[ ]:每一个命令行参数的内容。main的形参就是命令行参数。QApplication a(argc, argv) 编写一个Qt的图形化界面程序,一定需要QApplication对象。 widget w; 在创建项目的时候,勾选widg…...
BC7215红外编解码芯片:协议无关的物理层信号处理方案
1. 项目概述BC7215 是一款高度集成的 8 引脚通用红外遥控信号编解码芯片,专为嵌入式系统设计,具备双向通信能力——既可作为红外接收器(Decoder)解析来自各类遥控器的调制信号,也可作为红外发射器(Encoder&…...
SEO网络推广和SEM(搜索引擎营销)有什么不同
SEO网络推广和SEM(搜索引擎营销)有什么不同 在当今的数字营销世界中,SEO网络推广和SEM(搜索引擎营销)是两种非常重要的策略,它们都有助于提高网站的可见性和流量。它们在方法、成本、效果等方面有着显著的不同。本文将详细探讨SEO和SEM的差异࿰…...
PHP Tokenizer终极指南:5个企业级代码分析实战案例
PHP Tokenizer终极指南:5个企业级代码分析实战案例 【免费下载链接】tokenizer A small library for converting tokenized PHP source code into XML (and potentially other formats) 项目地址: https://gitcode.com/gh_mirrors/to/tokenizer PHP Tokenize…...
VSCode + WSL2开发环境搭建:Windows10下的高效Linux开发体验
VSCode WSL2开发环境搭建:Windows10下的高效Linux开发体验 在Windows系统上进行Linux开发一直是件令人头疼的事情——双系统切换麻烦,虚拟机性能堪忧,远程服务器又受限于网络环境。直到微软推出WSL2(Windows Subsystem for Linux…...
On the Spectral Geometry of Cognitive Manifolds and the Emergence of Physical Laws
On the Spectral Geometry of Cognitive Manifolds and the Emergence of Physical Laws (A Noncommutative Framework for Free Will, Physical Constants, and Arithmetical Obstructions)作者:方见华 单位:世毫九实验室摘要&am…...
如何在Windows上轻松安装安卓应用?APK-Installer完整指南
如何在Windows上轻松安装安卓应用?APK-Installer完整指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 想在Windows电脑上直接运行安卓应用,又…...
基于RBF(BP)神经网络与PID控制器的自适应控制:方波信号跟踪与参数调整
基于神经网络的自适应PID控制器 通过将RBF(BP)神经网络和PID控制器相结合,建立了神经网络PID控制器,采用传递函数进行系统建模,通过自动调整PID参数,实现了对方波信号的跟踪。 程序有注释PID控制器作为工业…...
2025届必备的五大AI科研方案推荐
Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 使AIGC(人工智能生成内容)检测率降低的关键之处在于弱化文本所具有的…...
人工智能如何悄然重塑我们的日常生活(从身边小事谈起)
1. 早晨被AI温柔唤醒的每一天 清晨6:30,我的卧室窗帘自动缓缓拉开到45度角,这个精确的角度是AI根据季节和天气预报计算出的最佳采光位置。床头的小爱同学用比上周低沉3%的嗓音说:"今天空气质量优,建议步行上班。"这个细…...
【C++第二十六章】特殊类设计
前言 🚀“特殊类设计”这一章看起来内容不多,但背后其实在讨论一个很典型、也很有代表性的 C 设计问题:类到底能不能限制对象的创建位置,能不能强制某个对象只能在堆上创建,或者只能在栈上创建。 这不是语法技巧题&…...
