当前位置: 首页 > news >正文

【NLP 11、Adam优化器】

祝你先于春天,

翻过此间铮铮山峦

                —— 24.12.8

一、Adam优化器的基本概念

定义

Adam(Adaptive Moment Estimation)是一种基于梯度的优化算法,用于更新神经网络等机器学习模型中的参数。它结合了动量法(Momentum)和自适应学习率方法(如Adagrad和RMSProp)的优点,能够在训练过程中自适应地调整每个参数的学习率,并且利用动量来加速收敛和抑制震荡。


应用场景

广泛应用于深度学习中的各种任务,包括但不限于图像识别、自然语言处理、语音识别等。

例如,在训练卷积神经网络(CNN)进行图像分类任务时,或者在训练循环神经网络(RNN)Transformer架构的模型用于自然语言处理任务时,Adam优化器都能有效地更新模型参数,使模型更快地收敛并获得较好的性能。


二、Adam优势:

Adam 优化算法应用在非凸优化问题中所获得的优势:

实现简单,计算高效,对内存需求少

参数的更新不受梯度的伸缩变换影响

超参数具有很好的解释性,且通常无需调整或仅需很少的微调

更新的步长能够被限制在大致的范围内(初始学习率)

能自然地实现步长退火过程(自动调整学习率)

很适合应用于大规模的数据及参数的场景

适用于不稳定目标函数

适用于梯度稀疏或梯度存在很大噪声的问题


三、基本机制

Adam 算法和传统的随机梯度下降不同。

随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变。

而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率

记录前几次梯度的值,然后第一层进行求均值,第二层进行求均值的平方,再与当下轮次的梯度进行复合,得到这一轮的loss值,这个目的就是结合一些历史数据,然后自动调节当下轮次模型参数的学习率,对于不平稳的梯度进行更新 


四、手动实现Adam算法 

#adam梯度更新
def diy_adam(grad, weight):#参数应当放在外面,此处为保持后方代码整洁简单实现一步alpha = 1e-3  #学习率beta1 = 0.9   #超参数beta2 = 0.999 #超参数eps = 1e-8    #超参数t = 0         #初始化mt = 0        #初始化vt = 0        #初始化#开始计算t = t + 1gt = gradmt = beta1 * mt + (1 - beta1) * gtvt = beta2 * vt + (1 - beta2) * gt ** 2mth = mt / (1 - beta1 ** t)vth = vt / (1 - beta2 ** t)weight = weight - (alpha * mth/ (np.sqrt(vth) + eps))return weight

相关文章:

【NLP 11、Adam优化器】

祝你先于春天, 翻过此间铮铮山峦 —— 24.12.8 一、Adam优化器的基本概念 定义 Adam(Adaptive Moment Estimation)是一种基于梯度的优化算法,用于更新神经网络等机器学习模型中的参数。它结合了动量法(Momentum&…...

51单片机应用开发(进阶)---串口接收字符命令

实现目标 1、巩固UART知识; 2、掌握串口接收字符数据; 3、具体实现目标:(1)上位机串口助手发送多字符命令,单片机接收命令作相应的处理(如:openled1 即打开LED1;closeled1 即关…...

redis 怎么样删除list

在 Redis 中,可以使用以下方法删除列表或列表中的元素: 1. 删除整个列表 使用 DEL 命令删除一个列表键: DEL mylist这个命令会删除键 mylist 及其值(无论 mylist 是一个列表还是其他类型的键)。 2. 删除列表中的部分…...

【数据结构——内排序】快速排序(头歌实践教学平台习题)【合集】

目录😋 任务描述 测试说明 我的通关代码: 测试结果: 任务描述 本关任务:实现快速排序算法。 测试说明 平台会对你编写的代码进行测试: 测试输入示例: 10 6 8 7 9 0 1 3 2 4 5 (说明:第一行是元素个数&a…...

npm或yarn包配置地址源

三种方法 1.配置.npmrc 文件 在更目录新增.npmrc文件 然后写入需要访问的包的地址 2.直接yarn.lock文件里面修改地址 简单粗暴 3.yarn install 的时候添加参数 设置包的仓库地址 yarn config set registry https://registry.yarnpkg.com 安装:yarn install 注意…...

STUN服务器用于内网NAT的方案

在内网中部署 STUN 服务器的场景通常用于处理多层 NAT 或内网客户端之间的通信需求,尤其是在大企业或学校等复杂网络环境下。通过 STUN 服务器,可以帮助客户端设备检测和适配 NAT 转换规则,进而支持 WebRTC 或其他实时通信技术的正常运行。 …...

Linux 简单命令总结

1. 简单命令 1.1. ls 列出该目录下的所有子目录与文件,后面还可以跟上一些选项 常用选项: ・-a 列出目录下的所有文件,包括以。开头的隐含文件。 ・-d 将目录象文件一样显示,而不是显示其下的文件。如:ls -d 指定目…...

Vue.js组件开发:提升你的前端工程能力

Vue.js 是一个用于构建用户界面的渐进式框架,它允许开发者通过组件化的方式创建可复用且易于管理的代码。在 Vue.js 中开发组件是一个直观且高效的过程,下面我将概述如何创建和使用 Vue 组件,并提供一些最佳实践。 1. 创建基本组件 首先&am…...

使用 Pandas 读取 JSON 数据的五种常见结构解析

文章目录 引言JSON 数据的五种常见结构1. split 结构2. records 结构3. index 结构4. columns 结构5. values 结构 引言 在日常生活中,我们经常与各种数据打交道,无论是从网上购物的订单信息到社交媒体上的动态更新。JSON(JavaScript Object…...

C++鼠标轨迹算法(鼠标轨迹模拟真人移动)

一.简介 鼠标轨迹算法是一种模拟人类鼠标操作的程序,它能够模拟出自然而真实的鼠标移动路径。 鼠标轨迹算法的底层实现采用C/C语言,原因在于C/C提供了高性能的执行能力和直接访问操作系统底层资源的能力。 鼠标轨迹算法具有以下优势: 模拟…...

Go mysql驱动源码分析

文章目录 前言注册驱动连接器创建连接交互协议读写数据读数据写数据 mysqlConncontext超时控制 查询发送查询请求读取查询响应 Exec发送exec请求读取响应 预编译客户端预编译服务端预编译生成prepareStmt执行查询操作执行Exec操作 事务读取响应query响应exec响应 总结 前言 go…...

GNSS误差源及差分定位

GNSS误差源: (一)卫星星历误差 由星历信息所得出的卫星位置坐标与实际位置坐标的偏差就是星历误差。星历信息是由 GPS 地面部分测量计算后传入空间部分的。由于卫星在运动中要受到各种摄动力的作用, 而地面部分又很难精确测量这些作用力,…...

pg数据类型

1、数值类型: smallint 2 字节 小范围整数 -32768 到 32767 integer 4 字节 常用的整数 -2147483648 到 2147483647 bigint 8 字节 大范围整数 -9223372036854775808 到 9223372036854775807 decimal 可变长 用户指定的精度&#x…...

【java】finalize方法

目录 1. 说明2. 调用过程3. 注意事项 1. 说明 1.finalize方法是Java中Object类的一个方法。2.finalize方法用于在对象被垃圾回收之前执行一些清理工作。3.当JVM(Java虚拟机)确定一个对象不再被引用、即将被回收时,会调用该对象的finalize方法…...

HNU_多传感器(专选)_作业4(构建单层感知器实现分类)

1. (论述题)(共1题,100分) 假设平面坐标系上有四个点,要求构建单层感知器实现分类。 (3,3),(4,3) 两个点的标签为1; (1,1),(0,2) 两个点的标签为-1。 思路:要分类的数据是2维数据,需要2个输入…...

以太网链路详情

文章目录 1、交换机1、常见的概念1、冲突域2、广播域3、以太网卡1、以太网卡帧 4、mac地址1、mac地址表示2、mac地址分类3、mac地址转换为二进制 2、交换机的工作原理1、mac地址表2、交换机三种数据帧处理行为3、为什么会泛洪4、转发5、丢弃 3、mac表怎么获得4、同网段数据通信…...

vue3 setup语法,子组件点击一个元素打印了这个元素的下标id,怎么传递给父组件,让父组件去使用

问: vue3 setup语法,子组件点击一个元素打印了这个元素的下标id,怎么传递给父组件,让父组件去使用 回答: 在 Vue 3 中,你可以使用 setup 语法糖和组合式 API 来实现子组件向父组件传递数据。具体来说&am…...

《Keras3 minist 手写数字AI模型训练22秒精度达到:0.97》

《Keras3 minist 手写数字AI模型训练22秒精度达到:0.97》 一、修改源码加上如下两条代码二、源码修改如下三、Keras3 minist 训练22秒结束,训练过程截图四、Keras3 minist 源码截图 一、修改源码加上如下两条代码 import os os.environ["KERAS_BAC…...

【.net core】【sqlsugar】大数据写入配置(需要版本5.0.45)

官网连接 https://www.donet5.com/home/Doc?typeId2404 泛型方法 /// <summary> /// 大数据写入&#xff08;泛型方法&#xff09; /// </summary> /// <param name"entitys"></param> /// <returns></returns> ///代码中_d…...

ansible运维实战

通过学习ansible自动化运维&#xff0c;初步对ansible有了一定的了解&#xff0c;此次分享两个案例&#xff0c;希望对大家有所帮助 案例一&#xff1a;自动化安装nginx 本次案例目的是ansible自动化安装nginx并配置 首先创建如图所示目录 在主机上安装好nginx&#xff0c;如…...

SpleeterGui:3分钟实现专业级音乐人声分离的AI工具指南

SpleeterGui&#xff1a;3分钟实现专业级音乐人声分离的AI工具指南 【免费下载链接】SpleeterGui Windows desktop front end for Spleeter - AI source separation 项目地址: https://gitcode.com/gh_mirrors/sp/SpleeterGui 对于音乐爱好者、内容创作者和音乐教育工作…...

知识竞赛的“复活”机制:给落后者第二次机会

&#x1f504; 知识竞赛的“复活”机制&#xff1a;给落后者第二次机会包容偶然 挖掘潜力 见证逆袭&#x1f3af; 引言在知识竞赛中&#xff0c;胜负往往取决于临场发挥、题型适应甚至运气。一次抢答失误、一道冷门题目&#xff0c;都可能让准备充分的选手遗憾离场。&#x1…...

产品质量总是不稳?问题可能出在这五个地方

你厂里是不是也有这类难题&#xff1f;投入不少钱买设备、招人手&#xff0c;产品质量却始终上不去。不良品率高、批量出问题、客户投诉退货&#xff0c;甚至找不到问题根源。今天我就来聊聊质量上不去的几个原因&#xff0c;大家可对照自查。一、问题可能出现在生产之前看到质…...

专业解析:Windows APK安装器的架构设计与跨平台应用部署实践

专业解析&#xff1a;Windows APK安装器的架构设计与跨平台应用部署实践 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在移动应用生态日益多元化的今天&#xff0c;W…...

3步终极指南:彻底解决Cursor Pro试用限制的技术实现方案

3步终极指南&#xff1a;彻底解决Cursor Pro试用限制的技术实现方案 【免费下载链接】cursor-free-vip [Support 0.45]&#xff08;Multi Language 多语言&#xff09;自动注册 Cursor Ai &#xff0c;自动重置机器ID &#xff0c; 免费升级使用Pro 功能: Youve reached your t…...

如何快速掌握JSON Lint for PHP:从新手到专家的完整指南

如何快速掌握JSON Lint for PHP&#xff1a;从新手到专家的完整指南 【免费下载链接】jsonlint JSON Lint for PHP 项目地址: https://gitcode.com/gh_mirrors/jso/jsonlint 你是否曾经在深夜里调试JSON数据&#xff0c;却被那些晦涩难懂的错误信息折磨得焦头烂额&#…...

3D设计工作流的终极桥梁:如何用stltostp高效解决STL到STEP格式转换难题

3D设计工作流的终极桥梁&#xff1a;如何用stltostp高效解决STL到STEP格式转换难题 【免费下载链接】stltostp Convert stl files to STEP brep files 项目地址: https://gitcode.com/gh_mirrors/st/stltostp 当你在3D打印与CAD设计之间切换时&#xff0c;是否经常遇到这…...

VCF 9.1 Consumption CLI 插件同步失败解决方法

一、问题现象 在 VCF 9.1 环境执行 vcf plugin sync 同步插件时&#xff0c;系统尝试下载 9.0.1 版本插件&#xff08;环境实际为 9.1&#xff09;&#xff0c;出现以下错误&#xff1a; [i] Installing plugins from plugin group vmware-vcfcli/essentials:v9.0.1 [x] Fail…...

Buildah:从Dockerfile到OCI镜像的构建原理与生产实践

1. 项目概述&#xff1a;从 Dockerfile 到 OCI 镜像的“幕后推手”如果你用过 Docker&#xff0c;那你一定对docker build命令和Dockerfile不陌生。输入一行命令&#xff0c;等待片刻&#xff0c;一个包含了应用及其所有依赖的、可移植的容器镜像就生成了。这感觉就像魔法&…...

10分钟上手wired-elements:打造超萌手绘风UI界面的完整指南

10分钟上手wired-elements&#xff1a;打造超萌手绘风UI界面的完整指南 【免费下载链接】wired-elements Collection of custom elements that appear hand drawn. Great for wireframes or a fun look. 项目地址: https://gitcode.com/gh_mirrors/wi/wired-elements wi…...