当前位置：首页 > news >正文

基于pytorch的深度学习基础4——损失函数和优化器

news 2026/5/16 10:14:26

四．损失函数和优化器

4.1 均值初始化

为减轻梯度消失和梯度爆炸，选择合适的权重初值。

十种初始化方法

Initialization Methods

1. Xavie r均匀分布

2. Xavie r正态分布

4. Kaiming正态分布

5. 均匀分布

6. 正态分布

7. 常数分布

8. 正交矩阵初始化

9. 单位矩阵初始化

10. 稀疏矩阵初始化

4.2 损失函数

1、nn.CrossEntropyLoss

nn.CrossEntropyLoss(weight=None,

size_average=None,

ignore_index=-100,

reduce=None,

reduction=‘mean’‘)

功能： nn.LogSoftmax ()与nn.NLLLoss ()结合，进行

交叉熵计算

主要参数：

• w eigh t：各类别的loss设置权值

•

ignore _ind e x：忽略某个类别

•

redu c tion ：计算模式，可为none/sum /m e an

none- 逐个元素计算

sum- 所有元素求和，返回标量

2、 nn.NLLLoss

功能：实现负对数似然函数中的负号功能

主要参数：

• weight：各类别的loss设置权值

• ignore_index：忽略某个类别

•reduction：计算模式，可为none/sum /m e an

none-逐个元素计算

nn.NLLLoss(weight=None,

size_average=None,

ignore_index=-100,

reduce=None,

reduction='mean')sum-所有元素求和，返回标量

m e an-加权平均，返回标量

3、 nn.BCELoss

nn.BCELoss(weight=None,

size_average=None,

reduce=None,

reduction='mean’)

功能：二分类交叉熵

注意事项：输入值取值在[0,1]

主要参数：

• weight：各类别的loss设置权值

• ignore_index：忽略某个类别

• reduction：计算模式，可为none/sum /m e an

none-逐个元素计算

4、 nn.BCEWithLogitsLoss

nn.BCEWithLogitsLoss(weight=None,

size_average=None,

reduce=None, reduction='mean',

pos_weight=None)

功能：结合Sigmoid与二分类交叉熵

注意事项：网络最后不加sigmoid函数

主要参数：

• pos _weight ：正样本的权值

• weight：各类别的loss设置权值

•ignore_index：忽略某个类别

•reduction ：计算模式，可为none/sum /mean

mean-加权平均，返回标量e aum

5. nn.L1Loss

6. nn.MSELoss

7. nn.SmoothL1Loss

8. nn.PoissonNLLLoss

9. nn.KLDivLoss

10. nn.MarginRankingLoss

11. nn.MultiLabelMarginLoss

12. nn.SoftMarginLoss

13. nn.MultiLabelSoftMarginLoss

14. nn.MultiMarginLoss

15. nn.TripletMarginLoss

16. nn.HingeEmbeddingLoss

17. nn.CosineEmbeddingLoss

18. nn.CTCLoss -所有元素求和，返回标量

4.3优化器 Optimizer

pytorch的优化器：管理并更新模型中可学习参数的值，使得模型输出更接近真实标签

导数：函数在指定坐标轴上的变化率

方向导数：指定方向上的变化率

梯度：一个向量，方向为方向导数取得最大值的方向

基class Optimizer(object):

def __init__(self, params, defaults):

self.defaults = defaults

self.state = defaultdict(dict)

self.param_groups = []

param_groups = [{'params':

param_groups}]本属性

• defaults：优化器超参数

• state：参数的缓存，如mom en tum的缓存

• params_groups：管理的参数组

• _step_count：记录更新次数，学习率调整中使用

基本方法

• 1.zero_grad()：清空所管理参数的梯度

pytorch特性：张量梯度不自动清零

class Optimizer(object):

def zero_grad(self):

for group in self.param_groups:

for p in group['params']:

if p.grad is not None:

p.grad.detach_()

p.grad.zero_()

2. step()：执行一步更新

3. add_param_group()：添加参数组

class Optimizer(object):

def add_param_group(self, param_group):

for group in self.param_groups:

param_set.update(set(group['params’]))

self.param_groups.append(param_group)

4.state_dict()：获取优化器当前状态信息字典

• 5.load_state_dict() ：加载状态信息字典

class Optimizer(object):

def state_dict(self):

return {

'state': packed_state,

'param_groups': param_groups,

}

def load_state_dict(self, state_dict):

学习率

Learning Rate

梯度下降:

𝒘𝒊+𝟏 = 𝒘𝒊 − 𝒈(𝒘𝒊 )

𝒘𝒊+𝟏 = 𝒘𝒊 − LR * 𝒈(𝒘𝒊)

学习率（learning rate）控制更新的步伐

Momentum（动量，冲量）：

结合当前梯度与上一次更新信息，用于当前更新

梯度下降：

𝒘𝒊+𝟏 = 𝒘𝒊 − 𝒍𝒓 ∗ 𝒈(𝒘𝒊 )

pytorch中更新公式：

𝒗𝒊 = 𝒎 ∗ 𝒗𝒊−𝟏 + 𝒈(𝒘𝒊 )

𝒘𝒊+𝟏 = 𝒘𝒊 − 𝒍𝒓 ∗ 𝒗𝒊

𝒗𝟏𝟎𝟎 = 𝒎 ∗ 𝒗𝟗𝟗 + 𝒈(𝒘𝟏𝟎𝟎)

= 𝒈(𝒘𝟏𝟎𝟎) + 𝒎 ∗ (𝒎 ∗ 𝒗𝟗𝟖 + 𝒈(𝒘𝟗𝟗))

= 𝒈(𝒘𝟏𝟎𝟎) + 𝒎 ∗ 𝒈(𝒘𝟗𝟗) + 𝒎𝟐 ∗ 𝒗𝟗𝟖

= 𝒈(𝒘𝟏𝟎𝟎) + 𝒎 ∗ 𝒈(𝒘𝟗𝟗) + 𝒎𝟐 ∗ 𝒈(𝒘𝟗𝟖) + 𝒎𝟑 ∗ 𝒗𝟗𝟕

1.optim.SGD

主要参数：

• params：管理的参数组

• lr：初始学习率

• momentum：动量系数，贝塔

• weight_decay：L2正则化系数

• nesterov：是否采用NAG

optim.SGD(params, lr=<object object>,

momentum=0, dampening=0,

weight_decay=0, nesterov=False)

优化器

Optimizer

1. optim.SGD：随机梯度下降法

2. optim.Adagrad：自适应学习率梯度下降法

3. optim.RMSprop： Adagrad的改进

4. optim.Adadelta： Adagrad的改进

5. optim.Adam：RMSprop结合Momentum

6. optim.Adamax：Adam增加学习率上限

7. optim.SparseAdam：稀疏版的Adam

8. optim.ASGD：随机平均梯度下降

9. optim.Rprop：弹性反向传播

10. optim.LBFGS：BFGS的改进

基于pytorch的深度学习基础4——损失函数和优化器

四．损失函数和优化器 4.1 均值初始化为减轻梯度消失和梯度爆炸，选择合适的权重初值。十种初始化方法 Initialization Methods 1. Xavie r均匀分布 2. Xavie r正态分布 4. Kaiming正态分布 5. 均匀分布 6. 正态分布 7. 常数分布 8. 正交矩阵初…...

编程日记 2024/12/9 19:39:01

网络安全信息收集（总结）更新

目录重点： 前言： 又学到了，就是我们什么时候要子域名收集，什么时候收集域名，重点应该放前面思考： 信息收集分为哪几类，什么是主域名，为什么要收集主域名，为什么要收…...

编程日记 2024/12/9 19:38:00

web斗地主游戏实现指北

前后端通信作为一个即时多人游戏，不论是即时聊天还是更新玩家状态，都需要服务端有主动推送功能，或者客户端轮询。轮询的时间间隔可能导致游玩体验差，因为不即时更新，而且请求数量太多可能会打崩服务器。建议在cs间…...

编程日记 2024/12/9 19:36:59

SpringMVC其他扩展

一、全局异常处理机制: 1.异常处理两种方式: 开发过程中是不可避免地会出现各种异常情况的，例如网络连接异常、数据格式异常、空指针异常等等。异常的出现可能导致程序的运行出现问题，甚至直接导致程序崩溃。因此，在开发过程中，…...

编程日记 2024/12/9 19:35:56

【Linux】网络服务

声明，以下内容均学习自《Linux就该这么学》一书 1、创建网络会话 Linux系统使用NetworkManager提供网络服务，它是一种动态管理网络配置的守护进程，能够让网络设备保持连接状态。 nmcli nmcli是一款基于命令行的网络配置工具，它…...

编程日记 2024/12/9 19:34:55

工作：SolidWorks从3D文件导出2D的DWG或DXF类型文件方法

工作：SolidWorks从3D文件导出2D的DWG或DXF类型文件方法 SolidWorks从3D文件导出2D的DWG或2D DXF类型文件方法（一）打开3D文件（二）从装配体到工程图（三）拖出想要的角度的图型（四&#…...

编程日记 2024/12/9 19:30:50

IDL学习笔记（五）MODIS数据（Grid）

IDL学习笔记（四） MODIS Grid数据的重投影正弦投影是以米为单位的经纬度网格是以度为单位的但是转换之后，不会一一对应，所以需要对中间空缺位置需要进行一个填补。核心问题: 把一个点从一个空间参考系放到另一个空间参…...

编程日记 2024/12/9 19:27:46

JavaScript语言介绍

JavaScrip是一门编程语言浏览器的工作原理所以得域名都会被解析成ip地址，ip地址就是服务器地址，服务器地址会返回一个html文件，解析html遇到css文件和JavaScript标签就会把相应内容下载下来进行解析。认识浏览器的内核浏览器的渲染过程 …...

编程日记 2024/12/9 19:26:44

Lua使用点号和冒号的区别

首先建立一个table，再分别定义两个方法，如下： local meta {}function meta:test1(...)print(self)print("")for k,v in pairs({...}) doprint(v)end endfunction meta.test2(...)print(self)print("")for k,v in pairs…...

编程日记 2024/12/9 19:21:38

LLM - 开源视觉多模态 LLaVA-CoT(o1) 深度推理模型测试与源码教程

欢迎关注我的CSDN：https://spike.blog.csdn.net/ 本文地址：https://spike.blog.csdn.net/article/details/144304351 免责声明：本文来源于个人知识与公开资料，仅用于学术交流，欢迎讨论，不支持转载。 LLaVA-…...

编程日记 2024/12/9 19:19:36

Ansible的yum和saltstack的哪个功能相似

Ansible的yum和saltstack的哪个功能相似在 Ansible 和 SaltStack 中，Ansible 的 yum 模块和 SaltStack 的 pkg 模块功能相似。它们都用于管理软件包，支持安装、升级、删除和查询等操作。 Ansible 的 yum 模块用途： 专门用于基于 Red Hat …...

编程日记 2024/12/9 19:16:32

启动paimon -- 本地模式演示 bin/start-cluster.sh-- 启动sqlclient bin/sql-client.sh示例 -- 创建catalog，每次都要创建，创建一个已经存在的catalog相当于使用 CREATE CATALOG fs_catalog WITH (typepaimon,warehousefile:/data/soft/paimon/catalog…...

编程日记 2024/12/9 19:14:27

Java 中 List 接口的学习笔记

1. 什么是 List？ 在 Java 中，List 是一个接口，属于 Java Collections Framework。它表示一个有序的集合，可以包含重复元素。List 接口允许通过索引访问元素，提供了多种实现方式，如 ArrayList 和 LinkedLis…...

编程日记 2024/12/9 19:13:26

【原生js案例】webApp实现鼠标移入移出相册放大缩小动画

图片相册这种动画效果也很常见，在我们的网站上。鼠标滑入放大图片，滑出就恢复原来的大小。现在我们使用运动定时器来实现这种滑动效果。感兴趣的可以关注下我的系列课程【webApp之h5端实战】，里面有大量的css3动画效果制作原生知识分析&…...

编程日记 2024/12/9 19:12:23

LVGL9 定时器模块

文章目录前言定时器系统概述特点定时器的创建函数：lv_timer_create函数：lv_timer_create_basic 定时器的控制函数：lv_timer_ready函数：lv_timer_reset 定时器的参数设置函数：lv_timer_set_cb函数：lv_time…...

编程日记 2024/12/9 19:11:21

Qt学习笔记第51到60讲

第51讲记事本实现打开功能回到第24个功能文件Notepad，给UI中的各个控件添加槽函数。 ①开始按钮 void Widget::on_btnOpen_clicked() {QString fileNameQFileDialog::getOpenFileName(this,tr("Open File"),"E:\\6_Qt Projects\\24_Notepad\\fi…...

编程日记 2024/12/9 19:09:18

网页设计--axios作业

根据以下mock地址中的json数据，使用axios异步方式获取并显示在页面中。 https://apifoxmock.com/m1/3761592-3393136-default/peotfindAll?apifoxApiId171582689 {"code": 1,"msg": "success","data": [{"id": …...

编程日记 2024/12/9 19:07:16

SpringBoot 整合 Avro 与 Kafka 详解

SpringBoot 整合 Avro 与 Kafka 详解在大数据处理和实时数据流场景中，Apache Kafka 和 Apache Avro 是两个非常重要的工具。Kafka 作为一个分布式流处理平台，能够高效地处理大量数据，而 Avro 则是一个用于序列化数据的紧凑、快速的二进制数…...

编程日记 2024/12/9 19:05:13

若依 ruoyi VUE el-select 直接获取选择option 的 label和value

1、最新在研究若依这个项目，我使用的是前后端分离的方案，RuoYi-Vue-fast(后端) RuoYi-Vue-->ruoyi-ui(前端)。RuoYi-Vue-fast是单应用版本没有区分那么多的modules 自己开发起来很方便，这个项目运行起来很方便，但是需要自定义的…...

编程日记 2024/12/9 19:04:12

大数据-155 Apache Druid 架构与原理详解数据存储索引服务压缩机制

点一下关注吧！！！非常感谢！！持续更新！！！ 目前已经更新到了： Hadoop（已更完）HDFS（已更完）MapReduce（已更完&am…...

编程日记 2024/12/9 19:03:11

cliclick 开发者指南：从源码编译到自定义Action开发

cliclick 开发者指南：从源码编译到自定义Action开发【免费下载链接】cliclick macOS CLI tool for emulating mouse and keyboard events 项目地址: https://gitcode.com/gh_mirrors/cl/cliclick cliclick 是一款强大的 macOS 命令行工具，用于模…...

编程新知 2026/5/16 8:55:56

Kubernetes Agent沙箱：构建安全隔离的集群组件运行时环境

1. 项目概述：一个为Kubernetes集群“特工”准备的沙箱在云原生世界里，Kubernetes已经成为了事实上的操作系统，而运行在其中的工作负载，就是一个个“特工”，它们执行着各种关键任务。但你是否想过，这些“特工…...

编程新知 2026/5/16 8:38:53

服务器电源线选购全攻略

5选服务器电源线，接口匹配、电流承载、安全认证、线缆长度、线材材质五大要点缺一不可，劣质线材容易过载发热、烧毁设备，严重还会引发火灾，机房布线一定要选用靠谱的睿阜高品质电源线。先对接口：物理适配是第一关键&am…...

编程新知 2026/5/16 7:25:35

Panda-AGI开源框架：构建具备长期记忆与规划能力的AI智能体

1. 项目概述：当“熊猫”遇上AGI，一个开源智能体的新范式最近在开源社区里，一个名为sinaptik-ai/panda-agi的项目引起了我的注意。光看名字就很有意思，“Panda”和“AGI”（Artificial General Intelligence，…...

编程新知 2026/5/16 7:17:17

用AI工具做技术课程：一个人完成录课、剪辑、上架全流程

软件测试从业者的知识变现新路径作为一名软件测试工程师，你手里握着大量值钱的东西——接口自动化怎么搭、性能瓶颈怎么定位、测试用例怎么设计才不漏测。这些东西在你的团队里可能是常识，但放到整个行业，就是别人愿意付费学习的硬通货。但一…...

编程新知 2026/5/16 6:48:05

ARM PMUv3架构详解与性能监控实战

1. ARM PMUv3架构概述性能监控单元(Performance Monitor Unit, PMU)是现代处理器中用于硬件性能分析的关键组件。作为ARMv8架构的标准组成部分，PMUv3通过事件计数器和配置寄存器实现了对微架构事件的监测能力。在实际开发中，我们经常需要利用PMU来定位性…...

编程新知 2026/5/16 6:01:52

“梦想、汗水、坚持”2026 SNH48 GROUP年度青春盛典5月30日正式启动

“十三而砺，向新而行。”中国大型青春女团SNH48 GROUP运营方上海丝芭文化传媒集团有限公司即日宣布：2026 SNH48 GROUP第十三届年度青春盛典大型系列活动将于5月30日正式启动，本届年度青春盛典颁奖典礼暨汇报演唱会定档8月8日，落地…...

编程新知 2026/5/16 5:50:44

终极指南：3分钟掌握Mouse Jiggler鼠标模拟器完整使用方法

终极指南：3分钟掌握Mouse Jiggler鼠标模拟器完整使用方法【免费下载链接】mousejiggler Mouse Jiggler is a very simple piece of software whose sole function is to "fake" mouse input to Windows, and jiggle the mouse pointer back and forth. …...

编程新知 2026/5/16 5:31:40

3步实现网页到Figma设计稿的智能转换：打破开发与设计壁垒

3步实现网页到Figma设计稿的智能转换：打破开发与设计壁垒【免费下载链接】figma-html Convert any website to editable Figma designs 项目地址: https://gitcode.com/gh_mirrors/fi/figma-html HTML转Figma工具是一款革命性的Chrome扩展程序，能…...

编程新知 2026/5/16 4:54:52

AlphaAvatar：从单目视频重建可驱动3D数字人的混合表示框架

1. 项目概述：从“数字人”到“阿尔法化身”的进化最近在数字人、虚拟形象生成这个圈子里，AlphaAvatar这个名字开始被频繁提及。它不是一个简单的换脸工具，也不是一个预设的3D模型库，而是一个旨在从单目视频中，高质量、…...

编程新知 2026/5/16 4:40:03

基于pytorch的深度学习基础4——损失函数和优化器

相关文章：

基于pytorch的深度学习基础4——损失函数和优化器

网络安全信息收集（总结）更新

web斗地主游戏实现指北

SpringMVC其他扩展

【Linux】网络服务

工作：SolidWorks从3D文件导出2D的DWG或DXF类型文件方法

IDL学习笔记（五）MODIS数据（Grid）

JavaScript语言介绍

Lua使用点号和冒号的区别

LLM - 开源视觉多模态 LLaVA-CoT(o1) 深度推理模型测试与源码教程

Ansible的yum和saltstack的哪个功能相似

paimon0.9记录

Java 中 List 接口的学习笔记

【原生js案例】webApp实现鼠标移入移出相册放大缩小动画

LVGL9 定时器模块

Qt学习笔记第51到60讲

网页设计--axios作业

SpringBoot 整合 Avro 与 Kafka 详解

若依 ruoyi VUE el-select 直接获取选择option 的 label和value

大数据-155 Apache Druid 架构与原理详解数据存储索引服务压缩机制

cliclick 开发者指南：从源码编译到自定义Action开发

Kubernetes Agent沙箱：构建安全隔离的集群组件运行时环境

服务器电源线选购全攻略

Panda-AGI开源框架：构建具备长期记忆与规划能力的AI智能体

用AI工具做技术课程：一个人完成录课、剪辑、上架全流程

ARM PMUv3架构详解与性能监控实战

“梦想、汗水、坚持”2026 SNH48 GROUP年度青春盛典5月30日正式启动

终极指南：3分钟掌握Mouse Jiggler鼠标模拟器完整使用方法

3步实现网页到Figma设计稿的智能转换：打破开发与设计壁垒

AlphaAvatar：从单目视频重建可驱动3D数字人的混合表示框架