当前位置：首页 > news >正文

学习pytorch15 优化器

news 2026/2/8 21:09:55

优化器

官网
如何构造一个优化器
优化器的step方法
code
running log
- 出现下面问题如何做反向优化？

官网

https://pytorch.org/docs/stable/optim.html

在这里插入图片描述
提问：优化器是什么要优化什么优化能干什么优化是为了解决什么问题
优化模型参数

如何构造一个优化器

optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)  # momentum SGD优化算法用到的参数
optimizer = optim.Adam([var1, var2], lr=0.0001)

选择一个优化器算法，如上 SGD 或者 Adam
第一个参数需要传入模型参数
第二个及后面的参数是优化器算法特定需要的，lr 学习率基本每个优化器算法都会用到

优化器的step方法

会利用模型的梯度，根据梯度每一轮更新参数
optimizer.zero_grad() # 必须做把上一轮计算的梯度清零，否则模型会有问题

for input, target in dataset:optimizer.zero_grad()  # 必须做 把上一轮计算的梯度清零，否则模型会有问题output = model(input)loss = loss_fn(output, target)loss.backward()optimizer.step()

or 把模型梯度包装成方法再调用

for input, target in dataset:def closure():optimizer.zero_grad()output = model(input)loss = loss_fn(output, target)loss.backward()return lossoptimizer.step(closure)

code

import torch
import torchvision
from torch import nn, optim
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWritertest_set = torchvision.datasets.CIFAR10("./dataset", train=False, transform=torchvision.transforms.ToTensor(),download=True)dataloader = DataLoader(test_set, batch_size=1)class MySeq(nn.Module):def __init__(self):super(MySeq, self).__init__()self.model1 = Sequential(Conv2d(3, 32, kernel_size=5, stride=1, padding=2),MaxPool2d(2),Conv2d(32, 32, kernel_size=5, stride=1, padding=2),MaxPool2d(2),Conv2d(32, 64, kernel_size=5, stride=1, padding=2),MaxPool2d(2),Flatten(),Linear(1024, 64),Linear(64, 10))def forward(self, x):x = self.model1(x)return x# 定义loss
loss = nn.CrossEntropyLoss()
# 搭建网络
myseq = MySeq()
print(myseq)
# 定义优化器
optmizer = optim.SGD(myseq.parameters(), lr=0.001, momentum=0.9)
for epoch in range(20):running_loss = 0.0for data in dataloader:imgs, targets = data# print(imgs.shape)output = myseq(imgs)optmizer.zero_grad()  # 每轮训练将梯度初始化为0  上一次的梯度对本轮参数优化没有用result_loss = loss(output, targets)result_loss.backward()  # 优化器需要每个参数的梯度， 所以要在backward() 之后执行optmizer.step()  # 根据梯度对每个参数进行调优# print(result_loss)# print(result_loss.grad)# print("ok")running_loss += result_lossprint(running_loss)

running log

loss由小变大最后到nan的解决办法：

降低学习率
使用正则化技术
增加训练数据
检查网络架构和激活函数

出现下面问题如何做反向优化？

Files already downloaded and verified
MySeq((model1): Sequential((0): Conv2d(3, 32, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))(1): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)(2): Conv2d(32, 32, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))(3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)(4): Conv2d(32, 64, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))(5): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)(6): Flatten(start_dim=1, end_dim=-1)(7): Linear(in_features=1024, out_features=64, bias=True)(8): Linear(in_features=64, out_features=10, bias=True))
)
tensor(18622.4551, grad_fn=<AddBackward0>)
tensor(16121.4092, grad_fn=<AddBackward0>)
tensor(15442.6416, grad_fn=<AddBackward0>)
tensor(16387.4531, grad_fn=<AddBackward0>)
tensor(18351.6152, grad_fn=<AddBackward0>)
tensor(20915.9785, grad_fn=<AddBackward0>)
tensor(23081.5254, grad_fn=<AddBackward0>)
tensor(24841.8359, grad_fn=<AddBackward0>)
tensor(25401.1602, grad_fn=<AddBackward0>)
tensor(26187.4961, grad_fn=<AddBackward0>)
tensor(28283.8633, grad_fn=<AddBackward0>)
tensor(30156.9316, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)
tensor(nan, grad_fn=<AddBackward0>)

学习pytorch15 优化器

优化器官网如何构造一个优化器优化器的step方法coderunning log出现下面问题如何做反向优化？ 官网 https://pytorch.org/docs/stable/optim.html 提问：优化器是什么要优化什么优化能干什么优化是为了解决什么问题优化模型参数如何构造一个优化器…...

编程日记 2023/11/9 6:38:26

[算法日志]图论刷题沉岛思想的运用

[算法日志]图论刷题: 沉岛思想的运用 leetcode 695 岛屿最大面积给你一个大小为 m x n 的二进制矩阵 grid . 岛屿是由一些相邻的 1 (代表土地) 构成的组合, 这里的「相邻」要求两个 1 必须在水平或者竖直的四个方向上相邻. 你可以假设 grid 的四个边缘都被 0&#xff08…...

编程日记 2023/11/9 6:37:08

Web服务器的搭建

网站需求： 1.基于域名www.openlab.com可以访问网站内容为 welcome to openlab!!! 2.给该公司创建三个网站目录分别显示学生信息，教学资料和缴费网站，基于www.openlab.com/student 网站访问学生信息，www.openlab.com/data网站访问教…...

编程日记 2023/11/9 6:33:59

如何使用 GTX750 或 1050 显卡安装 CUDA11+

前言由于兼容性问题，使得我们若想用较新版本的 PyTorch，通过 GPU 方式训练模型，也得更换较新版本得 CUDA 工具包。然而 CUDA 的版本又与电脑显卡的驱动程序版本关联，如果是低版本的显卡驱动程序安装 CUDA11 及以上肯定会失败。比…...

编程日记 2023/11/9 6:32:56

跟着森老师学React Hooks(1)——使用Vite构建React项目

Vite是一款构建工具，对ts有很好的支持，最近也是在前端越来越流行。以往的React项目的初始化方式大多是通过脚手架create-react-app(本质是webpack)，其实比起Vite来构建，启动会慢一些。所以这次跟着B站的一个教程，使用…...

编程日记 2023/11/9 6:31:54

强力解决使用node版本管理工具 NVM 出现的问题（找不到 node，或者找不到 npm）

强力解决使用node版本管理工具 NVM 出现的问题（找不到 node，或者找不到 npm） node与npm版本对应关系 nvm是好用的Nodejs版本管理工具， 通过它可以方便地在本地调换Node版本。 2020-05-28 Node当前长期稳定版12.17.0，…...

编程日记 2023/11/9 6:30:52

Docker指定容器使用内存

Docker指定容器使用内存作者：铁乐与猫如果是还没有生成的容器，你可以从指定镜像生成容器时特意加上 run -m 256m 或 --memory-swap512m来限制。 -m操作指定的是物理内存，还有虚拟交换分区默认也会生成同样的大小，而–memory-…...

编程日记 2023/11/9 6:27:42

做什么数据表格啊，要做就做数据可视化

是一堆数字更易懂，还是图表更易懂？很明显是图表，特别是数据可视化图表。数据可视化是一种将大量数据转化为视觉形式的过程，通过图形、图表、图像等方式呈现数据，以便更直观地理解和分析。数据可视化更加生动、形象地…...

编程日记 2023/11/9 6:26:41

CSS特效003：太阳、地球、月球的旋转

GPT能够很好的应用到我们的代码开发中，能够提高开发速度。你可以利用其代码，做出一定的更改，然后实现效能。 css实战中，这种球体间的旋转，主要通过rotate()旋转函数来实现。实际上，蓝色的地球和黑色的月球…...

编程日记 2023/11/9 6:25:40

云计算的大模型之争，亚马逊云科技落后了？

文丨智能相对论作者丨沈浪 “OpenAI使用了Azure的智能云服务”——在过去的半年，这几乎成为了微软智能云最好的广告词。正所谓“水涨船高”，凭借OpenAI旗下的ChatGPT在全球范围内爆发，微软趁势拉了一波自家的云计算业务。2023年二季度&a…...

编程日记 2023/11/9 6:24:39

const { required, phoneOrMobile } CjmForm.rules; export default function detail() {const { query } getRouterInfo(location);const formRef useRef(null);const [crumbList, setCrumbList] useState([{url: "/wenling/Reviewer",name: "审核人员&quo…...

编程日记 2023/11/9 6:22:36

公共功能测试用例

1、UI测试布局是否合理，输入框、按钮是否对齐行列间距是否保持一致弹出窗口垂直居中对其界面的设计风格是否与UI的设计风格一致系统是否使用统一风格的控件界面的文字是否简洁易懂，是否有错别字兼容性测试：不同浏览器、版本、分辨率下&a…...

编程日记 2023/11/9 6:20:20

【电路笔记】-并联RLC电路分析

并联RLC电路分析文章目录并联RLC电路分析1、概述2、AC的行为3、替代配置3.1 带阻滤波器3.2 带通滤波器 4、总结电子器件三个基本元件的串联行为已在我们之前的文章系列 RLC 电路分析中详细介绍。在本文中，介绍了另一种称为并联 RLC 电路的关联。在第一部分中&a…...

编程日记 2023/11/9 6:19:19

ros1 client

Client（客户端）：发布海龟生成请求 [类似Publisher] Serve（服务端）：海龟仿真器,接收请求 [类似于Subscriber] Service（服务）：生成海龟的具体内容，其中服务类型…...

编程日记 2023/11/9 6:18:03

射频功率放大器应用中GaN HEMT的表面电势模型

标题：A surface-potential based model for GaN HEMTs in RF power amplifier applications 来源：IEEE IEDM 2010 本文中的任何第一人称都为论文的直译摘要：我们提出了第一个基于表面电位的射频GaN HEMTs紧凑模型，并将我们的工…...

编程日记 2023/11/9 6:17:01

CSP(Common Spatial Patterns)——EEG特征提取方法详解

基于CSP的运动想象 EEG 特征提取和可视化参考前文：https://blog.csdn.net/qq_43811536/article/details/134273470?spm1001.2014.3001.5501 目录 1. CSP是什么？1.1 CSP的含义1.2 CSP算法1.3 CSP特征的特点 2. CSP特征在EEG信号分类任务中的应用2.1 任务…...

编程日记 2023/11/9 6:15:59

【Git】Git 学习笔记_操作本地仓库

1. 安装与初始化配置 1.1 安装下载地址在文件夹里右键点击 git bash here 即可打开命令行面板。 git -v // 查看版本1.2 配置 git config --global user.name "heo" git config --global user.email xxxgmail.com git config --global credential.helper stor…...

编程日记 2023/11/9 6:14:57

杂记(3)：在Pytorch中如何操作将数据集分为训练集和测试集？

在Pytorch中如何操作将数据集分为训练集和测试集？ 0. 前言1. 手动切分2. train_test_split方法3. Pytorch自带方法4. 总结 0. 前言数据集需要分为训练集和测试集！ 其中，训练集单纯用来训练，优化模型参数；测试集单纯用…...

编程日记 2023/11/9 6:13:55

【MySQL篇】数据库角色

前言数据库角色是被命名的一组与数据库操作相关的权限，角色是权限的集合。因此，可以为一组具有相同权限的用户创建一个角色，使用角色来管理数据库权限可以简化授权的过程。 CREATE ROLE：创建一个角色 GRANT：给角色授…...

编程日记 2023/11/9 6:12:54

c++ 信奥赛编程 2050：【例5.20】字串包含

#include<iostream> #include<cstring> using namespace std; int main() {string str1,str2;int temp;cin>>str1>>str2;//判断长度 if(str1.size()<str2.size()){ swap(str1,str2); //交换内容 }str1str1str1; //AABCDAABCDAABCDAABCDif(str…...

编程日记 2023/11/9 6:11:48

零门槛NAS搭建：WinNAS如何让普通电脑秒变私有云？

一、核心优势：专为Windows用户设计的极简NAS WinNAS由深圳耘想存储科技开发，是一款收费低廉但功能全面的Windows NAS工具，主打“无学习成本部署” 。与其他NAS软件相比，其优势在于： 无需硬件改造：将任意W…...

编程新知 2026/1/2 23:01:24

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO：支持视觉指代和像素对齐的医学视觉语言模型论文信息标题：MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者：Yanyuan Chen, Dexuan Xu, Yu Hu…...

编程新知 2025/10/6 14:17:21

css实现圆环展示百分比，根据值动态展示所占比例

代码如下 <view class""><view class"circle-chart"><view v-if"!!num" class"pie-item" :style"{background: conic-gradient(var(--one-color) 0%,#E9E6F1 ${num}%),}"></view><view v-else …...

编程新知 2026/2/5 4:28:28

k8s从入门到放弃之Ingress七层负载

k8s从入门到放弃之Ingress七层负载在Kubernetes（简称K8s）中，Ingress是一个API对象，它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress，你可…...

编程新知 2025/9/7 0:12:53

阿里云ACP云计算备考笔记 (5)——弹性伸缩

目录第一章概述第二章弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制第三章主要定义 …...

编程新知 2026/1/22 6:07:24

线程同步：确保多线程程序的安全与高效！

全文目录： 开篇语前序前言第一部分：线程同步的概念与问题1.1 线程同步的概念1.2 线程同步的问题1.3 线程同步的解决方案第二部分：synchronized关键字的使用2.1 使用 synchronized修饰方法2.2 使用 synchronized修饰代码块第三部分&#xff…...

编程新知 2025/9/24 16:02:40

java 实现excel文件转pdf | 无水印 | 无限制

文章目录目录文章目录前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件总结前言 java处理excel转pdf一直没找到什么好用的免费jar包工具，自己手写的难度，恐怕高级程序员花费一年的事件，也…...

编程新知 2025/11/5 4:10:42

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

第一章引言：语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进在人工智能领域，文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量，支撑着搜索引擎、推荐系统、…...

编程新知 2025/11/6 8:47:31

第25节 Node.js 断言测试

Node.js的assert模块主要用于编写程序的单元测试时使用，通过断言可以提早发现和排查出错误。稳定性: 5 - 锁定这个模块可用于应用的单元测试，通过 require(assert) 可以使用这个模块。 assert.fail(actual, expected, message, operator) 使用参数…...

编程新知 2025/10/11 0:24:31

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现（两者等价），用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例： 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

编程新知 2025/11/21 22:02:37

学习pytorch15 优化器

优化器

官网

如何构造一个优化器

优化器的step方法

code

running log

出现下面问题如何做反向优化？

相关文章：

学习pytorch15 优化器

[算法日志]图论刷题沉岛思想的运用

Web服务器的搭建

如何使用 GTX750 或 1050 显卡安装 CUDA11+

跟着森老师学React Hooks(1)——使用Vite构建React项目

强力解决使用node版本管理工具 NVM 出现的问题（找不到 node，或者找不到 npm）

Docker指定容器使用内存

做什么数据表格啊，要做就做数据可视化

CSS特效003：太阳、地球、月球的旋转

云计算的大模型之争，亚马逊云科技落后了？

【form校验】3.0项目多层list嵌套

公共功能测试用例

【电路笔记】-并联RLC电路分析

ros1 client

射频功率放大器应用中GaN HEMT的表面电势模型

CSP(Common Spatial Patterns)——EEG特征提取方法详解

【Git】Git 学习笔记_操作本地仓库

杂记(3)：在Pytorch中如何操作将数据集分为训练集和测试集？

【MySQL篇】数据库角色

c++ 信奥赛编程 2050：【例5.20】字串包含

零门槛NAS搭建：WinNAS如何让普通电脑秒变私有云？

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

css实现圆环展示百分比，根据值动态展示所占比例

k8s从入门到放弃之Ingress七层负载

阿里云ACP云计算备考笔记 (5)——弹性伸缩

线程同步：确保多线程程序的安全与高效！

java 实现excel文件转pdf | 无水印 | 无限制

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

第25节 Node.js 断言测试

MySQL中【正则表达式】用法