当前位置：首页 > news >正文

14、保存与加载PyTorch训练的模型和超参数

news 2026/2/9 13:15:31

文章目录

1. state_dict
2. 模型保存
3. check_point
4. 详细保存
5. Docker
6. 机器学习常用库

1. state_dict

nn.Module 类是所有神经网络构建的基类，即自己构建一个深度神经网络也是需要继承自nn.Module类才行，并且nn.Module中的state_dict包含神经网络中的权重weight ，偏置bias,过程量buffer，举例说明：

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# @FileName  :NN_Embedding.py
# @Time      :2024/11/26 22:50
# @Author    :Jason Zhang
import torch
from torch import nnclass MyModel(nn.Module):def __init__(self):super(MyModel, self).__init__()self.linear1 = nn.Linear(3, 4)self.relu = nn.ReLU()self.linear2 = nn.Linear(4, 5)self.batch_norm = nn.BatchNorm2d(4)def forward(self, x):x = self.linear1(x)x = self.relu(x)y = self.linear2(x)return yif __name__ == "__main__":my_test = MyModel()my_keys = my_test.state_dict().keys()print(f"my_keys={my_keys}")

结果：
从结果中看出，跟说明的一样，不仅存的是weight,bias ,还有buffer

y_keys=odict_keys(['linear1.weight', 'linear1.bias', 'linear2.weight', 'linear2.bias', 'batch_norm.weight', 'batch_norm.bias', 'batch_norm.running_mean', 'batch_norm.running_var', 'batch_norm.num_batches_tracked'])

2. 模型保存

保存和加载

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# @FileName  :torch_save.py
# @Time      :2024/11/27 21:33
# @Author    :Jason Zhang
import torch
import torchvision.models as modelsif __name__ == "__main__":run_code = 0model = models.vgg16(weights='IMAGENET1K_V1')torch.save(model.state_dict(), 'model_weights.pth')model.load_state_dict(torch.load('model_weights.pth', weights_only=True))model.eval()torch.save(model, 'model.pth')

3. check_point

# Define model
import torch
from torch import nn
from torch import optim
import torch.nn.functional as Fclass TheModelClass(nn.Module):def __init__(self):super(TheModelClass, self).__init__()self.conv1 = nn.Conv2d(3, 6, 5)self.pool = nn.MaxPool2d(2, 2)self.conv2 = nn.Conv2d(6, 16, 5)self.fc1 = nn.Linear(16 * 5 * 5, 120)self.fc2 = nn.Linear(120, 84)self.fc3 = nn.Linear(84, 10)def forward(self, x):x = self.pool(F.relu(self.conv1(x)))x = self.pool(F.relu(self.conv2(x)))x = x.view(-1, 16 * 5 * 5)x = F.relu(self.fc1(x))x = F.relu(self.fc2(x))x = self.fc3(x)return x# Initialize model
model = TheModelClass()# Initialize optimizer
optimizer = optim.SGD(model.parameters(), lr=0.001, momentum=0.9)# Print model's state_dict
print("Model's state_dict:")
for param_tensor in model.state_dict():print(param_tensor, "\t", model.state_dict()[param_tensor].size())# Print optimizer's state_dict
print("Optimizer's state_dict:")
for var_name in optimizer.state_dict():print(var_name, "\t", optimizer.state_dict()[var_name])

Model's state_dict:
conv1.weight 	 torch.Size([6, 3, 5, 5])
conv1.bias 	 torch.Size([6])
conv2.weight 	 torch.Size([16, 6, 5, 5])
conv2.bias 	 torch.Size([16])
fc1.weight 	 torch.Size([120, 400])
fc1.bias 	 torch.Size([120])
fc2.weight 	 torch.Size([84, 120])
fc2.bias 	 torch.Size([84])
fc3.weight 	 torch.Size([10, 84])
fc3.bias 	 torch.Size([10])
Optimizer's state_dict:
state 	 {}
param_groups 	 [{'lr': 0.001, 'momentum': 0.9, 'dampening': 0, 'weight_decay': 0, 'nesterov': False, 'maximize': False, 'foreach': None, 'differentiable': False, 'params': [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]}]

4. 详细保存

在训练过程中，我们希望详细保存，以至于我们可以在中断训练中恢复训练。
保存模型

5. Docker

关于Docker方式搭建深度神经网络环境和配置
在这里插入图片描述

6. 机器学习常用库

在这里插入图片描述

14、保存与加载PyTorch训练的模型和超参数

文章目录 1. state_dict2. 模型保存3. check_point4. 详细保存5. Docker6. 机器学习常用库 1. state_dict nn.Module 类是所有神经网络构建的基类，即自己构建一个深度神经网络也是需要继承自nn.Module类才行，并且nn.Module中的state_dict包含神经网络中…...

编程日记 2024/12/1 21:42:51

应用技术：原生JavaScript Vue3 $(function () {ini(); });function ini() {const { createApp, ref, onMounted } Vue;createApp({setup() {const data ref({studentList: [],page: 1,pageSize: 10,});const getStudentList async (page, key) > {window.ons…...

编程日记 2024/12/1 21:41:50

Trimble X12助力电力管廊数据采集，为机器人巡视系统提供精准导航支持

地下电缆是一个城市重要的基础设施，它不仅具有规模大、范围广、空间分布复杂等特点，更重要的是它还承担着信息传输、能源输送等与人们生活息息相关的重要功能，也是一个城市赖以生存和发展的物质基础。 01、项目概述本次项目是对某区域2公里左…...

编程日记 2024/12/1 21:40:50

Docker 清理镜像策略详解

文章目录前言一、删除 Docker 镜像1. 查看当前镜像2. 删除单个镜像3. 删除多个镜像4. 删除所有未使用的镜像5. 删除悬空的 Docker 镜像6. 根据模式删除镜像7. 删除所有镜像二、删除 Docker 容器1. 查找容器2. 删除一个或多个特定容器3. 退出时删除容器4. 删除所有已退出的容器…...

编程日记 2024/12/1 21:37:46

【Linux】TCP网络编程

目录 V1_Echo_Server V2_Echo_Server多进程版本 V3_Echo_Server多线程版本 V3-1_多线程远程命令执行 V4_Echo_Server线程池版本 V1_Echo_Server TcpServer的上层调用如下，和UdpServer几乎一样： 而在InitServer中，大部分也和UDP那里一样&…...

编程日记 2024/12/1 21:33:41

排序学习整理（2）

上集回顾排序学习整理（1）-CSDN博客 2.3 交换排序交换排序的基本思想是：根据序列中两个记录键值的比较结果，交换这两个记录在序列中的位置。特点： 通过比较和交换操作，将键值较大的记录逐步移动到序列…...

编程日记 2024/12/1 21:32:40

AI蛋白质设计与人工智能药物设计

AI蛋白质设计与人工智能药物设计 AI蛋白质设计一、蛋白质相关的深度学习简介 1.基础概念 1.1.机器学习简介：从手写数字识别到大语言模型 1.2.蛋白质结构预测与设计回顾 1.3.Linux简介 1.4.代码环境：VS code和Jupyter notebook* 1.5.Python关键概…...

编程日记 2024/12/1 21:31:38

IOS ARKit进行图像识别

先讲一下基础控涧，资源的话可以留言，抽空我把它传到GitHub上，这里没写收积分，竟然充值才能下载，我下载也要充值，牛！ ARSCNView 可以理解画布或者场景 1 配置 ARWorldTrackingConfiguration AR追…...

编程日记 2024/12/1 21:29:36

初级数据结构——二叉搜索树

目录前言一、定义二、基本操作三、时间复杂度分析四、变体五、动态图解六、代码模版七、经典例题[1.——700. 二叉搜索树中的搜索](https://leetcode.cn/problems/search-in-a-binary-search-tree/)代码题解 [2.——938. 二叉搜索树的范围和](https://leetcode.cn/problems/ra…...

编程日记 2024/12/1 21:28:35

C++设计模式之组合模式中如何实现同一层部件的有序性

在组合模式中，为了实现同一层上部件的有序性，可以采取以下几种设计方法： 1. 使用有序集合使用有序集合（如 std::list、std::vector 或其他有序容器）来存储和管理子部件。这种方法可以确保子部件按照特定顺序排列&am…...

编程日记 2024/12/1 21:26:33

duxapp RN 端使用AppUpgrade 进行版本更新

版本更新包含了组件和工具的组合注册下面这是 duxcms 入口文件检查更新的注册方法，注册的同时会检查更新 import {request,updateApp,userConfig } from ./utils// 检查app更新 setTimeout(async () > {if (process.env.TARO_ENV rn) {// eslint-disable-n…...

编程日记 2024/12/1 21:25:32

【计网】自定义序列化反序列化(三) —— 实现网络版计算器【下】

🌎实现网络版计算器【下】本次序列化与反序列化所用到的代码，Tcp服务自定义序列化反序列化实现网络版计算器。文章目录： 实实现网络版计算器【下】客户端实现基于守护进程的改写 🚀客户端实现在这之前&#xff0c…...

编程日记 2024/12/1 21:23:30

神经网络中的优化方法(一)

目录摘要Abstract1. 与纯优化的区别1.1 经验风险最小化1.2 代理损失函数1.3 批量算法和小批量算法 2. 神经网络中优化的挑战2.1 病态2.2 局部极小值2.3 高原、鞍点和其他平坦区域2.4 悬崖和梯度爆炸2.5 长期依赖2.6 非精确梯度2.7 局部和全局结构间的弱对应 3. 基本算法3.1 随…...

编程日记 2024/12/1 21:22:29

Linux 计算机网络基础概念

目录 0.前言 1.计算机网络背景 1.1 独立模式 1.2 网络互联 1.3 局域网（Local Area Network，LAN） 1.4 广域网（Wide Area Network，WAN） 2.协议 2.1什么是协议 2.2协议分层和软件分层 2.3 OSI七层网络模型 2.3…...

编程日记 2024/12/1 21:21:28

qt QGraphicsEllipseItem详解

1、概述 QGraphicsEllipseItem是Qt框架中QGraphicsItem的一个子类，它提供了一个可以添加到QGraphicsScene中的椭圆项。QGraphicsEllipseItem表示一个带有填充和轮廓的椭圆，也可以用于表示椭圆段（通过startAngle()和spanAngle()方法&#xff…...

编程日记 2024/12/1 21:19:25

Python websocket

router.websocket(/chat/{flow_id}) 接口代码，并了解其工作流程、涉及的组件以及如何基于此实现你的新 WebSocket 接口。以下内容将分为几个部分进行讲解： 接口整体概述代码逐行解析关键组件和依赖关系如何基于此实现新功能示例：创建一个新的…...

编程日记 2024/12/1 21:16:22

【MySQL-5】MySQL的内置函数

目录 1. 整体学习的思维导图 2. 日期函数编辑 2.1 current_date() 2.2 current_time() 2.3 current_timestamp() 2.4 date(datetime) 2.5 now() 2.6 date_add() 2.7 date_sub() 2.8 datediff() 2.9 案例 2.9.1 创建一个出生日期登记簿 2.9.2 创建一个留言版 3…...

编程日记 2024/12/1 21:14:20

深度学习笔记之BERT(三)RoBERTa

深度学习笔记之RoBERTa 引言回顾：BERT的预训练策略RoBERTa训练过程分析静态掩码与动态掩码的比较模型输入模式与下一句预测使用大批量进行训练使用Byte-pair Encoding作为子词词元化算法更大的数据集和更多的训练步骤 RoBERTa配置引言本节将介绍一种基于 BERT \t…...

编程日记 2024/12/1 21:13:19

C++知识点总结(59)：背包型动态规划

背包型动态规划一、背包 dp1. 01 背包（限量）2. 完全背包（不限量）3. 口诀二、例题1. 和是质数的子集数2. 黄金的太阳3. 负数子集和4. NASA的⻝物计划一、背包 dp 1. 01 背包（限量） 假如有这几个物品&am…...

编程日记 2024/12/1 21:12:18

C++：反向迭代器的实现

反向迭代器的实现与 stack 、queue 相似，是通过适配器模式实现的。通过传入不同类型的迭代器来实现其反向迭代器。正向迭代器中，begin() 指向第一个位置，end() 指向最后一个位置的下一个位置。代码实现： template<class I…...

编程日记 2024/12/1 21:09:14

【网络】每天掌握一个Linux命令 - iftop

在Linux系统中，iftop是网络管理的得力助手，能实时监控网络流量、连接情况等，帮助排查网络异常。接下来从多方面详细介绍它。目录【网络】每天掌握一个Linux命令 - iftop工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景…...

编程新知 2025/10/10 17:03:53

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2026/2/8 4:37:06

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统下面是一个完整的 Python 系统，利用大模型实现智能 UI 自动化，结合计算机视觉和自然语言处理技术，实现"看屏操作"的能力。系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

编程新知 2025/10/22 11:16:20

C++ 基础特性深度解析

目录引言一、命名空间（namespace） C 中的命名空间与 C 语言的对比二、缺省参数 C 中的缺省参数与 C 语言的对比三、引用（reference） C 中的引用与 C 语言的对比四、inline（内联函数…...

编程新知 2026/1/15 4:25:16

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/11/11 6:28:42

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

目录一、引言二、DeepSeek 技术大揭秘2.1 核心架构解析2.2 关键技术剖析三、智能农业无人农场协同作业现状3.1 发展现状概述3.2 协同作业模式介绍四、DeepSeek 的 “农场奇妙游”4.1 数据处理与分析4.2 作物生长监测与预测4.3 病虫害防治4.4 农机协同作业调度五、实际案例大…...

编程新知 2025/9/24 13:35:36

C++使用 new 来创建动态数组

问题： 不能使用变量定义数组大小原因： 这是因为数组在内存中是连续存储的，编译器需要在编译阶段就确定数组的大小，以便正确地分配内存空间。如果允许使用变量来定义数组的大小，那么编译器就无法在编译时确定数组的大…...

编程新知 2026/2/2 18:33:19

代码随想录刷题day30

1、零钱兑换II 给你一个整数数组 coins 表示不同面额的硬币，另给一个整数 amount 表示总金额。请你计算并返回可以凑成总金额的硬币组合数。如果任何硬币组合都无法凑出总金额，返回 0 。假设每一种面额的硬币有无限个。题目数据保证结果符合 32 位带…...

编程新知 2025/10/4 6:30:56

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

编程新知 2026/1/25 10:41:07

STM32HAL库USART源代码解析及应用

STM32HAL库USART源代码解析前言STM32CubeIDE配置串口USART和UART的选择使用模式参数设置GPIO配置DMA配置中断配置硬件流控制使能生成代码解析和使用方法串口初始化__UART_HandleTypeDef结构体浅析HAL库代码实际使用方法使用轮询方式发送使用轮询方式接收使用中断方式发送使用中…...

编程新知 2026/1/31 13:18:46

14、保存与加载PyTorch训练的模型和超参数

文章目录

1. state_dict

2. 模型保存

3. check_point

4. 详细保存

5. Docker

6. 机器学习常用库

相关文章：

14、保存与加载PyTorch训练的模型和超参数

【前端开发】JS+Vuew3请求列表数据并分页

Trimble X12助力电力管廊数据采集，为机器人巡视系统提供精准导航支持

Docker 清理镜像策略详解

【Linux】TCP网络编程

排序学习整理（2）

AI蛋白质设计与人工智能药物设计

IOS ARKit进行图像识别

初级数据结构——二叉搜索树

C++设计模式之组合模式中如何实现同一层部件的有序性

duxapp RN 端使用AppUpgrade 进行版本更新

【计网】自定义序列化反序列化(三) —— 实现网络版计算器【下】

神经网络中的优化方法(一)

Linux 计算机网络基础概念

qt QGraphicsEllipseItem详解

Python websocket

【MySQL-5】MySQL的内置函数

深度学习笔记之BERT(三)RoBERTa

C++知识点总结(59)：背包型动态规划

C++：反向迭代器的实现

【网络】每天掌握一个Linux命令 - iftop

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

基于大模型的 UI 自动化系统

C++ 基础特性深度解析

【HTML-16】深入理解HTML中的块元素与行内元素

DeepSeek 技术赋能无人农场协同作业：用 AI 重构农田管理 “神经网”

C++使用 new 来创建动态数组

代码随想录刷题day30

推荐 github 项目:GeminiImageApp(图片生成方向，可以做一定的素材)

STM32HAL库USART源代码解析及应用