当前位置：首页 > news >正文

PyTorch中加载模型权重 A匹配B|A不匹配B

news 2025/12/18 5:19:29

在做深度学习项目时，从头训练一个模型是需要大量时间和算力的，我们通常采用加载预训练权重的方法，而我们往往面临以下几种情况：
在这里插入图片描述

未修改网络，A与B一致

很简单，直接.load_state_dict()

net = ANet(num_classses = 5,init_weights=True)
net.to(device)
net.load_state_dict(torch.load('weight/B_weight.pth'))

修改了网络，A与B不一致

[pytorch官方文档](Search — PyTorch master documentation):

load_state_dict(state_dict, strict=True)

将 state_dict 中的参数和缓冲区复制到此模块及其后代中。如果 strict 为 True，则 state_dict 的键必须与该模块的 state_dict() 函数返回的键完全匹配。

state_dict是包含参数和持久缓冲区的字典，可以看出 strict默认为True，所以默认状态下是严格要求state_dict中的key与torch.nn.Module.state_dict返回的key完全一致的

load_state_dict()函数有两个返回值：

missing_keys 是包含缺失键的 str 列表
unexpected_keys 是包含意外键的 str 列表

方法一：

将strict改为false，加载键值相同的部分。

model = NET2()
state_dict = model.state_dict()
weights = torch.load(weights_path)['model_state_dict']	#读取预训练模型权重
model.load_state_dict(weights, strict=False)	#strict

但是此时还存在一种情况：键值相同但shape不同，故应进行if…in…的判断：

ANet = torch.load('ANet.pt')  # 加载预训练权重模型(.pt文件)参数
#现成的模型的话，如resnet50 = models.resnet50(pretrained=True)
#采用:pretrained_dict = resnet50().state_dict()  
model = Model() # 创建模型
model_dict = model.state_dict() # 得到模型的参数字典# 判断预训练模型中网络的模块是否修改后的网络中也存在，并且shape相同，如果相同则取出
pretrained_dict = {k: v for k, v in ANet.items() if k in model_dict and (v.shape == model_dict[k].shape)}# 更新修改之后的 model_dict
model_dict.update(pretrained_dict)# 加载我们真正需要的 state_dict
model.load_state_dict(model_dict, strict=False)

方法二:

1.将权重导入原模型，之后在加载后的原模型基础上进行修改。
2.修改权重文件参数，再进行导入
适用于改动不大的模型

PyTorch中加载模型权重 A匹配B|A不匹配B

在做深度学习项目时，从头训练一个模型是需要大量时间和算力的，我们通常采用加载预训练权重的方法，而我们往往面临以下几种情况： 未修改网络，A与B一致很简单，直接.load_state_dict() net ANet(num_cla…...

编程日记 2023/8/6 9:26:22

@FeignClient指定多个url实现负载均衡

C知道回答的如下： 在使用 FeignClient 调用多个 URL 实现负载均衡时，可以使用 Spring Cloud Ribbon 提供的功能来实现。下面是一个示例代码： 首先，在Spring Boot主类上添加EnableFeignClients注解启用Feign Client功能。 Spring…...

编程日记 2023/8/6 9:25:21

vue diff 双端比较算法

文章目录双端指针比较策略命中策略四命中策略二命中策略三命中策略一未命中四种策略，遍历旧节点列表新增情况一新增情况二删除节点双端比较的优势双端指针使用四个变量 oldStartIdx、oldEndIdx、newStartIdx 以及 newEndIdx 分别存储旧 children 和新 children …...

编程日记 2023/8/6 9:24:19

初识React: 基础(概念特点高效原因虚拟DOM JSX语法组件)

1.什么是React? React是一个由Facebook开源的JavaScript库，它主要用于构建用户界面。React的特点是使用组件化的思想来构建界面，使得代码的可复用性和可维护性大大提高。React还引入了虚拟DOM的概念，减少了对真实DOM的直接操作，…...

编程日记 2023/8/6 9:23:18

自监督去噪：Neighbor2Neighbor原理分析与总结

文章目录 1. 方法原理1.1 先前方法总结1.2 Noise2Noise回顾1.3 从Noise2Noise到Neighbor2Neighbor1.4 框架结构2. 实验结果3. 总结文章链接：https://arxiv.org/abs/2101.02824 参考博客：https://arxiv.org/abs/2101.02824 1. 方法原理 1.1 先前方法总…...

编程日记 2023/8/6 9:22:17

简单工厂模式(Simple Factory)

简单工厂模式，又称为静态工厂方法(Static Factory Method)模式。在简单工厂模式中，可以根据参数的不同返回不同类的实例。简单工厂模式专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式不属于GoF的23个…...

编程日记 2023/8/6 9:21:16

Agent：OpenAI的下一步，亚马逊云科技站在第5层

什么是Agent？在大模型语境下，可以理解成能自主理解、规划、执行复杂任务的系统。Agent也将成为新的起点，成为各行各业构建新一代AI应用必不可少的组成部分。对此，初创公司Seednapse AI创始人提出构建AI应用的五层基石理论&#…...

编程日记 2023/8/6 9:20:13

JMeter 4.x 简单使用

文章目录前言JMeter 4.x 简单使用1. 启动2. 设置成中文3. 接口测试3.1. 设置线程组3.2. HTTP信息请求头管理器3.3. 添加HTTP请求默认值3.4. 添加HTTP cookie 管理3.5. 添加http请求3.5.1. 添加断言 3.6. 添加监听器-查看结果树3.7. 添加监听器-聚合报告 4. 测试前言如果您觉…...

编程日记 2023/8/6 9:19:05

深入NLTK：Python自然语言处理库高级教程

在前面的初级和中级教程中，我们了解了NLTK库中的基本和进阶功能，如词干提取、词形还原、n-gram模型和词云的绘制等。在本篇高级教程中，我们将深入探索NLTK的更多高级功能，包括句法解析、命名实体识别、情感分析以及文本分类。一…...

编程日记 2023/8/6 9:18:00

React 用来解析html 标签的方法

在React中，解析HTML标签通常是使用JSX（JavaScript XML）语法的一部分。JSX允许您在JavaScript代码中编写类似HTML的标记，然后通过React进行解析和渲染。以下是React中解析HTML标签的几种常见方式： 直接在JSX中使用标…...

编程日记 2023/8/6 9:16:59

【C++】做一个飞机空战小游戏(五)——getch()控制两个飞机图标移动(控制光标位置)

[导读]本系列博文内容链接如下： 【C】做一个飞机空战小游戏(一)——使用getch()函数获得键盘码值【C】做一个飞机空战小游戏(二)——利用getch()函数实现键盘控制单个字符移动【C】做一个飞机空战小游戏(三)——getch()函数控制任意造型飞机图标移动【C】做一个飞…...

编程日记 2023/8/6 9:15:56

Flask 是什么？Flask框架详解及实践指南

Flask 是一个轻量级的 Python Web 框架，它被广泛用于构建 Web 应用程序和 API。Flask 简单易用，具有灵活性和可扩展性，是许多开发者喜欢用其构建项目的原因。本文将介绍 Flask 是什么以及如何使用它来构建 Web 应用程序，同时提供一…...

编程日记 2023/8/6 9:14:54

C. Mark and His Unfinished Essay - 思维

分析： 直接模拟操作会mle，可以每次复制记录对应源字符串的下标，可以记录每次字符串增加的长度的左右端点下标，可以发现左端点与读入的l是对应的，因此就可以向前移到l的位置，这样层层递归，就能找…...

编程日记 2023/8/6 9:13:52

Java的变量与常量

目录变量声明变量变量的声明类型变量的声明方式：变量名变量名的标识符初始化变量常量关键字final 类常量总结变量和常量都是用来存储值和数据的基本数据类型存储方式，但二者之间有一些关键差别。变量在Java中，每个变…...

编程日记 2023/8/6 9:12:49

C# Blazor 学习笔记(6):热重置问题解决

文章目录前言热重置问题描述解决方法演示总结前言我最近在使用Blazor的时候，使用了BootstrapBlazor（以下简称BB）创建模板的时候，发现热重置无效。经过了一上午的折腾，我终于解决了这个问题。热重置问题描述 …...

编程日记 2023/8/6 9:11:47

一百四十六、Xmanager——Xmanager5连接Xshell7并控制服务器桌面

一、目的由于kettle安装在Linux上，Xshell启动后需要Xmanager。而Xmanager7版本受限、没有免费版，所以就用Xmanager5去连接Xshell7 二、Xmanager5安装包来源 （一）注册码注册码：101210-450789-147200 &#xff08…...

编程日记 2023/8/6 9:10:45

用Rust实现23种设计模式之模板方法模式

关注我，学习Rust不迷路！！ 模板方法模式是一种行为型设计模式，它定义了一个算法的骨架，将一些步骤的实现延迟到子类中。以下是模板方法模式的优点和使用场景： 优点： 提高代码复用性&#xff1…...

编程日记 2023/8/6 9:09:44

python与深度学习(十三):CNN和IKUN模型

目录 1. 说明2. IKUN模型2.1 导入相关库2.2 建立模型2.3 模型编译2.4 数据生成器2.5 模型训练2.6 模型保存2.7 模型训练结果的可视化 3. IKUN的CNN模型可视化结果图4. 完整代码 1. 说明本篇文章是CNN的另外一个例子，IKUN模型，是自制数据集的例子。之前…...

编程日记 2023/8/6 9:08:43

题目：2283.判断一个数的数字计数是否等于数位的值

题目来源： leetcode题目，网址：2283. 判断一个数的数字计数是否等于数位的值 - 力扣（LeetCode） 解题思路： 两次遍历。第一次对字符串中每个出现的数字计数。第二次比较数字计数与数位的值是否相等。解…...

编程日记 2023/8/6 9:07:42

任务14、无缝衔接,MidJourney瓷砖（Tile）参数制作精良贴图

14.1 任务概述在这个实验任务中，我们将深入探索《Midjourney Ai绘画》中的Tile技术和其在艺术创作中的具有挑战性的应用。此任务将通过理论学习与实践操作相结合的方式，让参与者更好地理解Tile的核心概念，熟练掌握如何在Midjourney平台上使用Tile参数，并实际运用到AI绘画…...

编程日记 2023/8/6 9:06:41

多模态2025：技术路线“神仙打架”，视频生成冲上云霄

文｜魏琳华编｜王一粟一场大会，聚集了中国多模态大模型的“半壁江山”。智源大会2025为期两天的论坛中，汇集了学界、创业公司和大厂等三方的热门选手，关于多模态的集中讨论达到了前所未有的热度。其中，…...

编程新知 2025/12/9 23:28:12

pam_env.so模块配置解析

在PAM（Pluggable Authentication Modules）配置中， /etc/pam.d/su 文件相关配置含义如下： 配置解析 auth required pam_env.so1. 字段分解字段值说明模块类型auth认证类模块，负责验证用户身份&am…...

编程新知 2025/10/5 8:09:39

【磁盘】每天掌握一个Linux命令 - iostat

目录【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景注意事项【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat（I/O Statistics）是Linux系统下用于监视系统输入输出设备和CPU使…...

编程新知 2025/9/30 16:39:11

五年级数学知识边界总结思考-下册

目录一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解：由来、作用与意义**一、知识点核心内容****二、知识点的由来：从生活实践到数学抽象****三、知识的作用：解决实际问题的工具****四、学习的意义：培养核心素养…...

编程新知 2025/10/7 4:57:55

Ascend NPU上适配Step-Audio模型

1 概述 1.1 简述 Step-Audio 是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统，支持多语言对话（如中文，英文，日语），语音情感（如开心，悲伤）&#x…...

编程新知 2025/12/16 0:36:19

腾讯云V3签名

想要接入腾讯云的Api，必然先按其文档计算出所要求的签名。之前也调用过腾讯云的接口，但总是卡在签名这一步，最后放弃选择SDK，这次终于自己代码实现。可能腾讯云翻新了接口文档，现在阅读起来，清晰了很多&…...

编程新知 2025/10/19 18:56:12

Linux系统部署KES

1、安装准备 1.版本说明V008R006C009B0014 V008：是version产品的大版本。 R006：是release产品特性版本。 C009：是通用版 B0014：是build开发过程中的构建版本2.硬件要求 #安全版和企业版内存：1GB 以上硬盘&#xf…...

编程新知 2025/11/3 8:50:43

redis和redission的区别

Redis 和 Redisson 是两个密切相关但又本质不同的技术，它们扮演着完全不同的角色： Redis: 内存数据库/数据结构存储本质： 它是一个开源的、高性能的、基于内存的键值存储数据库。它也可以将数据持久化到磁盘。核心功能： 提供丰…...

编程新知 2025/11/6 1:34:07

pycharm 设置环境出错 pycharm 新建项目，设置虚拟环境，出错 pycharm 出错 Cannot open Local Failed to start [powershell.exe, -NoExit, -ExecutionPolicy, Bypass, -File, C:\Program Files\JetBrains\PyCharm 2024.1.3\plugins\terminal\shell-int…...

编程新知 2025/12/15 4:30:09

MeshGPT 笔记

[2311.15475] MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers https://library.scholarcy.com/try 真正意义上的AI生成三维模型MESHGPT来袭！_哔哩哔哩_bilibili GitHub - lucidrains/meshgpt-pytorch: Implementation of MeshGPT, SOTA Me…...

编程新知 2025/12/15 3:22:09

未修改网络，A与B一致

修改了网络，A与B不一致

方法一：

方法二:

相关文章：