当前位置：首页 > news >正文

加载预训练模型，模型微调，在自己的数据集上快速出效果

news 2026/5/15 20:13:51

针对于某个任务，自己的训练数据不多，先找到一个同类的别人训练好的模型，把别人现成的训练好了的模型拿过来，换成自己的数据，调整一下参数，再训练一遍，这就是微调（fine-tune）。 PyTorch里面提供的经典的网络模型都是官方通过Imagenet的数据集与训练好的数据，如果我们的数据训练数据不够，这些数据是可以作为基础模型来使用的。(Fine tuning 模型微调)
Fine tuning 模型微调的好处
- 对于数据集本身很小（几千张图片）的情况，从头开始训练具有几千万参数的大型神经网络是不现实的，因为越大的模型对数据量的要求越大，过拟合无法避免。这时候如果还想用上大型神经网络的超强特征提取能力，只能靠微调已经训练好的模型。
- 可以降低训练成本：如果使用导出特征向量的方法进行迁移学习，后期的训练成本非常低，用 CPU 都完全无压力，没有深度学习机器也可以做。
- 前人花很大精力训练出来的模型在大概率上会比你自己从零开始搭的模型要强悍，没有必要重复造轮子。
迁移学习初衷是节省人工标注样本的时间，让模型可以通过一个已有的标记数据的领域向未标记数据领域进行迁移从而训练出适用于该领域的模型，直接对目标域从头开始学习成本太高，我们故而转向运用已有的相关知识来辅助尽快地学习新知识。把统一的概念抽象出来，只学习不同的内容。迁移学习按照学习方式可以分为基于样本的迁移，基于特征的迁移，基于模型的迁移，以及基于关系的迁移。
微调应该是迁移学习中的一部分。微调只能说是一个trick，一种技术；迁移学习是一个更宏大的概念。
Pytorch模型保存、加载与预训练
保存和加载整个模型和参数：这种方式会保存整个模型的结构以及参数，会占用较大的磁盘空间，通常不采用这种方式

torch.save(model, 'model.pkl')  #保存
model = torch.load('model.pkl') # 加载

保存和加载模型的参数，优点是速度快，占用的磁盘空间少，是最常用的模型保存方法。load_state_dict有一个strict参数，该参数默认是True， 表示预训练模型的网络结构与自定义的网络结构严格相同（包括名字和维度）。如果自定义网络和预训练网络不严格相同时，需要将不属于自定义网络的key去掉

torch.save(model.state_dict(), 'model_state_dict.pkl')
model = model.load_state_dict(torch.load(model_state_dict.pkl))

在实际场景中，我们往往需要保存更多的信息，如优化器的参数，那么可以通过字典的方式进行存储

# 保存
torch.save({'epoch': epochId,'state_dict': model.state_dict,'best_acc': best_acc,'optimizer': optimizer.state_dict()}, checkpoint_path + "/m-" + timestamp + str("%.4f" % best_acc) + ".pth.tar")
# 加载
def load_model(model, checkpoint, optimizer):model_CKPT = torch.load(checkpoint)model.load_state_dict(model_CKPT['state_dict'])optimizer.load_state_dict(model_CKPT['optimizer'])return model, optimizer

加载部分预训练模型：如果我们修改了网络，那么就需要将这部分参数过滤掉：(值得注意的是，当两个网络的结构相同，但是结构的命名不同时，直接加载会报错。因此需要修改结构的key值)

def load_model(model, chinkpoint, optimizer):model_CKPT = torch.load(checkpoint)model_dict = model.state_dict()pretrained_dict = model_CKPT['state_dict']# 将不在model中的参数过滤掉new_dict = {k, v for k, v in pretrained_dict.items() if k in model_dict.keys()}model_dict.update(new_dict)model.load_state_dict(model_dict)# 加载优化器参数optimizer.load_state_dict(model_CKPT['optimizer'])return model, optimizer

冻结网络的部分参数，训练另一部分参数(注意，必须同时在优化器中将这些参数过滤掉，否则会报错。因为optimizer里面的参数要求required_grad为Ture)
- 当输入给模型的数据集形式相似或者相同时，常见的是利用现有的经典模型（如Residual Network、 GoogleNet等）作为backbone来提取特征，那么这些经典模型已经训练好的模型参数可以直接拿过来使用。通常情况下，我们希望将这些经典网络模型的参数固定下来，不进行训练，只训练后面我们添加的和具体任务相关的网络参数。
  - 新数据集和原始数据集合类似，那么直接可以微调一个最后的FC层或者重新指定一个新的分类器
  - 新数据集比较小和原始数据集合差异性比较大，那么可以使用从模型的中部开始训练，只对最后几层进行fine-tuning
  - 新数据集比较小和原始数据集合差异性比较大，如果上面方法还是不行的化那么最好是重新训练，只将预训练的模型作为一个新模型初始化的数据
  - 新数据集的大小一定要与原始数据集相同，比如CNN中输入的图片大小一定要相同，才不会报错
  - 对于不同的层可以设置不同的学习率，一般情况下建议，对于使用的原始数据做初始化的层设置的学习率要小于（一般可设置小于10倍）初始化的学习率，这样保证对于已经初始化的数据不会扭曲的过快，而使用初始化学习率的新层可以快速的收敛。

# 以ResNet网络为例
# 当我们加载ResNet预训练模型之后，在ResNet的基础上连接了新的网络模块， ResNet那部分网络参数先冻结不更新
# 只更新新引入网络结构的参数
class Net(torch.nn.Module):def __init__(self, model, pretrained):super(Net, self).__init__()self.resnet = model(pretained)for p in self.parameters():p.requires_grad = Falseself.conv1 = torch.nn.Conv2d(2048, 1024, 1)self.conv2 = torch.nn.Conv2d(1024, 1024, 1)

参数修改： resnet网络的最后一层对应1000个类别，如果我们自己的数据只有10个类别，那么可以进行如下修改

import torch
import torchvision.models as models
model = models.resnet50(pretrained=True)
fc_inDim = model.fc.in_features
# 修改为10个类别
model.fc = torch.nn.Linear(fc_inDim, 10)

Pytorch有很多方便易用的包，今天要谈的是torchvision包，它包括3个子包，分别是： torchvison.datasets ，torchvision.models ，torchvision.transforms ，分别是预定义好的数据集（比如MNIST、CIFAR10等）、预定义好的经典网络结构（比如AlexNet、VGG、ResNet等）和预定义好的数据增强方法（比如Resize、ToTensor等）。这些方法可以直接调用，简化我们建模的过程，也可以作为我们学习或构建新的模型的参考。

加载预训练模型，模型微调，在自己的数据集上快速出效果

针对于某个任务，自己的训练数据不多，先找到一个同类的别人训练好的模型，把别人现成的训练好了的模型拿过来，换成自己的数据，调整一下参数，再训练一遍，这就是微调（fine-tune&#xff…...

编程日记 2023/2/27 9:20:53

VScode远程连接服务器-过程试图写入的管道不存在-could not establist connection to【已解决】

问题描述使用服务器的过程中突然与服务器断连，报错如下：could not establist connection to [20:23:39.487] > ssh: connect to host 10.201.0.131 port 22: Connection timed out > [20:23:39.495] > 过程试图写入的管道不存在。 > [20…...

编程日记 2023/2/27 9:19:43

电子技术——B类输出阶

电子技术——B类输出阶下图展示了一个B类输出阶的原理图，B类输出阶由两个互补的BJT组成，不同时导通。原理当输入电压 vI0v_I 0vI0 的时候，两个晶体管都截止输出电压为零。当 vIv_IvI 上升至超过0.5V的时候，此时 QNQ_NQN…...

编程日记 2023/2/27 9:18:32

【老卫搬砖】034期：HarmonyOS 3.1 Beta 1初体验，我在本地模拟器里面刷短视频

今天啊打开这个DevEco Studio的话，已经提示有3.1Beta1版本的一个更新啊。然后看一下它的一些特性。本文也演示了如何在本地模拟器里面运行HarmonyOS版短视频。主要特性新特性包括： Added support for Windows 11 64-bit and macOS 13.x OSs, as well…...

编程日记 2023/2/27 9:17:22

Day901.内部临时表 -MySQL实战

内部临时表 Hi，我是阿昌，今天学习记录的是关于内部临时表的内容。 sort buffer、内存临时表和 join buffer。这三个数据结构都是用来存放语句执行过程中的中间数据，以辅助 SQL 语句的执行的。其中，在排序的时候用到了 sort bu…...

编程日记 2023/2/27 9:16:13

jstatd的启动方式与关闭方式

启动方式与注意事项： 启动方式： 前台启动不打印日志： jstatd -J-Djava.security.policyjstatd.all.policy -J-Djava.rmi.server.hostname服务器IP 前台启动并打印日志： ./jstatd -J-Djava.security.policyjstatd.all.policy -…...

编程日记 2023/2/27 9:15:06

_improve-3

createElement过程 React.createElement()： 根据指定的第一个参数创建一个React元素 React.createElement(type,[props],[...children] )第一个参数是必填，传入的是似HTML标签名称，eg: ul, li第二个参数是选填，表示的是属性&#…...

编程日记 2023/2/27 9:13:51

C++——异常

目录 C语言传统的处理错误的方式 C异常概念异常的使用异常的抛出和匹配原则在函数调用链中异常栈展开匹配原则自定义异常体系异常的重新抛出编辑异常安全异常规范 C标准库的异常体系异常的优缺点 C语言传统的处理错误的方式传统的错误处理机制： …...

编程日记 2023/2/27 9:12:43

MVVM 架构进阶：MVI 架构详解

前言Android开发发展到今天已经相当成熟了，各种架构大家也都耳熟能详，如MVC,MVP,MVVM等，其中MVVM更是被官方推荐，成为Android开发中的显学。不过软件开发中没有银弹，MVVM架构也不是尽善尽美的，在使用过程中…...

编程日记 2023/2/27 9:11:36

有没有必要考PMP证书？

其实针对有没有必要考试吗，这个可以根本不同行业的人来决定的。 1.高等教育项目管理专业科班出身的人员。在我国本科学历和硕士研究生学历中，项目管理也有开设。不管以后从事的工作是否为项目管理或其他管理，作为本专业的同学，…...

编程日记 2023/2/27 9:09:13

1 机器学习基础

1 机器学习概述 1.1 数据驱动的问题求解大数据-Big Data 大数据的多面性 1.2 数据分析机器学习：海量的数据，获取有用的信息专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之…...

编程日记 2023/2/27 9:08:03

java基础系列(六) sleep()和wait() 区别

一.前言关于并发编程这块, 线程的一些基础知识我们得搞明白, 本篇文章来说一下这两个方法的区别,对Android中的HandlerThread机制原理可以有更深的理解, HandlerThread源码理解,请查看笔者的这篇博客: HandlerThread源码理解_handlerthread 源码_broadview_java的博客-CSDN博…...

编程日记 2023/2/27 9:05:49

Urho3D序列化

从Serializable派生的类可以通过定义属性将其自动序列化为二进制或XML格式。属性存储到每个类的上下文中。场景加载/保存和网络复制都是通过从Serializable派生Node和Component类来实现的。支持的属性类型是Variant支持的所有属性类型，不包括指针和自定义值。属性…...

编程日记 2023/2/27 9:04:40

企业级信息系统开发学习1.3——利用注解配置取代Spring配置文件

文章目录一、利用注解配置类取代Spring配置文件（一）打开项目（二）创建新包（三）拷贝类与接口（四）创建注解配置类（五）创建测试类（六）运行…...

编程日记 2023/2/27 9:03:29

VUE DIFF算法之快速DIFF

VUE DIFF算法系列讲解 VUE 简单DIFF算法 VUE 双端DIFF算法文章目录VUE DIFF算法系列讲解前言一、快速DIFF的代码实现二、实践练习1练习2总结前言本节我们来写一下VUE3中新的DIFF算法-快速DIFF，顾名思义，也就是目前最快的DIFF算法（在VUE中&…...

编程日记 2023/2/27 9:02:20

一文掌握如何轻松稿定项目风险管理【静说】

风险管理对于每个项目经理和PMO都非常重要，如果管理不当会出现很多问题，咱们以前分享过很多风险管理的内容： 风险无处不在，一旦发生，会对一个或多个项目目标产生积极或消极影响的确定事件或条件。那么接下来介绍下五大…...

编程日记 2023/2/27 9:01:15

操作系统权限提升(十四)之绕过UAC提权-基于白名单AutoElevate绕过UAC提权

系列文章操作系统权限提升(十二)之绕过UAC提权-Windows UAC概述操作系统权限提升(十三)之绕过UAC提权-MSF和CS绕过UAC提权注：阅读本编文章前，请先阅读系列文章，以免造成看不懂的情况！！ 基于白名单AutoElevate绕过…...

编程日记 2023/2/27 9:00:03

ecology9-谷歌浏览器下-pdf.js在渲染时部分发票丢失文字问题定位及解决

问题问题描述 ： 在谷歌浏览器下，pdf.js在渲染时部分发票丢失文字；360浏览器兼容模式不存在此问题排查思路：1、对比谷歌浏览器的css样式和360浏览器兼容模式下的样式，没有发现关键差别 2、✔使用Fiddler修改网页js D…...

编程日记 2023/2/27 8:57:45

JavaScript Window Navigator

文章目录JavaScript Window NavigatorWindow Navigator警告!!!浏览器检测JavaScript Window Navigator window.navigator 对象包含有关访问者浏览器的信息。 Window Navigator window.navigator 对象在编写时可不使用 window 这个前缀。实例 <div id"example"…...

编程日记 2023/2/27 8:55:28

Linux基础命令-du查看文件的大小

文章目录 du 命令介绍语法格式基本参数参考实例 1）以人类可读形式显示指定的文件大小 2）显示当前目录下所有文件大小 3）只显示目录的大小 4）显示根下哪个目录文件最大 5）显示所有文件的大小 6&#xff0…...

编程日记 2023/2/27 8:54:20

车载以太网之要火系列 - 第43篇：郭大侠学SOME/IP ：服务写死痛点多，SD出山更灵活

写在开篇蓉儿挖新坑上回说到，郭靖搞清楚了SOME/IP的报文头、Service ID、Instance ID、Method、Event、Field……学了一大堆。郭靖合上笔记本，信心满满：“蓉儿，SOME/IP我算是学完了！车窗服务用0x0300，左前窗…...

编程新知 2026/5/15 18:47:51

HX‑01 USB 音频编码模块：全行业通用的稳定音频核心解决方案

HX‑01 USB 音频编码模块凭借免驱即用、高清语音处理、宽温稳定运行、强抗干扰设计、灵活配置模式的核心优势，不仅在矿山行业构建了可靠的语音通讯体系，更能适配安防监控、智能楼宇、教育会议、工业自动化、机器人设备、医疗健康等多行业场景&#xff0c…...

编程新知 2026/5/15 18:00:23

ARM AArch32性能监控寄存器(PMU)详解与优化实践

1. ARM AArch32性能监控寄存器深度解析在嵌入式系统和移动计算领域，性能监控单元(PMU)是处理器微架构中至关重要的组成部分。作为一位长期从事ARM架构开发的工程师，我经常需要深入理解PMU寄存器的工作原理，以优化关键代码段的执行效率。本文将…...

编程新知 2026/5/15 17:53:55

RISC-V PLIC中断控制器详解：从原理到SiFive U54实战配置

1. 平台级中断控制器（PLIC）是什么？为什么需要它？如果你正在接触基于RISC-V架构的嵌入式系统开发，尤其是像SiFive U54这样的多核处理器，那么“PLIC”这个缩写会频繁地出现在你的视野里。它全称是Platform-Le…...

编程新知 2026/5/15 17:00:08

评估智能体性能：成功率、延迟与成本

一个从“拍脑袋优化”到“数据驱动调优”的真实转型故事 ——顺便聊聊我这三年烧掉的API费用和熬过的夜去年夏天，我们团队做了一个电商智能客服Agent。上线第一周，各项指标看起来都挺正常：用户满意度4.7分，平均响应时间不到2秒。…...

编程新知 2026/5/15 16:39:16

软件性能优化：热点代码识别与优化实战

1. 软件性能优化中的热点代码识别在软件开发领域，性能优化始终是开发者面临的核心挑战之一。作为一名长期从事性能调优的工程师，我见过太多团队将大量时间浪费在错误的优化对象上。热点代码（Hotspots）就像城市交通中的拥堵点&…...

编程新知 2026/5/15 10:07:42

如何在Electron应用中集成Supertonic：实现离线语音功能的完整指南 [特殊字符]️

如何在Electron应用中集成Supertonic：实现离线语音功能的完整指南 🎙️ 【免费下载链接】supertonic Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX. 项目地址: https://gitcode.com/GitHub_Trending/sup/supertonic …...

编程新知 2026/5/15 10:05:24

手把手教你给STM32H743的0.96寸OLED屏移植STemWin（裸机+FreeRTOS双版本）

STM32H743与0.96寸OLED的STemWin深度移植实战：裸机与RTOS双环境解析在嵌入式图形界面开发领域，STemWin作为ST官方推出的图形库解决方案，以其高效的渲染性能和丰富的控件资源，成为STM32开发者构建人机界面的首选。本文将聚焦STM32…...

编程新知 2026/5/15 9:33:10

驾驶舱前端设计方案：从“花架子”到“真能用”的组件化实战

很多人一提起“驾驶舱”或“ dashboard ”，脑海里浮现的就是：满屏图表、深色背景、会转动的3D地球、还有一堆看起来很高端但没人点开的按钮。但真正在一线做过驾驶舱的人都知道——大部分驾驶舱，上线当天截个图发朋友圈之后，就再也…...

编程新知 2026/5/15 8:51:09

【权威实测】Perplexity UI v2.8.3组件查询API响应延迟骤降76%的6项必调参数

更多请点击： https://intelliparadigm.com 第一章：Perplexity UI组件库查询的性能瓶颈全景图 Perplexity UI 是一个面向复杂数据交互场景的前端组件库，其核心查询能力依赖于动态 Schema 解析与实时渲染管道。在高并发、多层级嵌套组件查询场…...

编程新知 2026/5/15 8:43:02

相关文章：