当前位置：首页 > news >正文

使用pytorch进行迁移学习的两个步骤

news 2026/5/20 18:41:54

1. 步骤及代码

迁移学习一般都会使用两个步骤进行训练：

固定预训练模型的特征提取部分，只对最后一层进行训练，使其快速收敛；
使用较小的学习率，对全部模型进行训练，并对每层的权重进行细微的调节。

import os
import torch
import torchvision
from torchvision.datasets import ImageFolder
from torch.utils.data import DataLoader
from torchvision import transforms as T
import numpy as np# 设置均值、方差
mean = [0.485, 0.456, 0.406]
std = [0.229, 0.224, 0.225]# 还原减均值除以方差之前的数据，用于可视化
def reduction_img_show(tensor, mean, std) -> None:to_img = T.ToPILImage()reduced_img = to_img(tensor * torch.tensor(std).view(3, 1, 1) + torch.tensor(mean).view(3, 1, 1))reduced_img.show()def getResNet(*, class_names: str, loadfile: str = None):if loadfile is not None:model = torchvision.models.resnet18()model.load_state_dict(torch.load('resnet18-f37072fd.pth'))  # 加载权重else:model = torchvision.models.resnet18(weights=torchvision.models.ResNet18_Weights.IMAGENET1K_V1)  # 模型自动下载到C:\Users\GaryLau\.cache\torch\hub\checkpoints# 将所有的参数层冻结，设置模型除最后一层以外都不可以进行训练，使模型只针对最后一层进行微调for param in model.parameters():param.requires_grad = False# 输出全连接层信息print(model.fc)x = model.fc.in_features  # 获取全连接层输入维度model.fc = torch.nn.Linear(in_features=x, out_features=len(class_names))  # 创建新的全连接层print(model.fc)  # 输出新的全连接层return model# 定义训练函数
def train(model, device, train_loader, criterion, optimizer, epoch):model.train()all_loss = []for batch_idx, (data, target) in enumerate(train_loader):data, target = data.to(device), target.to(device)optimizer.zero_grad()y_pred = model(data)loss = criterion(y_pred, target)loss.backward()all_loss.append(loss.item())optimizer.step()if batch_idx % 10 == 0:print('Train Epoch: {} [{}/{}]\tLoss: {:.6f}'.format(epoch, batch_idx * len(data), len(train_loader.dataset),np.mean(all_loss)))def val(model, device, val_loader, criterion):model.eval()test_loss = []correct = []with torch.no_grad():for data, target in val_loader:data, target = data.to(device), target.to(device)y_pred = model(data)test_loss.append(criterion(y_pred, target).item())pred = y_pred.argmax(dim=1, keepdim=True)correct.append(pred.eq(target.view_as(pred)).sum().item()/pred.size(0))print('-->Test: Average loss:{:.4f}, Accuracy:({:.0f}%)\n'.format(np.mean(test_loss), 100 * sum(correct) / len(correct)))# 训练，验证时的预处理
transform = {'train': T.Compose([T.RandomResizedCrop(224),T.RandomHorizontalFlip(),T.ToTensor(),T.Normalize(mean=mean, std=std)]),'val': T.Compose([T.Resize((224,224)),T.ToTensor(),T.Normalize(mean=mean, std=std)])}# 加载训练、验证数据
dataset_train = ImageFolder(r'./train', transform=transform['train'])
dataset_val = ImageFolder(r'./test', transform=transform['val'])# 类别标签
class_names = dataset_train.classes
print(dataset_train.class_to_idx)
print(dataset_val.class_to_idx)# 显示一张训练、验证图
# reduction_img_show(dataset_train[0][0], mean, std)
# reduction_img_show(dataset_val[0][0], mean, std)# 使用DataLoader遍历数据
dataloader_train = DataLoader(dataset_train, batch_size=16, shuffle=True, sampler=None, num_workers=0,pin_memory=False, drop_last=False)
dataloader_val = DataLoader(dataset_val, batch_size=16, shuffle=False, sampler=None, num_workers=0,pin_memory=False, drop_last=False)# 使用方式一，使用next不断获取一个batch的数据
dataiter_train = iter(dataloader_train)
imgs, labels = next(dataiter_train)
print(imgs.size())
# reduction_img_show(imgs[0], mean, std)
# reduction_img_show(imgs[1], mean, std)
multi_imgs = torchvision.utils.make_grid(imgs, nrow=10)  # 拼接一个batch的图像用于展示
# reduction_img_show(multi_imgs, mean, std)# 获取ResNet模型，并加载预训练模型权重，将最后一层(输出层)去掉，换成一个新的全连接层，新全连接层输出的节点数是新数据的类别数
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu')
print(device)# 构建模型
model = getResNet(class_names=class_names, loadfile='resnet18-f37072fd.pth')
model.to(device)# 构建损失函数
criterion = torch.nn.CrossEntropyLoss()
# 指定新加的全连接层为要更新的参数
optimizer = torch.optim.Adam(model.fc.parameters(), lr=0.001)  # 只需要更新最后一层fc的参数if __name__ == '__main__':### 步骤一，微调最后一层first_model = 'resnet18-f37072fd_finetune_fcLayer.pth'for epoch in range(1, 6):train(model, device, dataloader_train, criterion, optimizer, epoch)val(model, device, dataloader_val, criterion)# 仅保存了最后新添加的全连接层的参数#torch.save(model.fc.state_dict(), first_model)torch.save(model.state_dict(), first_model)### 步骤二，小学习率微调所有层second_model = 'resnet18-f37072fd_finetune_allLayer.pth'optimizer2 = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)exp_lr_scheduler = torch.optim.lr_scheduler.StepLR(optimizer2, step_size=3, gamma=0.9)# 将所有的参数层设为可训练的for param in model.parameters():param.requires_grad = Trueif os.path.exists(second_model):model.load_state_dict(torch.load(second_model))   # 加载本地模型else:model.load_state_dict(torch.load(first_model))    # 加载步骤一训练得到的本地模型print('Finetune all layers with small learning rate......')for epoch in range(1, 101):train(model, device, dataloader_train, criterion, optimizer2, epoch)if optimizer2.state_dict()['param_groups'][0]['lr'] > 0.00001:exp_lr_scheduler.step()print(f"learning rate: {optimizer2.state_dict()['param_groups'][0]['lr']}")val(model, device, dataloader_val, criterion)# 保存整个模型torch.save(model.state_dict(), second_model)print('Done.')

2. 完整资源

https://download.csdn.net/download/liugan528/89833913

使用pytorch进行迁移学习的两个步骤

1. 步骤及代码迁移学习一般都会使用两个步骤进行训练： 固定预训练模型的特征提取部分，只对最后一层进行训练，使其快速收敛；使用较小的学习率，对全部模型进行训练，并对每层的权重进行细微的调节。 impor…...

编程日记 2024/10/9 14:03:22

ChatGPT相关参数示例

max_token 用于控制最大输出长度，若ChatGPT的回复大于max_tokens，则对输出结果进行截断。 from openai import OpenAI client OpenAI(base_url"https://api.chatanywhere.tech/v1" ) response client.chat.completions.create(model"…...

编程日记 2024/10/9 14:00:20

OWASP发布大模型安全风险与应对策略（QA测试重点关注）

开放式 Web 应用程序安全项目（OWASP）发布了关于大模型应用的安全风险，这些风险不仅包括传统的沙盒逃逸、代码执行和鉴权不当等安全风险，还涉及提示注入、对话数据泄露和数据投毒等人工智能特有的安全风险。帮助开发者和测试同学更…...

编程日记 2024/10/9 13:58:16

【HarmonyOS开发笔记 2 】 -- ArkTS语法中的变量与常量

ArkTS是HarmonyOS开发的编程语言 ArkTS语法中的变量【语法格式】： let 变量名: 类型值 let：是定义变量的关键字类型： 值数据类型， 常用的数据类型字符型（string）、数字型（number&#xf…...

编程日记 2024/10/9 13:57:15

UI自动化测试示例：python+pytest+selenium+allure

重点应用是封装、参数化： 比如在lib文件夹下，要存储封装好的方法和必要的环境变量（指网址等） 1.cfg.py:封装网址和对应的页面 SMP_ADDRESS http://127.0.0.1:8234SMP_URL_LOGIN f{SMP_ADDRESS}/login.html SMP_URL_DE…...

编程日记 2024/10/9 13:55:12

C/C++ 编程小工具

编写了 tools.h 和 tools.cpp，用于 Debug、性能测试、打印日志。 tools.h #ifndef TOOLS_H #define TOOLS_H#include <time.h> #include <fstream> #include <iostream> #include <random> #include <chrono> #include <vector&…...

编程日记 2024/10/9 13:52:07

第四十二章使用 WS-ReliableMessaging

文章目录第四十二章使用 WS-ReliableMessaging从 Web 客户端发送一系列消息第四十二章使用 WS-ReliableMessaging IRIS 支持 WS-ReliableMessaging 规范的部分内容，如简介中所述。此规范提供了一种按顺序可靠地传递一系列消息的机制。本页介绍如何手动使用可靠…...

编程日记 2024/10/9 13:51:06

利士策分享，婚姻为何被称为大事？

利士策分享，婚姻为何被称为大事？ 在历史的长河中，婚姻一直被视为人生中的头等大事，这一观念跨越时空，深深植根于各种文化和社会结构中。古人为何将婚姻称为“大事”，这背后蕴含着丰富的社会、文化和心理寓…...

编程日记 2024/10/9 13:50:04

文章目录 malloc源码分析之 ----- 你想要啥chunktcachefastbinsmall binunsorted binbin处理top malloc源码分析之 ----- 你想要啥chunk tcache malloc源码，这里以glibc-2.29为例： void * __libc_malloc (size_t bytes) {mstate ar_ptr;void *victim;vo…...

编程日记 2024/10/9 13:44:56

软考系统分析师知识点五：数据通信与计算机网络

前言今年报考了11月份的软考高级：系统分析师。考试时间为：11月9日。倒计时：32天。目标：优先应试，其次学习，再次实践。复习计划第一阶段：扫平基础知识点，仅抽取有用信息&am…...

编程日记 2024/10/9 13:43:55

windows客户端SSH连接ubuntu/linux服务器，三种网络连接：局域网，内网穿透（sakuraftp），虚拟局域网（zerotier）

windows客户端SSH连接ubuntu/linux服务器，三种网络连接：局域网，内网穿透（sakuraftp），虚拟局域网（zerotier） 目录 SSH简述、三种网络连接特点SSH简述局域网内连接内网穿透&#xff08…...

编程日记 2024/10/9 13:42:53

Python 工具库每日推荐【openpyxl 】

文章目录引言Python Excel 处理库的重要性今日推荐：openpyxl 工具库主要功能：使用场景：安装与配置快速上手示例代码代码解释实际应用案例案例：自动生成月度销售报告案例分析高级特性条件格式数据验证扩展阅读与资源优缺点分析优点：缺点：总结【已更新完 TypeScript 设计…...

编程日记 2024/10/9 13:41:52

本地生活服务项目入局方案解析！本地生活服务商系统能实现怎样的作业效果？

当前，各大平台的本地生活服务业务日渐兴盛，提高创业者入局意向的同时，也让本地生活服务项目有哪些等问题也成为了多个创业者社群中的热议对象。而从目前的讨论情况来看，在创业者们所询问的众多本地生活服务项目中，通过…...

编程日记 2024/10/9 13:40:50

ML 系列：【13 】— Logistic 回归（第 2 部分）

文章目录一、说明二、挤压方法三、Logistic 回归中的损失函数四、后记一、说明在这篇文章中，我们将深入研究 squashing 方法，这是有符号距离方法（第 12节）的一种很有前途的替代方案。squashing 方法通过提供增强的对异常值…...

编程日记 2024/10/9 13:39:49

45岁被裁员的程序员，何去何从？

在当今快速变化的技术行业，职业生涯的稳定性受到挑战。在45岁被裁员，对很多程序员来说，可能是一种惊慌失措的体验。然而，这个阶段也可以被视为一个重新审视和调整方向的机会。本文将对可能的出路进行全方位的分析，并提…...

编程日记 2024/10/9 13:37:46

云计算Openstack Neutron

OpenStack Neutron是OpenStack云计算平台中的网络服务组件，它为OpenStack提供了强大的网络连接功能。一、基本概念 Neutron是一个网络服务项目，旨在为OpenStack提供网络连接。它允许用户创建和管理虚拟网络，包括子网、路由、安全组等&…...

编程日记 2024/10/9 13:36:43

PointNet++网络详解

数据集转换数据集转换的意义在于将原本的 txt 点云文件转换为更方便运算的npy点云文件，同时，将原本的xyzrgb这 6 个维度转换为xyzrgbc，最后一个c维度代表该点云所属的类别。 for anno_path in anno_paths:print(anno_path)try:elements a…...

编程日记 2024/10/9 13:34:40

Java | Leetcode Java题解之第459题重复的子字符串

题目： 题解： class Solution {public boolean repeatedSubstringPattern(String s) {return kmp(s s, s);}public boolean kmp(String query, String pattern) {int n query.length();int m pattern.length();int[] fail new int[m];Arrays.fill(fa…...

编程日记 2024/10/9 13:30:36

【动态规划-最长公共子序列（LCS）】【hard】力扣1092. 最短公共超序列

给你两个字符串 str1 和 str2，返回同时以 str1 和 str2 作为子序列的最短字符串。如果答案不止一个，则可以返回满足条件的任意一个答案。如果从字符串 t 中删除一些字符（也可能不删除），可以得到字符串 s &#x…...

编程日记 2024/10/9 13:28:34

‌图片编辑为底片，智能工具助力，创作精彩视觉作品

在当今数字化时代，图像编辑已成为表达创意和美化视觉作品的重要手段。借助智能工具，即使是初学者也能轻松驾驭图片编辑。接下为大家展示图片编辑为底片图片的效果。 1.打开“首助编辑高手”，选择这里“图片批量处理”版块页面上 2.导入保存有…...

编程日记 2024/10/9 13:27:34

别再只用默认配置了！GaussDB密码安全策略的这8个参数，DBA必须知道怎么调

GaussDB密码安全策略深度实战：8个关键参数配置指南在数据库安全管理中，密码策略往往是最容易被忽视却又最常被攻击利用的薄弱环节。许多DBA习惯性地沿用数据库默认配置，殊不知这些默认值可能无法满足企业实际安全需求。GaussDB作为企业级分布…...

编程新知 2026/5/20 16:57:26

Cadence Virtuoso计算器函数面板：从仿真波形到关键指标，手把手教你提取运放GBW和相位裕度

Cadence Virtuoso计算器函数实战：运放AC特性自动化评估指南在模拟电路设计的日常工作中，我们常常需要面对这样的场景：完成运放AC仿真后，面对密密麻麻的波形曲线，如何快速准确地提取出增益带宽积(GBW)和相位裕度(PM)这…...

编程新知 2026/5/20 16:11:35

基于ARM9工业平板与Linux的水质在线监测系统开发实践

1. 项目概述：当工业平板电脑遇上水质监测在环保、水产养殖、市政水务这些领域里，数据就是眼睛。过去，我们看水质，得靠人拿着采样瓶，一趟趟跑现场，再送回实验室，等上半天甚至几天才能拿到一份报告…...

编程新知 2026/5/20 16:05:26

将taotoken作为统一api层整合到企业内部多个ai应用场景中

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度将taotoken作为统一api层整合到企业内部多个ai应用场景中在企业内部，AI应用正变得无处不在。从智能客服系统自动回复用…...

编程新知 2026/5/20 15:18:15

思源宋体TTF完全指南：免费商用的高品质中文字体解决方案

思源宋体TTF完全指南：免费商用的高品质中文字体解决方案【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf 思源宋体TTF版本是Google与Adobe联手打造的开源中文字体&#xff0…...

编程新知 2026/5/20 15:03:15

用STM32F401的I2S接口驱动TM8211 DAC播放WAV音频，保姆级CubeMX配置教程

基于STM32F401的TM8211音频播放系统开发指南 1. 硬件系统搭建与原理分析在开始CubeMX配置之前，我们需要先理解整个音频播放系统的硬件架构和工作原理。STM32F401通过I2S接口与TM8211 DAC芯片通信，将数字音频信号转换为模拟信号，最终驱动扬…...

编程新知 2026/5/20 14:19:19

5分钟掌握Cherry MX键帽3D建模：打造你的专属机械键盘

5分钟掌握Cherry MX键帽3D建模：打造你的专属机械键盘【免费下载链接】cherry-mx-keycaps 3D models of Chery MX keycaps 项目地址: https://gitcode.com/gh_mirrors/ch/cherry-mx-keycaps 你是否曾想过亲手设计一套完全属于自己的机械键盘键帽？…...

编程新知 2026/5/20 14:06:56

长波双色InAs/GaSb超晶格红外探测器芯片：从材料设计到焦平面集成

1. 项目概述：从“双色”到“芯片”的技术跨越在红外探测领域，追求“看得更清、看得更远、看得更准”是永恒的主题。我们这次要聊的“长/长波双色InAs/GaSb超晶格焦平面探测器芯片”，听起来名字很长很专业，但它本质上解决的是一个非…...

编程新知 2026/5/20 13:41:44

避坑指南：在CentOS 7上部署泛微Ecology9 OA，我踩过的那些“内存不足”和“防火墙”的坑

CentOS 7部署泛微Ecology9 OA系统：从内存优化到防火墙配置的深度避坑指南在Linux环境下部署企业级OA系统从来都不是一件简单的事情，尤其是像泛微Ecology9这样功能复杂的大型系统。表面上看，官方文档和网络上的教程似乎已经提供了完整的步骤&…...

编程新知 2026/5/20 12:54:39

为什么你的Perplexity本地服务响应慢3.7倍？：NVIDIA驱动版本、vLLM推理后端与量化精度的隐性博弈

更多请点击： https://codechina.net 第一章：Perplexity本地服务查询 Perplexity 作为一款强调实时信息检索与引用溯源的 AI 工具，其官方未提供公开的本地化部署方案。但开发者可通过构建轻量级代理服务，将本地运行的大语言模型&a…...

编程新知 2026/5/20 12:46:22

1. 步骤及代码

2. 完整资源

相关文章：