当前位置: 首页 > article >正文

关于单项梯度冻结小记

单项权重冻结(Partial Weight Freezing)详解

单项权重冻结(Partial Weight Freezing) 是深度学习模型训练中的一种技巧,指的是在训练过程中,只冻结(固定)部分网络权重,而让其他部分继续更新。这种方法在迁移学习(Transfer Learning)模型微调(Fine-tuning)多任务学习(Multi-task Learning) 中尤为重要。


1. 为什么要进行单项权重冻结?

在深度学习训练过程中,完全训练一个深度神经网络需要大量的数据和计算资源。而单项权重冻结的主要目的是:

  1. 减少计算量:冻结部分层的参数,减少梯度计算,加速训练。
  2. 防止过拟合:冻结预训练层,避免模型因小数据集过度拟合。
  3. 保留预训练知识:冻结低层特征(如边缘、纹理),只微调高层任务相关的特征。
  4. 实现迁移学习:从大规模数据训练的模型迁移知识到新任务,而不改变基础特征提取层。

2. 单项权重冻结的工作原理

单项权重冻结的关键在于梯度的计算和更新

  • 冻结的参数:其梯度设为 0,即在反向传播时不会更新。
  • 未冻结的参数:继续进行正常的梯度更新。

在 PyTorch 中,冻结权重的典型实现方式:

for param in model.features.parameters():param.requires_grad = False  # 冻结部分层的参数

这样,在反向传播计算梯度时,这些参数不会被更新。


3. 单项权重冻结的不同策略

(1) 冻结底层特征(低级层冻结,高级层可训练)

适用场景迁移学习、微调(如从 ImageNet 预训练模型迁移到小型数据集)

示例(PyTorch):

import torchvision.models as models
import torch.nn as nn# 加载预训练模型(以 ResNet50 为例)
model = models.resnet50(pretrained=True)# 冻结前面所有的卷积层
for param in model.conv1.parameters():param.requires_grad = False
for param in model.layer1.parameters():param.requires_grad = False
for param in model.layer2.parameters():param.requires_grad = False# 修改全连接层,使其适应新的任务
num_features = model.fc.in_features
model.fc = nn.Linear(num_features, 10)  # 例如输出10类

(2) 仅冻结部分权重(Selective Freezing)

适用场景:多任务学习、特定层微调(如只调整 BatchNorm 参数)

示例(PyTorch):

# 冻结 ResNet50 的所有层,但保持 BatchNorm 可训练
for name, param in model.named_parameters():if "bn" not in name:  # 只让 BatchNorm 层可训练param.requires_grad = False

(3) 分阶段解冻(Progressive Unfreezing)

适用场景逐步调整预训练模型,使其适应新任务

示例(PyTorch):

# 第 1 阶段:冻结所有层,仅训练全连接层
for param in model.parameters():param.requires_grad = False
for param in model.fc.parameters():param.requires_grad = True# 第 2 阶段:解冻 ResNet layer4
for param in model.layer4.parameters():param.requires_grad = True# 第 3 阶段:解冻所有层,进行全局微调
for param in model.parameters():param.requires_grad = True

4. 代码示例:完整的单项权重冻结训练流程

import torch
import torchvision.models as models
import torch.nn as nn
import torch.optim as optim# 1. 加载预训练模型
model = models.resnet50(pretrained=True)# 2. 冻结 ResNet 的前几层(conv1, layer1, layer2)
for param in model.conv1.parameters():param.requires_grad = False
for param in model.layer1.parameters():param.requires_grad = False
for param in model.layer2.parameters():param.requires_grad = False# 3. 修改分类头(假设目标任务有 10 类)
num_features = model.fc.in_features
model.fc = nn.Linear(num_features, 10)# 4. 定义损失函数和优化器(仅优化可训练参数)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-4)# 5. 训练循环(示意)
for epoch in range(10):for images, labels in train_loader:optimizer.zero_grad()outputs = model(images)loss = criterion(outputs, labels)loss.backward()optimizer.step()

5. 总结

  • 单项权重冻结是指只冻结部分层的参数,而让其他层继续训练,常用于迁移学习和微调。

  • 常见策略

    1. 冻结低级层,微调高级层(适用于迁移学习)

    2. 仅解冻 BatchNorm 层(适用于分布变化)

    3. 分阶段解冻(从只训练全连接层到全局微调)

  • 代码实现主要通过 requires_grad = False 控制梯度计算,确保冻结的层不更新参数。

最后煮啵还想说,单项梯度冻结和迁移学习有不小的渊源,煮啵会努力想想该如何解释清楚这件事!

相关文章:

关于单项梯度冻结小记

单项权重冻结(Partial Weight Freezing)详解 单项权重冻结(Partial Weight Freezing) 是深度学习模型训练中的一种技巧,指的是在训练过程中,只冻结(固定)部分网络权重,而…...

Ubuntu20.04安装Nvidia显卡驱动

Ubuntu20.04安装Nvidia显卡驱动 安装环境为Dell R540服务器 官网下载Nvidia显卡驱动 https://www.nvidia.cn/geforce/drivers/ 安装显卡驱动 chmod x NVIDIA-Linux-x86_64-470.63.01.run sudo ./NVIDIA-Linux-x86_64-470.63.01.run 遇到nouveau报错 lsmod查看nouveau驱动…...

YOLOv11 目标检测

本文章不再赘述anaconda的下载以及虚拟环境的配置,博主使用的python版本为3.8 1.获取YOLOv11的源工程文件 链接:GitHub - ultralytics/ultralytics: Ultralytics YOLO11 🚀 直接下载解压 2.需要自己准备的文件 文件结构如下:红…...

VSCode C/C++ 环境搭建指南

一、前言 Visual Studio Code(简称 VSCode)是一款轻量级且功能强大的跨平台代码编辑器,凭借丰富的插件生态和高度的可定制性,深受开发者喜爱。对于 C/C 开发者而言,在 VSCode 中搭建开发环境,能够获得灵活…...

Python-docx库详解:轻松实现Word文档自动化生成与图片尺寸控制

Python-docx库详解:轻松实现Word文档自动化生成与图片尺寸控制 在现代办公自动化的浪潮中,文档处理是一项不可或缺的任务。Python作为一种强大的编程语言,提供了丰富的库来简化这些任务。其中,python-docx库是处理Word文档的有力…...

Python大疆导出csv文件转化大地2000的dxf文件

大疆导出三维模型里面有个models\pc\0\terra_grid\csv\terra_grid.csv文件,里面记录所有点的坐标和高程,但坐标是经纬度坐标,需要转化为大地2000坐标。 我参照了:经纬度坐标转换为CGCS2000大地坐标系对应XY值(PYTHON实…...

Python 中下划线 “_” 的多面性:从变量到约定

# Python中下划线“_”的多面性:从变量到约定 在Python的语法体系里,下划线“_”看似毫不起眼,实则扮演着极为重要且多样化的角色。它不仅能作为普通变量参与编程,更在多个特殊场景下有着独特的用途与约定。深入理解下划线的各种…...

Vue3项目开发:状态管理实践指南

# Vue3项目开发:状态管理实践指南 一、引言 背景介绍 在Vue项目中,状态管理是一个非常重要的话题。合理的状态管理能够帮助我们更好地组织和管理数据,提升项目的可维护性和可扩展性。本文将深入探讨Vue3项目中状态管理的最佳实践,…...

JVM-JAVA编译到执行全过程

源码文件(.java)到代码执行的全过程: 该过程主要分为四个阶段,“编译-》加载-》解释-》执行”。 在编译阶段需要将源码文件(.java)通过语法分析、语义分析、注解处理后得到class文件; 在加载…...

数据结构-------栈

顺序栈: 一、数据结构定义 数据元素 DATATYPE typedef struct person {char name[32];char sex;int age;int score; } DATATYPE;顺序栈结构 SeqStack typedef struct list {DATATYPE *head; // 栈空间首地址int tlen; // 栈总容量(total leng…...

机器学习概要

文章目录 一、什么是机器学习 二、机器学习的种类 1. 有监督学习 2. 无监督学习 3.强化学习 三、机器学习的应用 四、机器学习的步骤 1. 数据的重要性 2. 数据和学习的种类 3. 可视化 一、什么是机器学习 机器学习指的是计算机根据给定的问题、课题或环境进行学习&a…...

python:music21 与 AI 结合应用探讨

Python 的 music21 库与人工智能(AI)技术结合应用具有广泛的可能性,尤其是在音乐生成、分析和风格模拟等领域。以下是具体的结合方向与示例: 1. 音乐生成与 AI AI 模型驱动音乐生成: 使用深度学习模型(如 …...

【LangChain入门 2 Model组件】开始!LLM Models简单对话

文章目录 一、使用langchain_ollama二、采用DeepSeek的API三、Model 介绍3.1 OllamaLLM 预训练模型3.2 ChatOllama 聊天预训练模型3.3 OllamaEmbeddings 实现一个helloworld,跑通一个简单的对话。 后面章节会正式介绍LangChain的各个功能。 后台llm的端口可以任意选…...

7种寻址方式

1. 立即寻址 立即寻址也叫立即数寻址,操作数本身就在指令中给出,只要取出指令也就取到了操作数,这个操作数被称为立即数。立即数要求以 “#” 为前缀。 #0x1100:表示十六进制数#0b1100:表示二进制数#0d1100&#xff…...

C语言中,#define和typedef 定义int* 一个容易混淆的点

前言 首先来看一个代码&#xff1a; #include <stdio.h> #include <string.h>#define int_ptr int *int main() {int c 100;int_ptr a , b; // 等效于int * a,b; 那么b就是int类型&#xff0c;不是int*类型a &c;b &c; //报错return 0; } 原意&#x…...

C++20 中线程管理与取消机制的深度剖析

文章目录 std::jthread&#xff1a;更智能的线程管理背景与优势构造函数与 std::stop_token 的集成 std::stop_token、std::stop_source 和 std::stop_callback&#xff1a;灵活的取消机制std::stop_token&#xff1a;取消请求的指示器std::stop_source&#xff1a;取消请求的发…...

Vue3 核心特性解析:Suspense 与 Teleport 原理深度剖析

Vue3 核心特性解析&#xff1a;Suspense 与 Teleport 原理深度剖析 一、Teleport&#xff1a;突破组件层级的时空传送 1.1 实现原理图解 #mermaid-svg-75dTmiektg1XNS13 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-s…...

FPGA——实现LED流水灯

文章目录 一、Quartusll_18.1和VS Code软件的关联二、DE2-115的时钟电路三、流水灯的分层次设计四、总结 一、Quartusll_18.1和VS Code软件的关联 1.先打开Quartus II 软件&#xff0c;然后选择菜单栏“Tools”下的“Options…”。 2.点击“Options…”&#xff0c;在弹出的对…...

Excel 小黑第12套

对应大猫13 涉及金额修改 -数字组 -修改会计专用 VLOOKUP函数使用&#xff08;查找目标&#xff0c;查找范围&#xff08;F4 绝对引用&#xff09;&#xff0c;返回值的所在列数&#xff0c;精确查找或模糊查找&#xff09;双击填充柄就会显示所有值 这个逗号要中文的不能英…...

6、说一下索引失效的场景?【中高频】

索引失效意味着 查询操作 不能利用索引进行数据检索&#xff0c;而是使用 全表扫描&#xff08;也就是 数据库需要从磁盘上读取表的所有数据行&#xff09;&#xff0c;从而导致性能下降&#xff0c;下面一些场景会发生索引失效 对索引使用左或者左右模糊匹配&#xff08;where…...

Noe.js 原生 http 模块 vs Express 框架对比

Noe.js 原生 http 模块 vs Express 框架对比 Noe.js 原生 http 模块 vs Express 框架对比 以下从多个维度对比两种方法&#xff0c;并提供详细示例&#xff0c;帮助初学者理解差异。 1. 基础架构对比 特性原生 http 模块Express 框架核心依赖Node.js 内置模块 (require(htt…...

滚动元素的新api

点击的时候需要双重视图滚动 itemClick(id) {// 滚动到对应位置this.$nextTick(() > {// 找到对应 id 在 initList2 中的索引const index this.initList2.findIndex((item) > item.id Number(id));if (index ! -1) {// 获取所有菜单项const menuItems document.queryS…...

多机调度问题(C语言)

代码如下&#xff1a; #include<stdio.h> #include<stdlib.h>int compare(void* a, void* b)//比较函数&#xff0c;用于qsort按处理时间从大到小排序 {return *(int*)a - *(int*)b; }int LPT(int jobs[], int n, int m)//多机调度问题的LPT算法 {qsort(jobs, n, …...

JS做贪吃蛇小游戏(源码)

一、HTML代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><link rel…...

烽火HG680-KB_海思HI3798MV310_安卓9.0_U盘强刷固件包及注意点说明

之前发布过这个固件包&#xff0c;关于烽火HG680-KA&#xff0f;HG680-KB_海思HI3798MV310_安卓9.0_U盘强刷固件包详细说明一下&#xff0c;汇总总结一些常遇到的情况&#xff0c;这次固件会分开发布&#xff0c;以免混淆。 上一个帖子地址&#xff1a;烽火HG680-KA&#xff0…...

Java数据结构相关知识

文章目录 1. 自动装箱和自动拆箱2. Object的equals方法3. Comparable和Comparator接口 1. 自动装箱和自动拆箱 自动装箱&#xff1a;将基本数据类型自动转换为对应的包装类。自动拆箱&#xff1a;将包装类自动转换为对应的基本数据类型。 显示装箱 int primitiveInt 10; //…...

996引擎 - 红点系统

996引擎 - 红点系统 总结NPC 红点(TXT红点)Lua 红点1. Red_Point.lua2. UI_Ex.lua参考资料以下内容是在三端 lua 环境下测试的 总结 红点系统分几个部分组成。 M2中设置变量推送。 配置红点表。 Envir\Data\cfg_redpoint.xls 2.1. UI元素中找到ID填写 ids 列。 主界面挂载…...

7种数据结构

7种数据结构 顺序表sqlite.hseqlite.c 单链表linklist.clinklist.h 双链表doulinklist.cdoulinklist.h 链式栈linkstack.clinkstack.h 队列SeqQueue.cSeqQueue.h 树tree.c 哈希表hash.c 顺序表 sqlite.h #ifndef __SEQLIST_H__ #define __SEQLIST_H__ typedef struct person…...

Redis的消息队列是怎么实现的

Redis 本身并不是一个专门的消息队列系统,但它的 List、Pub/Sub 和 Stream 数据结构可以用来实现消息队列的功能。以下是 Redis 实现消息队列的几种常见方式: 1. 基于 List 实现消息队列 Redis 的 List 是一个双向链表,支持在头部和尾部进行高效的插入和删除操作,非常适合…...

3.17BUUCTF练习day1

BUUCTF练习day1 [极客大挑战 2019]EasySQL1&#xff08;字符型&#xff0c;账号密码型&#xff0c;get型&#xff09; 判断闭合方式 在用户名输入1‘&#xff0c;此时密码先输入任何数字时&#xff0c;出现语法错误 说明闭合方式为单引号闭合&#xff0c;在判断完闭合方式后…...