当前位置：首页 > article >正文

关于单项梯度冻结小记

article 2026/3/4 23:33:52

单项权重冻结（Partial Weight Freezing）详解

单项权重冻结（Partial Weight Freezing） 是深度学习模型训练中的一种技巧，指的是在训练过程中，只冻结（固定）部分网络权重，而让其他部分继续更新。这种方法在迁移学习（Transfer Learning）、模型微调（Fine-tuning） 和 多任务学习（Multi-task Learning） 中尤为重要。

1. 为什么要进行单项权重冻结？

在深度学习训练过程中，完全训练一个深度神经网络需要大量的数据和计算资源。而单项权重冻结的主要目的是：

减少计算量：冻结部分层的参数，减少梯度计算，加速训练。
防止过拟合：冻结预训练层，避免模型因小数据集过度拟合。
保留预训练知识：冻结低层特征（如边缘、纹理），只微调高层任务相关的特征。
实现迁移学习：从大规模数据训练的模型迁移知识到新任务，而不改变基础特征提取层。

2. 单项权重冻结的工作原理

单项权重冻结的关键在于梯度的计算和更新：

冻结的参数：其梯度设为 0，即在反向传播时不会更新。
未冻结的参数：继续进行正常的梯度更新。

在 PyTorch 中，冻结权重的典型实现方式：

for param in model.features.parameters():param.requires_grad = False  # 冻结部分层的参数

这样，在反向传播计算梯度时，这些参数不会被更新。

3. 单项权重冻结的不同策略

(1) 冻结底层特征（低级层冻结，高级层可训练）

适用场景：迁移学习、微调（如从 ImageNet 预训练模型迁移到小型数据集）

示例（PyTorch）：

import torchvision.models as models
import torch.nn as nn# 加载预训练模型（以 ResNet50 为例）
model = models.resnet50(pretrained=True)# 冻结前面所有的卷积层
for param in model.conv1.parameters():param.requires_grad = False
for param in model.layer1.parameters():param.requires_grad = False
for param in model.layer2.parameters():param.requires_grad = False# 修改全连接层，使其适应新的任务
num_features = model.fc.in_features
model.fc = nn.Linear(num_features, 10)  # 例如输出10类

(2) 仅冻结部分权重（Selective Freezing）

适用场景：多任务学习、特定层微调（如只调整 BatchNorm 参数）

示例（PyTorch）：

# 冻结 ResNet50 的所有层，但保持 BatchNorm 可训练
for name, param in model.named_parameters():if "bn" not in name:  # 只让 BatchNorm 层可训练param.requires_grad = False

(3) 分阶段解冻（Progressive Unfreezing）

适用场景：逐步调整预训练模型，使其适应新任务

示例（PyTorch）：

# 第 1 阶段：冻结所有层，仅训练全连接层
for param in model.parameters():param.requires_grad = False
for param in model.fc.parameters():param.requires_grad = True# 第 2 阶段：解冻 ResNet layer4
for param in model.layer4.parameters():param.requires_grad = True# 第 3 阶段：解冻所有层，进行全局微调
for param in model.parameters():param.requires_grad = True

4. 代码示例：完整的单项权重冻结训练流程

import torch
import torchvision.models as models
import torch.nn as nn
import torch.optim as optim# 1. 加载预训练模型
model = models.resnet50(pretrained=True)# 2. 冻结 ResNet 的前几层（conv1, layer1, layer2）
for param in model.conv1.parameters():param.requires_grad = False
for param in model.layer1.parameters():param.requires_grad = False
for param in model.layer2.parameters():param.requires_grad = False# 3. 修改分类头（假设目标任务有 10 类）
num_features = model.fc.in_features
model.fc = nn.Linear(num_features, 10)# 4. 定义损失函数和优化器（仅优化可训练参数）
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=1e-4)# 5. 训练循环（示意）
for epoch in range(10):for images, labels in train_loader:optimizer.zero_grad()outputs = model(images)loss = criterion(outputs, labels)loss.backward()optimizer.step()

5. 总结

单项权重冻结是指只冻结部分层的参数，而让其他层继续训练，常用于迁移学习和微调。
常见策略：
1. 冻结低级层，微调高级层（适用于迁移学习）
2. 仅解冻 BatchNorm 层（适用于分布变化）
3. 分阶段解冻（从只训练全连接层到全局微调）
代码实现主要通过 requires_grad = False 控制梯度计算，确保冻结的层不更新参数。

最后煮啵还想说，单项梯度冻结和迁移学习有不小的渊源，煮啵会努力想想该如何解释清楚这件事！

关于单项梯度冻结小记

单项权重冻结（Partial Weight Freezing）详解单项权重冻结（Partial Weight Freezing） 是深度学习模型训练中的一种技巧，指的是在训练过程中，只冻结（固定）部分网络权重，而…...

编程日记 2025/4/21 3:12:43

Ubuntu20.04安装Nvidia显卡驱动安装环境为Dell R540服务器官网下载Nvidia显卡驱动 https://www.nvidia.cn/geforce/drivers/ 安装显卡驱动 chmod x NVIDIA-Linux-x86_64-470.63.01.run sudo ./NVIDIA-Linux-x86_64-470.63.01.run 遇到nouveau报错 lsmod查看nouveau驱动…...

编程日记 2025/5/25 9:49:11

YOLOv11 目标检测

本文章不再赘述anaconda的下载以及虚拟环境的配置，博主使用的python版本为3.8 1.获取YOLOv11的源工程文件链接：GitHub - ultralytics/ultralytics: Ultralytics YOLO11 🚀 直接下载解压 2.需要自己准备的文件文件结构如下：红…...

编程日记 2026/2/14 14:12:07

VSCode C/C++ 环境搭建指南

一、前言 Visual Studio Code（简称 VSCode）是一款轻量级且功能强大的跨平台代码编辑器，凭借丰富的插件生态和高度的可定制性，深受开发者喜爱。对于 C/C 开发者而言，在 VSCode 中搭建开发环境，能够获得灵活…...

编程日记 2026/3/3 8:10:51

Python-docx库详解：轻松实现Word文档自动化生成与图片尺寸控制

Python-docx库详解：轻松实现Word文档自动化生成与图片尺寸控制在现代办公自动化的浪潮中，文档处理是一项不可或缺的任务。Python作为一种强大的编程语言，提供了丰富的库来简化这些任务。其中，python-docx库是处理Word文档的有力…...

编程日记 2026/2/15 18:57:58

Python大疆导出csv文件转化大地2000的dxf文件

大疆导出三维模型里面有个models\pc\0\terra_grid\csv\terra_grid.csv文件，里面记录所有点的坐标和高程，但坐标是经纬度坐标，需要转化为大地2000坐标。我参照了：经纬度坐标转换为CGCS2000大地坐标系对应XY值（PYTHON实…...

编程日记 2026/2/14 7:14:25

Python 中下划线 “_” 的多面性：从变量到约定

# Python中下划线“_”的多面性：从变量到约定在Python的语法体系里，下划线“_”看似毫不起眼，实则扮演着极为重要且多样化的角色。它不仅能作为普通变量参与编程，更在多个特殊场景下有着独特的用途与约定。深入理解下划线的各种…...

编程日记 2026/2/15 8:19:37

Vue3项目开发：状态管理实践指南

# Vue3项目开发：状态管理实践指南一、引言背景介绍在Vue项目中，状态管理是一个非常重要的话题。合理的状态管理能够帮助我们更好地组织和管理数据，提升项目的可维护性和可扩展性。本文将深入探讨Vue3项目中状态管理的最佳实践，…...

编程日记 2026/2/19 18:18:57

JVM-JAVA编译到执行全过程

源码文件（.java）到代码执行的全过程： 该过程主要分为四个阶段，“编译-》加载-》解释-》执行”。在编译阶段需要将源码文件（.java）通过语法分析、语义分析、注解处理后得到class文件； 在加载…...

编程日记 2026/2/14 16:13:47

数据结构-------栈

顺序栈： 一、数据结构定义数据元素 DATATYPE typedef struct person {char name[32];char sex;int age;int score; } DATATYPE;顺序栈结构 SeqStack typedef struct list {DATATYPE *head; // 栈空间首地址int tlen; // 栈总容量（total leng…...

编程日记 2026/2/14 10:53:07

机器学习概要

文章目录一、什么是机器学习二、机器学习的种类 1. 有监督学习 2. 无监督学习 3.强化学习三、机器学习的应用四、机器学习的步骤 1. 数据的重要性 2. 数据和学习的种类 3. 可视化一、什么是机器学习机器学习指的是计算机根据给定的问题、课题或环境进行学习&a…...

编程日记 2026/3/2 16:44:10

python：music21 与 AI 结合应用探讨

Python 的 music21 库与人工智能（AI）技术结合应用具有广泛的可能性，尤其是在音乐生成、分析和风格模拟等领域。以下是具体的结合方向与示例： 1. 音乐生成与 AI AI 模型驱动音乐生成： 使用深度学习模型（如 …...

编程日记 2026/2/25 12:05:08

【LangChain入门 2 Model组件】开始！LLM Models简单对话

文章目录一、使用langchain_ollama二、采用DeepSeek的API三、Model 介绍3.1 OllamaLLM 预训练模型3.2 ChatOllama 聊天预训练模型3.3 OllamaEmbeddings 实现一个helloworld，跑通一个简单的对话。后面章节会正式介绍LangChain的各个功能。后台llm的端口可以任意选…...

编程日记 2026/2/26 8:50:35

7种寻址方式

1. 立即寻址立即寻址也叫立即数寻址，操作数本身就在指令中给出，只要取出指令也就取到了操作数，这个操作数被称为立即数。立即数要求以 “#” 为前缀。 #0x1100：表示十六进制数#0b1100：表示二进制数#0d1100&#xff…...

编程日记 2026/2/15 6:16:19

C语言中，#define和typedef 定义int* 一个容易混淆的点

前言首先来看一个代码： #include <stdio.h> #include <string.h>#define int_ptr int *int main() {int c 100;int_ptr a , b; // 等效于int * a,b; 那么b就是int类型，不是int*类型a &c;b &c; //报错return 0; } 原意&#x…...

编程日记 2026/3/2 0:58:48

C++20 中线程管理与取消机制的深度剖析

文章目录 std::jthread：更智能的线程管理背景与优势构造函数与 std::stop_token 的集成 std::stop_token、std::stop_source 和 std::stop_callback：灵活的取消机制std::stop_token：取消请求的指示器std::stop_source：取消请求的发…...

编程日记 2026/2/19 2:35:48

Vue3 核心特性解析：Suspense 与 Teleport 原理深度剖析

Vue3 核心特性解析：Suspense 与 Teleport 原理深度剖析一、Teleport：突破组件层级的时空传送 1.1 实现原理图解 #mermaid-svg-75dTmiektg1XNS13 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-s…...

编程日记 2026/3/4 21:40:24

FPGA——实现LED流水灯

文章目录一、Quartusll_18.1和VS Code软件的关联二、DE2-115的时钟电路三、流水灯的分层次设计四、总结一、Quartusll_18.1和VS Code软件的关联 1.先打开Quartus II 软件，然后选择菜单栏“Tools”下的“Options…”。 2.点击“Options…”，在弹出的对…...

编程日记 2026/2/14 14:43:53

Excel 小黑第12套

对应大猫13 涉及金额修改 -数字组 -修改会计专用 VLOOKUP函数使用（查找目标，查找范围（F4 绝对引用），返回值的所在列数，精确查找或模糊查找）双击填充柄就会显示所有值这个逗号要中文的不能英…...

编程日记 2026/3/4 15:07:17

6、说一下索引失效的场景？【中高频】

索引失效意味着查询操作不能利用索引进行数据检索，而是使用全表扫描（也就是数据库需要从磁盘上读取表的所有数据行），从而导致性能下降，下面一些场景会发生索引失效对索引使用左或者左右模糊匹配（where…...

编程日记 2026/2/23 11:00:04

Noe.js 原生 http 模块 vs Express 框架对比

Noe.js 原生 http 模块 vs Express 框架对比 Noe.js 原生 http 模块 vs Express 框架对比以下从多个维度对比两种方法，并提供详细示例，帮助初学者理解差异。 1. 基础架构对比特性原生 http 模块Express 框架核心依赖Node.js 内置模块 (require(htt…...

编程日记 2026/2/25 5:56:45

滚动元素的新api

点击的时候需要双重视图滚动 itemClick(id) {// 滚动到对应位置this.$nextTick(() > {// 找到对应 id 在 initList2 中的索引const index this.initList2.findIndex((item) > item.id Number(id));if (index ! -1) {// 获取所有菜单项const menuItems document.queryS…...

编程日记 2026/2/23 10:16:47

多机调度问题（C语言）

代码如下： #include<stdio.h> #include<stdlib.h>int compare(void* a, void* b)//比较函数，用于qsort按处理时间从大到小排序 {return *(int*)a - *(int*)b; }int LPT(int jobs[], int n, int m)//多机调度问题的LPT算法 {qsort(jobs, n, …...

编程日记 2026/2/21 6:46:08

JS做贪吃蛇小游戏（源码）

一、HTML代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><link rel…...

编程日记 2026/2/27 11:46:40

烽火HG680-KB_海思HI3798MV310_安卓9.0_U盘强刷固件包及注意点说明

之前发布过这个固件包，关于烽火HG680-KA／HG680-KB_海思HI3798MV310_安卓9.0_U盘强刷固件包详细说明一下，汇总总结一些常遇到的情况，这次固件会分开发布，以免混淆。上一个帖子地址：烽火HG680-KA&#xff0…...

编程日记 2026/2/17 14:57:06

Java数据结构相关知识

文章目录 1. 自动装箱和自动拆箱2. Object的equals方法3. Comparable和Comparator接口 1. 自动装箱和自动拆箱自动装箱：将基本数据类型自动转换为对应的包装类。自动拆箱：将包装类自动转换为对应的基本数据类型。显示装箱 int primitiveInt 10; //…...

编程日记 2026/2/28 1:46:27

996引擎 - 红点系统

996引擎 - 红点系统总结NPC 红点（TXT红点）Lua 红点1. Red_Point.lua2. UI_Ex.lua参考资料以下内容是在三端 lua 环境下测试的总结红点系统分几个部分组成。 M2中设置变量推送。配置红点表。 Envir\Data\cfg_redpoint.xls 2.1. UI元素中找到ID填写 ids 列。主界面挂载…...

编程日记 2026/2/21 0:57:40

7种数据结构

7种数据结构顺序表sqlite.hseqlite.c 单链表linklist.clinklist.h 双链表doulinklist.cdoulinklist.h 链式栈linkstack.clinkstack.h 队列SeqQueue.cSeqQueue.h 树tree.c 哈希表hash.c 顺序表 sqlite.h #ifndef __SEQLIST_H__ #define __SEQLIST_H__ typedef struct person…...

编程日记 2026/2/14 14:32:19

Redis的消息队列是怎么实现的

Redis 本身并不是一个专门的消息队列系统，但它的 List、Pub/Sub 和 Stream 数据结构可以用来实现消息队列的功能。以下是 Redis 实现消息队列的几种常见方式： 1. 基于 List 实现消息队列 Redis 的 List 是一个双向链表，支持在头部和尾部进行高效的插入和删除操作，非常适合…...

编程日记 2026/2/23 11:06:30

3.17BUUCTF练习day1

BUUCTF练习day1 [极客大挑战 2019]EasySQL1（字符型，账号密码型，get型） 判断闭合方式在用户名输入1‘，此时密码先输入任何数字时，出现语法错误说明闭合方式为单引号闭合，在判断完闭合方式后…...

编程日记 2026/2/21 21:27:37

单项权重冻结（Partial Weight Freezing）详解

1. 为什么要进行单项权重冻结？

2. 单项权重冻结的工作原理

3. 单项权重冻结的不同策略

(1) 冻结底层特征（低级层冻结，高级层可训练）

(2) 仅冻结部分权重（Selective Freezing）

(3) 分阶段解冻（Progressive Unfreezing）

4. 代码示例：完整的单项权重冻结训练流程

5. 总结

相关文章：