当前位置：首页 > news >正文

Pytorch L1,L2正则化

news 2026/2/11 2:57:25

L1正则化和L2正则化是常用的正则化技术，用于在机器学习模型中控制过拟合。它们的主要区别在于正则化项的形式和对模型参数的影响。

L1正则化（Lasso正则化）：

正则化项形式：L1正则化使用模型参数的绝对值之和作为正则化项，即L1范数。
影响模型参数：L1正则化倾向于将一些模型参数压缩为0，从而实现特征选择和稀疏性。因此，它可以用于特征选择和模型简化。
其他特点：由于L1正则化的非光滑性，优化问题在参数接近零时更容易找到解，因此它对于具有大量无关特征的问题更有效。

L2正则化（Ridge正则化）：

正则化项形式：L2正则化使用模型参数的平方和作为正则化项，即L2范数。
影响模型参数：L2正则化倾向于使模型参数趋向于较小的值，但不会将其完全压缩为零。它通过减小模型参数的绝对值来控制参数的大小。
其他特点：L2正则化是光滑的，优化问题在参数接近零时相对平滑，因此对于许多问题都能得到较好的结果。

总结：

L1正则化倾向于稀疏性和特征选择，适用于具有大量无关特征的问题。
L2正则化倾向于模型参数较小，适用于控制模型复杂度和减少过拟合。
在某些情况下，可以同时使用L1和L2正则化形成弹性网络（Elastic Net），综合了两者的优点。

选择使用L1正则化还是L2正则化取决于具体问题和数据集的特点。通常建议先尝试L2正则化，如果模型仍然过拟合或需要进行特征选择，则可以考虑使用L1正则化。

对L1产生稀疏权值和L2产生平滑权值的理解

L1的定义是L1 = |w1| + |w2| + |w3| + ... + |wn|

L2的定义是L2 = w1^2 + w2^2 + w3^2 + ... + wn^2

L1和L2分别对w求导可得

dL1/dw = sign(wi)

dL2/dw = wi

假设wi为某个大于零的浮点数,学习率lr为0.5,根据梯度下降算法,

L1的权值更新方式为wi = wi - lr*(dL1/dw) = wi - lr*1 = wi - 0.5

L2的权值更新方式为wi = wi - lr*(dL2/dw) = wi - lr*wi = wi - 0.5wi

可以看出,L1每次更新都是减去一个固定的值,那就可能在多次迭代之后,权值为0的情况

而L2虽然权值也在减小,但是总不为0

需要注意的是,通常情况下，我们更倾向于对权值进行正则化，而不是对偏置进行正则化的原因有以下几点：

偏置的作用：偏置（bias）是模型中的一个常数项，它的作用是调整模型预测值与实际值之间的偏差。偏置通常用来解决模型在数据特征上的平移问题，而不会引入过多的复杂性。由于偏置只是一个常数，它的取值并不像权值那样会随着训练过程而变化，因此对偏置进行正则化对于控制模型的复杂度影响较小。
影响模型容量：正则化的目的是通过限制参数的取值范围来控制模型的复杂度，避免过拟合。权值在模型中起到了控制特征的重要作用，对权值进行正则化可以有效地减少模型的复杂度，提高泛化能力。而偏置的作用相对较小，对偏置进行正则化往往对模型的泛化能力影响较小。
数据中的偏移：在实际的数据中，通常会存在一些偏移（bias），即使我们对权值不进行正则化，模型也可以通过调整偏置来适应这种偏移。因此，对偏置进行正则化可能会导致对数据中的偏移进行过度拟合，而忽略了模型对其他特征的学习能力。

测试代码如下

import torch
import matplotlib.pyplot as plttorch.manual_seed(25)x_train = torch.tensor([1,2,3,4,5,6,7,8,9,10],dtype=torch.float32).unsqueeze(-1)
y_train = torch.tensor([0.52,8.54,6.94,20.76,32.17,30.65,40.46,80.12,75.12,98.83],dtype=torch.float32).unsqueeze(-1)
plt.scatter(x_train.detach().numpy(),y_train.detach().numpy(),marker='o',s=50,c='r')class Linear(torch.nn.Module):def __init__(self):super().__init__()self.layers = torch.nn.Sequential(torch.nn.Linear(in_features=1, out_features=3),torch.nn.Sigmoid(),torch.nn.Linear(in_features=3,out_features=5),torch.nn.Sigmoid(),torch.nn.Linear(in_features=5, out_features=10),torch.nn.Sigmoid(),torch.nn.Linear(in_features=10,out_features=5),torch.nn.Sigmoid(),torch.nn.Linear(in_features=5, out_features=1),torch.nn.ReLU(),)def forward(self,x):return self.layers(x)linear = Linear()opt = torch.optim.Adam(linear.parameters(),lr= 0.005)
loss_fn = torch.nn.MSELoss()for epoch in range(1000):for iter in range(10):L1 = 0L2 = 0for name,param in linear.named_parameters():if 'bias' not in name:L1 += torch.norm(param, p=1) * 1e-3L2 += torch.norm(param, p=2) * 1e-3opt.zero_grad()output = linear(x_train[iter])loss = loss_fn(output, y_train[iter]) + L1 + L2loss.backward()opt.step()if __name__ == '__main__':predict_loss = 0for i in range(1000):x = torch.tensor([i/100], dtype=torch.float32)y_predict = linear(x)plt.scatter(x.detach().numpy(),y_predict.detach().numpy(),s=2,c='b')plt.scatter(i/100,i*i/10000,s=2,c='y')predict_loss = (i*i/10000 - y_predict)**2/(y_predict)**2 + predict_loss
plt.show()

不使用L1,L2正则化的情况如下

只使用L1正则化的情况如下

只使用L2正则化的情况如下

同时使用L1和L2正则化的情况如下

Pytorch L1,L2正则化

L1正则化和L2正则化是常用的正则化技术，用于在机器学习模型中控制过拟合。它们的主要区别在于正则化项的形式和对模型参数的影响。 L1正则化（Lasso正则化）： 正则化项形式：L1正则化使用模型参数的绝对值之和作为正则化…...

编程日记 2023/11/1 23:23:08

【Elasticsearch 未授权访问漏洞复现】

文章目录一、漏洞描述二、漏洞复现三、修复建议一、漏洞描述 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布&am…...

编程日记 2023/11/1 23:21:05

pytorch笔记：PackedSequence对象送入RNN

pytorch 笔记：PAD_PACKED_SEQUENCE 和PACK_PADDED_SEQUENCE-CSDN博客当使用pack_padded_sequence得到一个PackedSequence对象并将其送入RNN（如LSTM或GRU）时，RNN内部会进行特定的操作来处理这种特殊的输入形式。使用PackedSequ…...

编程日记 2023/11/1 23:20:02

C#WPF工具提示（ToolTip）实例

本文演示C#WPF工具提示（ToolTip）实例 ToolTip ToolTip是当鼠标移到某个控件上后可以弹出提示的控件属性说明 1、HasDropShadow 决定工具提示是否具有扩散的黑色阴影，使其和背后的窗口区别开来 2、Placement 使用PlacementMode枚举值决定如何放置工具提示。默认值是M…...

编程日记 2023/11/1 23:18:59

智慧矿山系统中的猴车安全监测与识别

智慧矿山是近年来兴起的一种采用人工智能（AI）技术的矿山管理方式，它通过利用智能传感设备和先进算法来实现对矿山环境和设备进行监测和管理，从而提高矿山的安全性和效率。在智慧矿山的AI算法系列中，猴车不安全行为识别…...

编程日记 2023/11/1 23:16:58

网络协议--TCP连接的建立与终止

18.1 引言 TCP是一个面向连接的协议。无论哪一方向另一方发送数据之前，都必须先在双方之间建立一条连接。本章将详细讨论一个TCP连接是如何建立的以及通信结束后是如何终止的。这种两端间连接的建立与无连接协议如UDP不同。我们在第11章看到一端使用UDP向另一端发…...

编程日记 2023/11/1 23:15:57

react条件渲染

目录前言 1. 使用if语句 2. 使用三元表达式 3. 使用逻辑与操作符列表渲染最佳实践和注意事项 1. 使用合适的条件判断 2. 提取重复的逻辑 3. 使用适当的key属性总结前言在React中，条件渲染指的是根据某个条件来决定是否渲染特定的组件或元素。这在构…...

编程日记 2023/11/1 23:14:56

Docker中Failed to initialize NVML: Unknown Error

参考资料 Docker 中无法使用 GPU 时该怎么办（无法初始化 NVML：未知错误） SOLVED Docker with GPU: “Failed to initialize NVML: Unknown Error” 解决方案需要的条件: 需要在服务器上docker的admin list之中. 不需要服务器整体的admin权限.…...

编程日记 2023/11/1 23:13:55

学习笔记|单样本秩和检验|假设检验摘要|Wilcoxon符号检验|规范表达|《小白爱上SPSS》课程：SPSS第十一讲 | 单样本秩和检验如何做？很轻松！

目录学习目的软件版本原始文档单样本秩和检验一、实战案例二、统计策略三、SPSS操作1、正态性检验2．单样本秩和检验四、结果解读第一，假设检验摘要第二，Wilcoxon符号检验结果摘要。第三，Wilcoxon符号秩检验图第四，数…...

编程日记 2023/11/1 23:12:54

ttkefu在线客服在客户联络领域的价值

随着互联网的快速发展，越来越多的企业开始注重在线客服的应用。ttkefu作为一款智能在线客服系统，在客户联络领域中展现出了巨大的价值。本文将详细介绍ttkefu在线客服在客户联络领域的应用优势、专家分析以及未来发展趋势。一、ttkefu在线客服简介 tt…...

编程日记 2023/11/1 23:11:53

创新方案｜2023如何用5种新形式重塑疫后实体门店体验

在电商盛行的当下，线上购物已成为新零售的重要组成部分，实体零售业正处于两难境地。一方面，实体零售是绝对有必要的：美国约 85% 的销售额来自实体商店。另一方面，尽管增长放缓，但电商收入占销售总额的比例…...

编程日记 2023/11/1 23:10:51

Aqua Data Studio 2023.1

为什么选择 Aqua Data Studio？ 随着数据在业务中的作用不断发展，组织需要一种有效的方法来简化复杂的技术任务并缩小 IT 和业务团队之间的差距。使用多个数据库平台不再复杂。使用 Aqua Data Studio 简化您的所有数据管理流程和任务：这是一…...

编程日记 2023/11/1 23:09:50

【C++智能指针】

智能指针为什么使用智能指针？概念分类auto_ptrunique_ptrshared_ptr循环引用weak_ptr 为什么使用智能指针？ 考虑以下场景： void div() {int a, b;cin >> a >> b;if (b 0)throw invalid_argument("除0错误");return…...

编程日记 2023/11/1 23:08:50

gcc/g++使用格式+各种选项,预处理/编译(分析树,编译优化,生成目标代码)/汇编/链接过程(函数库,动态链接)

目录 gcc/g--编译器介绍使用格式通用选项编译选项链接选项程序编译过程预处理(宏替换) 编译 (生成汇编) 分析树(parse tree) 编译优化删除死代码寄存器分配和调度强度削弱内联函数生成目标代码汇编 (生成二进制代码) 链接(生成可执行文件) 函…...

编程日记 2023/11/1 23:06:48

OSPF复习（2）

目录一、LSA的头部二、6种类型的LSA（课堂演示） 1、type1-LSA：----重要且复杂 2、type2-LSA： 3、type3-LSA： 4、type4-LSA： 5、type5-LSA： 6、type7-LSA： 三、OSPF的网络类…...

编程日记 2023/11/1 23:05:47

FPGA时序分析与约束（9）——主时钟约束

一、时序约束时序引擎能够正确分析4种时序路径的前提是，用户已经进行了正确的时序约束。时序约束本质上就是告知时序引擎一些进行时序分析所必要的信息，这些信息只能由用户主动告知，时序引擎对有些信息可以自动推断，但是推断得到…...

编程日记 2023/11/1 23:04:46

sqlite3 关系型数据库语言 SQL 语言

SQL(Structured Query Language)语言是一种结构化查询语言,是一个通用的,功能强大的关系型数据库操作语言. 包含 6 个部分: 1.数据查询语言(DQL:Data Query Language) 从数据库的二维表格中查询数据,保留字 SELECT 是 DQL 中用的最多的语句 2.数据操作语言(DML) 最主要的关…...

编程日记 2023/11/1 23:02:43

spring boot中的多环境配置

1.切换环境 spring:profiles:include: devactive: dev的作用是为了启动某个环境，两个作用基本一致， 环境定义如下： spring:profiles: dev或者是查找application-dev.yml这个文件的所有配置 2.加载文件 spring:config:import:- optional:f…...

编程日记 2023/11/1 23:01:40

python3 阿里云api进行巡检发送邮件

python3 脚本爬取阿里云进行巡检不确定pip能不能安装上，使用时候可以百度一下，脚本是可以使用的，没有问题的太长时间了，pip安装依赖忘记那些了，使用科大星火询问了下，给了下面的，看看能不能使…...

编程日记 2023/11/1 23:00:38

【Linux】安装使用Nginx负载均衡，并且部署前端项目

目录一、Nginx概述 1. 什么 2. 背景 3. 作用二、Nginx负载均衡 1. 讲述 2. 使用 1. 下载 2. 安装 3. 负载均衡三、前端部署 1. 准备 2. 部署一、Nginx概述 1. 什么 Nginx是一个高性能的开源Web服务器和反向代理服务器。它具有轻量级、高并发、低内存消耗的…...

编程日记 2023/11/1 22:59:37

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…...

编程新知 2026/2/10 23:54:46

微信小程序之bind和catch

这两个呢，都是绑定事件用的，具体使用有些小区别。官方文档： 事件冒泡处理不同 bind：绑定的事件会向上冒泡，即触发当前组件的事件后，还会继续触发父组件的相同事件。例如，有一个子视图绑定了b…...

编程新知 2026/2/5 5:05:56

盘古信息PCB行业解决方案：以全域场景重构，激活智造新未来

一、破局：PCB行业的时代之问在数字经济蓬勃发展的浪潮中，PCB（印制电路板）作为 “电子产品之母”，其重要性愈发凸显。随着 5G、人工智能等新兴技术的加速渗透，PCB行业面临着前所未有的挑战与机遇。产品迭代…...

编程新知 2026/2/7 17:29:24

QMC5883L的驱动

简介本篇文章的代码已经上传到了github上面，开源代码作为一个电子罗盘模块，我们可以通过I2C从中获取偏航角yaw，相对于六轴陀螺仪的yaw，qmc5883l几乎不会零飘并且成本较低。参考资料 QMC5883L磁场传感器驱动 QMC5883L磁力计…...

编程新知 2026/1/2 4:05:05

java 实现excel文件转pdf | 无水印 | 无限制

文章目录目录文章目录前言 1.项目远程仓库配置 2.pom文件引入相关依赖 3.代码破解二、Excel转PDF 1.代码实现 2.Aspose.License.xml 授权文件总结前言 java处理excel转pdf一直没找到什么好用的免费jar包工具，自己手写的难度，恐怕高级程序员花费一年的事件，也…...

编程新知 2025/11/5 4:10:42

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 （忘了有没有这步了估计有） 刷机程序和镜像就不提供了。要刷的时…...

编程新知 2026/2/6 20:07:35

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2025/10/18 7:13:10

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)

文章目录概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...

编程新知 2026/1/31 23:44:39

是否存在路径（FIFOBB算法）

题目描述一个具有 n 个顶点e条边的无向图，该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序，确定是否存在从顶点 source到顶点 destination的路径。输入第一行两个整数，分别表示n 和 e 的值（1…...

编程新知 2025/10/1 6:09:21

初学 pytest 记录

安装 pip install pytest用例可以是函数也可以是类中的方法 def test_func():print()class TestAdd: # def __init__(self): 在 pytest 中不可以使用__init__方法 # self.cc 12345 pytest.mark.api def test_str(self):res add(1, 2)assert res 12def test_int(self):r…...

编程新知 2026/2/8 21:57:26

相关文章：