当前位置：首页 > news >正文

【机器学习300问】74、如何理解深度学习中L2正则化技术？

news 2026/2/8 21:14:10

深度学习过程中，若模型出现了过拟合问题体现为高方差。有两种解决方法：

增加训练样本的数量
采用正则化技术

增加训练样本的数量是一种非常可靠的方法，但有时候你没办法获得足够多的训练数据或者获取数据的成本很高，这时候正则化技术就可以有效的帮助你避免模型过拟合。接下来本文就来讲解一下深度学习中的正则化起作用的原理（文中以L2正则化为例）。

有关正则化的基础知识，可以回看我之前的文章哦：

【机器学习300问】18、正则化是如何解决过拟合问题的？http://t.csdnimg.cn/vX2mP

一、包括L2正则化项的损失函数长什么样

在损失函数（如均方误差、交叉熵误差等）的基础上，L2正则化引入了一个与权重向量W相关的正则化项，通常表示为：

$J(W, b; x, y) = L(W, b; x, y) + \frac{\lambda}{2m} \sum_{l=1}^{L} ||W^{[l]}||^2_F$

符号	解释
$J(W, b; x, y)$	包含正则化项的总损失函数
$L(W, b; x, y)$	代表未加正则化项的原始损失函数，这通常是对每个样本的损失的平均值，如交叉熵损失或均方误差损失
$W,b$	分别表示网络中的权重和偏置参数
$\lambda$	正则化项的系数，这是一个超参数，用于控制正则化的强度
$m$	训练样本的数量
$\sum_{l=1}^{L} \|\|W^{[l]}\|\|^2_F$	L2正则化项，通常称为权重衰减项。是所有权重矩阵的Frobenius范数的平方的和。Frobenius范数是一个矩阵范数，等同于矩阵元素的平方和的平方根
$\|\|W^{[l]}\|\|^2_F$	表示第 $l$ 层权重矩阵的Frobenius范数的平方，而 $L$ 是网络层的总数

二、L2正则化的作用机制

（1）权重缩小

在优化过程中，由于L2正则化项的存在，当模型试图降低原始损失时，同时需要考虑减小权重的平方和。这会促使模型在训练过程中选择较小的权重值，避免权重值过大导致模型对训练数据的过度敏感。

（2）防止过拟合

较小的权重值意味着模型对单个特征的影响不会过于突出，减少了模型对训练数据中噪声和个别样本特性的过度学习，有利于提高模型在未见过数据上的泛化能力。

三、L2正则化到底是怎么起作用的嘛！

（1）微观上，对激活函数的影响

激活函数tanh（双曲正切函数）的输出范围在-1到1之间，形状类似于Sigmoid函数但更为平缓，且在两端饱和区的梯度更接近于0。公式就不赘述了之前的文章详细介绍过了，我们在这里只关注函数的图像，从图像上理解就可以了。

用 $g(z)=tanh(z)$ 表示，那么我们发现，只要 $z$ 非常小，如果 $z$ 只涉及少量参数，我们就只利用了双曲正切函数的线性状态，如下图所示：

当L2正则化惩罚过大时，模型的权重被迫保持较小的值，也就是说 $z$ 也会很小。对于tanh激活函数意味着：

tanh函数接近线性（斜率为1），较小的权重导致输入信号大部分位于tanh函数的线性区域内，使得模型的非线性表达能力减弱，趋向于线性模型。
过强的L2正则化可能会限制tanh激活函数充分发挥其非线性变换的能力，尤其是对于需要捕捉复杂非线性关系的任务，模型可能无法有效学习数据的深层次结构。

在之前的文章中讲到过，如果激活函数都是线性函数，那么无论你的神经网络有多深，节点有很多，都相当于一个简单的线性模型。这就是为什么L2正则化通过约束权重的大小，间接降低了模型的复杂度。

（2）宏观上，对神经网络结构的影响

现在我们假设一种很极端的情况，正则化参数 $\lambda$ 非常大，因此对权重的惩罚非常大，导致权重很小，小到约等于0。因为公式 $z=W^Tx + b$ ，我们如果不考虑偏置。就会得到 $z=W^Tx=0\cdot x=0$ ，这样一来从神经网络的在该节点的输出 $a=tanh(0)=0$ 。意味着这个神经元死亡了。如果用图来表示的话就是：

显然，模型的复杂度被降低了，提高模型的泛化能力。

【机器学习300问】74、如何理解深度学习中L2正则化技术？

一、包括L2正则化项的损失函数长什么样

二、L2正则化的作用机制

（1）权重缩小

（2）防止过拟合

三、L2正则化到底是怎么起作用的嘛！

（1）微观上，对激活函数的影响

（2）宏观上，对神经网络结构的影响

相关文章：

【机器学习300问】74、如何理解深度学习中L2正则化技术？

C语言程序设计每日一练（4）

m4p转换mp3格式怎么转？3个Mac端应用~

全国产化无风扇嵌入式车载电脑在车队管理嵌入式车载行业应用

爬虫入门——Request请求

创建一个javascript公共方法的npm包，js-tool-big-box，发布到npm上，一劳永逸

【在线OJ系统】自定义注解实现分布式ID无感自增

35. UE5 RPG制作火球术技能

计算机网络 TCP/IP体系物理层

微服务相关

虚拟机下如何使用Docker(完整版)

asp.net core 依赖注入后的服务生命周期

交换排序：冒泡排序和快速排序

聊天机器人ChatGPT指导下的论文写作

康谋技术 | 深入探讨：自动驾驶中的相机标定技术

如何在 Ubuntu 上启用 IPv6

Mac电脑上有什么好玩的格斗游戏《真人快打1》可以在苹果电脑上玩吗

【leetcode面试经典150题】55. 逆波兰表达式求值（C++）

云轴科技ZStack入选中国信通院《高质量数字化转型产品及服务全景图（2023年度）》

Workerman开启ssl方法如下

ubuntu搭建nfs服务centos挂载访问

【C语言练习】080. 使用C语言实现简单的数据库操作

c#开发AI模型对话

Git 3天2K星标：Datawhale 的 Happy-LLM 项目介绍（附教程）

【Kafka】Kafka从入门到实战：构建高吞吐量分布式消息系统

在RK3588上搭建ROS1环境：创建节点与数据可视化实战指南

aardio 自动识别验证码输入

Vue3 PC端 UI组件库我更推荐Naive UI

《Offer来了：Java面试核心知识点精讲》大纲

python打卡day49@浙大疏锦行