当前位置：首页 > news >正文

激活函数篇 03 —— ReLU、LeakyReLU、ELU

news 2026/2/8 23:51:51

本篇文章收录于专栏【机器学习】

以下是激活函数系列的相关的所有内容:

一文搞懂激活函数在神经网络中的关键作用

逻辑回归：Sigmoid函数在分类问题中的应用

整流线性单位函数（Rectified Linear Unit, ReLU），又称修正线性单元，是一种人工神经网络中常用的激活函数，通常指代以斜坡函数及其变种为代表的非线性函数。

$\text{ReLU}(x) = \max(0, x)$
当输入 $x > 0$ 时，输出等于输入；当输入 $\leq 0$ 时，输出为 0。
在这里插入图片描述
传统的激活函数如 Sigmoid 和 Tanh 存在梯度消失和计算效率较低的问题。ReLU 函数解决了这些问题，具有计算简单、不易出现梯度消失等特点。

应用场景

神经网络隐藏层：引入非线性，使网络能够学习复杂的特征表示。
输出层：在需要输出非负值的回归任务中使用。
特定任务：广泛应用于图像识别、自然语言处理等领域，如 CNN 和 RNN。

函数特点

控制输出范围：输出值限制在 $\infty)$ ，防止梯度消失或爆炸。
引入稀疏性：许多输出为零，减少模型复杂度，提高计算效率，防止过拟合。
提供可导性：其导数为：
$\text{ReLU}'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases}$

优点：
- 计算简单，计算效率高。
- 不易出现梯度消失问题。
- 引入稀疏性，有助于减少模型复杂度，提高计算效率，防止过拟合。
缺点：
- 神经元死亡：当 $\leq 0$ 时，导数为 0，可能导致神经元死亡。
- 输出不以 0 为中心，可能影响梯度稳定性。

ReLU 函数的两个变体

Leaky ReLU：是 ReLU 的一个变体，在输入小于等于 0 时有一个小的非零斜率 $\alpha$ ，从而避免了神经元死亡问题：
$\text{Leaky ReLU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$
$\alpha$ 是一个小常数，通常取 0.01。在反向传播过程中，对于LeakyReLU激活函数输入小于 $0$ 的部分，也可以计算得到梯度(ReLU的值为0)，这样就避免了梯度方向锯齿问题。
在这里插入图片描述
ELU，即指数线性单元（Exponential Linear Unit），解决神经网络训练中的一些问题，如梯度消失、非连续性以及输出均值偏离零等问题。

理想的激活函数应满足两个条件：

输出的分布是零均值的，加快训练速度。
激活函数是单侧饱和的，更好的收敛。

LeakyReLU满足1不满足2；而ReLU满足2不满足1，ELU 都满足。

ELU：在 $\leq 0$ 时有平滑的指数衰减，解决神经元死亡问题，数学表达式为：
$\text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases}$

在这里插入图片描述

特点

缓解梯度消失问题：当 ( x > 0 )，ELU 函数的行为类似于ReLU，允许直接传递输入，从而避免了梯度消失的问题。
对负值的处理更加温和：与ReLU不同的是，当 ( x < 0 )，ELU 不是简单地将它们置为0，而是通过指数函数给出一个非零的输出，这有助于保持网络中的信息流动。
输出的均值更接近于零：由于其在负区间内的特性，ELU 能够帮助神经网络学习到更具有鲁棒性的特征表示，并且倾向于产生更接近于零的输出均值，这对于加速学习过程是有益的。

ELU 的导数在 $x > 0$ 时为1，在 $x < 0$ 时为 $\alpha \cdot e^x$ 。特别地，在 $x = 0$ 处，通常认为其导数是连续的，取左侧或右侧极限值之一。

ELU 适用于需要减少偏移量并加快学习速度的任务，但计算上比ReLU稍微复杂一些，因为它涉及到指数运算。因此，在设计深度学习模型时，需权衡这些因素来决定最适合的激活函数。

激活函数篇 03 —— ReLU、LeakyReLU、ELU

ReLU 函数的两个变体

相关文章：

激活函数篇 03 —— ReLU、LeakyReLU、ELU

山东大学软件学院人机交互期末复习笔记

python 语音识别方案对比

docker常用命令及案例

DeepSeek-R1 云环境搭建部署流程

Java_双列集合

.net的一些知识点6

无须付费，安装即是完全版！

常见数据库对象与视图VIEW

【Vue2】vue2项目中如何使用mavon-editor编辑器，数据如何回显到网页，如何回显到编辑器二次编辑

2、Python面试题解析：如何进行字符串插值？

计算机网络-SSH基本原理

doris:MySQL 兼容性

mysql 存储过程和自定义函数详解

C++ 中的 cJSON 解析库：用法、实现及递归解析算法与内存高效管理

websocket自动重连封装

【C语言】球球大作战游戏

人工智能D* Lite 算法-动态障碍物处理、多步预测和启发式函数优化

MySQL 8版本认证问题

Android 开发APP中参数配置与读取总结

Admin.Net中的消息通信SignalR解释

.Net框架，除了EF还有很多很多......

PPT|230页| 制造集团企业供应链端到端的数字化解决方案：从需求到结算的全链路业务闭环构建

前端导出带有合并单元格的列表

pikachu靶场通关笔记22-1 SQL注入05-1-insert注入(报错法)

Xen Server服务器释放磁盘空间

【生成模型】视频生成论文调研

基于Java+MySQL实现（GUI）客户管理系统

云原生安全实战：API网关Kong的鉴权与限流详解

解读《网络安全法》最新修订，把握网络安全新趋势