激活函数篇 03 —— ReLU、LeakyReLU、ELU
本篇文章收录于专栏【机器学习】
以下是激活函数系列的相关的所有内容:
一文搞懂激活函数在神经网络中的关键作用
逻辑回归:Sigmoid函数在分类问题中的应用
整流线性单位函数(Rectified Linear Unit, ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数,通常指代以斜坡函数及其变种为代表的非线性函数。
ReLU ( x ) = max ( 0 , x ) \text{ReLU}(x) = \max(0, x) ReLU(x)=max(0,x)
当输入 x > 0 x > 0 x>0 时,输出等于输入;当输入 x ≤ 0 x \leq 0 x≤0 时,输出为 0。

传统的激活函数如 Sigmoid 和 Tanh 存在梯度消失和计算效率较低的问题。ReLU 函数解决了这些问题,具有计算简单、不易出现梯度消失等特点。
应用场景
- 神经网络隐藏层:引入非线性,使网络能够学习复杂的特征表示。
- 输出层:在需要输出非负值的回归任务中使用。
- 特定任务:广泛应用于图像识别、自然语言处理等领域,如 CNN 和 RNN。
函数特点
- 控制输出范围:输出值限制在 [ 0 , ∞ ) [0, \infty) [0,∞),防止梯度消失或爆炸。
- 引入稀疏性:许多输出为零,减少模型复杂度,提高计算效率,防止过拟合。
- 提供可导性:其导数为:
ReLU ′ ( x ) = { 1 if x > 0 0 if x ≤ 0 \text{ReLU}'(x) = \begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x \leq 0 \end{cases} ReLU′(x)={10if x>0if x≤0
- 优点:
- 计算简单,计算效率高。
- 不易出现梯度消失问题。
- 引入稀疏性,有助于减少模型复杂度,提高计算效率,防止过拟合。
- 缺点:
- 神经元死亡:当 x ≤ 0 x \leq 0 x≤0 时,导数为 0,可能导致神经元死亡。
- 输出不以 0 为中心,可能影响梯度稳定性。
ReLU 函数的两个变体
Leaky ReLU:是 ReLU 的一个变体,在输入小于等于 0 时有一个小的非零斜率 α \alpha α,从而避免了神经元死亡问题:
Leaky ReLU ( x ) = { x if x > 0 α x if x ≤ 0 \text{Leaky ReLU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases} Leaky ReLU(x)={xαxif x>0if x≤0
α \alpha α 是一个小常数,通常取 0.01。在反向传播过程中,对于LeakyReLU激活函数输入小于 0 0 0 的部分,也可以计算得到梯度(ReLU的值为0),这样就避免了梯度方向锯齿问题。

ELU,即指数线性单元(Exponential Linear Unit),解决神经网络训练中的一些问题,如梯度消失、非连续性以及输出均值偏离零等问题。
理想的激活函数应满足两个条件:
- 输出的分布是零均值的,加快训练速度。
- 激活函数是单侧饱和的,更好的收敛。
LeakyReLU满足1不满足2;而ReLU满足2不满足1,ELU 都满足。
ELU:在 x ≤ 0 x \leq 0 x≤0 时有平滑的指数衰减,解决神经元死亡问题,数学表达式为:
ELU ( x ) = { x if x > 0 α ( e x − 1 ) if x ≤ 0 \text{ELU}(x) = \begin{cases} x & \text{if } x > 0 \\ \alpha (e^x - 1) & \text{if } x \leq 0 \end{cases} ELU(x)={xα(ex−1)if x>0if x≤0

特点
缓解梯度消失问题:当 ( x > 0 ),ELU 函数的行为类似于ReLU,允许直接传递输入,从而避免了梯度消失的问题。
对负值的处理更加温和:与ReLU不同的是,当 ( x < 0 ),ELU 不是简单地将它们置为0,而是通过指数函数给出一个非零的输出,这有助于保持网络中的信息流动。
输出的均值更接近于零:由于其在负区间内的特性,ELU 能够帮助神经网络学习到更具有鲁棒性的特征表示,并且倾向于产生更接近于零的输出均值,这对于加速学习过程是有益的。
ELU 的导数在 x > 0 x > 0 x>0 时为1,在 x < 0 x < 0 x<0 时为 α ⋅ e x \alpha \cdot e^x α⋅ex。特别地,在 x = 0 x = 0 x=0 处,通常认为其导数是连续的,取左侧或右侧极限值之一。
ELU 适用于需要减少偏移量并加快学习速度的任务,但计算上比ReLU稍微复杂一些,因为它涉及到指数运算。因此,在设计深度学习模型时,需权衡这些因素来决定最适合的激活函数。
相关文章:
激活函数篇 03 —— ReLU、LeakyReLU、ELU
本篇文章收录于专栏【机器学习】 以下是激活函数系列的相关的所有内容: 一文搞懂激活函数在神经网络中的关键作用 逻辑回归:Sigmoid函数在分类问题中的应用 整流线性单位函数(Rectified Linear Unit, ReLU),又称修正线性单元&a…...
UdpServer
Udp服务端: using System; using System.Collections.Generic; using System.Linq; using System.Net.Sockets; using System.Net; using System.Text; using System.Threading; using System.Threading.Tasks; using System.Diagnostics; using System.IO; using …...
PromptSource安装报错
一、现象 运行命令:streamlit run promptsource/app.py 报错: streamlit run promptsource/app.py Traceback (most recent call last): File "/usr/local/bin/streamlit", line 5, in <module> from streamlit.cli import main File …...
前端学习-页面尺寸事件以及阻止默认行为(三十三)
目录 前言 页面尺寸事件 语法 检测屏幕宽度 获取宽高 元素尺寸的位置 总结 示例代码 阻止默认行为 阻止冒泡 语法 阻止冒泡如何做 阻止元素默认行为如何做 总结 前言 晚上好各位 页面尺寸事件 会在窗口尺寸改变的时候触发条件 语法 window.addEventListener(…...
Kafka 入门与实战
一、Kafka 基础 1.1 创建topic kafka-topics.bat --bootstrap-server localhost:9092 --topic test --create 1.2 查看消费者偏移量位置 kafka-consumer-groups.bat --bootstrap-server localhost:9092 --describe --group test 1.3 消息的生产与发送 #生产者 kafka-cons…...
5 计算机网络
5 计算机网络 5.1 OSI/RM七层模型 5.2 TCP/IP协议簇 5.2.1:常见协议基础 一、 TCP是可靠的,效率低的; 1.HTTP协议端口默认80,HTTPSSL之后成为HTTPS协议默认端口443。 2.对于0~1023一般是默认的公共端口不需要注册,1024以后的则需…...
【华为OD机考】华为OD笔试真题解析(1)--AI处理器组合
一、题目描述 某公司研发了一款高性能AI处理器,每台物理设备具备8颗AI处理器,编号分别为0、1、2、3、4、5、6、7。 编号0~3的处理器处于同一链路中,编号4~7的处理器处于另外一个链路中,不同链路中的处理器不能通信,如…...
程序员也可以这样赚钱
最近有朋友和我交流了关于程序员副业的想法,我想借这个机会对目前软件开发常用的兼职平台做一个梳理。 以下是程序员接副业的靠谱平台推荐,结合政策合规性、平台口碑及实际操作性整理,覆盖国内外主流选择: 一、国内综合型平台 程序…...
VMware虚拟机安装、创建Ubuntu虚拟机及汉化设置全流程详细教程
一、安装VMware Workstation 下载VMware 访问官网:https://www.vmware.com 选择适合的版本(如 Workstation Pro 或 VMware Player,后者免费)。完成下载后运行安装程序。 网盘下载: 链接: https://pan.baidu.com/s/1MQ…...
HTTP协议学习大纲
第一阶段:HTTP基础概念 互联网与Web基础 理解Web工作原理:客户端-服务器模型URL与URI的结构及区别端口、协议、域名概念 HTTP协议概览 HTTP的作用与特点(无状态、无连接、可扩展)HTTP协议版本演进(0.9 → 1.0 → 1.1 …...
系统URL整合系列视频四(需求介绍补充)
视频 系统URL整合系列视频四(需求补充说明) 视频介绍 (全国)大型分布式系统Web资源URL整合需求(补充)讲解。当今社会各行各业对软件系统的web资源访问权限控制越来越严格,控制粒度也越来越细。…...
21.2.7 综合示例
版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。 【例 21.7】【项目:code21-007】填充职员表并打印。 本例使用到的Excel文件为:职员信息登记表.xlsx&#x…...
【大模型】DeepSeek与chatGPT的区别以及自身的优势
目录 一、前言二、核心技术对比2.1 模型架构设计2.1.1 ChatGPT的Transformer架构2.1.2 DeepSeek的混合架构 2.2 训练数据体系2.2.1 ChatGPT的数据特征2.2.2 DeepSeek的数据策略 三、应用场景对比3.1 通用场景表现3.1.1 ChatGPT的强项领域3.2.2 DeepSeek的专项突破 3.3 响应效率…...
burpsuite抓取html登陆和上传数据包
一、burpsuite抓取html登陆数据包 1、先写一个html格式的登陆页面 <!doctype html> <html lang"en"> <head><meta charset"UTF-8"><title>这是标签</title></head> <body> <hr><!-- 登陆表单 …...
python 使用OpenAI Whisper进行显卡推理语音翻译
目录 一、Whisper简介 二、模型资料 三、实操案例 3.1 默认使用CPU进行推理 3.2 使用GPU进行推理 四、性能分析 一、Whisper简介 Whisper由 OpenAI 开发的这款强大模型,能轻松将语音转化为文字,并且支持多种语言(如英语、中文、西班牙语等),让全球沟通无障碍。 不仅…...
余数相同问题(信息学奥赛一本通-1080)
【题目描述】 已知三个正整数a,b,c。现有一个大于1的整数x,将其作为除数分别除a,b,c,得到的余数相同。请问满足上述条件的x的最小值是多少?数据保证x有解。 【输入】 一行,三个不大于…...
用 Python 给 Excel 表格截图(20250207)
我搜索了网络上的方案,感觉把 Excel 表格转换为 HTML 再用 platwright 截图是比较顺畅的路径,因为有顺畅的工具链。如果使用的是 Windows 系统则不需要阅读此文,因为 win32com 库更方便。这篇文章中 Excel 转 HTML 的方案,主要弥补…...
Linux 安装 Ollama
1、下载地址 Download Ollama on Linux 2、有网络直接执行 curl -fsSL https://ollama.com/install.sh | sh 命令 3、下载慢的解决方法 1、curl -fsSL https://ollama.com/install.sh -o ollama_install.sh 2、sed -i s|https://ollama.com/download/ollama-linux|https://…...
使用Ollama本地部署deepseek
1、下载安装Ollama 前往下载页面 https://ollama.com/download下载好安装包,如同安装软件一样,直接安装即可 win中默认为C盘,如果需要修改到其他盘,查找具体教程 运行list命令,检查是否安装成功 2、修改模型下载的…...
如何在RTACAR中配置IP多播(IP Multicast)
一、什么是IP多播 IP多播(IP Multicast)是一种允许数据包从单一源地址发送到多个目标地址的技术,是一种高效的数据传输方式。 多播地址是专门用于多播通信的IP地址,范围从 224.0.0.0到239.255.255.255 与单播IP地址不同&#x…...
2025年最新版武书连SCD期刊(中国科学引文数据库)来源期刊已更新,可下载PDF版!需要的作者进来了解~
2025年最新版武书连SCD期刊(中国科学引文数据库)来源期刊已更新! 官网是不提供免费查询的。小编给大家两个路径,无需下载PDF,随时随地都能查25版SCD目录。 路径一:中州期刊联盟官网,25版SCD目…...
已验证正常,Java输入字符串生成PDF文件
Java输入字符串生成PDF文件过程: 在Java开发中,如何将字符串转换为 PDF 是一个常见的需求。网上找了很多例子都无法生成,经过多次尝试,终于实现了,特此记录一下。 1、引入pom.xml 添加所需的依赖 <dependency>&…...
存储异常导致的Oracle重大生产故障
📢📢📢📣📣📣 作者:IT邦德 中国DBA联盟(ACDU)成员,10余年DBA工作经验 Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主,全网粉丝10万 擅长主流Oracle、MySQL、PG、高斯…...
基于Java的远程视频会议系统(源码+系统+论文)
第一章 概述 1.1 本课题的研究背景 随着人们对视频和音频信息的需求愈来愈强烈,追求远距离的视音频的同步交互成为新的时尚。近些年来,依托计算机技术、通信技术和网络条件的发展,集音频、视频、图像、文字、数据为一体的多媒体信息ÿ…...
C++ Primer 成员访问运算符
欢迎阅读我的 【CPrimer】专栏 专栏简介:本专栏主要面向C初学者,解释C的一些基本概念和基础语言特性,涉及C标准库的用法,面向对象特性,泛型特性高级用法。通过使用标准库中定义的抽象设施,使你更加适应高级…...
使用云效解决docker官方镜像拉取不到的问题
目录 前言原文地址测试jenkins构建结果:后续使用说明 前言 最近经常出现docker镜像进行拉取不了,流水线挂掉的问题,看到一个解决方案: 《借助阿里个人版镜像仓库云效实现全免费同步docker官方镜像到国内》 原文地址 https://developer.aliyun.com/artic…...
Oracle中与 NLS(National Language Support,国家语言支持) 相关的参数
在Oracle中,NLS_DATABASE_PARAMETERS 和 NLS_INSTANCE_PARAMETERS 是两个重要的视图,用于存储与 NLS(National Language Support,国家语言支持) 相关的参数。它们的作用和区别如下: 1. NLS_DATABASE_PARAME…...
【Pytorch实战教程】Python探索利器:dir与help深度解析(PyTorch实战演示)
文章目录 Python探索利器:dir与help深度解析(PyTorch实战演示)一、前言:代码世界的探险装备二、dir():对象结构探测器1. 基础用法揭秘2. PyTorch实战应用三、help():内置文档浏览器1. 基础使用姿势2. 深度学习场景实战四、组合技:探索神经网络模块1. 模块结构探测2. 类方…...
【DeepSeek】DeepSeek小模型蒸馏与本地部署深度解析DeepSeek小模型蒸馏与本地部署深度解析
一、引言与背景 在人工智能领域,大型语言模型(LLM)如DeepSeek以其卓越的自然语言理解和生成能力,推动了众多应用场景的发展。然而,大型模型的高昂计算和存储成本,以及潜在的数据隐私风险,限制了…...
【共享文件夹】使用Samba服务可在Ubuntu和Windows系统之间共享一个实际的文件夹
目标:在Ubuntu和Windows系统之间共享一个实际的文件夹,并能够共同编辑其中的文件 安装Samba创建共享文件夹配置Samba设置Samba密码重启Samba服务以应用更改:在Windows中访问共享文件夹如果客户机无法访问 Samba 服务器,解决方法①…...
