当前位置：首页 > news >正文

神经网络常见激活函数 3-ReLU函数(修正线性单元)

news 2026/2/8 20:34:45

文章目录

- ReLU
- - 函数+求导
  - 函数和导函数图像
  - 优缺点
  - pytorch 中的 ReLU 函数
  - tensorflow 中的ReLU函数

ReLU

修正线性单元（Rectified Linear Unit）

函数+求导

ReLU函数
$\begin{aligned} \operatorname{ReLU} & =\max (0, \mathrm{x}) \\ & = \begin{cases}x & x \geq 0 \\ 0 & x<0\end{cases} \end{aligned}$
ReLU函数求导
$\frac{d}{dx} \rm ReLU = \left\{ \begin{array}{} 1 \quad x \ge1 \\ 0 \quad x < 0 \end{array} \right.$
ReLU 函数的导数计算简单，x 大于等于零的时候，导数值恒为 1，在反向传播过程中，它既不会放大梯度，造成梯度爆炸(Gradient exploding)现象；也不会缩小梯度，造成梯度弥散(Gradient vanishing)现象

函数和导函数图像

画图

import pandas as pd
import numpy as np
from matplotlib import pyplot as pltdef relu(x):return np.maximum(0,x)
def relu_derivative(x):d = np.array(x, copy=True) # 用于保存梯度的张量d[x < 0] = 0 # 元素为负的导数为 0d[x >= 0] = 1 # 元素为正的导数为 1return dx = np.linspace(-2,2,1000)
y = [relu(i) for i in x]
y1 = [relu_derivative(i) for i in x]plt.figure(figsize=(12,8))
ax = plt.gca()
plt.plot(x,y,label='ReLU')
plt.plot(x,y1,label='Derivative')
plt.title('ReLU and Partial Derivative')#设置上边和右边无边框
ax.spines['right'].set_color('none')
ax.spines['top'].set_color('none')
#设置x坐标刻度数字或名称的位置
ax.xaxis.set_ticks_position('bottom')
#设置边框位置
ax.spines['bottom'].set_position(('data', 0))
ax.yaxis.set_ticks_position('left')
ax.spines['left'].set_position(('data',0))plt.legend(loc = 6)

20230119cRpqNE

在 ReLU 函数被广泛应用之前，神经网络中激活函数采用 Sigmoid 居多，但是 Sigmoid 函数容易出现梯度弥散现象，当网络的层数增加后，较前层的参数由于梯度值非常微小，参数长时间得不到有效更新，无法训练较深层的神经网络，导致神经网络的研究一直停留在浅层。随着 ReLU 函数的提出，很好地缓解了梯度弥散的现象，神经网络的层数能够地达到较深层数，如 AlexNet 中采用了 ReLU 激活函数，层数达到了 8 层，后续提出的上百层的卷积神经网络也多是采用 ReLU 激活函数。

优缺点

Relu 函数优点
1. 当输入为正时，ReLU 的导数为 1，能够完整传递梯度，不存在梯度消失问题（梯度饱和问题）。
2. 计算速度快。ReLU 函数中只存在线性关系，且无论是函数还是其导数都不包含复杂的数学运算，因此它的计算速度比 Sigmoid 和 Tanh 更快。
3. 当输入大于 0 时，梯度为 1，能够有效避免链式求导法则中梯度逐层相乘引起的梯度消失和梯度爆炸。
4. 当输入为正时，梯度不为零，从而允许基于梯度的学习（尽管在 x=0，导数是未定义的）。当输入为负时，ReLU 的学习速度可能会变得很慢，甚至使神经元直接失效，因为此时输入小于零且梯度为零。
Relu 函数缺点
1. 当 ReLU 的输入为负时，输出始终为 0，其一阶导数也始终为 0，这会导致神经元不能更新参数，也就是神经元停止学习了，这种现象叫做“Dead Neuron”。为了解决 ReLU 函数的这个缺点，可以在 ReLU 函数的负半区间引入一个泄露（Leaky）值，这种改进称为 Leaky ReLU 函数。
2. 与 Sigmoid 一样，ReLU 的输出不是以 0 为中心的（ReLU 的输出为 0 或正数）。
3. ReLU 在输入小于 0 时梯度为零，这可能导致某些神经元永远被抑制，最终造成特征学习不充分；这是典型的 Dead ReLU 问题，因此需要改进随机初始化，避免将过多的负数特征送入 ReLU。

pytorch 中的 ReLU 函数

代码

import torchf = torch.nn.ReLU()
x = torch.randn(2)relu_x = f(x)print(f"x: \n{x}")
print(f"relu_x:\n{relu_x}")"""输出"""
x: 
tensor([ 0.5781, -0.4898])
relu_x:
tensor([0.5781, 0.0000])

注意看，随机生成的 tensor 中，小于 0 的经过 relu 被抑制成为 0

tensorflow 中的ReLU函数

代码

python: 3.10.9

tensorflow: 2.18.0

import tensorflow as tff = tf.nn.relu
x = tf.random.normal([2])relu_x = f(x)print(f"x: \n{x}")
print(f"relu_x:\n{relu_x}")"""输出"""
x: 
[ 1.5739431 -0.5497837]
relu_x:
[1.5739431 0.       ]

神经网络常见激活函数 3-ReLU函数(修正线性单元)

文章目录 ReLU函数求导函数和导函数图像优缺点pytorch 中的 ReLU 函数tensorflow 中的ReLU函数 ReLU 修正线性单元 （Rectified Linear Unit） 函数求导 ReLU函数 ReLU ⁡ max ⁡ ( 0 , x ) { x x ≥ 0 0 x < 0 \begin{aligned} \operatorname{ReL…...

编程日记 2025/2/10 22:20:39

Android开发获取缓存，删除缓存

Android开发获取缓存，删除缓存 app设置中往往有清理缓存的功能。会显示当前缓存时多少，然后可以点击清理缓存直接上代码： object CacheHelper {/*** 获取缓存大小* param context* return* throws Exception*/JvmStaticfun getTotalCache…...

编程日记 2025/2/10 22:18:36

如何通过PHP接入DeepSeek的API

想知道如何通过PHP接入DeepSeek的API。看起来他对之前的Python步骤比较熟悉，但这次想用PHP实现。首先，我需要回顾一下DeepSeek API的文档，确认它支持哪些方法和参数。假设用户已经配置了环境变量，比如API密钥，接下来…...

编程日记 2025/2/10 22:17:35

一种基于Leaflet.Legend的图例动态更新方法

目录前言一、场景再现 1、需求描述 2、核心方法介绍 3、存在的问题二、问题解决 1、重复解决办法 2、图例不展示解决办法 3、成果展示三、总结前言在当今数字化时代，地理信息系统（GIS）技术已经广泛应用于各个领域，…...

编程日记 2025/2/10 22:11:25

Spring Boot: 使用 @Transactional 和 TransactionSynchronization 在事务提交后发送消息到 MQ

Spring Boot: 使用 Transactional 和 TransactionSynchronization 在事务提交后发送消息到 MQ 在微服务架构中，确保消息的可靠性和一致性非常重要，尤其是在涉及到分布式事务的场景中。本文将演示如何使用 Spring Boot 的事务机制和 TransactionSynchron…...

编程日记 2025/2/10 22:09:21

LQB（2）-python-枚举

前言 python中的枚举一般有两个说法，一个是枚举算法（暴力求解法，算法层面），一个是遍历使用enumerate()函数或者enum模块创建（）。暴力求解法在之前的博文里面讲过了👇，…...

编程日记 2025/2/10 22:07:18

MongoDB开发规范

分级名称定义P0核心系统需7*24不间断运行，一旦发生不可用，会直接影响核心业务的连续性，或影响公司名誉、品牌、集团战略、营销计划等，可能会造成P0-P2级事故发生。P1次核心系统这些系统降级或不可用，会间接影响用户使用…...

编程日记 2025/2/10 22:00:09

为什么DeepSeek服务器繁忙？

致敬DeepSeek 用户层面用户数量激增：DeepSeek 免费且功能强大，对普通用户和开发者都极具吸引力124。尤其是在新功能推出、新模型上线或相关热门活动期间，大量用户会在短时间内涌入9。例如春节期间，DeepSeek 的用户量达到四千万7。…...

编程日记 2025/2/10 21:58:03

律所录音证据归集工具：基于PyQt6与多线程的自动化音频管理解决方案

在律所日常工作中，音频证据的整理与归集是一个高频且复杂的任务。面对大量的案件录音文件，如何实现快速且准确的分类与存档，成为了律所提高效率、降低出错率的关键。本文将通过技术角度解析一款名为律所录音证据归集工具的项目，详…...

编程日记 2025/2/10 21:55:00

【含开题报告+文档+PPT+源码】基于SpringBoot+Vue旅游管理网站

开题报告本论文探讨了一款采用现代Web开发技术构建的台州市旅游综合信息与服务平台的设计与实现。该系统基于SpringBoot框架，以其轻量级、快速开发和强大的企业级应用支持能力为核心后端技术支撑，结合Vue.js前端框架及ElementUI组件库，为用…...

编程日记 2025/2/10 21:53:59

1.创建一个地面 2.去资源商店下载一个火焰素材 3.把procedural fire导入到自己的项目包管理器中 4.给magic fire 0 挂在碰撞组件Rigidbody , Sphere Collider 5.创建脚本test 并挂在magic fire 0 脚本代码 using System.Collections; using System.Collections.Generic; usi…...

编程日记 2025/2/10 21:52:54

DeepSeek-R1 32B Windows+docker本地部署

最近国产大模型DeepSeek兴起，本地部署了一套deepseek同时集成Open WebUI界面,给大家出一期教程。软件：Ollama、docker、Open WebUI 一、用Ollama下载模型首先我们需要安装Ollama，它可以在本地运行和管理大模型。到Ollama官网 https://ol…...

编程日记 2025/2/10 21:51:53

C++11新特性之unique_ptr智能指针

本节继续介绍智能指针，不了解的读者可以先阅读——C11新特性之shared_ptr智能指针-CSDN博客 1.介绍 unique_ptr是C11标准提供的另一种智能指针。与shared_ptr不同的是，unique_ptr指针指向的堆内存无法同其他unique_ptr共享，也就是每一片堆内…...

编程日记 2025/2/10 21:46:45

Vue与Konva：解锁Canvas绘图的无限可能

前言在现代Web开发中，动态、交互式的图形界面已成为提升用户体验的关键要素。Vue.js，作为一款轻量级且高效的前端框架，凭借其响应式数据绑定和组件化开发模式，赢得了众多开发者的青睐。而当Vue.js邂逅Konva.js，两者结…...

编程日记 2025/2/10 21:45:37

python绘图之柱状堆积图的绘制

本节来学习用python来绘制柱状堆积图. 使用的库为matplotlib.pyplot,numpy 代码如下 # 导入必要的库 import matplotlib.pyplot as plt # 用于绘图 import numpy as np # 用于数值计算# 模拟一些数据 x [数值{}.format(i) for i in range(10)] # 创建一个包含10个元素的列…...

编程日记 2025/2/10 21:43:34

剪辑学习整理

文章目录 1. 剪辑介绍 1. 剪辑介绍剪辑可以干什么？剪辑分为哪些种类？ https://www.bilibili.com/video/BV15r421p7aF/?spm_id_from333.337.search-card.all.click&vd_source5534adbd427e3b01c725714cd93961af 学完剪辑之后如何找工作or兼职&#…...

编程日记 2025/2/10 21:42:30

DeepSeek从入门到精通：全面掌握AI大模型的核心能力

文章目录一、DeepSeek是什么？性能对齐OpenAI-o1正式版二、Deepseek可以做什么？能力图谱文本生成自然语言理解与分析编程与代码相关常规绘图三、如何使用DeepSeek？四、DeepSeek从入门到精通推理模型推理大模型非推理大模型快思慢想&#x…...

编程日记 2025/2/10 21:38:20

AI大模型训练实战：分布式与微调指南

AI大模型训练实战：分布式与微调指南适用人群：有一定深度学习基础，正在或即将参与大模型（如 GPT、DeepSeek 等）训练与部署的工程师、研究者；想要理解分布式策略与微调方法的读者。一、大模型为何需要分布式与微调？随着 GPT、DeepSeek 等大模型参数规模攀升至数十亿甚…...

编程日记 2025/2/10 21:37:18

整合 Redis 分布式锁：从数据结构到缓存问题解决方案

引言在现代分布式系统中，Redis 作为高性能的键值存储系统，广泛应用于缓存、消息队列、实时计数器等多种场景。然而，在高并发和分布式环境下，如何有效地管理和控制资源访问成为一个关键问题。Redis 分布式锁正是为了解决这一问题…...

编程日记 2025/2/10 21:36:16

并查集题目

并查集题目聚合一块（蓝桥）合根植物（蓝桥）等式方程的可满足性省份数量并查集（Union-Find）算法是一个专门针对「动态连通性」的算法。双方向的连通。模板： class UF {// 连通分量个数private …...

编程日记 2025/2/10 21:31:11

19c补丁后oracle属主变化，导致不能识别磁盘组

补丁后服务器重启，数据库再次无法启动 ORA01017: invalid username/password; logon denied Oracle 19c 在打上 19.23 或以上补丁版本后，存在与用户组权限相关的问题。具体表现为，Oracle 实例的运行用户（oracle）和集…...

编程新知 2026/2/8 4:37:10

【HTML-16】深入理解HTML中的块元素与行内元素

HTML元素根据其显示特性可以分为两大类：块元素(Block-level Elements)和行内元素(Inline Elements)。理解这两者的区别对于构建良好的网页布局至关重要。本文将全面解析这两种元素的特性、区别以及实际应用场景。 1. 块元素(Block-level Elements) 1.1 基本特性 …...

编程新知 2025/11/11 6:28:42

React---day11

14.4 react-redux第三方库提供connect、thunk之类的函数以获取一个banner数据为例子 store： 我们在使用异步的时候理应是要使用中间件的，但是configureStore 已经自动集成了 redux-thunk，注意action里面要返回函数 import { configureS…...

编程新知 2026/1/19 2:13:24

嵌入式学习笔记DAY33（网络编程——TCP）

一、网络架构 C/S （client/server 客户端/服务器）：由客户端和服务器端两个部分组成。客户端通常是用户使用的应用程序，负责提供用户界面和交互逻辑 ，接收用户输入，向服务器发送请求，并展示服务…...

编程新知 2026/2/7 11:00:30

莫兰迪高级灰总结计划简约商务通用PPT模版

莫兰迪高级灰总结计划简约商务通用PPT模版，莫兰迪调色板清新简约工作汇报PPT模版，莫兰迪时尚风极简设计PPT模版，大学生毕业论文答辩PPT模版，莫兰迪配色总结计划简约商务通用PPT模版，莫兰迪商务汇报PPT模版，…...

编程新知 2026/1/29 10:37:37

Caliper 负载(Workload)详细解析

Caliper 负载(Workload)详细解析负载(Workload)是 Caliper 性能测试的核心部分，它定义了测试期间要执行的具体合约调用行为和交易模式。下面我将全面深入地讲解负载的各个方面。一、负载模块基本结构一个典型的负载模块(如 workload.js)包含以下基本结构： use strict;/…...

编程新知 2025/10/31 21:11:39

云原生周刊：k0s 成为 CNCF 沙箱项目

开源项目推荐 HAMi HAMi（原名 k8s‑vGPU‑scheduler）是一款 CNCF Sandbox 级别的开源 K8s 中间件，通过虚拟化 GPU/NPU 等异构设备并支持内存、计算核心时间片隔离及共享调度，为容器提供统一接口，实现细粒度资源配额…...

编程新知 2025/12/1 3:15:17

【实施指南】Android客户端HTTPS双向认证实施指南

🔐 一、所需准备材料证书文件（6类核心文件） 类型格式作用 Android端要求 CA根证书 .crt/.pem 验证服务器/客户端证书合法性需预置到Android信任库服务器证书 .crt 服务器身份证明客户端需持有以验证服务器客户端证书 .crt 客户端身份…...

编程新知 2025/9/15 14:56:23

2025年低延迟业务DDoS防护全攻略：高可用架构与实战方案

一、延迟敏感行业面临的DDoS攻击新挑战 2025年，金融交易、实时竞技游戏、工业物联网等低延迟业务成为DDoS攻击的首要目标。攻击呈现三大特征： AI驱动的自适应攻击：攻击流量模拟真实用户行为，差异率低至0.5%，传统规则引…...

编程新知 2025/8/29 1:00:19

大数据驱动企业决策智能化的路径与实践

📝个人主页🌹：慌ZHANG-CSDN博客 🌹🌹期待您的关注 🌹🌹 一、引言：数据驱动的企业竞争力重构在这个瞬息万变的商业时代，“快者胜”的竞争逻辑愈发明显。企业如何在复杂环…...

编程新知 2025/10/5 0:43:53

神经网络常见激活函数 3-ReLU函数(修正线性单元)

文章目录

ReLU

函数+求导

函数和导函数图像

优缺点

pytorch 中的 ReLU 函数

tensorflow 中的ReLU函数

相关文章：

神经网络常见激活函数 3-ReLU函数(修正线性单元)

Android开发获取缓存，删除缓存

如何通过PHP接入DeepSeek的API

一种基于Leaflet.Legend的图例动态更新方法

Spring Boot: 使用 @Transactional 和 TransactionSynchronization 在事务提交后发送消息到 MQ

LQB（2）-python-枚举

MongoDB开发规范

为什么DeepSeek服务器繁忙？

律所录音证据归集工具：基于PyQt6与多线程的自动化音频管理解决方案

【含开题报告+文档+PPT+源码】基于SpringBoot+Vue旅游管理网站

unity碰撞的监测和监听

DeepSeek-R1 32B Windows+docker本地部署

C++11新特性之unique_ptr智能指针

Vue与Konva：解锁Canvas绘图的无限可能

python绘图之柱状堆积图的绘制

剪辑学习整理

DeepSeek从入门到精通：全面掌握AI大模型的核心能力

AI大模型训练实战：分布式与微调指南

整合 Redis 分布式锁：从数据结构到缓存问题解决方案

并查集题目

19c补丁后oracle属主变化，导致不能识别磁盘组

【HTML-16】深入理解HTML中的块元素与行内元素

React---day11

嵌入式学习笔记DAY33（网络编程——TCP）

莫兰迪高级灰总结计划简约商务通用PPT模版

Caliper 负载(Workload)详细解析

云原生周刊：k0s 成为 CNCF 沙箱项目

【实施指南】Android客户端HTTPS双向认证实施指南

2025年低延迟业务DDoS防护全攻略：高可用架构与实战方案

大数据驱动企业决策智能化的路径与实践