当前位置：首页 > article >正文

从阶跃到ReLU：用Python和Matplotlib手把手画一遍，彻底搞懂激活函数怎么选

article 2026/5/10 18:28:42

从阶跃到ReLU用Python和Matplotlib手把手画一遍彻底搞懂激活函数怎么选神经网络中的激活函数就像交通信号灯决定信息是否能够继续向前传递。对于初学者来说面对各种数学公式往往感到抽象难懂。本文将通过Python代码和可视化图表带你亲手绘制四种经典激活函数在动手实践中理解它们的特性和应用场景。1. 环境准备与基础函数实现在开始绘制之前我们需要准备好Python环境。推荐使用Jupyter Notebook进行交互式编程这样可以实时看到每一步的代码执行结果。首先安装必要的库pip install numpy matplotlib接下来导入我们将要用到的库import numpy as np import matplotlib.pyplot as plt %matplotlib inline # 在Jupyter中显示图表1.1 阶跃函数实现阶跃函数是最简单的激活函数之一它像开关一样输入超过阈值就打开否则保持关闭。用Python实现如下def step_function(x): return np.array(x 0, dtypenp.float32)这个实现利用了NumPy的广播特性可以同时处理标量和数组输入。让我们测试一下print(step_function(-1)) # 输出0.0 print(step_function(0.5)) # 输出1.0 print(step_function(np.array([-2, -1, 0, 1, 2]))) # 输出[0. 0. 0. 1. 1.]1.2 Sigmoid函数实现Sigmoid函数将输入压缩到0到1之间实现软开关效果def sigmoid(x): return 1 / (1 np.exp(-x))测试Sigmoid函数print(sigmoid(0)) # 输出0.5 print(sigmoid(100)) # 接近1.0 print(sigmoid(-100)) # 接近0.02. 函数可视化与特性分析现在我们已经实现了两个基本激活函数接下来通过可视化来直观比较它们的特性。2.1 绘制阶跃函数x np.arange(-5, 5, 0.1) y_step step_function(x) plt.figure(figsize(8, 6)) plt.plot(x, y_step, labelStep Function) plt.title(Step Function Visualization) plt.xlabel(Input) plt.ylabel(Output) plt.grid(True) plt.legend() plt.show()阶跃函数的图形呈现明显的阶梯状跳跃在x0处发生突变。这种特性使得它在感知机中表现良好但在神经网络训练中可能导致梯度消失问题。2.2 绘制Sigmoid函数y_sigmoid sigmoid(x) plt.figure(figsize(8, 6)) plt.plot(x, y_sigmoid, labelSigmoid, colororange) plt.title(Sigmoid Function Visualization) plt.xlabel(Input) plt.ylabel(Output) plt.grid(True) plt.legend() plt.show()Sigmoid函数呈现平滑的S形曲线输出在0到1之间连续变化。这种平滑性使其在反向传播中能够提供有效的梯度信号。2.3 对比阶跃与Sigmoid将两个函数放在同一图表中对比plt.figure(figsize(10, 6)) plt.plot(x, y_step, labelStep Function) plt.plot(x, y_sigmoid, labelSigmoid, linestyle--) plt.title(Comparison: Step vs Sigmoid) plt.xlabel(Input) plt.ylabel(Output) plt.grid(True) plt.legend() plt.show()通过对比可以明显看出响应曲线阶跃函数是突变的Sigmoid是渐变的输出范围两者都在[0,1]区间但Sigmoid能输出中间值梯度特性Sigmoid在任何点都有非零梯度而阶跃函数在x0处梯度无限大其他位置梯度为零3. 现代激活函数实现与比较随着深度学习的发展研究者发现了更适合深度网络的激活函数。下面我们实现并分析两个现代激活函数。3.1 ReLU函数实现ReLU(Rectified Linear Unit)是当前最流行的激活函数之一def relu(x): return np.maximum(0, x)测试ReLU函数print(relu(-1)) # 输出0.0 print(relu(0.5)) # 输出0.5 print(relu(10)) # 输出10.03.2 Tanh函数实现Tanh函数是Sigmoid的变体输出范围在-1到1之间def tanh(x): return np.tanh(x)测试Tanh函数print(tanh(0)) # 输出0.0 print(tanh(1)) # 约0.7615 print(tanh(-1)) # 约-0.76153.3 四种函数综合对比现在我们将四种函数绘制在同一图表中y_relu relu(x) y_tanh tanh(x) plt.figure(figsize(12, 7)) plt.plot(x, y_step, labelStep) plt.plot(x, y_sigmoid, labelSigmoid, linestyle--) plt.plot(x, y_relu, labelReLU, colorgreen) plt.plot(x, y_tanh, labelTanh, colorred) plt.title(Activation Functions Comparison) plt.xlabel(Input) plt.ylabel(Output) plt.grid(True) plt.legend() plt.ylim(-1.5, 2.5) plt.show()从对比图中我们可以总结出特性阶跃SigmoidReLUTanh输出范围[0,1](0,1)[0,∞)(-1,1)非线性是是是是梯度特性差中等好好计算复杂度低中极低中死亡神经元风险无有有有提示在实际项目中ReLU通常是默认选择但在输出层需要特定范围时可能需要使用Sigmoid或Tanh。4. 激活函数选择实践指南理解了各种激活函数的特性后我们来看如何在实际项目中做出选择。4.1 不同场景下的选择建议二分类问题输出层Sigmoid输出在0-1之间可解释为概率多分类问题输出层SoftmaxSigmoid的多分类扩展隐藏层大多数情况ReLU及其变体LeakyReLU, PReLU等RNN/LSTMTanh或Sigmoid回归问题输出层线性激活无激活函数或特定范围激活4.2 梯度特性实验让我们通过代码观察不同激活函数的梯度表现def plot_gradients(): x np.arange(-3, 3, 0.1) # 计算函数值 y_sig sigmoid(x) y_relu relu(x) y_tanh tanh(x) # 计算梯度(近似导数) grad_sig np.gradient(y_sig, 0.1) grad_relu np.gradient(y_relu, 0.1) grad_tanh np.gradient(y_tanh, 0.1) # 绘制梯度 plt.figure(figsize(12, 8)) plt.subplot(2, 1, 1) plt.plot(x, y_sig, labelSigmoid) plt.plot(x, y_relu, labelReLU) plt.plot(x, y_tanh, labelTanh) plt.title(Activation Functions) plt.legend() plt.subplot(2, 1, 2) plt.plot(x, grad_sig, labelSigmoid Gradient) plt.plot(x, grad_relu, labelReLU Gradient) plt.plot(x, grad_tanh, labelTanh Gradient) plt.title(Gradients of Activation Functions) plt.legend() plt.tight_layout() plt.show() plot_gradients()从梯度图中可以看到Sigmoid梯度在输入绝对值较大时接近0导致梯度消失ReLU正区间梯度恒为1负区间为0Tanh类似Sigmoid但梯度范围更大4.3 实际应用中的变体为了解决标准激活函数的问题研究者提出了多种改进版本# LeakyReLU实现 def leaky_relu(x, alpha0.01): return np.where(x 0, x, alpha * x) # ELU实现 def elu(x, alpha1.0): return np.where(x 0, x, alpha * (np.exp(x) - 1)) # 绘制比较 x np.arange(-3, 3, 0.1) plt.figure(figsize(10, 6)) plt.plot(x, relu(x), labelReLU) plt.plot(x, leaky_relu(x), labelLeakyReLU, linestyle--) plt.plot(x, elu(x), labelELU, linestyle:) plt.title(ReLU Variants Comparison) plt.legend() plt.grid(True) plt.show()这些变体解决了标准ReLU的死亡神经元问题在特定场景下表现更好。

从阶跃到ReLU：用Python和Matplotlib手把手画一遍，彻底搞懂激活函数怎么选

相关文章：

从阶跃到ReLU：用Python和Matplotlib手把手画一遍，彻底搞懂激活函数怎么选

ChatGpt-Pro项目解析：构建可私有化部署的多模型AI生产力平台

别再只用filter了！MATLAB的filtfilt函数如何帮你消除心电信号里的相位延迟？

别再只调WebRTC的NS了：试试用RNNoise的‘DSP+深度学习’思路改造你的音频流水线

5分钟掌握Translumo：Windows平台终极屏幕实时翻译神器

不是解的解【牛客tracker 每日一题】

MediaCreationTool.bat：Windows系统部署的终极自动化解决方案

3分钟上手OK-WW：终极鸣潮游戏自动化工具完全指南

在Node.js后端服务中集成Taotoken实现多模型智能问答接口

SITS 2026架构图首次公开：从Token级流控到Agent级协同，6大核心模块接口规范全披露

Windows与Office一键激活终极指南：KMS_VL_ALL_AIO智能脚本完整教程

CSDN技术委员会内部纪要流出（SITS 2026评审标准首次公开）：算法创新性权重下调15%，工程可复现性跃居第一指标

从论文到工具：如何快速复现一篇OCT图像分割的顶会算法？

WorkshopDL实用指南：如何高效下载Steam创意工坊模组？

从HDLbits做题到项目实战：一个简单状态机的四种写法，哪种综合出来的时序报告最好？

ViGEmBus：Windows内核级虚拟手柄驱动的终极解决方案

Blender Datasmith导出插件实战：打通Blender与虚幻引擎的终极桥梁

如何5分钟完成高质量AI语音转文字：免费音频转录神器终极指南

如何在Vue项目中快速实现Office文档预览：vue-office完整指南

渐进式形态学滤波实战：PCL库参数调优与城市/山区场景应用解析

AI原生知识图谱构建终极路径图（含2026奇点大会内部评估矩阵V3.2与准入清单）

别再手动改图号了！Word 2016 交叉引用功能，让你的论文排版效率翻倍

2026奇点大会嘉宾阵容深度解码（含17位中国本土AI领军人物+29位海外实验室负责人）：这可能是你今年唯一能系统追踪全球AI顶层智识流向的机会

模型版本爆炸、依赖漂移、推理熵增——SITS 2026提出的“动态契约管理”如何让AI系统稳定性提升4.8倍？

5步掌握抖音下载神器：高效解决视频批量下载难题

2025届毕业生推荐的降AI率助手推荐

视频硬字幕提取终极实战：如何用深度学习实现本地化高效提取？

2026最权威的五大降AI率神器实测分析

终极ARP扫描实战指南：高效网络设备发现与安全审计

GitHub加速插件：让国内开发者告别龟速下载的终极解决方案