当前位置：首页 > news >正文

激活函数的本质

news 2026/2/9 23:00:40

激活函数（Activation Function）

是神经网络中的一种函数，它接受一个输入（通常是神经元的加权和）并产生一个输出作为神经元的最终输出。激活函数的作用是引入非线性性，使神经网络能够学习复杂的模式和关系。

在神经网络中，激活函数通常被用于每个神经元的输出，以便引入非线性变换。如果没有激活函数，整个神经网络将由线性变换组成，多个线性变换的组合仍然是线性的。通过引入非线性激活函数，神经网络可以学习和表示更复杂的函数关系，使其能够适应更广泛的问题。

常见的激活函数包括：

Sigmoid 函数（Logistic 函数）： 将输入映射到范围 (0, 1) 之间，常用于输出层的二分类问题。

[ \text{sigmoid}(x) = \frac{1}{1 + e^{-x}} ]
Tanh 函数： 类似于 Sigmoid 函数，但将输入映射到范围 (-1, 1) 之间，有时在隐藏层中使用。

[ \text{tanh}(x) = \frac{e^{x} - e^{-x}}{e{x} + e^{-x}} ]
ReLU 函数（Rectified Linear Unit）： 将负数映射为零，对正数保持不变。是目前最常用的激活函数之一。

[ \text{ReLU}(x) = \max(0, x) ]
Leaky ReLU 函数： 与 ReLU 类似，但对负数的输出有一个小的斜率，避免了 ReLU 的一些问题。

[ \text{Leaky ReLU}(x) = \max(\alpha x, x) ]，其中 (\alpha) 是一个小的正数。
Softmax 函数： 用于多分类问题的输出层，将输入转化为概率分布。

[ \text{Softmax}(x_i) = \frac{e^{{x_i}}{\sum_{j=1}}{K}e^{x_j}} ]，其中 (K) 是类别的数量。

不同的激活函数适用于不同类型的问题和网络结构，选择合适的激活函数对神经网络的性能和训练过程都有影响。

非线性变换

非线性变换是指输入与输出之间的关系不是线性的。在数学上，如果一个变换是线性的，它应该满足两个性质：可加性和齐次性。可加性意味着变换对两个输入的和等于两个输入分别经过变换后的和，而齐次性意味着变换对输入的缩放等于输入经过变换后的缩放。如果一个变换不满足这两个性质，那么它就是非线性的。

在神经网络中，非线性变换是通过激活函数引入的。神经元的输出经过激活函数后才成为网络的最终输出。如果没有激活函数，多层神经网络的组合将简化为单一的线性变换，因为线性函数的组合仍然是线性的。引入非线性激活函数后，神经网络能够学习和表示更加复杂的关系和模式，因为非线性函数能够捕捉数据中的非线性结构。

举例来说，假设有一个简单的神经网络层，每个神经元的输出 (y) 是输入 (x) 的线性组合和激活函数 (f) 的结果：

[ y = f(Wx + b) ]

其中，(W) 是权重矩阵，(b) 是偏置，(f) 是激活函数。如果 (f) 是一个线性函数，那么整个变换仍然是线性的。但如果 (f) 是一个非线性函数，比如 ReLU，tanh 或 sigmoid，那么整个变换就是非线性的。

引入非线性变换是为了增强神经网络的表达能力，使其能够学习和适应更为复杂的模式和关系，从而提高网络在处理各种任务上的性能。

让我们通过简单的例子来说明线性和非线性的概念。

线性关系：

假设有一个简单的线性关系，例如 (y = 2x + 3)。这是一个线性函数，因为 (y) 和 (x) 之间的关系是直线，且满足线性方程。

(x)	(y)
1	5
2	7
3	9

在这个例子中，当 (x) 增加1时，(y) 增加2，符合线性关系。

非线性关系：

现在考虑一个非线性关系，例如 (y = x^2)。这是一个非线性函数，因为 (y) 和 (x) 之间的关系是二次曲线，不满足线性方程
| (x) | (y) |
| ----- | ----- |
| 1 | 1 |
| 2 | 4 |
| 3 | 9 |

在这个例子中，当 (x) 增加1时，(y) 不仅增加1，而是增加了原来的 (x) 的平方。

总的来说，线性关系是指两个变量之间的关系是一条直线，而非线性关系则是指关系不是直线的。在神经网络中，引入非线性变换是为了使网络能够学习和表示更为复杂的模式和关系，因为许多现实世界的问题和数据都包含非线性结构。希望这个例子能帮助你更好地理解线性和非线性的概念。

非线性的好处

就是让线/面更容易拟合点

引入非线性变换的好处在于增强神经网络的表达能力，使其能够学习和适应更为复杂的模式和关系。以下是一些非线性变换的好处：

学习非线性关系： 现实世界中的许多问题和数据包含复杂的非线性结构。通过使用非线性激活函数，神经网络能够更灵活地拟合和学习这些非线性关系，从而提高模型的性能。
表示层次特征： 非线性激活函数允许神经网络在不同层次上学习抽象和高级的特征。多层非线性变换可以逐渐构建复杂的特征表示，从而更好地捕捉数据的结构和模式。
解决分类问题： 对于分类问题，非线性变换可以使神经网络学习非线性决策边界，从而更好地区分不同类别。这对于处理复杂的分类任务非常重要。
防止信息损失： 在深度神经网络中，经过多次线性变换后，输出仍然是输入的线性组合。这样可能导致信息的丢失，因为多次线性变换等效于一次线性变换。通过引入非线性激活函数，可以防止信息在网络中的线性传递，从而保留更多的信息。
梯度下降的非线性优化： 非线性激活函数引入了非线性性质，这对优化算法（如梯度下降）的收敛至关重要。线性函数的组合仍然是线性的，容易导致梯度消失或爆炸的问题，而非线性激活函数有助于缓解这些问题。

总的来说，非线性变换使神经网络更具灵活性，能够处理更为复杂的任务和数据。这是深度学习成功的一个关键因素，因为它使神经网络能够适应各种不同的模式和结构，提高了模型的泛化能力。

激活函数的本质

激活函数（Activation Function）

是神经网络中的一种函数，它接受一个输入（通常是神经元的加权和）并产生一个输出作为神经元的最终输出。激活函数的作用是引入非线性性，使神经网络能够学习复杂的模式和关系。

非线性变换

非线性的好处

相关文章：

激活函数的本质

[工业自动化-18]：西门子S7-15xxx编程 - 软件编程 - PLC用于工业领域的嵌入式系统：硬件原理图、指令系统、系统软件架构、开发架构等

【C++】——运算符重载

怎么理解独立机器和虚拟机

以太网和局域网

【Git】第三篇：基本操作（配置本地仓库）

JS中sort排序

【现场问题】datax中write部分为Oracle的时候插入clolb类型字段，插入的数据为string且长度过场问题

ASK、PSK、FSK的调制与解调

基于XML的声明式事务

力扣labuladong一刷day9滑动窗口共4题

ubuntu开机系统出错且无法恢复。请联系系统管理员。

Transformer详解一：transformer的由来和先导知识

数字化产品经理的金字塔能力模型

这 11 个 for 循环优化你得会

JVM字符串常量池StringTable

【华为OD题库-010】寻找矿堆的最大价值-Java

在PyTorch中使用CUDA, pytorch与cuda不同版本对应安装指南，查看CUDA版本，安装对应版本pytorch

copilot 产生 python工具函数并生成单元测试

缓存与数据库双写一致性几种策略分析

进程地址空间（比特课总结）

Neo4j 集群管理：原理、技术与最佳实践深度解析

Module Federation 和 Native Federation 的比较

Matlab | matlab常用命令总结

Swagger和OpenApi的前世今生

C# 求圆面积的程序（Program to find area of a circle）

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

NXP S32K146 T-Box 携手 SD NAND（贴片式TF卡）：驱动汽车智能革新的黄金组合

人工智能（大型语言模型 LLMs）对不同学科的影响以及由此产生的新学习方式

MySQL 知识小结（一）