当前位置：首页 > article >正文

一文详解Softmax与Sigmoid函数

article 2026/4/7 17:24:53

Softmax与Sigmoid函数详解引言在机器学习和深度学习中Softmax和Sigmoid是两个最常用的激活函数尤其常见于分类任务的输出层设计。尽管它们都能将实数映射到概率空间但其数学特性、应用场景和底层逻辑存在显著差异。本文将从数学推导、梯度行为、应用场景和代码实现四个维度对二者进行全面对比分析。一、Sigmoid函数1.1 数学定义Sigmoid函数定义为σ(z)11e−z \sigma(z) \frac{1}{1 e^{-z}}σ(z)1e−z1它将任意实数zzz映射到(0,1)(0,1)(0,1)区间输出可解释为概率值。1.2 导数特性Sigmoid的导数具有以下关键性质dσdzσ(z)(1−σ(z)) \frac{d\sigma}{dz} \sigma(z)(1 - \sigma(z))dzdσσ(z)(1−σ(z))导数在z0z0z0时达到最大值0.25随着∣z∣|z|∣z∣增大快速趋近于0导致梯度消失问题。1.3 应用场景二分类问题输出层单个节点表示正类概率门控机制如LSTM中的遗忘门、输入门概率校准将回归输出转化为概率二、Softmax函数2.1 数学定义对于KKK类分类问题Softmax函数定义为Softmax(zi)ezi∑j1Kezj(i1,...,K) \text{Softmax}(z_i) \frac{e^{z_i}}{\sum_{j1}^K e^{z_j}} \quad (i1,...,K)Softmax(zi)∑j1Kezjezi(i1,...,K)它确保所有输出值的和为1构成完整的概率分布。2.2 导数与雅可比矩阵Softmax的梯度计算涉及雅可比矩阵∂Si∂zj{Si(1−Sj)ij−SiSji≠j \frac{\partial S_i}{\partial z_j} \begin{cases} S_i(1 - S_j) i j \\ -S_i S_j i \neq j \end{cases}∂zj∂Si{Si(1−Sj)−SiSjijij该特性使得梯度计算与所有节点的输出相关。2.3 应用场景多分类任务输出层生成互斥类别概率注意力机制如Transformer中的注意力权重计算概率归一化多任务学习的输出标准化三、关键差异对比特性SigmoidSoftmax输出空间独立概率 (0,1)归一化概率分布 (∑1)互斥性支持多标签分类单标签分类梯度依赖仅与当前节点相关与所有节点相关计算复杂度O(1)O(K)典型应用二分类/多标签多分类四、数值稳定性实践4.1 Softmax的溢出问题原始实现可能因ezie^{z_i}ezi过大导致数值溢出。改进方案Softmax(zi)ezi−max(z)∑ezj−max(z) \text{Softmax}(z_i) \frac{e^{z_i - \text{max}(z)}}{\sum e^{z_j - \text{max}(z)}}Softmax(zi)∑ezj−max(z)ezi−max(z)4.2 Sigmoid的边界情况极端输入时可能出现梯度消失defsigmoid(z):returnnp.where(z0,1/(1np.exp(-z)),np.exp(z)/(1np.exp(z)))五、PyTorch实现对比5.1 Sigmoid层importtorch.nnasnn modelnn.Sequential(nn.Linear(128,1),nn.Sigmoid()# 二分类输出)loss_fnnn.BCELoss()5.2 Softmax层modelnn.Sequential(nn.Linear(128,10),nn.Softmax(dim1)# 10类分类)# PyTorch CrossEntropyLoss已包含Softmaxloss_fnnn.CrossEntropyLoss()六、常见问题解答Q1: 二分类能否用Softmax可以但等效于同时使用两个Sigmoid节点。此时Softmax输出[p,1−p][p, 1-p][p,1−p]与单Sigmoid输出ppp数学等价但计算效率更低。Q2: 多标签分类如何处理应使用多个Sigmoid节点每个类别独立判断而非Softmax。例如图像中同时包含猫和狗的场景。Q3: 为什么推荐CrossEntropyLoss而非手动实现框架级实现融合了LogSoftmax与NLL Loss兼具数值稳定性和计算效率。七、总结与选择建议明确问题类型单标签 → Sigmoid 多标签 → Softmax关注计算效率类别数超过1000时Softmax计算成本显著增加梯度动态Sigmoid需注意梯度消失适当使用Xavier初始化概率解释需要严格概率分布时优先Softmax总的来说Softmax 和 Sigmoid 函数都是神经网络中使用的激活函数。它们之间的主要区别在于 Softmax 函数适用于多类分类问题而 Sigmoid 函数更适合二分类问题。Softmax 函数用于预测模型中的多类目标变量当其输出值总和为 1 时可以将其解释为这些类的概率。它将输入压缩在 0 和 1 之间因此它的行为类似于范围从 0 到 1 而不是 -1 到 1 的广义逻辑激活函数因此它比 sigmoid 更适合多类分类sigmoid 每个输入向量只返回一个数字每个示例只提供一个类预测。另一方面Sigmoid 函数最适合二元分类问题因为它的输出范围从 0 到 1代表这两个结果0 或 1。这种类型的模型也称为逻辑回归可以通过使用权重 w 进行线性组合过程根据输入 x 值估计任意概率。这个概率将决定应该应用哪个类标签如果 p(x) 阈值则我们应用 A 类否则应用 B 类。当比较 softmax 或 sigmoid 函数带来的性能提升时并没有一个严格的结果而是取决于几个因素例如数据集的大小/复杂性/特征等。但是如果正确实施一般来说这两个模型应该提供相似的性能这也取决于计算成本等因素Softmax 在标准化之前可能由于值较高而存在一些数值稳定性问题。

一文详解Softmax与Sigmoid函数

相关文章：

一文详解Softmax与Sigmoid函数

PowerBI主题模板：让数据可视化设计效率提升80%的开源解决方案

效率飙升：跳过激活步骤，在快马平台实现你的下一个效率工具灵感

用快马快速构建排序算法可视化原型，直观比较性能差异

实战应用：基于快马平台构建支持高并发的医院预约系统后端服务

AI ABG制作与运营指南

5步解锁Masa Mods全中文体验：从安装到精通的本地化指南

C语言：数组详解

虚拟资产金融犯罪治理中公私协同防控体系研究 —— 以韩国 Upbit 与警方合作为例

打造一个产品评论分析AI工具

Tsuru日志聚合性能优化：10个提升吞吐量与降低延迟的终极技巧

Tessent测试流程文件里的Tcl魔法：用if/else让你的扫描测试配置更灵活

别再折腾虚拟机了！Win10下用Geth 1.13+搭建以太坊私有链完整指南（含常见报错解决）

如何确保MVP.css样式一致性：完整的自动化测试策略指南

MVP.css跨浏览器兼容性终极指南：7个实用技巧解决常见问题

通义千问2.5-7B省钱部署案例：GGUF量化仅4GB，3060流畅运行

PETRV2-BEV训练效果对比展示：nuscenes高精度vs xtreme1泛化挑战

终极图像分类指南：从海豚到多类别的机器学习实战

MVP.css暗黑模式终极指南：如何完美适配用户偏好与系统设置

如何高效使用XUnity.AutoTranslator：Unity游戏实时翻译的完整实战指南

ESPHome配置避坑指南：从编译到OTA，让你的ESP32-CAM一次点亮不折腾

Tsuru容器网络终极性能测试指南：7大CNI插件深度对比与优化策略

如何实现重组抗体的精准定制？

5分钟搞定HeyGem数字人视频生成：科哥二次开发版，批量处理指南

Taskwarrior完整国际化指南：如何实现多语言任务管理

终极指南：如何实现gumbo-parser跨编译器开发，统一代码风格与宏定义

告别重复造轮子：用快马一键生成可扩展的高效ibbot开发框架

Tsuru高可用部署终极指南：构建零单点故障的企业级PaaS平台

rabbitmq新手福音，快马ai生成带详解注释的入门代码，轻松理解消息队列

GPCC数据不止看趋势：手把手教你用MATLAB做降水信号的谐波分析（附周年振幅相位代码）