【激活函数】Activation Function——在卷积神经网络中的激活函数是一个什么样的角色??
【激活函数】Activation Function——在卷积神经网络中的激活函数是一个什么样的角色??
Activation Function——在卷积神经网络中的激活函数是一个什么样的角色??
文章目录
- 【激活函数】Activation Function——在卷积神经网络中的激活函数是一个什么样的角色??
- 激活函数
- CNN中为什么必须要用激活函数呢?
- 激活函数的主要作用:
- 常用的激活函数及其应用
- 1.Sigmoid 函数
- 2.Tanh 函数
- 3.ReLU (Rectified Linear Unit) 函数
- 4.Leaky ReLU 函数
- 5.ELU (Exponential Linear Unit) 函数
- 6.Swish 函数
- 7.Softmax 函数
- 激活函数的选择依据
- 总结
激活函数
- 激活函数(Activation Function)是深度学习中将输入信号的加权和转化为输出信号的非线性变换。激活函数的引入解决了线性模型中无法处理复杂模式的问题,确保神经网络具有表达复杂函数、捕捉非线性关系的能力。
CNN中为什么必须要用激活函数呢?
- 如果不使用激活函数,神经网络层与层之间的输出将是线性的组合,等效于单一的线性模型。无论网络多么深,最终的输出都是输入的线性变换,无法解决复杂的模式识别问题。因此,激活函数引入了非线性,使神经网络能够拟合复杂的高维数据。
激活函数的主要作用:
-
引入非线性:神经网络通过激活函数引入非线性,能够拟合复杂的非线性函数,解决复杂问题。
-
保证梯度传播:通过适当的激活函数可以使得梯度能够良好地反向传播,从而有效地进行参数更新。
-
特征压缩与选择:激活函数通常可以对输入信号进行压缩,抑制不重要的信号并突出关键的特征。
常用的激活函数及其应用
1.Sigmoid 函数
公式:
f ( x ) = 2 1 + e − x f(x)=\frac{2}{1+e^{-x}} f(x)=1+e−x2
作用:
- 将输入值映射到 0 到 1 之间的概率区间。
- 常用于二分类问题的输出层。
优缺点:
- 优点:常用于二分类问题的输出层。
- 缺点:当输入值绝对值过大时,梯度趋于 0,导致梯度消失问题,无法有效训练深层网络。
代码示例:
import tensorflow as tf# Sigmoid 激活函数
x = tf.random.normal([1, 5])
output = tf.nn.sigmoid(x)
print(output)
适用场景:
- 二分类任务(例如:Logistic 回归的输出层)。
- 小型网络,不适用于深度网络。
2.Tanh 函数
公式:
f ( x ) = 2 1 + e − 2 x − 1 f(x)=\frac{2}{1+e^{-2x}}-1 f(x)=1+e−2x2−1
作用:
- 将输入值映射到 -1 到 1 的区间。
- Tanh 函数对 0 的输入是对称的,即它是零中心化的。
优缺点:
- 优点:零中心化,更适合处理有负数输入的特征。
- 缺点:同样存在梯度消失问题,当输入值很大或很小时,梯度趋近于 0。
代码示例:
import tensorflow as tf# Tanh 激活函数
x = tf.random.normal([1, 5])
output = tf.nn.tanh(x)
print(output)
适用场景:
- 自然语言处理等需要处理负值的场景。
- 常用于 RNN 和 LSTM 中。
3.ReLU (Rectified Linear Unit) 函数
公式:
f ( x ) = m a x ( 0 , x ) f(x)=max(0,x) f(x)=max(0,x)
作用:
- 当输入大于 0 时,ReLU 输出输入值本身;当输入小于或等于 0 时,输出 0。
- 引入非线性,并且计算非常简单,收敛速度快。
优缺点:
- 优点:引入非线性,并且计算非常简单,收敛速度快。
- 缺点:当输入小于 0 时,神经元可能会死亡(即无法再激活),这叫做 “ReLU 死亡” 问题。
代码示例:
import tensorflow as tf# ReLU 激活函数
x = tf.random.normal([1, 5])
output = tf.nn.relu(x)
print(output)
适用场景:
- 深度卷积神经网络(CNN)、全连接网络(FCN)等几乎所有深度学习模型中。
4.Leaky ReLU 函数
公式:
f ( x ) = m a x ( 0.01 x , x ) f(x)=max(0.01x,x) f(x)=max(0.01x,x)
作用:
- 类似于 ReLU,但对于负值输入不完全为 0,而是乘以一个较小的斜率(通常为 0.01),以解决 ReLU 死亡问题。
优缺点:
- 优点:在负值区域保留小的梯度,避免了 ReLU 的死亡问题。
- 缺点:相比 ReLU 的简单性,增加了计算量。
代码示例:
import tensorflow as tf# Leaky ReLU 激活函数
x = tf.random.normal([1, 5])
output = tf.nn.leaky_relu(x, alpha=0.01) # alpha 是负值部分的斜率
print(output)
适用场景:
- 深度神经网络中,尤其是在 ReLU 出现大量 “死亡神经元” 的情况下。
5.ELU (Exponential Linear Unit) 函数
公式:
f ( x ) = { x , i f x > 0 , α ( e x − 1 ) , i f x ≤ 0 f(x)=\begin{cases} x, &if&x>0,\\ α(e^x-1), &if&x \le 0 \end{cases} f(x)={x,α(ex−1),ififx>0,x≤0
作用:
- 对于正值,ELU 类似于 ReLU;对于负值,它的输出为指数衰减而非零,这样可以让网络学习负数特征,同时保持梯度流动。
优缺点:
- 优点:相比 Leaky ReLU,有更好的训练表现,减少了偏差。
- 缺点:计算稍复杂,训练速度略慢于 ReLU。
代码示例:
import tensorflow as tf# ELU 激活函数
x = tf.random.normal([1, 5])
output = tf.nn.elu(x)
print(output)
适用场景:
- 深度网络中,用于代替 ReLU,特别是需要保留负数特征的场景。
6.Swish 函数
公式:
f ( x ) = x ⋅ s i g m o i d ( x ) f(x)=x·sigmoid(x) f(x)=x⋅sigmoid(x)
作用:
- Swish 是一种自适应激活函数,结合了 Sigmoid 和 ReLU 的特性,并能平滑地处理负值输入,提供更好的表现。
优缺点:
- 优点:在一些任务上,Swish 的表现优于 ReLU。
- 缺点:计算稍复杂,训练速度较慢。
代码示例:
import tensorflow as tf# Swish 激活函数
x = tf.random.normal([1, 5])
output = x * tf.nn.sigmoid(x)
print(output)
适用场景:
- 深层神经网络中,特别是在需要更好的训练表现时(如 EfficientNet)。
7.Softmax 函数
公式:
f ( x ) = e x i ∑ j e x j f(x)=\frac{e^{x_i}}{∑_je^{x_j}} f(x)=∑jexjexi
作用:
- 将输入映射为一个概率分布,所有输出值的和为 1。
- 通常用于多分类任务的输出层。
优缺点:
- 优点:用于分类问题时,能够很好地提供归一化概率。
- 缺点:仅适用于分类任务的输出层。
代码示例:
import tensorflow as tf# Softmax 激活函数
x = tf.random.normal([1, 5])
output = tf.nn.softmax(x)
print(output)
适用场景:
- 多分类问题 的输出层,如图像分类、文本分类。
激活函数的选择依据
- 二分类问题:一般选择 Sigmoid 作为输出层激活函数。
- 多分类问题:常使用 Softmax 作为输出层激活函数,提供概率分布。
- 卷积网络:通常使用 ReLU 或 Leaky ReLU,可以加快网络收敛,并处理梯度问题。
- 深度网络:可以考虑使用 Swish 或 Leaky ReLU,在深层网络中能够避免死神经元和梯度消失。
- 自然语言处理或时间序列处理:常见激活函数为 Tanh 或 Sigmoid,配合 LSTM 或 GRU 使用。
总结
激活函数为神经网络引入了非线性特性,使得网络能够拟合复杂的数据模式和关系。选择合适的激活函数不仅能提升模型的表现,还能有效解决训练中的一些问题,如梯度消失和死神经元问题。不同的激活函数在不同场景下有各自的优势和适用性,因此在实际应用中需要根据具体任务和数据来合理选择。
相关文章:
【激活函数】Activation Function——在卷积神经网络中的激活函数是一个什么样的角色??
【激活函数】Activation Function——在卷积神经网络中的激活函数是一个什么样的角色?? Activation Function——在卷积神经网络中的激活函数是一个什么样的角色?? 文章目录 【激活函数】Activation Function——在卷积神经网络中…...
重生之我在Java世界------学单例设计模式
什么是单例设计模式? 单例模式是面向对象编程中最简单却又最常用的设计模式之一。它的核心思想是确保一个类只有一个实例,并提供一个全局访问点。本文将深入探讨单例模式的原理、常见实现方法、优缺点,以及在使用过程中可能遇到的陷阱。 单…...
快速提升Python Pandas处理速度的秘诀
大家好,Python的Pandas库为数据处理和分析提供了丰富的功能,但当处理大规模数据时,性能问题往往成为瓶颈。本文将介绍一些在Pandas中进行性能优化的方法与技巧,帮助有效提升数据处理速度,优化代码运行效率。 1.数据类…...
在基于线程的环境中运行 MATLAB 函数
MATLAB 和其他工具箱中的数百个函数可以在基于线程的环境中运行。可以使用 backgroundPool 或 parpool("threads") 在基于线程的环境中运行代码。 要在后台运行函数,请使用 parfeval 和 backgroundPool。 具体信息可以参考Choose Between Thread-B…...
黑神话悟空+云技术,游戏新体验!
近期,一款名为黑神话悟空的游戏因其独特的艺术风格和创新的技术实现在玩家中产生了不小的影响。 而云桌面技术作为一种新兴的解决方案,正在改变人们的游戏体验方式,使得高性能游戏可以在更多设备上流畅运行。 那么,黑神话悟空如…...
【Android 13源码分析】WindowContainer窗口层级-3-实例分析
在安卓源码的设计中,将将屏幕分为了37层,不同的窗口将在不同的层级中显示。 对这一块的概念以及相关源码做了详细分析,整理出以下几篇。 【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树 【Android 13源码分析】WindowCon…...
Redis常用操作及springboot整合redis
1. Redis和Mysql的区别 数据模型:二者都是数据库,但是不同的是mysql是进行存储到磁盘当中,而Redis是进行存储到内存中. 数据模型 : mysql的存储的形式是二维表而Redis是通过key-value键值对的形式进行存储数据. 实际的应用的场景: Redis适合于需要快速读写的场景&…...
动态规划day34|背包理论基础(1)(2)、46.携带研究材料(纯粹的01背包)、416. 分割等和子集(01背包的应用)
动态规划day34|背包理论基础(1)(2)、46.携带研究材料、416. 分割等和子集 背包理论基础(1)——二维背包理论基础(2)——一维46.携带研究材料(卡码网 01背包)1. 二维背包2. 一维背包 …...
pytorch优化器
在反向传播计算完所有参数的梯度后,还需要使用优化方法更新网络的权重和参数。例如,随机梯度下降法(SGD)的更新策略如下: weight weight - learning_rate * gradient 手动实现如下: learning_rate 0.01 …...
必备工具,AI生成证件照,再也不用麻烦他人,电子驾驶证等多种证件照一键生成
最近有一个生成证件照的开源项目很火,今天我们来学习一下。之前我生成证件照都是线下去拍照,线上使用也是各种限制,需要付费或看广告,而且效果也不是很理想, 今天要分享的这个 AI 证件照生成工具可以一键可以生成一寸…...
深度解析 MintRich 独特的价格曲线机制玩法
随着 Meme 币赛道的迅速崛起,NFT 市场也迎来了新的变革。作为一个创新的 NFT 发行平台,Mint.Rich 正掀起一场全民参与的 NFT 热潮。其简易的操作界面和独特的价格曲线设计,让任何人都能以极低的门槛发行和交易自己的 NFT,从而参与…...
实时数仓3.0DWD层
实时数仓3.0DWD层 DWD层设计要点:9.1 流量域未经加工的事务事实表9.1.1 主要任务9.1.2 思路9.1.3 图解9.1.4 代码 9.2 流量域独立访客事务事实表9.2.1 主要任务9.2.2 思路分析9.2.3 图解9.2.4 代码 9.3 流量域用户跳出事务事实表9.3.1 主要任务9.3.2 思路分析9.3.3 …...
路径规划 | 基于A*算法的往返式全覆盖路径规划的改进算法(Matlab)
目录 效果一览基本介绍程序设计参考文献 效果一览 基本介绍 基于A*算法的往返式全覆盖路径规划的改进算法 matlab实现代码 往返式全覆盖路径规划,通过建立二维栅格地图,设置障碍物,以及起始点根据定义往返式路径规划的定义的优先级运动规则从…...
QT 串口上位机读卡显示
目录 一. QT创建工程 二. 软件更换图标 三. QT打包 一. QT创建工程 文件新建,选择创建一个桌面QT。 重命名RFID,并选择工程保存路径 RFID.pro QT core gui serialport #串行串口greaterThan(QT_MAJOR_VERSION, 4): QT widgetsTARGET RFID TE…...
Chrome谷歌浏览器登录账号next无反应
文章目录 问题描述 我们的Chrome浏览器在更新之后,会出现登录谷歌账号的时候,当你输入你的谷歌邮箱之后,点击 n e x t next next,也就是下一步的时候,页面没有反应,也就是没有跳转到输入密码的页面。 分析 根据logs里…...
Android相关线程基础
线程基础 进程与线程 进程:可以被看做是程序的实体, 是系统进行资源分配和调度的基本单位. 线程:是操作系统调度的最小单元, 也叫轻量级进程 使用多线程的优点 可以减少程序的响应时间。如果某个操作很耗时, 能够避免陷入长时间的等待, 从而有着更好的交互性. 线程较之进…...
uniapp 如何自定义导航栏并自适应机型
如今的移动设备有各种不同的屏幕形状,如刘海屏、水滴屏等。这些异形屏会影响页面的布局,尤其是导航栏和底部栏的显示。通过获取安全区域信息,可以确保页面内容不会被异形屏的特殊区域遮挡。 在设计页面顶部导航栏时,可以根据 saf…...
Java高级Day43-类加载
117.类加载 静态和动态加载 反射机制是java实现动态语言的关键,也就是通过反射实现类动态加载 静态加载:编译时加载相关的类,如果没有则报错,依赖性太强 动态加载:运行时加载需要的类,如果运行时不用该类…...
【LeetCode 算法笔记】155. 最小栈
目录 问题描述单个栈实现双栈实现不开辟额外空间 问题描述 设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素val推入堆栈。 void pop()…...
面试题 05.01. 插入
目录 一:题目: 二:代码: 三:结果: 一:题目: 给定两个整型数字 N 与 M,以及表示比特位置的 i 与 j(i < j,且从 0 位开始计算)。…...
OpenClaw+Qwen3-14b_int4_awq:自动化内容处理与发布流水线
OpenClawQwen3-14b_int4_awq:自动化内容处理与发布流水线 1. 为什么需要自动化内容流水线 作为一个长期与文字打交道的创作者,我每天要处理大量重复性工作:从各个渠道收集素材、整理成结构化内容、撰写初稿、调整格式、最后发布到不同平台。…...
不露脸也能当主播?一文了解VTuber
不露脸也能当主播?一文了解VTuber很多人提到 VTuber,脑子里就是“二次元纸片人”在直播间卖萌。 但其实,你每天换的微信头像、用过的苹果拟我表情,短视频平台的3D头套全都是它的“远房亲戚”。 今天我们就把这层科技外衣扒开&…...
Companion Object - 伴生对象 类比java中的什么?
这是一个非常经典且准确的对比问题。简单来说,Kotlin 中的 companion object(伴生对象)核心类比的是 Java 中的 static(静态)成员。在 Java 中,如果你想让一个成员(方法或变量)属于类…...
千问3.5-9B提示词工程:优化OpenClaw任务拆解质量
千问3.5-9B提示词工程:优化OpenClaw任务拆解质量 1. 为什么需要优化提示词 去年冬天第一次用OpenClaw自动整理会议纪要时,我被它的"耿直"气笑了——让它"提取关键结论",结果给我返回了整段录音的文字版,连&…...
一个月突变!Linux内核大佬懵了:上个月还是“AI垃圾”,这个月AI Bug报告却突然靠谱?
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)最近在做开源项目维护的开发者,可能会有一种奇怪的错觉:Bug 似乎报告变多了,而且变准了——更准确地说,是 AI 报的 Bug,突然开始“靠谱了”。…...
TalkiePCM:嵌入式LPC语音合成库,纯C++轻量级PCM音频引擎
1. TalkiePCM:嵌入式平台上的轻量级LPC语音合成引擎TalkiePCM 是一个面向资源受限嵌入式系统的纯C语音合成库,其核心目标是在不依赖特定硬件外设(如PWM、DAC或I2S控制器)的前提下,以最小耦合方式生成标准PCM音频流。它…...
开源吐槽大会:技术圈的幽默自省
开源项目吐槽大会技术文章大纲主题与目的开源项目吐槽大会旨在通过幽默、犀利的视角,揭示开源生态中的常见问题,促进开发者反思与改进。文章将从技术、社区、维护等角度展开,兼顾娱乐性与建设性。核心内容结构技术层面的经典槽点 依赖地狱&am…...
自动药片装瓶机 No.360 三菱 组态王 基于PLC的药片装瓶自动控制系统 我们主要的后发送...
自动药片装瓶机 No.360 三菱 组态王 基于PLC的药片装瓶自动控制系统 我们主要的后发送的产品有,带解释的梯形图接线图原理图图纸,io分配,组态画面车间里那些药片装瓶机,以前人工摆瓶子、数药片,慢就算了,…...
网站 SEO 标题要包含关键词吗
网站 SEO 标题要包含关键词吗?探讨最佳实践和SEO优化策略 在当今互联网时代,网站的SEO优化已经成为提升网站流量和用户体验的重要手段。其中,网站标题的优化也至关重要。网站 SEO 标题要包含关键词吗?这个问题备受争议,…...
【含文档+PPT+源码】基于SSM框架的农产品销售平台的设计与实现
项目介绍本课程演示的是一款 基于SSM框架的农产品销售平台的设计与实现,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。1.包含:项目源码、项目文档、数据库脚本、软件工具等所有资料2.带你从零开始部署运行本套系统3.该项…...
