当前位置: 首页 > article >正文

神经网络 - 激活函数(Sigmoid 型函数)

激活函数在神经元中非常重要的。为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质:

(1) 连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数.

(2) 激活函数及其导函数要尽可能的简单,有利于提高网络计算效率。

(3) 激活函数的导函数的值域要在一个合适的区间内,不能太大也不能太 小,否则会影响训练的效率和稳定性。

本文介绍在神经网络中常用的激活函数之一:Sigmoid 型函数

一、Sigmoid 型函数

Sigmoid 型函数是指一类 S 型曲线函数,为两端饱和函数(关于饱和函数的概念。上一博文有介绍)。常用的 Sigmoid 型函数有 Logistic 函数Tanh 函数

对于函数 𝑓(𝑥),若 𝑥 → −∞ 时,其导数 𝑓′(𝑥) → 0,则称其为左饱和。

若 𝑥 → +∞ 时,其导数 𝑓′(𝑥) → 0,则称其为右饱和.当同时满足左、右饱和时,就称为两端饱和。

二、Logistic 函数

1、定义

2、特性说明

(1)Logistic 函数可以看成是一个“挤压”函数,把一个实数域的输入“挤压”到 (0, 1)

(2)当输入值在 0 附近时,Sigmoid 型函数近似为线性函数

(3)当输入值靠近两端 时,对输入进行抑制

(4)输入越小,越接近于 0; 输入越大,越接近于 1

和感知器使用的阶跃激活函数相比,Logistic 函数是连续可导的, 其数学性质更好。

因此装备了 Logistic 激活函数的神经元,具有以下 两点性质:

(1)其输出直接可以看作概率分布,使得神经网络可以更好地和统计 学习模型进行结合

(2)其可以看作一个软性门(Soft Gate),用来控制其他神经 元输出信息的数量

3、梯度与训练

Logistic函数的导数具有一个简单的形式:

σ′(z)=σ(z)(1−σ(z)).

这种形式在梯度下降算法中非常有用,因为它使得反向传播中梯度计算简单且高效。同时,当 zzz 处于极端值(很大或很小)时,导数趋近于0,这也会引起梯度消失问题,这一点在设计神经网络时需要注意。

Logistic函数,除了用于神经网络激活函数,还可以用于逻辑回归(这个在Logistic回归的博文中有介绍)

三、Tanh 函数 

Tanh 函数,即双曲正切函数,其数学表达式为

它将任意实数 x 映射到区间 (−1,1)。下面详细说明其性质和理解方式:

1. 基本性质

  • 输出范围
    tanh⁡(x) 的输出在 −1 到 1 之间。当 x 越大时,tanh⁡(x) 趋近于 1;当 xx 越小(即负数绝对值越大)时,tanh⁡(x) 趋近于 −1。

  • 对称性
    tanh⁡(x) 是一个奇函数(关于远点对称),即 tanh⁡(−x)=−tanh⁡(x),这意味着它关于原点对称。

  • 平滑性
    tanh⁡(x) 是连续且可微的,导数为

    这使得它在神经网络中作为激活函数时,能够提供平滑的梯度,有助于梯度传播。

2. 与其他激活函数的比较

  • Logistic 函数

         tanh(𝑥) = 2𝜎(2𝑥) − 1.(从这里可以看出两者之间的转化)

        tanh 函数可以看作放大并平移的 Logistic 函数,其值域是 (−1, 1).

        Tanh 函数的输出是零中心化的(Zero-Centered),而 Logistic 函数的输出恒大于 0。非零中心化的输出会使得其后一层的神经元的输入发生偏置偏移(Bias Shift),并进一步使得梯度下降的收敛速度变慢。Logistic 函数和 Tanh 函数的形状如下图:

  • 非线性特性
    两者都具有 S 型(sigmoidal)曲线,但由于输出范围不同,tanh⁡(x) 在处理数据时往往能更好地平衡正负信息。

3. 如何理解“附近”及应用

  • 直观理解
    当 x 较小(接近 0)时,tanh⁡(0)=0 且近似于线性函数,因为其导数 1 - tanh^2(0)=1;当 x 较大或较小时,函数逐渐饱和,输出接近 1 或 −1,说明输入的极端值不会导致输出剧烈变化。这种“饱和性”特性在神经网络中既有利于稳定输出,也可能引发梯度消失问题。

  • 实际应用
    在神经网络中,tanh⁡(x)  常作为隐藏层的激活函数,帮助模型引入非线性。由于它的输出是零中心化的,能在一定程度上帮助缓解梯度下降过程中梯度偏移的问题。

4. 举例说明

例子:在神经网络中的应用

这种激活机制帮助神经网络引入非线性特征,使得多个神经元层的组合能够逼近复杂函数。

四、Hard-Logistic 函数

1、Hard-Logistic 函数定义

以 Logistic 函数 𝜎(𝑥) 为例,其导数为 𝜎′(𝑥) = 𝜎(𝑥)(1 − 𝜎(𝑥)).

Logistic 函数在 0 附近的一阶泰勒展开(Taylor expansion)为:

这样 Logistic 函数可以用分段函数 hard-logistic(𝑥) 来近似:

亦即:

2、Hard-Logistic 函数的形状:

 3、如何理解:

五、Hard-Tanh 函数

1、Hard-Tanh 函数定义

tanh 函数在 0 附近的一阶泰勒展开为:

这样 Tanh 函数也可以用分段函数 hard-tanh(𝑥) 来近似:

亦即:

2、Hard-Tanh 函数的形状:

 3、如何理解:

六、“hard”激活函数的应用场景和优势

  • 计算效率
    “Hard”激活函数由于只涉及简单的加减和比较运算,相比于传统的 Sigmoid 或 Tanh,可以大幅减少计算量,适合于对计算资源要求较高的场景(如移动设备、嵌入式系统)。
  • 简单性
    它们的数学表达和梯度形式非常简单,这在理论分析和工程实现中都具有优势。
  • 应用实例
    在一些深度学习网络或强化学习模型中,为了加速训练和推理,可以选择使用 Hard-Tanh 或 Hard-Logistic 作为激活函数,从而在保持性能的同时提升效率。

      总体来说,Hard-Logistic 和 Hard-Tanh 都是为了在某些场景下(如资源受限的环境或需要快速推理的应用中)替代传统平滑激活函数而设计的简化版本,虽然它们牺牲了一定的精细度,但换来了计算上的加速和实现上的简单。

七、附加:tanh(𝑥) = 2𝜎(2𝑥) − 1的推导过程

我们来学习一下双曲正切函数(tanh)和Logistic函数(σ)的推导关系,以加深大家对两个函数的理解和认识。

1. 推导过程

步骤 1:调整Logistic函数的输入和输出范围

Logistic函数的输出范围为 (0,1),而tanh的输出范围为 (−1,1)。需对Logistic函数进行线性变换:

目标形式:tanh⁡(x)=A⋅σ(Bx)+C,

其中 A、B、C 为待定系数。

步骤 2:确定参数 B(缩放输入)

将Logistic函数的输入缩放为 2x,即:

这样做的目的是使Logistic函数的斜率更陡峭,与tanh的形状更接近。

步骤 3:确定参数 A 和 C(调整输出范围)

将 σ(2x) 的输入调整后,进一步通过线性变换将其输出从 (0,1) 映射到 (−1,1):

步骤 4:代数化简

将等式右侧通分:

步骤 5:与tanh的表达式对比

2.关键推导总结

  • 输入缩放:通过将输入 x 放大为 2x,使得Logistic函数 σ(2x) 的斜率与tanh匹配。

  • 输出调整:通过线性变换 2σ(2x)−1,将输出范围从 (0,1)映射到 (−1,1)。

  • 代数恒等式:化简后与tanh的定义式完全一致。

 3.直观理解

  • 几何意义
    tanh是中心对称的S型曲线(关于原点对称),而Logistic函数是右移的S型曲线。通过缩放输入(2x)和调整输出(2σ−1),Logistic函数被“拉伸”并“平移”为tanh。

  • 参数作用

    • B=2:使Logistic函数的斜率加倍,与tanh的陡峭度一致。

    • A=2 和 C=−1:将输出范围从 (0,1)(0,1) 线性映射到 (−1,1)(−1,1)。

通过缩放Logistic函数的输入(2x)和调整输出(2σ−1),可以精确得到双曲正切函数 tanh⁡(x)。这一关系在神经网络中常用于激活函数的转换,尤其在需要中心化输出时(如循环神经网络)。

相关文章:

神经网络 - 激活函数(Sigmoid 型函数)

激活函数在神经元中非常重要的。为了增强网络的表示能力和学习能力,激活函数需要具备以下几点性质: (1) 连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数. (2) 激活函数及其导函数要尽可能的简单&#xff0…...

DeepSeek-R1自写CUDA内核跑分屠榜:开启GPU编程自动化新时代

引言 在AI领域,深度学习模型的性能优化一直是研究者们关注的核心。最近,斯坦福和普林斯顿的研究团队发现,DeepSeek-R1生成的自定义CUDA内核不仅超越了OpenAI的o1和Claude 3.5 Sonnet,还在KernelBench框架中取得了总排名第一的好成…...

爬虫下载B站视频简单程序(仅供学习)

请输入视频链接:https://www.bilibili.com/video/BV1owFSeREoh (示例地址) 程序显示结果如下: 下载进度: 100.00% 下载完成 视频已保存到: ./video.mp4 核心功能 1. 视频信息解析…...

2.5 运算符2

版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的 2.5.3 赋值运算符 赋值运算符将值存储在左操作数指定的对象中。有两种赋值操作: 1、简单赋值,使用。其中第二…...

DeepSeek + 自由职业 发现新大陆,从 0 到 1 全流程跑通商业 IP

DeepSeek 自由职业 发现新大陆,从 0 到 1 全流程跑通商业 IP 商业定位1. 商业定位分析提示词2. 私域引流策略提示词3. 变现模型计算器提示词4. 对标账号分析提示词5. 商业IP人设打造提示词6. 内容选题策略提示词7. 用户人群链分析提示词8. 内容布局与转化路径设计提…...

仿12306购票系统(3)

前面完成了乘车人登录功能的实现,本篇主要是控制台方面的管理 对于整体的控制台的设计,为了能够快速的检验,不进行登录拦截,在控制台的这个模块的controller层增加admin,以及在登录界面的拦截器排除掉admin. 车站 即…...

2025年2月个人工作生活总结

本文为 2025年2月工作生活总结。 工作记录 AI浪潮 AI非常火,春节至今,到处充斥着大量和AI、DeepSeek有关的新闻。领导也一再强调要用AI,甚至纳入到新一年的考核里。再往上,大领导开会的新闻稿里也作出要求,不能停下脚…...

【Python】网络爬虫——词云wordcloud详细教程,爬取豆瓣最新评论并生成各式词云

目录 一、功能介绍 二、关键技术 1、安装WordCloud 2、利用WordCloud 1、WordCloud的基础用法 **相关参数介绍** **WordCloud 提供的方法如下** 2、WordCloud的应用举例 3、设置停用词 4、WordCloud使用词频 三、程序设计的步骤 1、抓取网页数据 2、数据清洗 3、…...

第39天:安全开发-JavaEE应用SpringBoot框架Actuator监控泄漏Swagger自动化

时间轴: Java知识点: 功能:数据库操作,文件操作,序列化数据,身份验证,框架开发,第三方组件使用等. 框架库:MyBatis,SpringMVC,SpringBoot&#xf…...

综合练习 —— 递归、搜索与回溯算法

目录 一、1863. 找出所有子集的异或总和再求和 - 力扣(LeetCode) 算法代码: 代码思路 问题分析 核心思想 实现细节 代码解析 初始化 DFS 函数 时间复杂度 空间复杂度 示例运行 输入 运行过程 总结 二、 47. 全排列 II - 力扣&a…...

c++ 中的 auto 与 const 关键字

总是看到这两个关键字,根据 AI 的回复进行了一些整理总结。 文章目录 **1. auto 关键字****基本用法****与指针、引用结合****与 const 结合****在函数返回值推导****auto 不能用于** **2. const 关键字****修饰变量****修饰指针****修饰函数参数****修饰成员函数**…...

.pem文件是什么

.pem 文件通常是一个 Privacy-Enhanced Mail 格式的文件,它是一个常见的 证书文件 格式,可以存储加密密钥、证书或其他加密数据。最常见的用途是 SSH 密钥 和 SSL/TLS 证书。 在 SSH 使用中,.pem 文件一般是 私钥 文件,用于通过公…...

【Java SE】Java中String的内存原理

参考笔记: Java String 类深度解析:内存模型、常量池与核心机制_java stringx、-CSDN博客 解析java中String的内存原理_string s1 new string("ab");内存分析-CSDN博客 目录 1.String初识 2.字符串字面量 3.内存原理图 4. 示例验证 4.…...

IDEA提示将方法形参更改为(什么什么类型),要检查对应的实体类中的字段类型是否正确

IDEA提示inviteCodeId应该是字符串,明显不对,后来检查发现是FakeRegistration类中把inviteCodeId定义为String类型了。...

DeepSeek-OpenSourceWeek-第五天-Launch of 3FS and Smallpond Framework

2025 年 2 月 28 日,DeepSeek 在开源周的最后一天宣布推出了 Fire-Flyer File System(3FS)和 Smallpond 数据处理框架。这些创新旨在提升数据访问和处理能力,特别是针对 AI 训练和推理工作负载。 Fire-Flyer File System (3FS) 3FS 是一种高性能的分布式文件系统,专为应对…...

【芯片设计】NPU芯片前端设计工程师面试记录·20250227

应聘公司 某NPU/CPU方向芯片设计公司。 小声吐槽两句,前面我问了hr需不需要带简历,hr不用公司给打好了,然后我就没带空手去的。结果hr小姐姐去开会了,手机静音( Ĭ ^ Ĭ )面试官、我、另外的hr小姐姐都联系不上,结果就变成了两个面试官和我一共三个人在会议室里一人拿出…...

初阶数据结构(C语言实现)——3顺序表和链表(3)

3.链表 3.1 链表的概念及结构 概念:链表是一种物理存储结构上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中的指针链接次序实现的 链表的物理结构 1.从上图可看出,链式结构在逻辑上是连续的,但是在物理上不一定连续…...

Kubernetes故障排查实战指南

前言 在云原生时代,Kubernetes已成为容器编排的事实标准。然而,随着系统规模和复杂度的增加,故障排查变得越来越具有挑战性。本文将从实战角度,系统化介绍K8s故障排查方法和最佳实践。 © ivwdcwso (ID: u012172506) 一、故障排查方法论 1.1 三步排查法 问题定位:快…...

使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169

使用 VSCode 代替 BeyondStudio for NXP 开发 JN 5169 一、安装 VSCode二、搭建 NXP JN5169 ZigBee 3.0 开发环境和下载示例工程三、配置 VSCode1、配置环境变量 MYSYS_HOME2、VSCode 安装以下插件3、VSCode 配置头文件路径 四、编译工程1、JN-AN-1219 有 6 个构建选项2、修改 …...

Python常见面试题的详解24

1. 如何对关键词触发模块进行测试 要点 功能测试:验证正常关键词触发、边界情况及大小写敏感性,确保模块按预期响应不同输入。 性能测试:关注响应时间和并发处理能力,保证模块在不同负载下的性能表现。 兼容性测试:测…...

加载大数据时性能压力优化

1. 减少数据请求量 分页加载(Pagination) 原理:将数据拆分为多页,按需加载。实现: 传统分页(页码切换)。无限滚动(滚动到底部自动加载下一页,如社交媒体)。…...

动态自定义标签属性页面(Tomcat 9)

java文件 ,包名org.rain.tag package org.rain.tag; import java.io.IOException; import java.util.HashMap; import java.util.Map; import javax.servlet.jsp.JspException; import javax.servlet.jsp.tagext.DynamicAttributes; import javax.servlet.jsp.…...

使用Fuse-DFS挂载文件存储 HDFS-后端存储ceph

1. 编译环境准备 yum install cmake3 ln -s /usr/bin/cmake3 /usr/bin/cmake yum install gcc-c安装挂载依赖 yum -y install fuse fuse-devel fuse-libs执行以下命令,载入FUSE模块 modprobe fuse2. 下载源码包 hadoop-3.3.4-src.tar.gz解压后执行以下命令 打开…...

DBGPT安装部署使用

简介 DB-GPT是一个开源的AI原生数据应用开发框架(AI Native Data App Development framework with AWEL(Agentic Workflow Expression Language) and Agents)。 目的是构建大模型领域的基础设施,通过开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Mul…...

How to use VRX on ubuntu20.04 with ROS1 Noetic?[2]

How to use VRX on ubuntu20.04 with ROS1 Noetic?[2] 1.Which topics2.Control1.1操作模拟船(1)命令行直接发布(2)启动键盘控制文件 3.Customer your VRX world3.1Which world parameters3.2改变风的参数 3.2.1更改默认参数&…...

yolov8 目标追踪 (源码 +效果图)

1.在代码中 增加了s键开始追踪 e键结束追踪 显示移动距离(代码中可调标尺和像素的比值 以便接近实际距离) 2.绘制了监测区域 只在区域内的检测 3.规定了检测的类别 只有人类才绘制轨迹 import osimport cv2 from ultralytics import YOLO from collections import defaultdic…...

运维Apache面试题及参考答案

目录 简述 Apache Web 服务器的主要特点及适用场景 Apache 的默认监听端口是什么?如何修改为其他端口? Apache 的主配置文件名称及路径是什么?不同 Linux 发行版的默认路径有何差异? 解释 Apache 的 MPM(Multi-Processing Module)机制,列举常见的工作模式(如 prefor…...

基于Python的web漏洞挖掘,漏洞扫描系统(附源码,部署)

本次技术通过利用Python技术来开发一款针对web漏洞挖掘扫描的技术,通过web漏洞的挖掘扫描来实现对网站URL的漏洞检测,通过高中低风险的判断来实现对一款网站中存在的漏洞进行可视化的分析,从而能够找到问题并且尽快的实现问题的解决。 博主介…...

K8s部署主从结构MySQL服务

01 介绍 RC、Deployment、DaemonSet都是面向无状态的服务,它们所管理的Pod的IP、名字、启停顺序等都是随机分配的,而StatefulSet,管理所有有状态的服务。 StatefulSet为了解决有状态服务的问题,它所管理的Pod拥有固定的Pod名称,一定的启停顺序,在StatefulSet中,Pod名字…...

岳阳市美术馆预约平台(小程序论文源码调试讲解)

第4章 系统设计 一个成功设计的系统在内容上必定是丰富的,在系统外观或系统功能上必定是对用户友好的。所以为了提升系统的价值,吸引更多的访问者访问系统,以及让来访用户可以花费更多时间停留在系统上,则表明该系统设计得比较专…...