常用激活函数学习
常用激活函数及其应用
-
ReLU (Rectified Linear Unit)
- 公式: f ( x ) = max ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)
- 理解: 当输入值为正时,输出等于输入值;否则输出为0。ReLU函数简单且计算效率高,能有效缓解梯度消失问题,促进深层网络的学习。
- 场景与大模型应用: ReLU是深度学习中最常用的激活函数,尤其是在卷积神经网络(CNN)和递归神经网络(RNN)的隐藏层中。著名的模型如VGGNet、ResNet系列广泛使用ReLU及其变体,如ReLU6和Leaky ReLU。
-
Sigmoid
- 公式: f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}} f(x)=1+e−x1
- 理解: 将输入映射到(0, 1)之间,常用于需要概率输出的场景,如二元分类问题。但因其饱和特性,导致梯度消失问题。
- 场景与大模型应用: 在早期的神经网络和一些特定任务中使用,如在LSTM的门控机制中控制信息流。现代网络较少在隐藏层使用,因梯度消失问题。
-
Tanh (Hyperbolic Tangent)
- 公式: f ( x ) = e x − e − x e x + e − x f(x) = \frac{e^{x} - e^{-x}}{e^{x} + e^{-x}} f(x)=ex+e−xex−e−x
- 理解: 输出范围在(-1, 1),比Sigmoid具有更好的梯度特性,适用于需要中心化的输出分布。
- 场景与大模型应用: 在循环神经网络如LSTM和GRU的隐藏状态中常用,有助于保持状态的数值稳定性。
-
Softmax
- 公式: f i ( x ) = e x i ∑ j = 1 n e x j f_i(x) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}} fi(x)=∑j=1nexjexi,其中 x x x是向量, f i f_i fi是第 i i i个元素的softmax输出。
- 理解: 将输入向量转换为概率分布,保证所有输出之和为1,非常适合多分类问题。
- 场景与大模型应用: 几乎所有涉及多类别分类的模型输出层都会使用Softmax,如图像分类的ResNet、Inception,以及文本分类的BERT模型。
-
Leaky ReLU
- 公式: f ( x ) = max ( a x , x ) f(x) = \max(ax, x) f(x)=max(ax,x),其中 a a a是一个小于1的正值,通常是0.01。
- 理解: Leaky ReLU是对ReLU的一个改进,允许负数输入有非零斜率的输出,有助于解决“死亡ReLU”问题。
- 场景与大模型应用: 适用于需要缓解ReLU死区问题的模型,虽然不像ReLU那样普遍,但在某些特定模型或层中仍然可见。
这些激活函数的选择取决于具体任务的需求,如是否需要输出概率、是否关注梯度消失或爆炸问题,以及模型的深度等因素。不同的激活函数在不同的大模型中有其独特的应用场景,优化模型性能和学习能力。
相关文章:
常用激活函数学习
常用激活函数及其应用 ReLU (Rectified Linear Unit) 公式: f ( x ) max ( 0 , x ) f(x) \max(0, x) f(x)max(0,x)理解: 当输入值为正时,输出等于输入值;否则输出为0。ReLU函数简单且计算效率高,能有效缓解梯度消失问题,促进…...
html中被忽略的简单标签
1: alt的作用是在图片不能显示时的提示信息 <img src"https://img.xunfei.cn/mall/dev/ifly-mall-vip- service/business/vip/common/202404071019208761.jp" alt"提示信息" width"100px" height"100px" /> 2&#…...
Vue.Draggable:强大的Vue拖放组件技术探索
一、引言 随着前端技术的不断发展,拖放(Drag-and-Drop)功能已经成为许多Web应用不可或缺的一部分。Vue.js作为现代前端框架的佼佼者,为开发者提供了丰富的生态系统和强大的工具链。Vue.Draggable作为基于Sortable.js的Vue拖放组件…...
linux mail命令及其历史
一、【问题描述】 最近隔壁组有人把crontab删了,crontab这个命令有点反人类,它的参数特别容易误操作: crontab - 是删除计划表 crontab -e 是编辑,总之就是特别容易输入错误。 好在可以通过mail命令找回,但是mai…...
数据驱动(Data-Driven)和以数据为中心(Data-Centric)的区别
一、什么是数据驱动? 数据驱动(Data-Driven)是在管理科学领域经常提到的名词。数据驱动决策(Data-Driven Decision Making,简称DDD)是一种方法论,即在决策过程中主要依赖于数据分析和解释&…...
aosp14的分屏接口ISplitScreen接口获取方式更新-学员疑问答疑
背景: 有学员朋友在学习马哥的分屏pip自由窗口专题时候,做相关分屏做小桌面项目时候,因为原来课程版本是基于android 13进行的讲解的,但是现在公司已经开始逐渐进行相关的android 14的适配了,但是android 14这块相比a…...
定积分求解过程是否变限问题 以及当换元时注意事项
目录 定积分求解过程是否变限问题 文字理解: 实例理解: 易错点和易混点: 1:定积分中的换元指什么? 2: 不定积分中第一类换元法和第二类换元法的本质和区别 3: df(x) ----> df(x)这…...
保研机试算法训练个人记录笔记(七)
输入格式: 在第1 行给出不超过10^5 的正整数N, 即参赛}人数。随后N 行,每行给出一位参赛者的 信息和成绩,包括其所代表的学校的编号(从1 开始连续编号)及其比赛成绩(百分制)…...
【MySQL精通之路】SQL优化(1)-查询优化(23)-避免全表扫描
当MySQL使用全表扫描来解析查询时,EXPLAIN的输出在type列中显示ALL。 这种情况通常发生在以下情况下: 该表非常小,因此执行全表扫描比查找关键字更快。这对于少于10行且行长较短的表来说很常见。 对于索引列,ON或WHERE子句中没有…...
【Linux】写时拷贝技术COW (copy-on-write)
文章目录 Linux写时拷贝技术(copy-on-write)进程的概念进程的定义进程和程序的区别PCB的内部构成 程序是如何被加载变成进程的?写时复制(Copy-On-Write, COW)写时复制机制的原理写时拷贝的场景 fork与COWvfork与fork Linux写时拷贝技术(copy-…...
用python使用主成分分析数据
import pandas as pd #导入处理二维表格的库 import numpy as np #导入数值计算的库 from sklearn.preprocessing import StandardScaler #导入数据标准化模块 import matplotlib.pyplot as plt #导入画图的包 from sklearn.decomposition import PCA #导入主成…...
用WPS将多张图片生成一个pdf文档,注意参数设置
目录 1 新建一个docx格式的文档 2 向文档中插入图片 3 设置页边距 4 设置图片大小 5 导出为pdf格式 需要把十几张图片合并为一个pdf文件,本以为很简单,迅速从网上找到两个号称免费的在线工具,结果浪费了好几分钟时间,发现需要…...
virtual box ubuntu20 全屏展示
virtual box 虚拟机 ubuntu20 系统 全屏展示 ubuntu20.04 视图-自动调整窗口大小 视图-自动调整显示尺寸 系统黑屏解决 ##设备-安装增强功能 ##进入终端 ##终端打不开,解决方案-传送门ubuntu Open in Terminal打不开终端解决方案-CSDN博客 ##点击cd盘按钮进入文…...
react中的数据驱动视图,useState()的使用
前端开发如今有一个很重要的思想就是数据驱动视图,数据发生变化使ui发生变化,比如一个变量count,为0显示三个按钮,为1显示一个按钮,为2显示两个按钮。这就是一个简单的数据驱动视图。 import { useState } from reactf…...
金融数据库,实时行情,股票财务数据在线查询
jvQuant在线SQL 文档(current)接入 测试 查询 #股票代码股票简称最新价(元)2024-05-21股东总户数(户)截至2024-05-21上市板块是否ST股票区间涨跌幅(%)2024-05-15-2024-05-21市盈率(TTM)(倍)2024-05-21营业收入(元)截至2024-03-31总市值(元)2024-05-21量比2024-05-21利润率(%…...
开源模型应用落地-LangSmith试炼-入门初体验-数据集评估(三)
一、前言 LangSmith是一个用于构建生产级 LLM 应用程序的平台,它提供了调试、测试、评估和监控基于任何 LLM 框架构建的链和智能代理的功能,并能与LangChain无缝集成。通过使用LangSmith帮助开发者深入了解模型在不同场景下的表现,让开发者能…...
设计模式 15 Decorator Pattern 装饰器模式
设计模式 15 Decorator Pattern 装饰器模式 1.定义 Decorator Pattern 装饰器模式是一种结构型设计模式,它允许在运行时给对象添加新的行为或职责,而无需修改对象的源代码。这种模式通过创建一个包装对象,也称为装饰器,来包裹原…...
cuda11.8安装torch2.0.1
pip install torch2.0.1 torchvision0.15.2 torchaudio2.0.2 --index-url https://download.pytorch.org/whl/cu118...
新手困 ViewModel与Activting的databinding2个对象 区别
在Android开发中,ViewModel与Activity的Binding并不是同一个概念,它们分别指的是不同的功能和用途。 ViewModel: ViewModel是一个为UI界面提供数据的类,它负责管理Activity或Fragment的数据。ViewModel类持有数据的引用,即使配置…...
Cocos Creator 声音播放与管理详解
Cocos Creator 是一款非常流行的游戏开发引擎,它提供了丰富的功能和工具,让开发者可以轻松构建出高质量的游戏。在游戏开发中,声音是一个非常重要的元素,可以为游戏增添氛围和趣味性。在本文中,我们将详细介绍Cocos Cr…...
LangGraph架构深度解析:如何构建企业级状态化智能体工作流
LangGraph架构深度解析:如何构建企业级状态化智能体工作流 【免费下载链接】langgraph Build resilient language agents as graphs. 项目地址: https://gitcode.com/GitHub_Trending/la/langgraph LangGraph是一个基于Pregel算法的低层级编排框架࿰…...
LFM2.5-1.2B-Thinking-GGUF应用场景:快速生成产品介绍与文案
LFM2.5-1.2B-Thinking-GGUF应用场景:快速生成产品介绍与文案 1. 为什么选择LFM2.5-1.2B-Thinking生成商业文案 在电商和营销领域,每天需要产出大量产品介绍、广告文案和社交媒体内容。传统人工撰写方式不仅耗时耗力,还难以保持风格一致性。…...
高通Camera开发实战:ION内存与DMA-BUF的跨进程共享机制详解
高通Camera开发实战:ION内存与DMA-BUF的跨进程共享机制详解 在移动影像系统的开发中,内存管理始终是性能优化的核心战场。当Camera HAL层需要处理4K60fps视频流或超高分辨率连拍时,传统的内存拷贝方式会带来难以忍受的性能损耗。ION内存分配器…...
ComfyUI ControlNet预处理器:3步解锁AI绘画的精准控制力
ComfyUI ControlNet预处理器:3步解锁AI绘画的精准控制力 【免费下载链接】comfyui_controlnet_aux ComfyUIs ControlNet Auxiliary Preprocessors 项目地址: https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 还在为AI生成图像时无法精确控制构图而…...
FireRedASR-AED-L实现Python语音识别:从音频到文本的完整教程
FireRedASR-AED-L实现Python语音识别:从音频到文本的完整教程 1. 引言 语音识别技术正在改变我们与设备交互的方式,从智能助手到实时字幕,这项技术已经深入到日常生活的方方面面。今天我要介绍的FireRedASR-AED-L,是一个专门为中…...
OFA图像描述模型实战体验:轻松部署,感受AI看图说话的魔力
OFA图像描述模型实战体验:轻松部署,感受AI看图说话的魔力 1. 项目介绍与核心价值 想象一下,当你看到一张照片时,AI能像人类一样准确描述其中的内容——这就是OFA图像描述模型带来的神奇体验。今天我们要体验的ofa_image-caption…...
26年前端面试新时代,问了几个AI题没人会怎么给offer???
当“你会不会用Copilot”成了第一题,全场沉默的那三秒,我看到了普通前端的末日。上周,朋友圈被一位36岁老哥的帖子刷屏了。他说自己已经摸清了“前端AI”面试的拷打套路,从被问到卡壳,到能跟面试官聊AI工程化的落地细节…...
【国家级生态监测项目实录】:R语言建模结果突变73%偏差?根源竟是R_ENV变量污染!
第一章:【国家级生态监测项目实录】:R语言建模结果突变73%偏差?根源竟是R_ENV变量污染!在某国家级森林碳汇动态监测项目中,团队基于R 4.3.1构建的随机森林回归模型,在生产环境批量预测时突发异常——关键指…...
30KHz调频深度0.5%:用示波器实测SSC扩频时钟的完整指南(以PCIe为例)
30KHz调频深度0.5%:用示波器实测SSC扩频时钟的完整指南(以PCIe为例) 在高速数字系统设计中,电磁干扰(EMI)始终是工程师面临的核心挑战之一。当PCIe 3.0信号以8GT/s速率传输时,时钟信号的谐波辐射…...
【OpenClaw全面解析:从零到精通】第039篇:OpenClaw企业级应用完全指南:从30个场景选择到流程优化
上一篇 [第038篇] OpenClaw v2026.4.7v2026.4.8 深度解析:推理中心、记忆-wiki与多模态编辑能力全面升级 下一篇 未完待续 摘要 OpenClaw企业级应用正在成为2026年企业数字化转型的重要引擎。GitHub上已突破33万Star的这款开源AI Agent框架,通过多智能体…...
