【通俗易懂说模型】反向传播(附多元分类与Softmax函数)

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀深度学习_十二月的猫的博客-CSDN博客💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
目录
1. 前言
2. 多元分类
2.1 softmax函数
2.2 Softmax函数对比Sigmoid函数
3. 反向传播
3.1 反向传播与神经网络
3.2 总体观
3.3 逐级观(数学推理,仅仅想会使用不需要理解)
3.4 反向传播思想总结
4. 梯度反向传播的完整例子
Step1:前向传播
Step2:反向传播
Step3:梯度下降
5. 总结
1. 前言
进入这篇文章之前,想必大家已经阅读过前面的系列文章:【通俗易懂说模型】线性回归(附深度学习、机器学习发展史)-CSDN博客
【通俗易懂说模型】非线性回归和逻辑回归(附神经网络图详细解释)-CSDN博客
通过前面的文章, 猫猫希望友友们对机器学习、深度学习等基础概念,以及发展历史有一个宏观的理解。同时对回归(线性、非线性、逻辑回归)有一个深入的认识。然后接下来,就让我们收拾收拾行囊,准备出发!下一站——多元分类、反向传播🥰🥰~
网络上有很多关于反向传播的文章,但是猫猫看了都不是很满意。之前一遍又一遍看结果就是仍然不能理解。直到最近重新拿起反向传播思考才有更深入的认识,于是打算写这样一篇文章,希望能为大家入门深度学习理解反向传播提供一个全新的思路~~
2. 多元分类
逻辑回归是二元分类,属于多元分类的一种特殊情况。在生活中,多元分类问题十分常见。无论是看完一部电影,给电影评星,还是将一本书归到某一类的书架上,都属于多元分类的问题。这一节,我们就详细介绍如何用神经网络进行多元分类。
2.1 softmax函数
多元分类问题与二元分类问题类似,区别在于用softmax函数替代sigmoid函数。多元分类的神经网络要求输出层的神经元数目与所需分类的类别数保持一致。图3-26展示了多元分类的模型结构。假设分类的类别数为k,那么softmax函数需要输人k个值(n1,n2,...,nk),然后输出k个概率(π1,π2,...,πk)。softmax函数实际上是sigmoid函数的推广。softmax函数将所有分类的分数值(n1,n2,...,nk)转化为概率(π1,π2,...,πk),且各概率的和为1。

softmax函数的数学公式如下:
softmax函数可以巧妙地将多个分类的分数转化为(0,1)的值并且和为1:
2.2 Softmax函数对比Sigmoid函数
Sigmoid函数:
线性神经元的输出为,随后经过一个非线性的sigmoid函数(公式中常把它简写作sign),此函数的图像如下图所示。sigmoid函数的定义域为
,值域为(0,1),表达式为:

Softmax函数:
Softmax函数是用于多类分类问题的激活函数,在多类分类问题中,超过两个类标签则需要类成员关系。对于长度为K的任意实向量,Softmax函数可以将其压缩为长度为K,值在[0,1]范围内,并且向量中元素的总和为1的实向量。
区别:
- Softmax所有分类概率总和为1。
- Sigmoid值是为1这个类的概率a。无论输出结果多大,通过Sigmoid都限制在[0,1]之间。
- Sigmoid另一个类0的概率就是1-a。
3. 反向传播
反向传播算法(BackpropagationAlgorithm),又被业界称为BP算法,是深度神经网络取得成功的奠基石。深度神经网络实际上是多隐含层神经网络,在早期就已经被提出,但是当时没有找到很好的训练方法,使得深度神经网络的强大实力得不到发挥。直到反向传播算法的出现,深度神经网络才得以崭露头角。如今,反向传播是深度神经网络最重要的训练方法。
3.1 反向传播与神经网络
- 神经网络算法很早就被提出来了,但是对于如何找到合适的参数去拟合数据一直是个问题,人工找显然不现实。
- 后面梯度下降算法被提出来,我们也就知道了给出一个模型评价标志——loss。也就可以根据loss将目标改为降低loss从而训练模型参数。这时的问题就在于梯度下降算法需要知道函数的梯度。手工通过法则去计算每一个参数在loss中的梯度是不合适的。
- 反向传播的出现让求解参数的梯度变得非常简单。利用链式法则从函数的输出结果loss,逐级向前传播就可以一级一级求出每一个参数的梯度值。
- 于是神经网络的训练模型才被完全建立起来,神经网络模型才有工作的可能性
3.2 总体观
现在,我们先讨论一个最简单的例子:隐含层的层数为1的神经网络的前向传播及反向传播的过程。如下图所示,我们的前向传播过程为:输入,经过隐含层得到
,再经过输出层得到
,经过损失函数得到损失值
。

接着进行反向传播,为了方便计算和推导,我们定义变量,暂时不去考虑
代表什么。我们可以用一种抽象的方式去审视反向传播的过程,如下图所示。这个过程首先将
作为输入,然后由
反向传播至第3层各节点得到
。
反向传播经过第2层各节点得到
,利用
、
及第2层到第3层之间的权重矩阵
求得梯度值
。接着,
继续反向传播得到
,我们利用
、
及第1层到第2层之间的权重矩阵
可以求得梯度值
。

反向传播的理解:
- 前向传播中一个数据点会生成三个下一层中的中间值。那么在反向传播中,每一个下一层中的中间值都会反向来调整数据点的参数。
- 反向传播本质上是求解参数相对于最终输出Loss的影响大小(梯度)的。
- 上面有一个词用的非常模糊——反向传播。你可能会很疑惑,这个反向传播是怎么工作的,为什么就求出梯度大小了。下面的逐级观将给你答案。
- 总体观只要关注到
即可,不用考虑
具体值是什么,这个值又是如何求解的。
3.3 逐级观(数学推理,仅仅想会使用不需要理解)
上面猫猫展示了反向传播的总体过程,如果你还没有完全理解也没关系,下面我们要探讨每
层的细节。如下图所示,我们将神经网络的第1层作为代表进行观察,第1层的输人是,设第I层到第I+1层之间的权重矩阵为,于是可以将数据经过该层的变换看作函数
的运算。

前向传播的数学表达式如下:
为了方便描述反向传播的过程,我们定义,数学表达如下:
根据微积分的链式法则,可以得到:
上面公式表明想要求解出l层神经元相对于最终输出L的影响度,则需要求解出的值,同时利用后一层也就是l+1层神经元相对于最终输出L的影响度。而
的值就是第l层和第l+1层之间的权重值W,因此核心就在于求出每一层之间的权重。到这里我们就求出了每一个神经元对于输出Loss的梯度。接下去就要思考,这个梯度如何用来更新权重。
知道神经元对于Loss的梯度值后,我们就要根据梯度方向的相反方向去修正神经元的值。修正神经元的值本质就是修正神经元W权重的值。因此为了更新权重,需要计算出损失函数关于神经网络内每个权重的梯度,损失函数关于第l层到第I+1层之间权重矩阵的梯度为:
再来看下图,假设我们要修正,此时就需要知道
对于L的梯度。这个梯度的求解就要利用到
、
、
,而这些我们都是已知的,因此这个梯度
就是已知的,那么就可以根据梯度下降法去梯度更新
的值了。

3.4 反向传播思想总结
网络上有许多关于反向传播的总结,基本都是带大家走一遍反向传播的流程。这样做自然有它的用处,但是猫猫发现很多时候我们都是走的时候能够看懂,但是让自己写一遍就不能理解了。究其原因就是仅仅知其然,并没有知其所以然。于是我想了这样一个角度去理解反向传播——总体观 和 局部观(逐级观)
总体观想要告诉我们:
- 反向传播从输出值Loss向前面逐级传播。
- 反向传播研究的是神经元相对于输出Loss的梯度(影响程度),也就是
。
- 总体观要给我们灌输一个思想:神经元对于Loss的梯度本质上就是权重W对于Loss的梯度。
- 前向传播一个第l层的神经元会参与计算第l+1层所有的神经元。因此反向传播时,所有第l+1层的神经元会反向作用于这个第l层的神经元,影响它的参数变化。
局部观想要告诉我们:
- 为什么神经元对于Loss的梯度本质上就是权重W对于Loss的梯度?
- 权重W对于Loss的梯度是多少?
- 所有第l+1层的神经元会反向作用于这个第l层的神经元,影响它的参数变化
- 链式法则的运用使得梯度可以逐层传播
4. 梯度反向传播的完整例子
现在我们用一个例子来讲解BP,如下图所示,我们选取的例子是最简单的feed forward neural network,它有两层,输入层有两个神经元 x1,x2,隐藏层有两个神经元 h1,h2,最终输出只
有一个神经元y,各个神经元之间全连接。为了直观起见,我们给各个参数赋上具体的数值。我
们令下x1=1,x2=0.5,然后我们令W1,W2,W3,W4的真实值分别是1,2,3,4,令W5,W6的真实值是0.5,0.6。这样我们可以算出 y的真实目标值是t= 4。

那么为了模拟一个Back Propagation的过程,我们假设我们只知道 x1=1,x2=0.5 ,以及对应的目标 t=4 。我们不知道 w1,w2,w3,w4,w5,w6 的真实值,现在我们需要随机为他们初始化值,假设我们的随机化结果是 w1=0.5,w2=1.5,w3=2.3,w4=3,w5=1,w6=1 。下面我们就开始来一步步进行Back Propagation吧。
Step1:前向传播
首先,在计算反向传播之前我们需要计算Feed Forward Pass,也即是预测的 h1,h2,y 和误差项 E ,其中 。根据网络结构示意图,各个变量的计算公式为:

Step2:反向传播
现在Feed Forward Pass算完了,我们来计算Backward Pass。 y 是神经网络预测的值,真实的输出是 t=4 。那么,要更新 w5 的值我们就要算 ,根据链式法则有:
因为 ,所以:
而,所以 :
把上面两项相乘我们得到:
Step3:梯度下降
运用之前梯度下降法的公式更新 w5 ,得到新的 w5’ 。其中我们假设 η=0.1 (并且后面所有的 η 都等于 0.1 ):
同理,我们可以按照相同的步骤计算 w6' 的更新公式:
下面我们再来看 w1,w2,w3,w4 ,由于这四个参数在同一层,所以求梯度的方法是相同的,因此我们这里仅展示对 w1 的推导。根据链式法则:
其中 在求
的时候已经求过了。而根据
我们可以得到:
又根据 h1=w1⋅x1+w2⋅x2 我们可以得到:
因此我们有下面的公式:
现在我们代入数字并使用梯度下降法更新 w1
然后重复这个步骤更新w2、w3、w4
现在我们已经更新了所有的梯度,完成了一次梯度下降法。我们用得到的新的 w+ 再来预测一次网络输出值,根据Feed Forward Pass得到 y’=3.1768 ,那么新的误差是 E‘=0.3388 ,相比于之前的 E=0.55125 确实是下降了呢,说明我们的模型预测稍微准了一点。只要重复这个步骤,不断更新网络参数我们就能学习到更准确的模型啦。
5. 总结
如果想要学习更多深度学习知识,大家可以点个关注并订阅,持续学习、天天进步
你的点赞就是我更新的动力,如果觉得对你有帮助,辛苦友友点个赞,收个藏呀~~~

相关文章:
【通俗易懂说模型】反向传播(附多元分类与Softmax函数)
🌈 个人主页:十二月的猫-CSDN博客 🔥 系列专栏: 🏀深度学习_十二月的猫的博客-CSDN博客 💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 目录 1. 前言 2. …...
SQL Server查询计划操作符(7.3)——查询计划相关操作符(6)
7.3. 查询计划相关操作符 48)Key Lookup:该操作符对一个有簇索引的表进行书签查找。参数列包含簇索引的名字和用于查找簇索引中数据行的簇键。该操作符总是伴随一个Nested Loops操作符。如果其参数列中出现WITH PREFETCH子句,则查询处理器已决定使用异步预取(预读,read-ah…...
计算机视觉的研究方向、发展历程、发展前景介绍
以下将分别从图像分类、目标检测、语义分割、图像分割(此处应主要指实例分割)四个方面,为你介绍研究生人工智能计算机视觉领域的应用方向、发展历程以及发展前景。 文章目录 1.图像分类应用方向发展历程发展前景 2.目标检测应用方向发展历程…...
反转字符串-双指针法,
在 Java 中,使用 双指针法 反转字符串是一种高效且直观的方法。以下是详细的解析和代码实现。 1. 双指针法的核心思想 使用两个指针:一个指向字符串的起始位置(left),另一个指向字符串的末尾位置(right&…...
亚博microros小车-原生ubuntu支持系列 27、手掌控制小车运动
背景知识 本节跟上一个测试类似:亚博microros小车-原生ubuntu支持系列:26手势控制小车基础运动-CSDN博客 都是基于MediaPipe hands做手掌、手指识别的。 为了方便理解,在贴一下手指关键点分布。手掌位置就是靠第9点来识别的。 2、程序说明…...
STM32 HAL库 CANbus通讯(C语言)
#include "main.h" #include "stm32f1xx_hal.h"CAN_HandleTypeDef hcan; CAN_TxHeaderTypeDef TxHeader; CAN_RxHeaderTypeDef RxHeader; uint8_t TxData[8]; uint8_t RxData[8]; uint32_t TxMailbox;void CAN_Init(void) {// 使能CAN时钟__HAL_RCC_CAN1_C…...
ML.NET库学习005:基于机器学习的客户细分实现与解析
文章目录 ML.NET库学习005:基于机器学习的客户细分实现与解析项目主要目的和原理目的原理 项目概述实现的主要功能主要流程步骤使用的主要函数方法关键技术 主要功能和步骤功能详细解读详细步骤解析 数据集及其处理步骤数据集处理步骤关键处理步骤原理1. 数据清洗与…...
(2/100)每日小游戏平台系列
新增一个猜单词小游戏! ------------------------------------------------------------------------------------------------------------------ 猜单词游戏玩法 游戏规则: 游戏会从一个预设的单词列表中随机选择一个单词。玩家有 6 次机会来猜测单…...
【Linux Oracle】杂货铺 日常实用2024
1.跨服务器移动文件 passwd=^T^bxxxx `/usr/bin/expect <<-EOF set timeout -1 spawn scp -r ${BATCH_TIME} sxnhtc@192.168.3.x:${EXP_MCRO_DIR}/ expect "*password:" send "$passwd\r" interact expect eof EOF` curl -k -X GET https://192.16…...
浏览器的缓存方式几种
浏览器的缓存方式主要分为以下几种: 1. 强制缓存(强缓存 / Memory Cache & Disk Cache) 通过 Expires 或 Cache-Control 头部控制。在缓存有效期内,浏览器直接使用缓存,不发起请求。 关键HTTP头: Ex…...
黑马React保姆级(PPT+笔记)
目录 一、react基础 1.进程 2、优势 3、市场 4、搭建脚手架 认识目录 核心依赖(右边两个react) 去除非必要 运行原理: 总结 5、JSX 本质 高频场景 注意编辑 渲染列表 总结 条件渲染 简单情况 复杂情况 事件绑定&#x…...
2025web寒假作业二
一、整体功能概述 该代码构建了一个简单的后台管理系统界面,主要包含左侧导航栏和右侧内容区域。左侧导航栏有 logo、管理员头像、导航菜单和安全退出按钮;右侧内容区域包括页头、用户信息管理内容(含搜索框和用户数据表格)以及页…...
三、OSG学习笔记-应用基础
前一章节:二、OSG学习笔记-入门开发-CSDN博客https://blog.csdn.net/weixin_36323170/article/details/145513874 一、 OsgGA: 界面事件处理空间,处理操作各种操作器的最大名字空间; GUIEventHandler: ui 事件操作类 注意:在启…...
CTFHub-RCE系列wp
目录标题 引言什么是RCE漏洞 eval执行文件包含文件包含php://input读取源代码远程包含 命令注入无过滤过滤cat过滤空格过滤目录分隔符过滤运算符综合过滤练习 引言 题目共有如下类型 什么是RCE漏洞 RCE漏洞,全称是Remote Code Execution漏洞,翻译成中文…...
Linux ping不通百度但浏览器可以打开百度的的解决方法
问题描述:使用ping命令ping www.baidu.com,提示的地址为ipv6地址,但该地址ping不通,但使用浏览器直接打开百度网址可以打开。 问题可能的原因:(1)虚拟机上ipv6为自动模式,影响了ipv4寻址&#…...
Redis中的某一热点数据缓存过期了,此时有大量请求访问怎么办?
1、提前设置热点数据永不过期 2、分布式中用redis分布式锁(锁可以在多个 JVM 实例之间协调)、单体中用synchronized(锁只在同一个 JVM 内有效) 编写服务类 import com.redisson.api.RLock; import com.redisson.api.RedissonCli…...
低成本+高性能+超灵活!Deepseek 671B+Milvus重新定义知识库搭建
“老板说,这个项目得上Deepseek,还得再做个知识库...” 还有哪个开发者,最近没听到这样的抱怨? Deepseek爆火,推理端的智能提速,算力成本急剧下降,让不少原本不想用大模型,用不起大模型的企业&a…...
TCP服务器与客户端搭建
一、思维导图 二、给代码添加链表 【server.c】 #include <stdio.h> #include <sys/socket.h> #include <sys/types.h> #include <fcntl.h> #include <arpa/inet.h> #include <unistd.h> #include <stdlib.h> #include <string.…...
PDF 文件的安全功能概述
由于安全问题始终存在,我们希望重点介绍 PDF 文件格式提供的一些安全功能。如果您希望控制或限制用户可以执行的操作,这些功能可以启用。本文将介绍可以阻止哪些类型的操作,以及可以实施哪些不同的身份验证技术来提高 PDF 的安全性。 可以控制…...
在Linux上部署Jenkins的详细指南
引言 在当今快速迭代的软件开发环境中,持续集成和持续交付(CI/CD)变得越来越重要。Jenkins作为一个开源自动化服务器,能够帮助开发者更高效地进行代码集成、测试和部署。本文将详细介绍如何在Linux系统上安装和配置Jenkins。 准…...
第19节 Node.js Express 框架
Express 是一个为Node.js设计的web开发框架,它基于nodejs平台。 Express 简介 Express是一个简洁而灵活的node.js Web应用框架, 提供了一系列强大特性帮助你创建各种Web应用,和丰富的HTTP工具。 使用Express可以快速地搭建一个完整功能的网站。 Expre…...
阿里云ACP云计算备考笔记 (5)——弹性伸缩
目录 第一章 概述 第二章 弹性伸缩简介 1、弹性伸缩 2、垂直伸缩 3、优势 4、应用场景 ① 无规律的业务量波动 ② 有规律的业务量波动 ③ 无明显业务量波动 ④ 混合型业务 ⑤ 消息通知 ⑥ 生命周期挂钩 ⑦ 自定义方式 ⑧ 滚的升级 5、使用限制 第三章 主要定义 …...
相机Camera日志实例分析之二:相机Camx【专业模式开启直方图拍照】单帧流程日志详解
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了: 这一篇我们开始讲: 目录 一、场景操作步骤 二、日志基础关键字分级如下 三、场景日志如下: 一、场景操作步骤 操作步…...
【位运算】消失的两个数字(hard)
消失的两个数字(hard) 题⽬描述:解法(位运算):Java 算法代码:更简便代码 题⽬链接:⾯试题 17.19. 消失的两个数字 题⽬描述: 给定⼀个数组,包含从 1 到 N 所有…...
Web 架构之 CDN 加速原理与落地实践
文章目录 一、思维导图二、正文内容(一)CDN 基础概念1. 定义2. 组成部分 (二)CDN 加速原理1. 请求路由2. 内容缓存3. 内容更新 (三)CDN 落地实践1. 选择 CDN 服务商2. 配置 CDN3. 集成到 Web 架构 …...
技术栈RabbitMq的介绍和使用
目录 1. 什么是消息队列?2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...
计算机基础知识解析:从应用到架构的全面拆解
目录 前言 1、 计算机的应用领域:无处不在的数字助手 2、 计算机的进化史:从算盘到量子计算 3、计算机的分类:不止 “台式机和笔记本” 4、计算机的组件:硬件与软件的协同 4.1 硬件:五大核心部件 4.2 软件&#…...
从面试角度回答Android中ContentProvider启动原理
Android中ContentProvider原理的面试角度解析,分为已启动和未启动两种场景: 一、ContentProvider已启动的情况 1. 核心流程 触发条件:当其他组件(如Activity、Service)通过ContentR…...
mac:大模型系列测试
0 MAC 前几天经过学生优惠以及国补17K入手了mac studio,然后这两天亲自测试其模型行运用能力如何,是否支持微调、推理速度等能力。下面进入正文。 1 mac 与 unsloth 按照下面的进行安装以及测试,是可以跑通文章里面的代码。训练速度也是很快的。 注意…...
Docker拉取MySQL后数据库连接失败的解决方案
在使用Docker部署MySQL时,拉取并启动容器后,有时可能会遇到数据库连接失败的问题。这种问题可能由多种原因导致,包括配置错误、网络设置问题、权限问题等。本文将分析可能的原因,并提供解决方案。 一、确认MySQL容器的运行状态 …...
