当前位置: 首页 > news >正文

【机器学习:十九、反向传播】

1. 计算图和导数

计算图的概念
计算图(Computation Graph)是一种有向无环图,用于表示数学表达式中的计算过程。每个节点表示一个操作或变量,每条边表示操作的依赖关系。通过计算图,可以轻松理解和实现反向传播。

计算图的意义

  • 直观地展示复杂计算过程。
  • 支持自动微分,通过链式规则计算导数。
  • 应用于神经网络中梯度的高效计算。

例如,对于函数 z = ( x + y ) ⋅ w z = (x + y) \cdot w z=(x+y)w ,其计算图包括三个节点(加法、乘法、输入变量)和两条边。

2. 计算代价函数的偏导 - 单神经元

代价函数的定义
代价函数衡量模型输出与真实值之间的差距,例如平方误差:

L = 1 2 ( y − y ^ ) 2 L = \frac{1}{2} (y - \hat{y})^2 L=21(yy^)2

其中, y ^ \hat{y} y^ 是模型输出, y y y 是目标值。

单神经元的导数推导
假设输出为 y ^ = σ ( w x + b ) \hat{y} = \sigma(wx + b) y^=σ(wx+b) ,其中 σ \sigma σ 是激活函数(如 Sigmoid),导数计算如下:

  1. 对于权重 w w w
    ∂ L ∂ w = ∂ L ∂ y ^ ⋅ ∂ y ^ ∂ z ⋅ ∂ z ∂ w \frac{\partial L}{\partial w} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial w} wL=y^Lzy^wz

  2. 对于偏置 b b b
    ∂ L ∂ b = ∂ L ∂ y ^ ⋅ ∂ y ^ ∂ z ⋅ ∂ z ∂ b \frac{\partial L}{\partial b} = \frac{\partial L}{\partial \hat{y}} \cdot \frac{\partial \hat{y}}{\partial z} \cdot \frac{\partial z}{\partial b} bL=y^Lzy^bz

意义
通过计算偏导数,可以更新参数 w w w b b b 以最小化损失函数。

3. 链导法则求导

链导法则是反向传播的核心,其定义如下:

∂ L ∂ x = ∂ L ∂ y ⋅ ∂ y ∂ x \frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot \frac{\partial y}{\partial x} xL=yLxy

步骤

  1. 先计算从输出到隐藏层的梯度。
  2. 再计算从隐藏层到输入的梯度。

例如,对于两层网络的损失函数 L = f ( g ( x ) ) L = f(g(x)) L=f(g(x)) ,使用链导法则:

∂ L ∂ x = ∂ f ∂ g ⋅ ∂ g ∂ x \frac{\partial L}{\partial x} = \frac{\partial f}{\partial g} \cdot \frac{\partial g}{\partial x} xL=gfxg

4. 过程解释

反向传播过程包括以下步骤:

  1. 前向传播:计算网络输出和损失函数。
  2. 反向传播:从输出层开始,逐层计算梯度。
  3. 更新参数:使用梯度下降或其变体更新参数。

假设两层网络的权重为 W 1 W_1 W1 W 2 W_2 W2 ,反向传播过程为:

  1. 计算输出层梯度 δ 2 \delta_2 δ2
    δ 2 = ∂ L ∂ z 2 = ∂ L ∂ y ^ ⋅ σ ′ ( z 2 ) \delta_2 = \frac{\partial L}{\partial z_2} = \frac{\partial L}{\partial \hat{y}} \cdot \sigma'(z_2) δ2=z2L=y^Lσ(z2)

  2. 计算隐藏层梯度 δ 1 \delta_1 δ1
    δ 1 = ( δ 2 ⋅ W 2 T ) ⋅ σ ′ ( z 1 ) \delta_1 = (\delta_2 \cdot W_2^T) \cdot \sigma'(z_1) δ1=(δ2W2T)σ(z1)

  3. 更新权重和偏置:
    W 2 = W 2 − α ⋅ δ 2 ⋅ h 1 T W_2 = W_2 - \alpha \cdot \delta_2 \cdot h_1^T W2=W2αδ2h1T

    W 1 = W 1 − α ⋅ δ 1 ⋅ x T W_1 = W_1 - \alpha \cdot \delta_1 \cdot x^T W1=W1αδ1xT

5. 神经网络中的反向传播

多层网络中的反向传播
多层网络通过将链导法则逐层应用,从输出层反向传播至输入层。每层的梯度依赖于后一层的梯度。

实现代码示例

import numpy as np# 定义激活函数及其导数
def sigmoid(x):return 1 / (1 + np.exp(-x))def sigmoid_derivative(x):return sigmoid(x) * (1 - sigmoid(x))# 前向传播
x = np.array([1, 2])  # 输入
w1 = np.array([[0.1, 0.2], [0.3, 0.4]])  # 权重
b1 = np.array([0.5, 0.5])  # 偏置
z1 = np.dot(w1, x) + b1
a1 = sigmoid(z1)# 反向传播
delta = (a1 - 1) * sigmoid_derivative(z1)
grad_w1 = np.outer(delta, x)

6. 计算代价函数的偏导 - 两层神经网络

两层神经网络的反向传播在单层基础上扩展,每层分别计算:

∂ L ∂ W 1 , ∂ L ∂ W 2 , ∂ L ∂ b 1 , ∂ L ∂ b 2 \frac{\partial L}{\partial W_1}, \frac{\partial L}{\partial W_2}, \frac{\partial L}{\partial b_1}, \frac{\partial L}{\partial b_2} W1L,W2L,b1L,b2L

总结与意义
反向传播是神经网络训练的核心,通过计算梯度并更新参数,使得网络能够有效学习复杂的映射关系,从而提高模型的泛化能力。

相关文章:

【机器学习:十九、反向传播】

1. 计算图和导数 计算图的概念 计算图(Computation Graph)是一种有向无环图,用于表示数学表达式中的计算过程。每个节点表示一个操作或变量,每条边表示操作的依赖关系。通过计算图,可以轻松理解和实现反向传播。 计算…...

线形回归与小批量梯度下降实例

1、准备数据集 import numpy as np import matplotlib.pyplot as pltfrom torch.utils.data import DataLoader from torch.utils.data import TensorDataset######################################################################### #################准备若干个随机的x和…...

SpringCloud微服务:基于Nacos组件,整合Dubbo框架

dubbo和fegin的差异 一、Feign与Dubbo概述 Feign是一个声明式的Web服务客户端,使得编写HTTP客户端变得更简单。通过简单的注解,Feign将自动生成HTTP请求,使得服务调用更加便捷。而Dubbo是一个高性能、轻量级的Java RPC框架,提供了…...

Golang 简要概述

文章目录 1. Golang 的学习方向2. Golang 的应用领域2.1 区块链的应用开发2.2 后台的服务应用2.3 云计算/云服务后台应用 1. Golang 的学习方向 Go 语言,我们可以简单的写成 Golang 2. Golang 的应用领域 2.1 区块链的应用开发 2.2 后台的服务应用 2.3 云计算/云服…...

web前端第三次作业---制作可提交的用户注册表

制作可提交的用户注册表: 代码: <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</tit…...

教育邮箱的魔力:免费获取Adobe和JetBrains软件

今天想和大家聊聊一个超级实用的话题——如何利用Edu教育邮箱来免费获取Photoshop等Adobe系列软件&#xff0c;以及JetBrains的各种开发工具。 Edu邮箱的价值 首先&#xff0c;Edu邮箱真的是个宝藏&#xff01;如果你在学校或教育机构注册过&#xff0c;通常会获得一个这样的…...

sympy常用函数与错误笔记

文章目录 前言一、sympy基本函数介绍变量定义1. sp.Symbol("x") 或 sp.symbols("m n")2. sp.Function("y")3. func(x).diff(x, n) 定义方程与求解符号1. sp.Eq(lhs, rhs)2. 求解函数&#xff08;*代表了常用且重要&#xff0c;其他部分作为拓展&…...

47_Lua文件IO操作

文件I/O(Input/Output)操作在Lua中用于与外部文件进行交互,包括读取文件中的数据和将数据写入文件。Lua提供了两种模式来进行文件操作:简单模式和完全模式。下面将详细介绍这两种模式的基本使用。 1.简单模式 1.1 简单模式介绍 简单模式提供了基本的文件操作功能,它主要…...

nginx-lua模块处理流程

一. 简述&#xff1a; nginx的模块化设计使得每一个http模块可以只专注于完成一个独立的&#xff0c;简单的功能。一个请求的完整处理过程可以由多个http模块共同协作完成&#xff0c;这种设计具有简单性&#xff0c;测试性&#xff0c;扩展性&#xff0c;灵活性。关于nginx 的…...

【大数据】机器学习-----最开始的引路

以下是关于机器学习的一些基本信息&#xff0c;包括基本术语、假设空间、归纳偏好、发展历程、应用现状和代码示例&#xff1a; 一、基本术语 样本&#xff08;Sample&#xff09;&#xff1a; 也称为实例&#xff08;Instance&#xff09;或数据点&#xff08;Data Point&…...

【前端】自学基础算法 -- 21.图的广度优先搜索

图的广度优先搜索 简介 图的广度优先搜索&#xff0c;沿着图的宽度遍历图的节点&#xff0c;先访问离起始节点最近的节点&#xff0c;然后逐渐向外扩展。 基本步骤&#xff1a; 选择一个起始节点作为当前节点。将当前节点加入队列。当队列不为空时&#xff0c;重复以下步骤…...

ChatGPT与Claude AI:两大生成式对话模型的比较分析

自ChatGPT推出以来&#xff0c;这款强大的AI聊天机器人迅速吸引了全球的关注。其出色的对话能力和多样化的应用场景&#xff0c;成为许多人初次体验基于大规模语言模型的潜力。然而&#xff0c;在这个快速发展的领域中&#xff0c;另一款AI也在悄然崭露头角&#xff0c;那就是由…...

前端开发:盒子模型、块元素

1.border边框 *{box-sizing:border-box; } //使所有边框不再撑大盒子模型 粗细 : border-width 样式 : border-style, 默认没边框 . solid 实线边框 dashed 虚线边框 dotted 点线边框 颜色 : border-color div { width : 200px ; height : 200px ; border : …...

升级 CentOS 7.x 系统内核到 4.4 版本

问题描述 在 CentOS 7.x 系统中&#xff0c;默认内核版本是 3.10.x&#xff0c;这个版本可能会带来一些与 Docker 和 Kubernetes 兼容性的问题&#xff0c;导致系统性能不稳定或功能异常。为了提高系统的稳定性和兼容性&#xff0c;建议升级到更高版本的内核&#xff0c;例如 …...

播放音频文件同步音频文本

播放音频同步音频文本 对应单个文本高亮显示 使用audio音频文件对应音频文本资源 音频文本内容&#xff08;Json&#xff09; [{"end": 4875,"index": 0,"speaker": 0,"start": 30,"text": "70号二啊,","tex…...

springboot使用Easy Excel导出列表数据为Excel

springboot使用Easy Excel导出列表数据为Excel Easy Excel官网&#xff1a;https://easyexcel.opensource.alibaba.com/docs/current/quickstart/write 主要记录一下引入时候的pom&#xff0c;直接引入会依赖冲突 解决方法&#xff1a; <!-- 引入Easy Excel的依赖 -->&l…...

day07_Spark SQL

文章目录 day07_Spark SQL课程笔记一、今日课程内容二、Spark SQL函数定义&#xff08;掌握&#xff09;1、窗口函数2、自定义函数背景2.1 回顾函数分类标准:SQL最开始是_内置函数&自定义函数_两种 2.2 自定义函数背景 3、Spark原生自定义UDF函数3.1 自定义函数流程&#x…...

高性能现代PHP全栈框架 Spiral

概述 Spiral Framework 诞生于现实世界的软件开发项目是一个现代 PHP 框架&#xff0c;旨在为更快、更清洁、更卓越的软件开发提供动力。 特性 高性能 由于其设计以及复杂精密的应用服务器&#xff0c;Spiral Framework框架在不影响代码质量以及与常用库的兼容性的情况下&a…...

LeetCode - #182 Swift 实现找出重复的电子邮件

网罗开发 &#xff08;小红书、快手、视频号同名&#xff09; 大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等…...

《解锁鸿蒙Next系统人工智能语音助手开发的关键步骤》

在当今数字化时代&#xff0c;鸿蒙Next系统与人工智能的融合为开发者带来了前所未有的机遇&#xff0c;开发一款人工智能语音助手应用更是备受关注。以下是在鸿蒙Next系统上开发人工智能语音助手应用的关键步骤&#xff1a; 环境搭建与权限申请 安装开发工具&#xff1a;首先需…...

Linux进程(下)

上一篇文章介绍了进程的概念和进程的状态&#xff0c;但进程的知识还有很多&#xff0c;本文继续进行讲解。进程的管理指令之前提到过许多对进程进行管理的指令&#xff0c;但没有进行讲解&#xff0c;在这里统一聊聊。核心指令有四个 ps&#xff0c;top&#xff0c;kill&#…...

统一电能质量变换器(UPQC)Matlab/simulink仿真,ip-iq检测,电压电流补偿

统一电能质量变换器&#xff08;UPQC&#xff09;Matlab/simulink仿真&#xff0c;ip-iq检测&#xff0c;电压电流补偿&#xff0c;软件版本matlab2016最近在实验室折腾统一电能质量变换器&#xff08;UPQC&#xff09;的仿真&#xff0c;发现Matlab2016的Simulink真是个好东西…...

Go接口interface与鸭子类型

Go语言中的接口与鸭子类型编程 在编程世界中&#xff0c;Go语言的接口&#xff08;interface&#xff09;和鸭子类型&#xff08;Duck Typing&#xff09;是两种灵活而强大的设计模式。它们通过解耦类型与行为&#xff0c;让代码更具扩展性和可维护性。Go的接口不同于其他语言…...

新手福音:通过快马平台零代码基础玩转picoclaw机器人板

作为一个刚接触嵌入式开发的新手&#xff0c;拿到picoclaw控制器时既兴奋又忐忑。这块小小的板子能控制电机、读取传感器&#xff0c;但如何让它动起来却让我一头雾水。好在发现了InsCode(快马)平台&#xff0c;不需要从零开始啃文档&#xff0c;就能快速生成可运行的示例代码。…...

用JSP+Servlet实现图书管理系统:从登录验证到CRUD完整流程

基于JSPServlet的图书管理系统实战开发指南 在当今企业级应用开发中&#xff0c;Java Web技术栈依然是构建稳健后台系统的首选方案之一。本文将带您从零开始&#xff0c;通过开发一个功能完整的图书管理系统&#xff0c;深入掌握JSPServlet的核心技术组合。不同于简单的CRUD示例…...

避坑指南:Ecology9流程创建失败的7个常见错误及解决方案(附调试技巧)

Ecology9流程创建失败的7个典型陷阱与深度解决方案 1. 权限配置&#xff1a;被忽视的系统级限制 权限问题往往是流程创建失败的首要原因。许多实施顾问只关注表面错误提示&#xff0c;却忽略了系统底层的权限体系设计。Ecology9的权限控制分为三个层级&#xff1a; 组织架构权限…...

Webpack开发者必备的25个工具:Awesome-Webpack终极工具集合指南 [特殊字符]

Webpack开发者必备的25个工具&#xff1a;Awesome-Webpack终极工具集合指南 &#x1f680; 【免费下载链接】awesome-webpack A curated list of awesome Webpack resources, libraries and tools 项目地址: https://gitcode.com/gh_mirrors/aw/awesome-webpack 作为现代…...

贪心算法解决区间问题:合并、选点、覆盖、最大不相交

一、前言 区间问题是贪心算法中的高频考点&#xff0c;而贪心算法是解决这类问题的 “黄金搭档”。本文将系统讲解基于贪心算法的四类经典区间问题&#xff1a;区间合并、区间选点、区间覆盖、最大不相交区间数量&#xff0c;帮助你彻底掌握这类问题的解题思路。 二、核心思想…...

告别虚拟机:在Mac/Windows本地用Docker快速拉起StarRocks测试环境

告别虚拟机&#xff1a;在Mac/Windows本地用Docker快速拉起StarRocks测试环境 当我们需要快速验证一个数据库的功能特性时&#xff0c;传统方式往往需要在虚拟机或物理机上经历繁琐的安装配置过程。对于StarRocks这样的分布式分析型数据库&#xff0c;传统部署方式更是需要准备…...

中国象棋智能辅助系统:视觉识别驱动的开源解决方案

中国象棋智能辅助系统&#xff1a;视觉识别驱动的开源解决方案 【免费下载链接】VinXiangQi Xiangqi syncing tool based on Yolov5 / 基于Yolov5的中国象棋连线工具 项目地址: https://gitcode.com/gh_mirrors/vi/VinXiangQi 在数字化对弈场景中&#xff0c;传统象棋辅…...