当前位置: 首页 > article >正文

GRU 参数梯度推导与梯度消失分析

GRU 参数梯度推导与梯度消失分析

1. GRU 前向计算回顾

GRU 单元的核心计算步骤(忽略偏置项):

更新门:    z_t = σ(W_z · [h_{t-1}, x_t])
重置门:    r_t = σ(W_r · [h_{t-1}, x_t])
候选状态:  ̃h_t = tanh(W_h · [r_t ⊙ h_{t-1}, x_t])
新状态:    h_t = (1 - z_t) ⊙ h_{t-1} + z_t ⊙ ̃h_t

其中 σ 为 sigmoid 函数, 表示逐元素乘法。

2. 关键梯度推导(以 ∂L/∂W_h 为例)

设时间 T 的损失为 L。需计算 ∂L/∂W_h(影响候选状态 ̃h_t)。

反向传播从 h_t 开始:

∂L/∂h_t = δ_t  // 从更高层或损失函数接收的梯度

h_t̃h_t 的梯度:

∂h_t/∂̃h_t = diag(z_t)  // 对角矩阵,元素为 z_t

̃h_tW_h 的梯度:

̃h_t = tanh(W_h · [r_t ⊙ h_{t-1}, x_t])
∂̃h_t/∂W_h = [∂̃h_t/∂(W_h · in)] · [∂(W_h · in)/∂W_h] = diag(tanh'(net_h)) · [r_t ⊙ h_{t-1}, x_t]^T

其中 net_h = W_h · [r_t ⊙ h_{t-1}, x_t]

合并得 ∂L/∂W_h

∂L/∂W_h = (∂L/∂h_t) · (∂h_t/∂̃h_t) · (∂̃h_t/∂W_h)= δ_t^T · diag(z_t) · diag(tanh'(net_h)) · [r_t ⊙ h_{t-1}, x_t]^T= [δ_t ⊙ z_t ⊙ tanh'(net_h)] · [r_t ⊙ h_{t-1}, x_t]^T

3. 时间反向传播与梯度消失分析

损失 L 对历史状态 h_k (k < t) 的梯度是分析梯度消失的关键:

∂L/∂h_k = ∂L/∂h_t · (∂h_t/∂h_k)

计算 ∂h_t/∂h_k(核心路径):

h_t = (1 - z_t) ⊙ h_{t-1} + z_t ⊙ ̃h_t
̃h_t = tanh(W_h · [r_t ⊙ h_{t-1}, x_t])

展开递归关系:

∂h_t/∂h_k = ∏_{i=k+1}^{t} ∂h_i/∂h_{i-1}

∂h_i/∂h_{i-1} 的具体形式:

∂h_i/∂h_{i-1} = diag(1 - z_i) +  // 直接传递项diag(z_i ⊙ tanh'(net_{h_i})) · W_h^h · diag(r_i) + // 候选状态路径(∂h_i/∂z_i) · (∂z_i/∂h_{i-1}) + // 更新门路径(∂h_i/∂r_i) · (∂r_i/∂h_{i-1})   // 重置门路径

其中 W_h^hW_h 中对应 h_{i-1} 的子矩阵。

4. GRU 如何避免梯度消失

GRU 通过以下机制有效缓解梯度消失:

✅ 1. 加性状态更新
h_t = (1 - z_t) ⊙ h_{t-1} + z_t ⊙ ̃h_t
  • 梯度路径多样性:梯度可通过两条路径传播:
    • (1 - z_t) ⊙ h_{t-1} → 梯度乘以 (1 - z_t)
    • z_t ⊙ ̃h_t → 梯度乘以 z_t
  • 无损传播通道:当 z_t ≈ 0 时,h_t ≈ h_{t-1},梯度直接传递:
    ∂h_t/∂h_{t-1} ≈ I (单位矩阵)
    
    此时梯度可跨时间步无损传播,类似残差连接。
✅ 2. 门控机制调节
  • 更新门 z_t 的作用
    • z_t ≈ 0:模型保留历史信息,梯度主要走 (1 - z_t) 路径。
    • z_t ≈ 1:模型重置状态,梯度来自当前输入(避免旧信息干扰)。
  • 重置门 r_t 的作用
    • 控制历史状态 h_{t-1} 对候选状态 ̃h_t 的影响:
      ̃h_t = tanh(W_h · [r_t ⊙ h_{t-1}, x_t])
      
    • r_t ≈ 0 时,h_{t-1} 不影响 ̃h_t,适合忽略无关历史。
✅ 3. 梯度幅度分析

∂h_i/∂h_{i-1} 的主项为 diag(1 - z_i)

  • 该矩阵特征值接近 1(因 z_i ∈ (0,1)1 - z_i ∈ (0,1))。
  • 乘积 ∏_{i} (1 - z_i) 不会指数级衰减到 0(除非所有 z_i ≈ 1,但罕见)。

📊 与传统RNN对比
传统RNN:h_t = tanh(W·[h_{t-1}, x_t])∂h_t/∂h_{t-1} = diag(tanh'(...)) · W
梯度包含 W 的连乘,若 |W| < 1 则指数衰减。

5. 效果总结

机制效果
加性更新提供低衰减梯度路径 (∂h_t/∂h_{t-1} ≈ I),避免连乘权重矩阵
更新门 (z_t)自适应选择梯度来源:历史状态 (梯度保持) 或新输入 (及时更新)
重置门 (r_t)控制历史信息对当前候选状态的影响,防止无关历史干扰梯度计算
门控导数有界sigmoid 导数最大值为 0.25,但加性路径的 (1 - z_t) 项主导,整体梯度更稳定

结论

GRU 通过门控加性状态更新,在参数梯度计算中引入了近似恒等映射的路径(当 z_t ≈ 0 时)。这使其梯度 ∂h_t/∂h_k 的衰减速度远低于传统RNN,显著缓解了梯度消失问题,尤其适用于学习长序列依赖。实验表明,GRU 在语言建模、机器翻译等任务中能有效捕捉超过 100 步的依赖关系。

相关文章:

GRU 参数梯度推导与梯度消失分析

GRU 参数梯度推导与梯度消失分析 1. GRU 前向计算回顾 GRU 单元的核心计算步骤&#xff08;忽略偏置项&#xff09;&#xff1a; 更新门: z_t σ(W_z [h_{t-1}, x_t]) 重置门: r_t σ(W_r [h_{t-1}, x_t]) 候选状态: ̃h_t tanh(W_h [r_t ⊙ h_{t-1}, x_t]) 新…...

针对KG的神经符号集成综述 两篇

帖子最后有五篇综述的总结。 综述1 24年TKDD 系统性地概述了神经符号知识图谱推理领域的进展、技术和挑战。首先介绍了知识图谱&#xff08;KGs&#xff09;和符号逻辑的基本概念&#xff0c;知识图谱被视为表示、存储和有效管理知识的关键工具&#xff0c;它将现实世界的知识…...

RabbitMQ和MQTT区别与应用

RabbitMQ与MQTT深度解析&#xff1a;协议、代理、差异与应用场景 I. 引言 消息队列与物联网通信的重要性 在现代分布式系统和物联网&#xff08;IoT&#xff09;生态中&#xff0c;高效、可靠的通信机制是构建稳健、可扩展应用的核心。消息队列&#xff08;Message Queues&am…...

Vue跨层级通信

下面,我们来系统的梳理关于 Vue跨层级通信 的基本知识点: 一、跨层级通信核心概念 1.1 什么是跨层级通信 跨层级通信是指在组件树中,祖先组件与后代组件(非直接父子关系)之间的数据传递和交互方式。这种通信模式避免了通过中间组件层层传递 props 的繁琐过程。 1.2 适用…...

docker常见命令行用法

&#x1f9e8; 一、关闭和清理 Docker 服务相关命令 &#x1f53b; docker-compose down 作用&#xff1a;关闭并删除所有使用当前 docker-compose.yml 启动的容器、网络、挂载卷&#xff08;匿名的&#xff09;、和依赖关系。 通俗解释&#xff1a;就像你关掉了一个 App&am…...

Axure设计案例:滑动拼图解锁

设计以直观易懂的操作方式为核心&#xff0c;只需通过简单的滑动动作&#xff0c;将拼图块精准移动至指定位置&#xff0c;即可完成解锁。这种操作模式既符合用户的日常操作习惯&#xff0c;在视觉呈现上&#xff0c;我们精心设计拼图图案&#xff0c;融入生动有趣的元素&#…...

MySQL权限详解

在MySQL中&#xff0c;权限管理是保障数据安全和合理使用的重要手段。MySQL提供了丰富的权限控制机制&#xff0c;允许管理员对不同用户授予不同级别的操作权限。本文将会对MySQL中的权限管理&#xff0c;以及内核如何实现权限控制进行介绍。 一、权限级别 MySQL 的权限是分层…...

基于BP神经网络的语音特征信号分类

基于BP神经网络的语音特征信号分类的MATLAB实现步骤&#xff1a; 1. 数据预处理 信号采样&#xff1a;读取语音信号并进行采样&#xff0c;确保信号具有统一的采样率。例如&#xff1a; [y, Fs] audioread(audio_file.wav); % 读取音频文件预加重&#xff1a;增强高频信号&am…...

解决fastadmin、uniapp打包上线H5项目路由冲突问题

FastAdmin 基于 ThinkPHP&#xff0c;默认采用 URL 路由模式&#xff08;如 /index.php/module/controller/action&#xff09;&#xff0c;且前端资源通常部署在公共目录&#xff08;如 public/&#xff09;下。Uniapp 的历史模式需要将所有前端路由请求重定向到 index.html&a…...

web3-区块链的交互性以及编程的角度看待智能合约

web3-区块链的交互性以及编程的角度看待智能合约 跨链交互性 交互性 用户在某一区块链生态上拥有的资产和储备 ​ 目标&#xff1a;使用户能够把资产和储备移动到另一个区块链生态上 可组合性 使在某一区块链的DAPP能调用另一个区块链上的DAPP 如果全世界都在用以太坊就…...

数据结构(7)—— 二叉树(1)

目录 前言 一、 树概念及结构 1.1树的概念 1.2树的相关概念 1.3数的表示 1.二叉树表示 2.孩子兄弟表示法 3.动态数组存储 1.4树的实际应用 二、二叉树概念及结构 2.1概念 2.2特殊的二叉树 1.满二叉树 2. 完全二叉树 2.3二叉树的性质 2.4二叉树的存储结构 1.顺序存储 2.链式存储…...

ROS1和ROS2的区别autoware.ai和autoware.universe的区别

文章目录 前言一、ROS1和ROS2的区别一、ROS2通讯实时性比ROS1强二、ROS1官方不再维护了三、ROS2的可靠性比ros1强四、ROS2的安全性比ros1强五、ROS2资源占用低六、等等等等 二、autoware.ai和autoware.universe的区别一、autoware.ai不维护了二、autoware.universe功能多&#…...

如何使用 Docker 部署grafana和loki收集vllm日志?

环境: Ubuntu20.04 grafana loki 3.4.1 问题描述: 如何使用 Docker 部署grafana和loki收集vllm日志? 解决方案: 1.创建一个名为 loki 的目录。将 loki 设为当前工作目录: mkdir loki cd loki2.将以下命令复制并粘贴到您的命令行中,以将 loki-local-config.yaml …...

Kafka入门- 基础命令操作指南

基础命令 主题 参数含义–bootstrap-server连接的Broker主机名称以及端口号–topic操作的topic–create创建主题–delete删除主题–alter修改主题–list查看所有主题–describe查看主题的详细描述–partitions设置分区数–replication-factor设置分区副本–config更新系统默认…...

目标检测我来惹1 R-CNN

目标检测算法&#xff1a; 识别图像中有哪些物体和位置 目标检测算法原理&#xff1a; 记住算法的识别流程、解决问题用到的关键技术 目标检测算法分类&#xff1a; 两阶段&#xff1a;先区域推荐ROI&#xff0c;再目标分类 region proposalCNN提取分类的目标检测框架 RC…...

lua的笔记记录

类似python的eval和exec 可以伪装成其他格式的文件&#xff0c;比如.dll 希望在异常发生时&#xff0c;能够让其沉默&#xff0c;即异常捕获。而在 Lua 中实现异常捕获的话&#xff0c;需要使用函数 pcall&#xff0c;假设要执行一段 Lua 代码并捕获里面出现的所有错误&#xf…...

智能进化论:AI必须跨越的四大认知鸿沟

1. 智能缺口&#xff1a;AI进化中的四大认知鸿沟 1.1 理解物理世界&#xff1a;从像素到因果的跨越 想象一个AI看着一杯倒下的水&#xff0c;它能描述“水滴形状”却无法预测“桌面会湿”。这正是当前AI的典型困境——缺乏对物理世界的因果理解。主流模型依赖海量图像或视频数…...

L2-056 被n整除的n位数 - java

L2-056 被n整除的n位数 语言时间限制内存限制代码长度限制栈限制Java (javac)400 ms512 MB16KB8192 KBPython (python3)400 ms256 MB16KB8192 KB其他编译器400 ms64 MB16KB8192 KB 题目描述&#xff1a; “被 n n n 整除的 n n n 位数”是这样定义的&#xff1a;记这个 n n…...

传统足浴行业数字化转型:线上预约平台的技术架构与商业逻辑

上门按摩服务系统开发正成为行业新风口&#xff0c;这绝不是盲目跟风而是实实在在的市场趋势。随着现代人生活节奏加快&#xff0c;时间成本越来越高&#xff0c;传统到店消费模式已经无法满足消费者对便捷服务的需求。我们的团队深耕上门按摩系统开发领域五年&#xff0c;深刻…...

Java-IO流之字节输入流详解

Java-IO流之字节输入流详解 一、Java IO体系与字节输入流概述1.1 Java IO体系结构1.2 字节输入流的核心类层次1.3 字节输入流的基本工作模式 二、InputStream类的核心方法2.1 int read()2.2 int read(byte[] b)2.3 int read(byte[] b, int off, int len)2.4 long skip(long n)2…...

从OCR到Document Parsing,AI时代的非结构化数据处理发生了什么改变?

智能文档处理&#xff1a;非结构化数据提出的挑战 在这个时代的每一天&#xff0c;无论是个人处理账单&#xff0c;还是企业处理合同、保险单、发票、报告或成堆的简历&#xff0c;我们都深陷在海量的非结构化数据之中。这类数据不像整齐排列的数据库表格那样规整&#xff0c;…...

【C/C++】入门grpc的idl

文章目录 grpc idl 简单介绍1. 文件结构组织规范文件命名包结构&#xff1a;推荐&#xff1a;一个文件只定义一个 service&#xff0c;如果 service 很复杂&#xff0c;可拆分多个 proto 文件。 2. 消息定义规范命名风格字段编号&#xff1a;示例&#xff1a; 3. 服务与 RPC 设…...

【Java实用工具类】手撸SqlBuilder工具类,优雅拼接动态SQL,MyBatisPlus同款风格!

&#x1f4cc; 正文&#xff1a; 有时候我们项目底层是 JdbcTemplate 查询&#xff0c;没法像 MyBatisPlus 一样用 Wrapper 拼接条件&#xff0c;但我们又不想手撸字符串。那怎么办&#xff1f;我今天就给你整了个 SqlBuilder 工具类&#xff0c;支持 eq、ne、like、in、gt、l…...

宇树科技更名“股份有限公司”深度解析:机器人企业IPO前奏与资本化路径

从技术落地到资本跃迁&#xff0c;拆解股改背后的上市逻辑与行业启示 核心事件&#xff1a;股改释放的上市信号 2025年5月28日&#xff0c;杭州宇树科技有限公司正式更名“杭州宇树科技股份有限公司”&#xff0c;市场主体类型变更为“股份有限公司”。尽管官方称为常规运营调…...

Inno Setup 安装向导各个页面详解

概览 表中描述了使用Inno Setup生成的安装包在安装过程中各个页面的字段和对应的说明信息。后文会对各个页面的参数做进一步解释说明。 字段说明wpWelcome欢迎页wpLicense许可协议wpPassword密码wpInfoBefore信息wpUserInfo用户信息wpSelectDir选择目标位置wpSelectComponent…...

转战web3远程工作的英语学习的路线规划

目录 一、明确学习目标与定位 二、基础阶段&#xff08;0 - 6个月&#xff09; &#xff08;一&#xff09;词汇积累 &#xff08;二&#xff09;语法学习 &#xff08;三&#xff09;听力与口语 三、进阶阶段&#xff08;6 - 18个月&#xff09; &#xff08;一&#xf…...

OPENCV重点结构体Mat的讲解

一、Opencv的作用 OpenCV是一个基于Apache2.0许可&#xff08;开源&#xff09;发行的跨平台计算机视觉和机器学习软件库&#xff0c;可以运行在Linux、Windows、Android和Mac OS操作系统上。 它轻量级而且高效——由一系列 C 函数和少量 C 类构成&#xff0c;同时提供了Pytho…...

Java 创建线程池的几种方式

在 Java 中创建线程池主要通过 java.util.concurrent 包下的 ExecutorService 接口及其实现类。以下是创建线程池的几种常见方式&#xff1a; ✅ 1. 使用 Executors 工具类&#xff08;最简单&#xff09; ExecutorService executor Executors.newFixedThreadPool(10);常用方…...

【趣味Html】第11课:动态闪烁发光粒子五角星

打造炫酷的动态闪烁发光粒子五角星效果 前言 在现代Web开发中&#xff0c;视觉效果的重要性不言而喻。今天我们将深入探讨如何使用HTML5 Canvas和JavaScript创建一个令人惊艳的动态闪烁发光粒子五角星效果。这个项目不仅展示了Canvas的强大功能&#xff0c;还涉及了粒子系统、…...

AnyIO Event:异步编程中的同步利器

在异步编程的世界里&#xff0c;任务之间的通信和协调是一个常见的需求。AnyIO 提供的 Event 类&#xff0c;为这一需求提供了一个强大而简洁的解决方案。本文将深入探讨 anyio.Event 的使用方法、特点以及在实际应用中的最佳实践。 一、AnyIO Event 概述 anyio.Event 是 Any…...