当前位置：首页 > news >正文

深度学习--------------------------------门控循环单元GRU

news 2026/2/8 13:45:12

门

$R_t$ 就是重置， $Z_t$ 就是更新
门是跟隐藏状态同样长度的一个向量，计算方式跟RNN的隐藏状态是一样的。
在这里插入图片描述

在这里插入图片描述

候选隐状态

在这里插入图片描述

在这里插入图片描述
假设 $R_t$ 里面的元素靠近零的话，那么 $R_t$ 点乘 $H_{t-1}$ 就会变得像零。（就等于是把上一个时刻的隐藏状态忘掉。）
如果全部设成0就变成了初始状态，等于这个时刻开始前面的信息全部不要。
如果全部设成1，就表示所有前面的信息全部拿过来做当前的更新。

隐状态

在这里插入图片描述

$H_t$ 等于 $Z_t$ 按元素点乘上一次的隐藏状态+(1- $Z_t$ )按元素点乘候选隐藏状态

$Z_t$ 是一个控制单元，叫做update gate。它是在0-1之间的数字。
假设 $Z_t$ 都等于1。（就是不更新过去的状态，把过去的状态放到现在）

在这里插入图片描述
假设 $Z_t$ 都等于0。（不直接拿过去的状态了，基本上看现在的更新状态）

$Z_t$ 里面全0，且 $R_t$ 里面全1的时候就回到我们RNN的情况下。

门控循环单元GRU从零开始实现代码

import torch
from torch import nn
from d2l import torch as d2lbatch_size, num_steps = 32, 3
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

初始化模型参数

def get_params(vocab_size, num_hiddens, device):num_inputs = num_outputs = vocab_sizedef normal(shape):return torch.randn(size=shape, device=device) * 0.01# 定义一个函数，生成三组权重和偏置张量，用于不同的门控机制def three():return (normal((num_inputs, num_hiddens)),normal((num_hiddens, num_hiddens)),torch.zeros(num_hiddens, device=device))W_xz, W_hz, b_z = three()  # GRU多了这两行,更新门的权重和偏置W_xr, W_hr, b_r = three()  # GRU多了这两行，重置门的权重和偏置W_xh, W_hh, b_h = three()  # 候选隐藏状态的权重和偏置# 隐藏状态到输出的权重W_hq = normal((num_hiddens, num_outputs))# 输出的偏置b_q = torch.zeros(num_outputs, device=device)params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]# 遍历参数列表中所有参数for param in params:param.requires_grad_(True)return params

定义隐藏状态的初始化函数

定义隐状态的初始化函数init_gru_state。与之前定义的init_rnn_state函数一样，此函数返回一个形状为（批量大小，隐藏单元个数）的张量，张量的值全部为零。

def init_gru_state(batch_size, num_hiddens, device):return (torch.zeros((batch_size, num_hiddens), device=device), )

定义门控循环单元模型

def gru(inputs, state, params):W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = paramsH, = stateoutputs = []for X in inputs:Z = torch.sigmoid((X @ W_xz) + (H @ W_hz) + b_z)R = torch.sigmoid((X @ W_xr) + (H @ W_hr) + b_r)H_tilda = torch.tanh((X @ W_xh) + ((R * H) @ W_hh) + b_h)H = Z * H + (1 - Z) * H_tildaY = H @ W_hq + b_qoutputs.append(Y)return torch.cat(outputs, dim=0), (H,)

训练

vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
model = d2l.RNNModelScratch(len(vocab), num_hiddens, device, get_params,init_gru_state, gru)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)

该部分总代码

import torch
from torch import nn
from d2l import torch as d2l# 初始化模型参数
def get_params(vocab_size, num_hiddens, device):num_inputs = num_outputs = vocab_sizedef normal(shape):return torch.randn(size=shape, device=device) * 0.01# 定义一个函数，生成三组权重和偏置张量，用于不同的门控机制def three():return (normal((num_inputs, num_hiddens)),normal((num_hiddens, num_hiddens)),torch.zeros(num_hiddens, device=device))# 初始化GRU中的权重和偏置# 权重和偏置用于控制更新门W_xz, W_hz, b_z = three()  # GRU多了这两行# 权重和偏置用于控制重置门W_xr, W_hr, b_r = three()  # GRU多了这两行W_xh, W_hh, b_h = three()W_hq = normal((num_hiddens, num_outputs))b_q = torch.zeros(num_outputs, device=device)params = [W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q]for param in params:param.requires_grad_(True)return params# 定义隐藏状态的初始化函数
def init_gru_state(batch_size, num_hiddens, device):return (torch.zeros((batch_size, num_hiddens), device=device),)# 定义门控循环单元模型
def gru(inputs, state, params):# 参数 params 解包为多个变量，分别表示模型中的权重和偏置W_xz, W_hz, b_z, W_xr, W_hr, b_r, W_xh, W_hh, b_h, W_hq, b_q = paramsH, = stateoutputs = []# 遍历输入序列中的每个时间步for X in inputs:# 更新门控机制 ZZ = torch.sigmoid((X @ W_xz) + (H @ W_hz) + b_z)# 重置门控机制 RR = torch.sigmoid((X @ W_xr) + (H @ W_hr) + b_r)H_tilda = torch.tanh((X @ W_xh) + ((R * H) @ W_hh) + b_h)H = Z * H + (1 - Z) * H_tildaY = H @ W_hq + b_qoutputs.append(Y)# 将所有输出拼接在一起，并返回拼接后的结果和最终的隐藏状态return torch.cat(outputs, dim=0), (H,)batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
model = d2l.RNNModelScratch(len(vocab), num_hiddens, device, get_params, init_gru_state, gru)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
d2l.plt.show()

在这里插入图片描述

简洁代码实现

from torch import nn
from d2l import torch as d2lbatch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)
vocab_size, num_hiddens, device = len(vocab), 256, d2l.try_gpu()
num_epochs, lr = 500, 1
num_inputs = vocab_size
gru_layer = nn.GRU(num_inputs, num_hiddens)
model = d2l.RNNModel(gru_layer, len(vocab))
model = model.to(device)
d2l.train_ch8(model, train_iter, vocab, lr, num_epochs, device)
d2l.plt.show()

在这里插入图片描述

深度学习--------------------------------门控循环单元GRU

目录门候选隐状态隐状态门控循环单元GRU从零开始实现代码初始化模型参数定义隐藏状态的初始化函数定义门控循环单元模型训练该部分总代码简洁代码实现做RNN的时候处理不了太长的序列，这是因为把整个序列信息全部放在隐藏状态里面，当时间很长的话&#…...

编程日记 2024/9/29 15:19:23

【实战】| X小程序任意用户登录

复现步骤在登陆时，弹出这个页面时抓包，观察数据包的内容会发现有mobile值（密文）和iv值（随机数），拿到密文，肯定时想到解密，想要解密就必须知道密文，…...

编程日记 2024/9/29 15:18:21

计算机毕业设计之：云中e百货微信小程序设计与实现（源码+文档+定制）

博主介绍： ✌我是阿龙，一名专注于Java技术领域的程序员，全网拥有10W粉丝。作为CSDN特邀作者、博客专家、新星计划导师，我在计算机毕业设计开发方面积累了丰富的经验。同时，我也是掘金、华为云、阿里云、InfoQ等平台…...

编程日记 2024/9/29 15:16:19

CEX上币趋势分析：Infra赛道与Ton生态的未来

在当前的加密市场中，CEX（中心化交易所）上币的选择愈发重要，尤其是对项目方而言。根据 FMG 的整理，结合「杀破狼」的交易所上币信息，显然 Infra 赛道成为了交易所的热门选择，而 Ton 生态也展现出…...

编程日记 2024/9/29 15:14:17

数组基础（c++）

第1题精挑细选时限：1s 空间：256m 小王是公司的仓库管理员，一天，他接到了这样一个任务：从仓库中找出一根钢管。这听起来不算什么，但是这根钢管的要求可真是让他犯难了，要求如下&#x…...

编程日记 2024/9/29 15:13:15

第十三届蓝桥杯真题Python c组A.排列字母(持续更新)

博客主页：音符犹如代码系列专栏：蓝桥杯关注博主，后期持续更新系列文章如果有错误感谢请大家批评指出，及时修改感谢大家点赞👍收藏⭐评论✍ 【问题描述】小蓝要把一个字符串中的字母按其在字母表中的顺序排列。例如&a…...

编程日记 2024/9/29 15:12:14

IDEA自动清理类中未使用的import包

目录 1.建议清理包的理由 2.清理未使用包的方式 2.1 手动快捷键清理 2.2 设置自动清理 1.建议清理包的理由有时候项目类文件中会有很多包被引入了，但是并没有被使用，这会增加项目的编译时间并且代码可读性也会变差。在开发过程中，建议设…...

编程日记 2024/9/29 15:11:13

加工零件C++

题目: 样例解释： 样例#1： 编号为 1 的工人想生产第 1 阶段的零件，需要编号为 2 的工人提供原材料。编号为 2 的工人想生产第 1 阶段的零件，需要编号为 1 和 3 的工人提供原材料。编号为 3 的工人想生产第 1 阶段的零件&#x…...

编程日记 2024/9/29 15:10:12

Etcd 是一个分布式的键值存储系统，用于共享配置和服务发现

Etcd 是一个分布式的键值存储系统，用于共享配置和服务发现。它最初由 CoreOS 开发，并已成为许多分布式系统中的关键组件之一，特别是在 Kubernetes 中扮演着核心角色。Etcd 的设计目标是简单、可靠、安全，并且易于使用。 Etcd 的特…...

编程日记 2024/9/29 15:09:11

如何帮助我们改造升级原有架构——基于TDengine 平台

一、简介 TDengine 核心是一款高性能、集群开源、云原生的时序数据库（Time Series Database，TSDB），专为物联网IoT平台、工业互联网、电力、IT 运维等场景设计并优化，具有极强的弹性伸缩能力。同时它还带有内建的缓存、…...

编程日记 2024/9/29 15:07:09

MySQl查询分析工具 EXPLAIN ANALYZE

文章目录 EXPLAIN ANALYZE是什么Iterator 输出内容解读EXPLAIN ANALYZE和EXPLAIN FORMATTREE的区别单个 Iterator 内容解读案例分析案例1 文件排序案例2 简单的JOIN查询参考资料：https://hackmysql.com/book-2/ EXPLAIN ANALYZE是什么 EXPLAIN ANALYZE是MySQL8.…...

编程日记 2024/9/29 15:06:08

RestClientException异常

什么情况下会抛出RestClientException异常 RestClientException 异常通常在使用 Spring 的 RestTemplate 进行 RESTful API 调用时抛出。以下是一些常见的情况： 网络问题：当无法连接到目标服务器时，例如网络中断或服务器不可达。 HTTP 状态…...

编程日记 2024/9/29 15:05:07

poi如何实现自定义导出Excel-纵向横向合并单元格，自定义填充数据列

前情提要首先需要明确自己需要导出的excel构成是如何的，比如我需要导出一个自定义表头的excel表格，第一行A到X是标题需要横向合并单元格，第二行和第三行是表头，A到J需要第二行和第三行纵向合并单元格，K到N的第二行需…...

编程日记 2024/9/29 15:03:03

6--苍穹外卖-SpringBoot项目中菜品管理详解(二）

目录菜品分页查询需求分析和设计代码开发设计DTO类设计VO类 Controller层 Service层接口 Service层实现类 Mapper层功能测试删除菜品需求设计和分析代码开发 Controller层 Service层接口 Service层实现类 Mapper层功能测试修改菜品需求分析和设…...

编程日记 2024/9/29 15:01:00

游戏怎么录制？王者荣耀游戏录制指南：iOS与电脑端全面教程

在王者荣耀的战场上，每一个五杀、每一次极限逃生都可能成为你游戏生涯中的高光时刻。但这些瞬间往往转瞬即逝，如何将它们永久保存，成为你游戏历程中不可磨灭的印记呢？本文将为你揭晓答案。无论你是手持iPhone的iOS用户&#xff0c…...

编程日记 2024/9/29 14:59:59

Vue.js组件开发指南

Vue.js组件开发指南 Vue.js 是一个渐进式的 JavaScript 框架，用于构建用户界面。它的核心是基于组件的开发模式。通过将页面分解为多个独立的、可复用的组件，开发者能够更轻松地构建复杂的应用。本文将深入探讨 Vue.js 组件开发的基础知识，并…...

编程日记 2024/9/29 14:57:57

【流计算】流计算概论

前言作者在之前写过一个大数据的专栏，包含GFS、BigTable、MapReduce、HDFS、Hadoop、LSM树、HBase、Spark，专栏地址： https://blog.csdn.net/joker_zjn/category_12631789.html?fromshareblogcolumn&sharetypeblogcolumn&sharerI…...

编程日记 2024/9/29 14:56:56

20230819盘锦锦州葫芦岛自驾

2023年08月19日，上午带娃和老人驾车前往朝阳，逛凤凰山，中午吃了免费的素面味道不错。下午开车去鸟化石公园单独买儿童票43元。晚上驾车到盘锦，住红海滩民宿95元。 2023年08月20日，逛盘锦红海滩一天，有稻田画…...

编程日记 2024/9/29 14:53:53

Unity 与虚幻引擎对比：两大游戏开发引擎的优劣分析

在游戏开发领域，Unity 和虚幻引擎（Unreal Engine）是两款最为知名且广泛使用的引擎。它们各有特点，适合不同类型的开发者和项目。在这篇博客中，我们将深入探讨这两大引擎的核心功能、适用场景、优缺点，以及如…...

编程日记 2024/9/29 14:52:52

目录一. DTC 二. 0x14服务三. 0x19服务 3.1 0x19服务 3.2 0x01子功能 3.3 0x02子功能 3.4 0x04子功能 3.5 0x06子功能 3.6 0x0A子功能一. DTC 》DTC-Diagnostic Trouble Code J1939-73 DTCFormat DTC SPN FMI CM OC 8-1位 8-1位 8-6位 5-1位 8位 7-1位字节1 字节…...

编程日记 2024/9/29 14:49:49

龙虎榜——20250610

上证指数放量收阴线，个股多数下跌，盘中受消息影响大幅波动。深证指数放量收阴线形成顶分型，指数短线有调整的需求，大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技代表标的：御银股份、雄帝科技驱动…...

编程新知 2026/2/7 5:06:52

stm32G473的flash模式是单bank还是双bank？

今天突然有人stm32G473的flash模式是单bank还是双bank？由于时间太久，我真忘记了。搜搜发现，还真有人和我一样。见下面的链接：https://shequ.stmicroelectronics.cn/forum.php?modviewthread&tid644563 根据STM32G4系列参考手…...

编程新知 2026/2/5 0:36:44

Objective-C常用命名规范总结

【OC】常用命名规范总结文章目录【OC】常用命名规范总结1.类名（Class Name)2.协议名（Protocol Name)3.方法名（Method Name)4.属性名（Property Name）5.局部变量/实例变量（Local / Instance Variables&…...

编程新知 2025/12/14 22:33:06

2021-03-15 iview一些问题

1.iview 在使用tree组件时，发现没有set类的方法，只有get，那么要改变tree值，只能遍历treeData，递归修改treeData的checked，发现无法更改，原因在于check模式下，子元素的勾选状态跟父节…...

编程新知 2026/2/5 3:29:13

docker 部署发现spring.profiles.active 问题

报错： org.springframework.boot.context.config.InvalidConfigDataPropertyException: Property spring.profiles.active imported from location class path resource [application-test.yml] is invalid in a profile specific resource [origin: class path re…...

编程新知 2025/9/20 12:14:18

技术栈RabbitMq的介绍和使用

目录 1. 什么是消息队列？2. 消息队列的优点3. RabbitMQ 消息队列概述4. RabbitMQ 安装5. Exchange 四种类型5.1 direct 精准匹配5.2 fanout 广播5.3 topic 正则匹配 6. RabbitMQ 队列模式6.1 简单队列模式6.2 工作队列模式6.3 发布/订阅模式6.4 路由模式6.5 主题模式…...

编程新知 2026/1/23 10:10:53

uniapp 字符包含的相关方法

在uniapp中，如果你想检查一个字符串是否包含另一个子字符串，你可以使用JavaScript中的includes()方法或者indexOf()方法。这两种方法都可以达到目的，但它们在处理方式和返回值上有所不同。使用includes()方法 includes()方法用于判断一个字…...

编程新知 2025/9/28 19:00:18

DBLP数据库是什么？

DBLP（Digital Bibliography & Library Project）Computer Science Bibliography是全球著名的计算机科学出版物的开放书目数据库。DBLP所收录的期刊和会议论文质量较高，数据库文献更新速度很快，很好地反映了国际计算机科学学术研…...

编程新知 2026/2/4 20:54:56

【堆垛策略】设计方法

堆垛策略的设计是积木堆叠系统的核心，直接影响堆叠的稳定性、效率和容错能力。以下是分层次的堆垛策略设计方法，涵盖基础规则、优化算法和容错机制： 1. 基础堆垛规则 (1) 物理稳定性优先重心原则： 大尺寸/重量积木在下&#xf…...

编程新知 2026/2/8 13:33:28

Modbus RTU与Modbus TCP详解指南

目录 1. Modbus协议基础 1.1 什么是Modbus？ 1.2 Modbus协议历史 1.3 Modbus协议族 1.4 Modbus通信模型 🎭 主从架构 🔄 请求响应模式 2. Modbus RTU详解 2.1 RTU是什么？ 2.2 RTU物理层 🔌 连接方式 ⚡ 通信参数 2.3 RTU数据帧格式 📦 帧结构详解 🔍…...

编程新知 2025/12/29 22:20:36

目录

门

候选隐状态

隐状态

门控循环单元GRU从零开始实现代码

初始化模型参数

定义隐藏状态的初始化函数

定义门控循环单元模型

训练

该部分总代码

简洁代码实现

相关文章：