当前位置：首页 > news >正文

《动手学深度学习 Pytorch版》 9.3 深度循环神经网络

news 2026/2/9 15:23:12

将多层循环神经网络堆叠在一起，通过对几个简单层的组合，产生一个灵活的机制。其中的数据可能与不同层的堆叠有关。

在这里插入图片描述

9.3.1 函数依赖关系

将深度架构中的函数依赖关系形式化，第 $l$ 个隐藏层的隐状态表达式为：

$\boldsymbol{H}^{(l)}_t=\phi_l(\boldsymbol{H}^{(l-1)}_t\boldsymbol{W}^{(l)}_{xh}+\boldsymbol{H}^{(l)}_{t-1}\boldsymbol{W}^{(l)}_{hh}+\boldsymbol{b}^{(l)}_h)$

参数字典：

$\phi_l$ 表示第 $l$ 个隐藏层的激活函数
$\boldsymbol{X}_t\in\R^{n\times d}$ 表示小批量输入
- $n$ 表示样本个数
- $d$ 表示输入个数
$\boldsymbol{H}^{(l)}_{t}\in\R^{n\times h}$ 表示 $l^{th}$ 隐藏层 $(l=1,\dots,L)$ 的隐状态
- $h$ 表示隐藏单元个数
- 设置 $\boldsymbol{H}^{(0)}_{t}=\boldsymbol{X}_{t}$
$\boldsymbol{O}_{t}\in\R^{n\times q}$ 表示输出层变量
- $q$ 表示输出数
$\boldsymbol{W}^{(l)}_{xh},\boldsymbol{W}^{(l)}_{hh}\in\R^{h\times h}$ 表示第 $l$ 个隐藏层的权重参数
$\boldsymbol{b}^{(l)}_h\in\R^{1\times h}$ 表示第 $l$ 个隐藏层的偏重参数

最后，输出层的计算仅基于第 $l$ 个隐藏层最终的隐状态：

$\boldsymbol{O}_t=\boldsymbol{H}^{L}_t\boldsymbol{W}_{hq}+\boldsymbol{b}_q$

其中 $\boldsymbol{W}_{hq}\in\R^{h\times q}$ 和 $\boldsymbol{b}_q\in\R^{1\times q}$ 表示输出层的模型参数

9.3.2 简洁实现

手撸多层循环神经网络有点过于麻烦了，在此仅简单实现。

import torch
from torch import nn
from d2l import torch as d2l

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

vocab_size, num_hiddens, num_layers = len(vocab), 256, 2  # 用 num_layers 来设定隐藏层数
num_inputs = vocab_size
device = d2l.try_gpu()
lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers)
model = d2l.RNNModel(lstm_layer, len(vocab))
model = model.to(device)

9.3.3 训练与预测

num_epochs, lr = 500, 2
d2l.train_ch8(model, train_iter, vocab, lr*1.0, num_epochs, device)  # 多了一层后训练速度大幅下降

perplexity 1.0, 116173.5 tokens/sec on cuda:0
time travelleryou can show black is white by argument said filby
travelleryou can show black is white by argument said filby

在这里插入图片描述

练习

（1）基于我们在 8.5 节中讨论的单层实现，尝试从零开始实现两层循环神经网络。

batch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)def get_params_bilayer(vocab_size, num_hiddens, device):num_inputs = num_outputs = vocab_sizedef normal(shape):return torch.randn(size=shape, device=device) * 0.01# 隐藏层1参数W_xh1 = normal((num_inputs, num_hiddens))W_hh1 = normal((num_hiddens, num_hiddens))b_h1 = torch.zeros(num_hiddens, device=device)# 新增隐藏层2参数W_hh2 = normal((num_hiddens, num_hiddens))b_h2 = torch.zeros(num_hiddens, device=device)# 输出层参数W_hq = normal((num_hiddens, num_outputs))b_q = torch.zeros(num_outputs, device=device)# 附加梯度params = [W_xh1, W_hh1, b_h1, W_hh2, b_h2, W_hq, b_q]for param in params:param.requires_grad_(True)return paramsdef init_rnn_state_bilayer(batch_size, num_hiddens, device):return (torch.zeros((batch_size, num_hiddens), device=device),torch.zeros((batch_size, num_hiddens), device=device))  # 新增第二个隐状态初始化张量def rnn_bilayer(inputs, state, params):  # inputs的形状：(时间步数量，批量大小，词表大小)W_xh1, W_hh1, b_h1, W_hh2, b_h2, W_hq, b_q = params  # 新增第二层参数H1, H2 = stateoutputs = []for X in inputs:  # X的形状：(批量大小，词表大小) 前面转置是为了这里遍历H1 = torch.tanh(torch.mm(X, W_xh1) + torch.mm(H1, W_hh1) + b_h1)  # 计算隐状态1H2 = torch.tanh(torch.mm(H1, W_hh2) + b_h2)  # 计算隐状态2Y = torch.mm(H2, W_hq) + b_q  # 计算输出outputs.append(Y)return torch.cat(outputs, dim=0), (H1, H2)  # 沿时间步拼接num_hiddens = 512
net_rnn_bilayer = d2l.RNNModelScratch(len(vocab), num_hiddens, d2l.try_gpu(), get_params_bilayer,init_rnn_state_bilayer, rnn_bilayer)
num_epochs, lr = 500, 1
d2l.train_ch8(net_rnn_bilayer, train_iter, vocab, lr, num_epochs, d2l.try_gpu())

perplexity 1.0, 63514.3 tokens/sec on cuda:0
time travelleryou can show black is white by argument said filby
travelleryou can show black is white by argument said filby

在这里插入图片描述

（2）在本节训练模型中，比较使用门控循环单元替换长短期记忆网络后模型的精确度和训练速度。

vocab_size, num_hiddens, num_layers = len(vocab), 256, 2  # 用 num_layers 来设定隐藏层数
num_inputs = vocab_size
device = d2l.try_gpu()
# lstm_layer = nn.LSTM(num_inputs, num_hiddens, num_layers)
# model = d2l.RNNModel(lstm_layer, len(vocab))
gru_layer = nn.GRU(num_inputs, num_hiddens)
model_gru = d2l.RNNModel(gru_layer, len(vocab))
model_gru = model_gru.to(device)num_epochs, lr = 500, 2
d2l.train_ch8(model_gru, train_iter, vocab, lr*1.0, num_epochs, device)  # 换 gru 后更快了

perplexity 1.0, 230590.6 tokens/sec on cuda:0
time traveller for so it will be convenient to speak of himwas e
travelleryou can show black is white by argument said filby

在这里插入图片描述

（3）如果增加训练数据，能够将困惑度降到多低？

已经是 1 了，没得降了。

（4）在为文本建模时，是否可以将不同作者的源数据合并？有何优劣呢？

不同作者的数据源之间可能没有什么关系，拼在一起可能效果反而下降。

《动手学深度学习 Pytorch版》 9.3 深度循环神经网络

将多层循环神经网络堆叠在一起，通过对几个简单层的组合，产生一个灵活的机制。其中的数据可能与不同层的堆叠有关。 9.3.1 函数依赖关系将深度架构中的函数依赖关系形式化，第 l l l 个隐藏层的隐状态表达式为： H t ( l ) ϕ l …...

编程日记 2023/10/22 3:35:06

2023-10-19 LeetCode每日一题（同积元组）

2023-10-19每日一题一、题目编号 1726. 同积元组二、题目链接点击跳转到题目位置三、题目描述给你一个由不同正整数组成的数组 nums ，请你返回满足 a * b c * d 的元组 (a, b, c, d) 的数量。其中 a、b、c 和 d 都是 nums 中的元素，且 a ! b…...

编程日记 2023/10/22 3:34:04

GEE：绘制土地利用类型面积分布柱状图

作者：CSDN @ _养乐多_ 本文记录了，在 Google Earth Engine （GEE）中进行随机森林分类后绘制不同类型面积分布柱状图的代码片段。完整代码请看博客《GEE：随机森林分类教程（样本制作、特征添加、训练、精度、参数优化、贡献度、统计面积）》柱状图效果如下所示，文章目…...

编程日记 2023/10/22 3:33:00

2021年03月 Python（三级）真题解析#中国电子学会#全国青少年软件编程等级考试

Python编程（1~6级）全部真题・点这里一、单选题（共25题，每题2分，共50分） 第1题下列代码的输出结果是？（ ） x 0x10print(x)A：2 B：8 C&#xff…...

编程日记 2023/10/22 3:31:59

全网最丑焊锡教程（仅排针焊接心得）

一直以来玩各种开发板，焊接水平太差始终是阻碍我买性价比高的板子的最大原因。淘宝上好多芯片搭载上肥猪流板子是不包排针焊接的。终于下定决心要克服这个困难。不过，只是会焊接排针在高手面前最好不要说自己会焊锡，这应该是两码事。首先上…...

编程日记 2023/10/22 3:30:58

重测序基因组：Pi核酸多样性计算

如何计算核酸多样性 Pi 本期笔记分享关于核酸多样性pi计算的方法和相关技巧，主要包括原始数据整理、分组文件设置、计算原理、操作流程、可视化绘图等步骤。基因组Pi核酸多样性（Pi nucleic acid diversity）是一种遗传学研究中用来描述种群内…...

编程日记 2023/10/22 3:28:56

C++学习之多态详解

目录多态的实现例题重载重写重定义的区别抽象类多态实现原理多态的实现 C中的多态是指，当类之间存在层次结构，并且类之间是通过继承关联时，就会用到多态。多态意味着调用成员函数时，会根据调用函数的对象的类型来执…...

编程日记 2023/10/22 3:27:55

项目经理之识别项目干系人

项目干系人管理是项目管理中的重要一环，识别和管理好项目干系人是成功实施项目的关键之一。本文将介绍4321项目干系人识别方法、干系人等级册以及五步判断法等工具，帮助项目经理更好地识别和管理项目干系人。同时，本文还将介绍干系人能量方格…...

编程日记 2023/10/22 3:26:54

文件列表创建工具 Nifty File Lists mac中文版功能特色

Nifty File Lists mac是一款文件列表创建工具，全面的元数据支持，涵盖了从基本文件信息，如文件名、路径、大小、创建和修改日期等等内容。 Nifty File Lists mac功能特色全面的元数据支持强大的多线程元数据提取系统涵盖了从基本文件信息&a…...

编程日记 2023/10/22 3:25:53

人人自媒体的时候，Ai绘画还值得踏入吗？

前言先说结论，如果你不打算涉足自媒体，平时也从不上网发什么内容去展示自己的话，其实AI绘画对你来说意义不大。但如果你对自媒体感兴趣，会涉及发作品，发内容，甚至去设计图片，那么AI绘画值得你…...

编程日记 2023/10/22 3:24:51

最近学习内容(2023-10-21)

最近学习内容 Linux编译链接命令一条有用的删除可执行文件的bash命令gcc 在macos 的编译选项，其中-g会生成一个.dSYM文件夹to long don’t read 工具的使用gnu bintuils 的使用，但是很可惜macos上的是Mach-O，不是ELFaxel多线程下载器和其余的…...

编程日记 2023/10/22 3:23:50

Java设计模式 | 基于订单批量支付场景，对策略模式和简单工厂模式进行简单实现

基于订单批量支付场景，对策略模式和简单工厂模式进行简单实现文章目录策略模式介绍实现抽象策略具体策略1.AliPayStrategy2.WeChatPayStrategy 环境使用简单工厂来获取具体策略对象支付方式枚举策略工厂接口策略工厂实现测试使用订单实体类对订单进行批量支付结…...

编程日记 2023/10/22 3:22:49

【组件专题介绍】什么是组件？

组件定义卡耐基梅隆大学： 一个不透明的功能实体，能够被第三方组装，且符合一个构件模型。计算机百科全书： 是软件系统中具有相对独立功能、接口由契约指定、和语境有明显依赖关系、可独立部署、可组装的软件实体。软件构件…...

编程日记 2023/10/22 3:21:47

Mybatis拦截器

MyBatis插件介绍 MyBatis提供了一种插件(plugin)的功能，虽然叫做插件，但其实这是拦截器功能。 MyBatis允许使用者在映射语句执行过程中的某一些指定的节点进行拦截调用，通过织入拦截器，在不同节点修改一些执行过程中的关键属性&…...

编程日记 2023/10/22 3:20:47

【项目设计】网络对战五子棋（上）

想回家过年… 文章目录一、项目前置知识1. websocketpp库1.1 http1.0/1.1和websocket协议1.2 websocketpp库接口的前置认识1.3 搭建一个http/websocket服务器 2. jsoncpp库3. mysqlclient库二、项目设计1. 项目模块划分2. 实用工具类模块2.1 日志宏封装2.2 mysql_util2.3 j…...

编程日记 2023/10/22 3:19:46

【Overload游戏引擎细节分析】鼠标键盘控制摄像机原理

在上文中分析了摄像机类的实现，在计算投影视图矩阵时需要给摄像机输入其位置及转动四元数。这两个量一般通过鼠标键盘来控制，从而达到控制摄像机的目的。本文分析一下其控制原理。 Overload的摄像机控制实现在类CameraController中，其有三个个…...

编程日记 2023/10/22 3:17:43

VScode运行SVN拉下来的项目

安装依赖包 pnpm install 启动程序查看package.json文件中的serve，根据这个启动 pnpm dev 在浏览器使用http://localhost:8848/访问...

编程日记 2023/10/22 3:16:42

Kafka的使用查看kafka的topic ./kafka-topics --bootstrap-server 10.1.9.84:9092 --list 查看topic信息 ./kafka-topics --bootstrap-server 10.1.9.84:9092 --describe --topic topic_example_1 创建topic 创建topic名为test，分区数为8，副本数为…...

编程日记 2023/10/22 3:15:41

Java面试题-UDP\TCP\HTTP

UDP UDP特性 （1）UDP是无连接的：发送数据之前不需要像TCP一样建立连接，也不需要释放连接，所以减少了发送和接收数据的开销 （2）UDP 使用尽最大努力交付：即不保证可靠交付 &#xff0…...

编程日记 2023/10/22 3:14:40

使用WPF模仿Windows记事本界面

本次仅模仿Windows记事本的模样，并未实现其功能。所有代码如下： <Window x:Class"控件的基础使用.MainWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/…...

编程日记 2023/10/22 3:13:39

YSYX学习记录（八）

C语言，练习0： 先创建一个文件夹，我用的是物理机： 安装build-essential 练习1： 我注释掉了 #include <stdio.h> 出现下面错误在你的文本编辑器中打开ex1文件，随机修改或删除一部分，之后…...

编程新知 2026/1/24 14:31:01

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

在建筑行业，项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升，传统的管理模式已经难以满足现代工程的需求。过去，许多企业依赖手工记录、口头沟通和分散的信息管理，导致效率低下、成本失控、风险频发。例如&#…...

编程新知 2026/2/4 12:35:34

dedecms 织梦自定义表单留言增加ajax验证码功能

增加ajax功能模块，用户不点击提交按钮，只要输入框失去焦点，就会提前提示验证码是否正确。一，模板上增加验证码 <input name"vdcode"id"vdcode" placeholder"请输入验证码" type"text&quo…...

编程新知 2026/2/5 17:51:52

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

以下是基于 vant-ui（适配 Vue2 版本 ）实现截图中照片上传预览、删除功能，并封装成可复用组件的完整代码，包含样式和逻辑实现，可直接在 Vue2 项目中使用： 1. 封装的图片上传组件 ImageUploader.vue <te…...

编程新知 2026/1/31 2:37:22

【Oracle】分区表

个人主页：Guiat 归属专栏：Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...

编程新知 2026/1/20 21:59:36

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

这个问题我看其他博主也写了，要么要会员、要么写的乱七八糟。这里我整理一下，把问题说清楚并且给出代码，拿去用就行，照着葫芦画瓢。问题在继承QWebEngineView后，重写mousePressEvent或event函数无法捕获鼠标按下事…...

编程新知 2025/6/11 3:07:32

站群服务器的应用场景都有哪些？

站群服务器主要是为了多个网站的托管和管理所设计的，可以通过集中管理和高效资源的分配，来支持多个独立的网站同时运行，让每一个网站都可以分配到独立的IP地址，避免出现IP关联的风险，用户还可以通过控制面板进行管理功…...

编程新知 2025/9/1 19:01:24

Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强：基于微服务与容器化的解决方案

在大数据时代，海量数据的采集与处理成为企业和研究机构获取信息的关键环节。Scrapy-Redis作为一种经典的分布式爬虫架构，在处理大规模数据抓取任务时展现出强大的能力。然而，随着业务规模的不断扩大和数据抓取需求的日益复杂，传统…...

编程新知 2026/2/4 19:29:38

ZYNQ学习记录FPGA(一)ZYNQ简介

一、知识准备 1.一些术语,缩写和概念： 1）ZYNQ全称：ZYNQ7000 All Pgrammable SoC 2）SoC:system on chips(片上系统)，对比集成电路的SoB（system on board） 3）ARM：处理器…...

编程新知 2026/2/5 9:30:45

WebRTC调研

WebRTC是什么，为什么，如何使用 WebRTC有什么优势 WebRTC Architecture Amazon KVS WebRTC 其它厂商WebRTC 海康门禁WebRTC 海康门禁其他界面整理威视通WebRTC 局域网 Google浏览器 Microsoft Edge 公网 RTSP RTMP NVR ONVIF SIP SRT WebRTC协…...

编程新知 2026/2/7 1:08:45

《动手学深度学习 Pytorch版》 9.3 深度循环神经网络

9.3.1 函数依赖关系

9.3.2 简洁实现

9.3.3 训练与预测

练习

相关文章：

《动手学深度学习 Pytorch版》 9.3 深度循环神经网络

2023-10-19 LeetCode每日一题（同积元组）

GEE：绘制土地利用类型面积分布柱状图

2021年03月 Python（三级）真题解析#中国电子学会#全国青少年软件编程等级考试

全网最丑焊锡教程（仅排针焊接心得）

重测序基因组：Pi核酸多样性计算

C++学习之多态详解

项目经理之识别项目干系人

文件列表创建工具 Nifty File Lists mac中文版功能特色

人人自媒体的时候，Ai绘画还值得踏入吗？

最近学习内容(2023-10-21)

Java设计模式 | 基于订单批量支付场景，对策略模式和简单工厂模式进行简单实现

【组件专题介绍】什么是组件？

Mybatis拦截器

【项目设计】网络对战五子棋（上）

【Overload游戏引擎细节分析】鼠标键盘控制摄像机原理

VScode运行SVN拉下来的项目

jmeter集成kafka测试

Java面试题-UDP\TCP\HTTP

使用WPF模仿Windows记事本界面

YSYX学习记录（八）

为什么需要建设工程项目管理？工程项目管理有哪些亮点功能？

dedecms 织梦自定义表单留言增加ajax验证码功能

使用van-uploader 的UI组件，结合vue2如何实现图片上传组件的封装

【Oracle】分区表

在QWebEngineView上实现鼠标、触摸等事件捕获的解决方案

站群服务器的应用场景都有哪些？

Scrapy-Redis分布式爬虫架构的可扩展性与容错性增强：基于微服务与容器化的解决方案

ZYNQ学习记录FPGA(一)ZYNQ简介

WebRTC调研