当前位置：首页 > news >正文

《动手学深度学习 Pytorch版》 8.4 循环神经网络

news 2026/2/9 18:36:05

8.4.1 无隐状态的神经网络

对于无隐藏装态的神经网络来说，给定一个小批量样本 $\boldsymbol{X}\in\mathbb{R}^{n\times d}$ ，则隐藏层的输出 $\boldsymbol{H}\in\mathbb{R}^{n\times h}$ 通过下式计算：

$\boldsymbol{H}=\phi(\boldsymbol{XW}_{xh}+\boldsymbol{b}_h)$

$\phi$ 是隐藏层的激活函数
$n$ 是批量大小
$d$ 是输入维度
$\boldsymbol{W}_{xh}\in\mathbb{R}^{d\times h}$ 是隐藏层权重
$\boldsymbol{b}_h\in\mathbb{R}^{1\times h}$ 是偏置参数
$h$ 是隐藏层数目。

接下来将隐藏变量 $\boldsymbol{H}$ 作为输出层的输入：

$\boldsymbol{O}=\boldsymbol{HW}_{hq}+\boldsymbol{b}_q$

$\boldsymbol{O}\in\mathbb{R}^{n\times q}$ 是输出变量
$\boldsymbol{HW}_{hq}\in\mathbb{R}^{h\times q}$ 是权重参数
$\boldsymbol{b}_q\in\mathbb{R}^{1\times q}$ 是输出层的偏置参数。

如果是分类问题，则可以用 $softmax(\boldsymbol{O})$ 计算输出的概率分布，此处无需多言。

8.4.2 有隐状态的循环神经网络

引入隐状态后，情况就完全不同了。具体地说，当前时间步隐藏变量由当前时间步的输入与前一个时间步的隐藏变量一起计算得出：

$\boldsymbol{H}_t=\phi(\boldsymbol{X}_t\boldsymbol{W}_{xh}+\boldsymbol{H}_{t-1}\boldsymbol{W}_{hh}+\boldsymbol{b}_h)$

$\boldsymbol{X}_t\in\mathbb{R}^{n\times d}$ 是时间步 $t$ 的小批量输入
$\boldsymbol{H}_t\in\mathbb{R}^{n\times h}$ 是时间步 $t$ 的隐藏变量
$\boldsymbol{H}_{t-1}$ 是前一个时间步的隐藏变量
$\boldsymbol{W}_{hh}\in\mathbb{R}^{h\times h}$ 是权重参数

由于在当前时间步中，隐状态使用的定义与前一个时间步中使用的定义相同，因此此计算是循环的（recurrent）。于是基于循环计算的隐状态神经网络被命名为循环神经网络（recurrent neural network）。

对于时间步 $t$ ，输出层的输出类似于多层感知机中的计算：

$\boldsymbol{O}_t=\boldsymbol{H}_t\boldsymbol{W}_{hq}+\boldsymbol{b}_q$

在不同的时间步，循环神经网络也总是使用这些模型参数。因此，循环神经网络的参数开销不会随着时间步的增加而增加。

在这里插入图片描述

import torch
from d2l import torch as d2l

X, W_xh = torch.normal(0, 1, (3, 1)), torch.normal(0, 1, (1, 4))
H, W_hh = torch.normal(0, 1, (3, 4)), torch.normal(0, 1, (4, 4))
torch.matmul(X, W_xh) + torch.matmul(H, W_hh)

tensor([[-0.9743,  0.4619, -0.7949,  0.3287],[ 5.9413,  2.1961,  0.6053,  0.1704],[-1.0903, -0.2396, -1.0930, -0.8530]])

torch.matmul(torch.cat((X, H), 1), torch.cat((W_xh, W_hh), 0))

tensor([[-0.9743,  0.4619, -0.7949,  0.3287],[ 5.9413,  2.1961,  0.6053,  0.1704],[-1.0903, -0.2396, -1.0930, -0.8530]])

8.4.3 基于循环神经网络的字符级语言模型

以 “machine” 为例：

在这里插入图片描述

8.4.4 困惑度（Perplexity）

我们使用困惑度来评估模型。

一个更好的语言模型应该能让我们更准确地预测下一个词元，所以我们可以通过一个序列中所有的 $n$ 个词元的 交叉熵损失的平均值 来衡量：

$\frac{1}{n}\sum^n_{t=1}-\log{P(x_t|x_{t-1},\dots,x_1)}$

由于历史原因，自然语言处理的科学家更喜欢使用困惑度（perplexity）的。简而言之，它是上式的指数：

$\exp\left(-\frac{1}{n}\sum^n_{t=1}\log{P(x_t|x_{t-1},\dots,x_1)}\right)$

练习

（1）如果我们使用循环神经网络来预测文本序列中的下一个字符，那么任意输出所需的维度是多少？

啥叫“任意输出”？输出应该和输入是一个形状。

（2）为什么循环神经网络可以基于文本序列中所有先前的词元，在某个时间步表示当前词元的条件概率？

因为每个时间步的输入都有上一个时间步的输出。

（3）如果基于一个长序列进行反向传播，梯度会发生什么状况？

更容易出现梯度消失或者梯度爆炸。

（4）与本节中描述的语言模型相关的问题有哪些？

略。

《动手学深度学习 Pytorch版》 8.4 循环神经网络

8.4.1 无隐状态的神经网络

8.4.2 有隐状态的循环神经网络

8.4.3 基于循环神经网络的字符级语言模型

8.4.4 困惑度（Perplexity）

练习

相关文章：

《动手学深度学习 Pytorch版》 8.4 循环神经网络

什么是物联网阀控水表？

Kafka 开启SASL/SCRAM认证及 ACL授权（一）认证

关于智能控制领域中模糊控制算法的概述

剖析伦敦银最新价格走势图

通用人工智能技术（深度学习，大模型，Chatgpt，多模态，强化学习，具身智能）

makefile的特性-部分语法记录

【Java 进阶篇】JavaScript 正则表达式（RegExp）详解

51单片机之串口通信例程

Hadoop高可用集群（HA）一键启动脚本

C#开发的OpenRA游戏之金钱系统（1）

Puppeteer监听网络请求、爬取网页图片（二）

GoLang连接mysql数据库

软件工程与计算总结（八）软件设计基础

someip 入门

C# 使用Parallel去执行并行下载

@Component 和 @Bean的区别

百度测试开发工程师面试心得

发现更多美景！XnViewMP for Mac/Windows 图片浏览软件

城市广告牌安全传感器特点有哪些？

C++初阶-list的底层

C++ 基础特性深度解析

爬虫基础学习day2

稳定币的深度剖析与展望

论文笔记——相干体技术在裂缝预测中的应用研究

C/C++ 中附加包含目录、附加库目录与附加依赖项详解

论文阅读：LLM4Drive: A Survey of Large Language Models for Autonomous Driving

命令行关闭Windows防火墙

数据结构：泰勒展开式：霍纳法则（Horner‘s Rule）

电脑桌面太单调，用Python写一个桌面小宠物应用。