当前位置：首页 > article >正文

【现代深度学习技术】循环神经网络06：循环神经网络的简洁实现

article 2026/2/7 20:06:21

在这里插入图片描述

【作者主页】Francek Chen
【专栏介绍】 $⌈$ PyTorch深度学习 $⌋$ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。
【GitCode】专栏资源保存在我的GitCode仓库：https://gitcode.com/Morse_Chen/PyTorch_deep_learning。

文章目录

- 一、定义模型
- 二、训练与预测
- 小结

虽然循环神经网络的从零开始实现对了解循环神经网络的实现方式具有指导意义，但并不方便。本节将展示如何使用深度学习框架的高级API提供的函数更有效地实现相同的语言模型。我们仍然从读取时光机器数据集开始。

import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2lbatch_size, num_steps = 32, 35
train_iter, vocab = d2l.load_data_time_machine(batch_size, num_steps)

一、定义模型

高级API提供了循环神经网络的实现。我们构造一个具有256个隐藏单元的单隐藏层的循环神经网络层rnn_layer。事实上，我们还没有讨论多层循环神经网络的意义（这将在深度循环神经网络中介绍）。现在仅需要将多层理解为一层循环神经网络的输出被用作下一层循环神经网络的输入就足够了。

num_hiddens = 256
rnn_layer = nn.RNN(len(vocab), num_hiddens)

我们使用张量来初始化隐状态，它的形状是（隐藏层数，批量大小，隐藏单元数）。

state = torch.zeros((1, batch_size, num_hiddens))
state.shape

在这里插入图片描述

通过一个隐状态和一个输入，我们就可以用更新后的隐状态计算输出。需要强调的是，rnn_layer的“输出”（Y）不涉及输出层的计算：它是指每个时间步的隐状态，这些隐状态可以用作后续输出层的输入。

X = torch.rand(size=(num_steps, batch_size, len(vocab)))
Y, state_new = rnn_layer(X, state)
Y.shape, state_new.shape

在这里插入图片描述

与循环神经网络的从零开始实现类似，我们为一个完整的循环神经网络模型定义了一个RNNModel类。注意，rnn_layer只包含隐藏的循环层，我们还需要创建一个单独的输出层。

#@save
class RNNModel(nn.Module):"""循环神经网络模型"""def __init__(self, rnn_layer, vocab_size, **kwargs):super(RNNModel, self).__init__(**kwargs)self.rnn = rnn_layerself.vocab_size = vocab_sizeself.num_hiddens = self.rnn.hidden_size# 如果RNN是双向的（之后将介绍），num_directions应该是2，否则应该是1if not self.rnn.bidirectional:self.num_directions = 1self.linear = nn.Linear(self.num_hiddens, self.vocab_size)else:self.num_directions = 2self.linear = nn.Linear(self.num_hiddens * 2, self.vocab_size)def forward(self, inputs, state):X = F.one_hot(inputs.T.long(), self.vocab_size)X = X.to(torch.float32)Y, state = self.rnn(X, state)# 全连接层首先将Y的形状改为(时间步数*批量大小,隐藏单元数)# 它的输出形状是(时间步数*批量大小,词表大小)。output = self.linear(Y.reshape((-1, Y.shape[-1])))return output, statedef begin_state(self, device, batch_size=1):if not isinstance(self.rnn, nn.LSTM):# nn.GRU以张量作为隐状态return  torch.zeros((self.num_directions * self.rnn.num_layers,batch_size, self.num_hiddens), device=device)else:# nn.LSTM以元组作为隐状态return (torch.zeros((self.num_directions * self.rnn.num_layers,batch_size, self.num_hiddens), device=device),torch.zeros((self.num_directions * self.rnn.num_layers,batch_size, self.num_hiddens), device=device))

二、训练与预测

在训练模型之前，让我们基于一个具有随机权重的模型进行预测。

device = d2l.try_gpu()
net = RNNModel(rnn_layer, vocab_size=len(vocab))
net = net.to(device)
d2l.predict_ch8('time traveller', 10, net, vocab, device)

在这里插入图片描述

很明显，这种模型根本不能输出好的结果。接下来，我们使用循环神经网络的从零开始实现中定义的超参数调用train_ch8，并且使用高级API训练模型。

num_epochs, lr = 500, 1
d2l.train_ch8(net, train_iter, vocab, lr, num_epochs, device)

在这里插入图片描述

与上一节相比，由于深度学习框架的高级API对代码进行了更多的优化，该模型在较短的时间内达到了较低的困惑度。

小结

深度学习框架的高级API提供了循环神经网络层的实现。
高级API的循环神经网络层返回一个输出和一个更新后的隐状态，我们还需要计算整个模型的输出层。
相比从零开始实现的循环神经网络，使用高级API实现可以加速训练。

【现代深度学习技术】循环神经网络06：循环神经网络的简洁实现

【作者主页】Francek Chen 【专栏介绍】 ⌈ ⌈ ⌈PyTorch深度学习 ⌋ ⌋ ⌋ 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上，结合当代大数据和大算力的发展而发展出来的。深度学习最重…...

编程日记 2026/2/5 4:18:13

【办公类-89-02】20250424会议记录模版WORD自动添加空格补全下划线

背景需求 4月23日听了一个MJB的征文培训，需要写会议记录把资料黏贴到模版后，发现每行需要有画满下划线原来做这套资料，就是手动按空格到一行末，有空格才会出现下划线，也就是要按很多的空格（凑满一行&…...

编程日记 2026/2/6 8:17:31

解释器模式：自定义语言解析与执行的设计模式

解释器模式：自定义语言解析与执行的设计模式一、模式核心：定义语言文法并实现解释器处理句子在软件开发中，当需要处理特定领域的语言（如数学表达式、正则表达式、自定义配置语言）时，可以通过解释器模式…...

编程日记 2026/2/5 6:45:05

了解互联网

本文来源 ： 腾讯元宝克劳德香农（Claude Shannon） 信息时代之父克劳德香农（Claude Shannon，1916-2001）是20世纪最具影响力的数学家和工程师之一，被誉为“信息论之父”和“数字…...

编程日记 2026/2/7 16:47:57

Vue和React项目中，统一监听页面错误需要结合框架提供的错误处理机制与JavaScript原生方法

在Vue和React项目中，统一监听页面错误需要结合框架提供的错误处理机制与JavaScript原生方法，以下是具体方案及实现原理： Vue项目统一监听错误 errorCaptured生命周期钩子134 作用：监听所有下级组件的报错，可返回fals…...

编程日记 2025/12/14 7:07:38

AI催生DLP新战场 | 天空卫士连续6年入选Gartner 全球数据防泄漏（DLP）市场指南

“管理数据外泄风险仍然是企业的重大挑战之一，客户处出于各种因素寻求DLP。最近，一些组织对使用DLP控制机器对敏感信息的访问表现出很大兴趣。随着生成式人工智能（GenAI）的运用和数据的不断扩散，数据外泄的问题变得更…...

编程日记 2026/2/4 19:30:20

23种设计模式-行为型模式之策略模式（Java版本）

Java 策略模式（Strategy Pattern）详解 🧠 什么是策略模式？ 策略模式是一种行为型设计模式，它定义了一系列算法，把它们一个个封装起来，并且使它们可以互相替换。策略模式让算法独立于使用它的客…...

编程日记 2025/12/15 16:57:14

Adobe After Effects的插件--------Optical Flares之Lens Objects参数

Lens Objects，即【镜头对象】。通用设置全局参数发光多光圈光圈条纹微光反射钉球闪光圆环箍焦散镜头球缩放✔✔✔✔✔✔✔✔✔✔✔✔✔缩放偏移✔长宽比✔✔✔✔✔✔✔✔✔✔✔✔✔混合模式✔颜色✔全局种子✔亮度✔✔✔✔✔✔✔✔✔✔✔✔拉伸✔✔✔✔✔✔✔✔✔✔✔✔距离…...

编程日记 2026/1/30 16:51:58

使用Matlab工具将RAW文件转化为TXT文件，用于FPGA仿真输入

FPGA实现图像处理算法时，通常需要将图像作为TestBench的数据输入。使用VHDL编写TestBench时，只能读取二进制TXT文件。现在提供代码，用于实现RAW图像读取，图像显示，图像转化为二进制数据并存入TXT文件中。 clc; cl…...

编程日记 2025/12/11 21:20:13

【问题】解决docker的方式安装n8n,找不到docker.n8n.io/n8nio/n8n:latest镜像的问题

问题概览用docker方式安装n8n，遇到错误，安装不了的问题： Unable to find image docker.n8n.io/n8nio/n8n:latest locally docker: Error response from daemon: Get "https://registry-1.docker.io/v2/": net/http: request can…...

编程日记 2026/2/4 16:58:29

【网络】TCP/IP协议学习

学TCP/IP最好的方法是阅读lwip源码。 1. 资料什么是SYN Flood？DoS 和 DDoS 攻击，一个字母之差，到底区别在哪？ 2. 技术要点： 技术要点要结合源码，以及向AI提问来理解，否则真的很难理解&…...

编程日记 2026/1/17 4:02:28

系统与网络安全------弹性交换网络（1）

资料整理于网络资料、书本资料、AI，仅供个人学习参考。 Trunk原理与配置 Trunk原理概述 Trunk（虚拟局域网中继技术）是指能让连接在不同交换机上的相同VLAN中的主机互通。 VLAN内通信实现跨交换的同VLAN通信，通过Trunk链路&am…...

编程日记 2026/2/4 22:58:41

10天学会嵌入式技术之51单片机-day-3

第九章独立按键按键的作用相当于一个开关，按下时接通（或断开），松开后断开（或接通）。实物图、原理图、封装 9.2 需求描述通过 SW1、SW2、SW3、SW4 四个独立按键分别控制 LED1、LED2、LED3、LED4 的亮…...

编程日记 2026/2/1 3:15:51

深入解析微软MarkitDown：原理、应用与二次开发指南

一、项目背景与技术定位微软开源的MarkitDown并非简单的又一个Markdown解析器，而是针对现代文档处理需求设计的工具链核心组件。该项目诞生于微软内部大规模文档系统的开发实践，旨在解决以下技术痛点： 大规模文档处理性能：能够高…...

编程日记 2026/2/4 20:04:17

【PVCodeNet】《Palm Vein Recognition Network Combining Transformer and CNN》

[1]吴凯,沈文忠,贾丁丁,等.融合Transformer和CNN的手掌静脉识别网络[J].计算机工程与应用,2023,59(24):98-109. 文章目录 1、Background and Motivation2、Related Work3、Advantages / Contributions4、Method5、Experiments5.1、Datasets and Metrics5.2、Hyper-parameters5.…...

编程日记 2026/2/4 20:04:02

CentOS 7 磁盘分区详细教程

CentOS 7 磁盘分区详细教程在服务器管理和运维过程中，磁盘分区是一项基础且重要的操作。合理的磁盘分区可以提高数据存储的安全性、高效性，方便系统管理与维护。本文将详细介绍在 CentOS 7 系统中进行磁盘分区的具体步骤和方法。一、准备工作 1.1 确…...

编程日记 2025/11/11 21:27:04

从青涩到 AI：我与评估程序的三十年 “纠缠” 与重启（参数化）

接上篇：从青涩到 AI：我与评估程序的三十年 “纠缠” 与重启主要对参数配置和模板文件处理进行了改动，将可参数化的数据放到了config.yaml文件中，再一个将模板文件（评估模板.xlsx）分离为(7年级模板.xls…...

编程日记 2025/12/29 6:40:23

x-cmd install | brows - 终端里的 GitHub Releases 浏览器，告别繁琐下载！

目录核心功能与优势安装适用场景还在为寻找 GitHub 项目的特定 Release 版本而苦恼吗？还在网页上翻来覆去地查找下载链接吗？现在，有了 brows，一切都将变得简单高效！ brows 是一款专为终端设计的 GitHub Releases 浏览…...

编程日记 2026/2/4 5:04:24

【python】如何将文件夹及其子文件夹下的所有word文件汇总导出到一个excel文件里？

根据你的需求，这里提供一套完整的Python解决方案，支持递归遍历子文件夹、提取Word文档内容（段落+表格），并整合到Excel中。以下是代码实现及详细说明：一个单元格一个word的全部内容完整代码 # -*- coding: utf-8 -*- import os from docx import Document import pand…...

编程日记 2026/2/2 7:44:54

C++ 封装成DLL，C#调用

目录前言一、C DLL 封装二、C# 调用 DLL 1、创建 C# 控制台项目，调用三、注意事项前言在实际工程开发中，跨语言调用是常见的需求，尤其是在性能要求较高的模块中，常常采用 C 实现核心算法逻辑，并通过封装为 D…...

编程日记 2026/2/3 16:03:00

多模态知识图谱：重构大模型RAG效能新边界

当前企业级RAG（Retrieval-Augmented Generation）系统在非结构化数据处理中面临四大核心问题： 数据孤岛效应：异构数据源（文档/表格/图像/视频）独立存储，缺乏跨模态语义关联，导致知识检…...

编程日记 2026/2/4 17:34:38

实验八版本控制

实验八版本控制一、实验目的掌握Git基本命令的使用。二、实验内容 1.理解版本控制工具的意义。 2.安装Windows和Linux下的git工具。 3.利用git bash结合常用Linux命令管理文件和目录。 4.利用git创建本地仓库并进行简单的版本控制实验。三、主要实验步骤 1.下载并安…...

编程日记 2026/2/1 3:53:29

微服务相比传统服务的优势

这是一道面试题，咱们先来分析这道题考察的是什么。如果分析面试官主要考察以下几个方面： 技术理解深度你是否清楚微服务架构（Microservices）和传统单体架构（Monolithic）的本质区别。能否从设计理念、技术…...

编程日记 2025/12/12 21:01:51

JavaWeb：Web介绍

Web开篇什么是web? Web网站工作流程网站开发模式 Web前端开发初识web Web标准 HtmlCss 什么是Html? 什么是CSS?...

编程日记 2026/2/1 7:25:20

教育行业网络安全：守护学校终端安全，筑牢教育行业网络安全防线！

教育行业面临的终端安全问题日益突出，主要源于教育信息化进程的加速、终端设备多样化以及网络环境的开放性。以下是教育行业终端安全面临的主要挑战： 1、设备类型复杂化问题：教育机构使用的终端设备包括PC、服务器等，操作系统…...

编程日记 2026/2/4 11:44:20

【论文速递】2025年04周（Robotics/Embodied AI/LLM）

目录 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning摘要 Evolving Deeper LLM Thinking摘要 Kimi k1.5: Scaling Reinforcement Learning with LLMs摘要 Agent-R: Training Language Model Agents to Reflect via Iterative Self-Train…...

编程日记 2025/12/15 6:18:33

【现代深度学习技术】循环神经网络06：循环神经网络的简洁实现

文章目录

一、定义模型

二、训练与预测

小结

相关文章：

【现代深度学习技术】循环神经网络06：循环神经网络的简洁实现

【办公类-89-02】20250424会议记录模版WORD自动添加空格补全下划线

解释器模式：自定义语言解析与执行的设计模式

了解互联网

Vue和React项目中，统一监听页面错误需要结合框架提供的错误处理机制与JavaScript原生方法

AI催生DLP新战场 | 天空卫士连续6年入选Gartner 全球数据防泄漏（DLP）市场指南

23种设计模式-行为型模式之策略模式（Java版本）

Adobe After Effects的插件--------Optical Flares之Lens Objects参数

使用Matlab工具将RAW文件转化为TXT文件，用于FPGA仿真输入

【问题】解决docker的方式安装n8n,找不到docker.n8n.io/n8nio/n8n:latest镜像的问题

【网络】TCP/IP协议学习

系统与网络安全------弹性交换网络（1）

10天学会嵌入式技术之51单片机-day-3

深入解析微软MarkitDown：原理、应用与二次开发指南

【PVCodeNet】《Palm Vein Recognition Network Combining Transformer and CNN》

CentOS 7 磁盘分区详细教程

从青涩到 AI：我与评估程序的三十年 “纠缠” 与重启（参数化）

x-cmd install | brows - 终端里的 GitHub Releases 浏览器，告别繁琐下载！

【python】如何将文件夹及其子文件夹下的所有word文件汇总导出到一个excel文件里？

C++ 封装成DLL，C#调用

多模态知识图谱：重构大模型RAG效能新边界

实验八版本控制

微服务相比传统服务的优势

JavaWeb：Web介绍

教育行业网络安全：守护学校终端安全，筑牢教育行业网络安全防线！

【论文速递】2025年04周（Robotics/Embodied AI/LLM）

Spring Boot知识点详解

LangChain与图数据库Neo4j LLMGraphTransformer融合：医疗辅助诊断、金融风控领域垂直领域、法律咨询场景问答系统的技术实践

DNS主从同步及解析

在Windows11上用wsl配置docker register 镜像地址