当前位置：首页 > news >正文

02- pytorch 实现 RNN

news 2026/2/8 22:22:40

一导包

import torch
from torch import nn
from torch.nn import functional as F
import dltools

1.1 导入训练数据

batch_size, num_steps = 32, 35
# 更改了默认的文件下载方式，需要将 article 文件放入该文件夹
train_iter, vocab = dltools.load_data_time_machine(batch_size, num_steps)

1.2 构造神经网络

num_hiddens = 256
# 构造了一个具有256个隐藏神经单元的单隐藏层的循环神经网络
rnn_layer = nn.RNN(len(vocab), num_hiddens)

构造了一个循环神经网络 (RNN) 层，该 RNN 层具有以下特性：

num_hiddens = 256: 这行代码定义了 RNN 层中的隐藏单元数量，即 RNN 层内部神经元的数量。在这个例子中，设置为 256，意味着 RNN 层将有 256 个隐藏神经单元。
nn.RNN(len(vocab), num_hiddens): 这行代码创建了一个 RNN 层的实例。它的参数如下：
- len(vocab): 这是输入数据的特征维度。在循环神经网络中，输入数据通常是一个序列，每个时间步的输入是一个向量。len(vocab) 表示词汇表的大小，它代表了序列中的每个时间步可能的输入的数量。在自然语言处理任务中，词汇表的大小通常对应于词汇表中不同词汇的数量。
- num_hiddens: 这是 RNN 层内部的隐藏单元数量，根据之前定义的值为 256。

综上所述，这段代码创建了一个具有 256 个隐藏神经单元的单隐藏层的循环神经网络层。这个 RNN 层可以用来处理序列数据，例如文本数据，在文本数据中，每个时间步可以对应一个词汇表中的一个词或一个词的嵌入表示。

1.3 初始化隐藏状态

# 初始化隐藏状态
state = torch.zeros((1, batch_size, num_hiddens))

创建了一个全零的张量作为隐藏状态。张量的形状是 (1, batch_size, num_hiddens)，其中：

1 表示时间步的数量，这里初始化的是一个初始时间步的隐藏状态。
batch_size 表示批量大小，即一次处理的样本数量。
num_hiddens 表示每个时间步的隐藏单元数量，即隐藏状态的维度。

二构建一个完整的循环神经网络

# 构建一个完整的循环神经网络
class RNNModel(nn.Module):def __init__(self, rnn_layer, vocab_size, **kwargs):super().__init__(**kwargs)self.rnn = rnn_layerself.vocab_size = vocab_sizeself.num_hiddens = self.rnn.hidden_sizeif not self.rnn.bidirectional:self.num_directions = 1self.linear = nn.Linear(self.num_hiddens, self.vocab_size)else:self.num_directions = 2self.linear = nn.Linear(self.num_hiddens * 2, self.vocab_size)# 前向传播def forward(self, inputs, state):X = F.one_hot(inputs.T.long(), self.vocab_size)X = X.to(torch.float32)Y, state = self.rnn(X, state)output = self.linear(Y.reshape(-1, Y.shape[-1]))return output, state# 初始化隐藏状态def begin_state(self, device, batch_size=1):return torch.zeros((self.num_directions * self.rnn.num_layers, batch_size, self.num_hiddens), device=device)

该部分定义了一个名为 RNNModel 的 PyTorch 模型类，该模型是一个循环神经网络 (RNN) 模型，用于处理序列数据。

__init__ 方法：这是类的构造函数，用于初始化模型的各个组件。在这里，做了以下工作：
- super().__init__(**kwargs) 调用了父类的构造函数，确保正确初始化模型。
- self.rnn = rnn_layer 存储了传入的 RNN 层。
- self.vocab_size = vocab_size 存储了词汇表的大小。
- self.num_hiddens = self.rnn.hidden_size 获取了 RNN 层的隐藏状态大小。
- 根据 RNN 是否是双向的，选择性地创建一个线性层，用于将 RNN 输出映射到词汇表大小的空间。如果是双向 RNN，则输入的维度是隐藏状态大小的两倍。
forward 方法：这个方法定义了前向传播过程。它接受输入 inputs 和当前的隐藏状态 state。在前向传播中，它执行以下操作：
- 使用 F.one_hot 将输入 inputs 转化为独热编码，以便与词汇表大小匹配。然后将其转换为浮点数张量。
- 将输入数据和隐藏状态传递给 RNN 层，以获得输出 Y 和新的隐藏状态 state。
- 将 RNN 输出 Y 重塑成二维张量，然后通过线性层 self.linear 将其映射到词汇表大小的空间，并返回输出结果。
begin_state 方法：这个方法用于初始化隐藏状态，返回一个全零的张量，其形状取决于 RNN 的层数、方向数、隐藏单元数以及批量大小。

2.1 实例化模型

# 在训练前，跑下模型
device = dltools.try_gpu()
net = RNNModel(rnn_layer, vocab_size=len(vocab))
net = net.to(device)

创建了一个 RNNModel对象，该对象接受一个rnn_layer和一个词汇表大小作为参数。最后，它将模型移动到之前确定的设备上

三执行训练

# 训练
num_epochs, lr = 200, 0.1
dltools.train_ch8(net, train_iter, vocab, lr, num_epochs, device)

3.1 执行预测

dltools.predict_ch8('time traveller', 10, net, vocab, device)

02- pytorch 实现 RNN

一导包 import torch from torch import nn from torch.nn import functional as F import dltools 1.1 导入训练数据 batch_size, num_steps 32, 35 # 更改了默认的文件下载方式，需要将 article 文件放入该文件夹 train_iter, vocab dltools.load_data_time_…...

编程日记 2023/9/16 11:57:41

算法课作业1

https://vjudge.net/contest/581138 A - Humidex 模拟题题目大意给三个类型数字通过公式来回转化思路求e的对数有log函数，不懂为什么不会出精度错误，很迷，给的三个数字也没有顺序，需要多判断。 #include<cstdio>…...

编程日记 2023/9/16 11:55:38

linux文本处理两行变一行

linux简单文本处理 [rootkvm ~]# cat test 1.1.1.1 test1 2.2.2.2 test2 3.3.3.3 test3 192.168.1.2 test4 10.23.9.19 test5 cat test | awk /^[0-9]/{T$1;next;}{print T,$1}1.1.1.1 test1 2.2.2.2 test2 3.3.3.3 test3 192.168.1.2 test4 10.23.9.19 test5 cat test | …...

编程日记 2023/9/16 11:54:38

第二次面试 9.15

首先就是自我介绍项目拷打总体介绍一下项目谈一下对socket的理解在数据接收阶段，如何实现一个异步的数据处理谈一谈对qt信号槽的理解有想过如何去编写一个信号槽吗你是如何使用CMAKE编译文件的 C11特性了解些啥 shared_ptr 和 unique_ptr 的运用场景 …...

编程日记 2023/9/16 11:53:37

基于matlab实现的平面波展开法二维声子晶体能带计算程序

Matlab 平面波展开法计算二维声子晶体二维声子晶体带结构计算，材料是铅柱在橡胶基体中周期排列，格子为正方形。采用PWE方法计算完整程序: %%%%%%%%%%%%%%%%%%%%%%%%% clear;clc;tic;epssys1.0e-6; %设定一个最小量，避免系统截断误差或除零错…...

编程日记 2023/9/16 11:52:36

Minio入门系列【2】纠删码

1 纠删码 Minio使用纠删码erasure code和校验和checksum来保护数据免受硬件故障和无声数据损坏。即便丢失一半数量（N/2）的硬盘，仍然可以恢复数据 1.1 什么叫纠删码纠删码是一种用于重建丢失或损坏数据的数学算法。纠删码（e…...

编程日记 2023/9/16 11:47:28

基于永磁同步发电机的风力发电系统研究（Simulink实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

编程日记 2023/9/16 11:43:25

5.后端·新建子模块与开发（自动模式）

文章目录学习资料自动生成模式创建后端三层学习资料 https://www.bilibili.com/video/BV13g411Y7GS?p11&spm_id_frompageDriver&vd_sourceed09a620bf87401694f763818a31c91e 自动生成模式创建后端三层首先，运行起来若依的前后端整个项目，…...

编程日记 2023/9/16 11:41:24

vue的data为什么要写成data(return{})这样而不是data:{}这样？

在Vue.js中，为什么要将data写成一个返回对象的函数data()而不是一个普通的对象data: {} 为什么？ 因为Vue.js的组件实例是可复用的，而且它们可以在应用中多次实例化。通过将data定义为一个返回对象的函数，可以确保每个组件实例都…...

编程日记 2023/9/16 11:40:23

MySQL基础运维知识点大全

一. MySQL基本知识 1. 目录的功能通用 Unix/Linux 二进制包的 MySQL 安装下目录的相关功能目录目录目录binMySQLd服务器，客户端和实用程序docs信息格式的 MySQL 手册manUnix 手册页include包括（头）文件lib图书馆share用于数据库安装的错…...

编程日记 2023/9/16 11:35:18

javascript获取样式表的规则及读取与写入

CSSStyleSheet是继承了StyleSheet的接口属性,它是用于找当前文档中的<link rel“” href“”…>这样文件的，有以下属性：lenght,cssRules,title,href,type,deleteRule,insertRule等 CSSStyleRule是继承于CSSRule，它是用于找<link re…...

编程日记 2023/9/16 11:34:17

什么是promise?

是JavaScript中用于处理异步操作的一种机制。异步操作，例如从服务器获取数据、读取文件、执行数据库查询等等。经典使用：Axios 是一个基于Promise的HTTP客户端 Promise具有三个状态： Pending（待定）：Pr…...

编程日记 2023/9/16 11:24:09

从零开始学习软件测试-第45天笔记

monkey事件事件：对app进行的操作，比如触摸事件，滑动事件...动作：构成一个事件所需要的步骤。调整事件的百分比 adb shell monkey -p 包名 -v -v --pct-xxx 百分比次数>输出文件的路径分析日志有没有报错到日志中去找…...

编程日记 2023/9/16 11:21:06

visual studio常用快捷键

CtrlM、CtrlO 折叠到定义 CtrlM、CtrlM 折叠当前定义 CtrlM、CtrlA 折叠全部 CtrlK、CtrlD 自动编排代码格式 F12 转到定义 ShiftF12 查看所有定义 ctrl] 转到定义首部或尾部 ctrlX 未选中文本时，剪切/删除光标所在行。ctrlV 未选中文本时，粘贴到…...

编程日记 2023/9/16 11:20:05

数据变换：数据挖掘的准备工作之一

⭐️⭐️⭐️⭐️⭐️欢迎来到我的博客⭐️⭐️⭐️⭐️⭐️ 🐴作者：秋无之地 🐴简介：CSDN爬虫、后端、大数据领域创作者。目前从事python爬虫、后端和大数据等相关工作，主要擅长领域有：爬虫、后端、大数据…...

编程日记 2023/9/16 11:16:02

Go语言实践案例之简单字典

一、程序要实现效果： 在命令行调用程序的时候，可以在命令行的后面查询一个单词，然后会输出单词的音标和注释。二、思路分析： 定义一个结构体 DictRequest，用于表示翻译请求的数据结构。其中包含了 TransType&#…...

编程日记 2023/9/16 11:15:01

笔试面试相关记录（3）

（1）String String和String.append()的底层实现 C中string append函数的使用与字符串拼接「建议收藏」-腾讯云开发者社区-腾讯云 (tencent.com) String String 在第二个String中遇到\0就截止，append()的方法则是所有字符都会加在后面。 &…...

编程日记 2023/9/16 11:08:53

第6章_瑞萨MCU零基础入门系列教程之串行通信接口（SCI）

本教程基于韦东山百问网出的 DShanMCU-RA6M5开发板进行编写，需要的同学可以在这里获取： https://item.taobao.com/item.htm?id728461040949 配套资料获取：https://renesas-docs.100ask.net 瑞萨MCU零基础入门系列教程汇总： ht…...

编程日记 2023/9/16 11:05:50

开源免费的流程图软件draw.io

2023年9月16日，周六上午想买微软的visio，但发现不是很值得，因为我平时也不是经常需要画图。所以我最后还是决定使用开源免费的draw.io来画图 draw.io网页版的网址： Flowchart Maker & Online Diagram Software draw.io的…...

编程日记 2023/9/16 11:01:47

Python绘图系统19：添加时间轴以实现动态绘图

文章目录时间轴单帧跳转源代码 Python绘图系统： 📈从0开始的3D绘图系统📉一套3D坐标，多个函数📊散点图、极坐标和子图自定义控件：绘图风格📉风格控件📊定制绘图风格坐标设置进阶&a…...

编程日记 2023/9/16 10:59:45

idea大量爆红问题解决

问题描述在学习和工作中，idea是程序员不可缺少的一个工具，但是突然在有些时候就会出现大量爆红的问题，发现无法跳转，无论是关机重启或者是替换root都无法解决就是如上所展示的问题，但是程序依然可以启动。问题解决…...

编程新知 2026/2/8 6:37:38

Android Wi-Fi 连接失败日志分析

1. Android wifi 关键日志总结 (1) Wi-Fi 断开 (CTRL-EVENT-DISCONNECTED reason3) 日志相关部分： 06-05 10:48:40.987 943 943 I wpa_supplicant: wlan0: CTRL-EVENT-DISCONNECTED bssid44:9b:c1:57:a8:90 reason3 locally_generated1解析： CTR…...

编程新知 2025/9/14 19:44:52

边缘计算医疗风险自查APP开发方案

核心目标：在便携设备（智能手表/家用检测仪）部署轻量化疾病预测模型，实现低延迟、隐私安全的实时健康风险评估。一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...

编程新知 2026/1/28 10:02:54

【HarmonyOS 5.0】DevEco Testing：鸿蒙应用质量保障的终极武器

——全方位测试解决方案与代码实战一、工具定位与核心能力 DevEco Testing是HarmonyOS官方推出的一体化测试平台，覆盖应用全生命周期测试需求，主要提供五大核心能力： 测试类型检测目标关键指标功能体验基…...

编程新知 2026/1/28 8:17:53

【磁盘】每天掌握一个Linux命令 - iostat

目录【磁盘】每天掌握一个Linux命令 - iostat工具概述安装方式核心功能基础用法进阶操作实战案例面试题场景生产场景注意事项【磁盘】每天掌握一个Linux命令 - iostat 工具概述 iostat（I/O Statistics）是Linux系统下用于监视系统输入输出设备和CPU使…...

编程新知 2025/9/30 16:39:11

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

5月28日，中天合创屋面分布式光伏发电项目顺利并网发电，该项目位于内蒙古自治区鄂尔多斯市乌审旗，项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站，总装机容量为9.96MWp。项目投运后，每年可节约标煤3670…...

编程新知 2026/1/30 2:45:51

Spring AI 入门：Java 开发者的生成式 AI 实践之路

一、Spring AI 简介在人工智能技术快速迭代的今天，Spring AI 作为 Spring 生态系统的新生力量，正在成为 Java 开发者拥抱生成式 AI 的最佳选择。该框架通过模块化设计实现了与主流 AI 服务（如 OpenAI、Anthropic）的无缝对接&…...

编程新知 2025/12/25 18:03:56

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南

精益数据分析（97/126）：邮件营销与用户参与度的关键指标优化指南在数字化营销时代，邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天，我们将深入解析邮件打开率、网站可用性、页面参与时…...

编程新知 2025/12/13 4:04:33

基于IDIG-GAN的小样本电机轴承故障诊断

目录 🔍 核心问题一、IDIG-GAN模型原理 1. 整体架构 2. 核心创新点 (1) 梯度归一化（Gradient Normalization） (2) 判别器梯度间隙正则化（Discriminator Gradient Gap Regularization） (3) 自注意力机制（Self-Attention） 3. 完整损失函数二…...

编程新知 2026/1/31 10:58:46

C#学习第29天：表达式树（Expression Trees）

目录什么是表达式树？ 核心概念 1.表达式树的构建 2. 表达式树与Lambda表达式 3.解析和访问表达式树 4.动态条件查询表达式树的优势 1.动态构建查询 2.LINQ 提供程序支持： 3.性能优化 4.元数据处理 5.代码转换和重写适用场景代码复杂性…...

编程新知 2025/10/20 9:03:01

一 导包