当前位置：首页 > news >正文

Pytorch实现RNN实验

news 2025/7/8 19:41:56

一、实验要求

用 Pytorch 模块的 RNN 实现生成唐诗。要求给定一个字能够生成一首唐诗。

二、实验目的

理解循环神经网络（RNN）的基本原理：通过构建一个基于RNN的诗歌生成模型，学会RNN是如何处理序列数据的，以及如何在PyTorch中实现它。
掌握文本数据的预处理技巧，并学会构建一个文本生成模型
加深对循环神经网络的了解

三、实验过程

1.搭建模型

整体思路：

先进行文本预处理，读取诗歌数据，清理文本数据，并构建词汇表，记录每个字符的出现频率。然后将清理过的文本数据转换成模型可用的数字表示形式，并将整数表示的文本数据切分为多个序列，构建训练数据集。随后，定义一个基于RNN的模型，通过训练数据集迭代训练模型来优化模型参数。模型训练完成后可利用模型生成一定长度的新诗歌文本。

1）导入库和检查GPU可用性

导入Pytorch库并检查GPU是否可用。如果GPU可用，返回“True”

导入进行数据预处理和标记所需的库

2）定义超参数

定义了学习率、最大训练轮次、批处理大小以及是否使用GPU的标志。

3）数据处理

引入诗歌文件，形成诗歌数据集，并通过替换换行符和中文标点符号来清理文本

‘TextConverter’类负责对文本数据进行预处理和转换

字符到整数和整数到字符的转换方法：

word_to_int方法接受一个字符作为参数，返回字符在词汇表中的整数索引。如果字符不在词汇表中，则返回词汇表大小。
int_to_word方法接受一个整数索引作为参数，返回该索引对应的字符。如果索引等于词汇表大小，返回中文逗号"，"；如果索引小于词汇表大小，则返回对应的字符；否则，抛出异常。

文本到数组和数组到文本的转换方法:

text_to_arr方法接受一个文本字符串作为参数，返回一个由文本中每个字符对应整数索引组成的NumPy数组。
arr_to_text方法接受一个整数索引数组作为参数，返回由数组中每个索引对应字符组成的字符串

准备数据集

定义数据集

4）定义RNN模型

使用PyTorch的nn.Module定义了RNN模型的结构

通过嵌入层将字符索引映射为密集向量，然后通过RNN层处理这些向量序列。最后，通过线性层将RNN输出映射为词汇表大小的向量。

5）模型初始化、损失和优化器

使用交叉熵损失函数（nn.CrossEntropyLoss()）来度量模型输出与实际标签之间的差异。

使用Adam优化器（torch.optim.Adam）来更新模型参数，其中学习率为Learning_rate。

6）训练循环

通过反复迭代，模型在每个Epoch中根据训练数据调整参数，逐渐提高对中文诗歌模式的学习，使得生成的文本更符合训练数据的特征

2.对模型进行优化、改进

1）运行程序

根据提供的训练输出结果来看，Perplexity的数值较大，而Loss较高，说明模型在训练数据上的拟合效果相对较差。通常情况下，Perplexity较低且Loss较小的模型效果更好。

分析可能导致模型效果一般的原因：

增加模型复杂性：添加更多层或增加现有层中的隐藏单元数
使用LSTM或者GRU：捕捉序列中的长期依赖关系

调整嵌入维度：尝试不同的myRNN类中的embed_dim参数值
调整学习率
增加训练次数
实现验证集：将数据集拆分为训练集和验证集。使用验证集来监控训练过程中模型的性能。在验证损失不再下降或开始上升时停止训练。

2）修改模型结构，使用LSTM结构

并且将训练次数增加到50

输出结果为：

调整学习率为1e-5 ，输出

3）实现测试集：将数据集拆分为训练集和测试集

发现多次调参，调整Embedding层，调模型结构都没调出合适的模型，输出的诗句有很多重复的字。

4）选择将原模型增加测试集进行尝试

输出结果为

考虑到古诗上下文之间有一定的关联性

将n_step设置为30

输出结果为

将n_step设置为40

输出结果为

发现这种情况是所有实验中Loss最小的一种

四、实验结果

经过多次调参，优化模型，发现使用RNN结构，学习率为1e-4，epochs为50，n_setp为40时，得出的Loss最小。

五、实验总结

在修改深度学习代码，特别是从RNN迁移到LSTM的过程中，我遇到了一些挑战。首先，了解LSTM与RNN的区别和工作原理对于成功修改代码至关重要。其次，我注意到LSTM层的输入格式要求与RNN不同，需要将batch_first设置为True。在调试过程中，还遇到了一些GPU不可用的问题，通过检查CUDA是否可用、GPU驱动程序和PyTorch版本等方面找到解决方案。总的来说，通过修改代码将RNN替换为LSTM，我更深入地理解了这两者之间的差异。但是，由于自己的能力有限，在修改为LSTM后并没有成功优化模型。所以，最后还是将RNN结构模型增加测试集，得出一个相对较好的结果。

Pytorch实现RNN实验

一、实验要求

二、实验目的

三、实验过程

1.搭建模型

2.对模型进行优化、改进

四、实验结果

五、实验总结

相关文章：

Pytorch实现RNN实验

四、Drf认证组件

C++：静态成员

28 Vue3之搭建公司级项目规范

【pytorch】张量求导3

Servlet——springMvc底层原理

Json 在线可视化工具，分享几个

LLM | llama.cpp 安装使用（支持CPU、Metal及CUDA的单卡/多卡推理）

矩阵求解复数（aniwoth求解串扰）

Redis: Sentinel哨兵监控架构及环境搭建

C++ 语言特性30 - 模板介绍

算法笔记（七）——哈希表

【基础算法总结】链表篇

探索路由器静态IP的获取方式

Vivado - JTAG to AXI Master (GPIO、IIC、HLS_IP)

Java中JWT（JSON Web Token）的运用

CSS3练习--电商web

Linux 默认内核版本更改

【ubuntu】修改用户名、主机名、主文件夹名、登录名、密码

深入理解JavaScript 的原型继承

shell脚本--常见案例

如何在看板中有效管理突发紧急任务

Linux云原生安全：零信任架构与机密计算

【学习笔记】深入理解Java虚拟机学习笔记——第4章虚拟机性能监控，故障处理工具

MySQL用户和授权

RNN避坑指南：从数学推导到LSTM/GRU工业级部署实战流程

虚拟电厂发展三大趋势：市场化、技术主导、车网互联

2025年渗透测试面试题总结-腾讯[实习]科恩实验室-安全工程师（题目+回答）

uniapp手机号一键登录保姆级教程（包含前端和后端）

结构化文件管理实战：实现目录自动创建与归类