当前位置：首页 > article >正文

RNN模型与NLP应用——（7/9）机器翻译与Seq2Seq模型

article 2026/2/7 2:28:33

声明：

本文基于哔站博主【Shusenwang】的视频课程【RNN模型及NLP应用】，结合自身的理解所作，旨在帮助大家了解学习NLP自然语言处理基础知识。配合着视频课程学习效果更佳。

材料来源：【Shusenwang】的视频课程【RNN模型及NLP应用】

视频链接：RNN模型与NLP应用(7/9)：机器翻译与Seq2Seq模型_哔哩哔哩_bilibili

一、学习目标

1.了解什么是Seq2Seq模型

2.掌握Sequence to Sequence模型实现的底层逻辑

3.学会提升Sequence to Sequence模型的几种方法

二、Sequence to Sequence模型

这是一个多对多的模型

【样例介绍】我们要搭建一个将英语文本翻译为德语的模型

（1）处理数据

大家可以在这个网站上找数据来训练

预处理：

将文本中的标点符号删掉，将大写转换为小写等操作

tokenazation:

要用两个不同的tokenizer，因为不同的语言有着不同的字母表，两种语言的字母表通常是不同的，此外不同的语言分词方法不同，所以我们应该构建两种不同的字母表。

char-level可以将文本分割成以一个一个的字符

word-level可以将文本分割成一个一个单词

实际上我们通常会用word-level【这里我们选用char-level】因为实际的数据集通常比较大，但我们这里数据集没有那么大，因此使用char-level

左边的字典是英语字典，右边是德语字典

用字母表示出英语文本序列和德语文本序列

英语：

德语：

（2）搭建模型

接下来，我们搭建一个Sequence to Sequence模型。

Sequence to Sequence模型由编码器和解码器两个部分构成

编码器：

Encoder是一个LSTM或者其他RNN模型，用来从输入的英语语句中提取特征，Encoder最后一个状态就是从输入的句子中提取的特征，包含这句话的信息。其余的状态信息没有用都被丢掉了。Encoder的输出就是最后一个状态向量h 和传输带c

解码器：

Decoder的初始状态是Ecoder的最后一个状态，通过Encoder最后一个状态，Decoder得知输入信息是“go away”。

现在Decoder开始输出德语句子，Decoder的第一个输入必须是起始符（如“\t”）

【详细过程】 第一个字母是m,则Decoder会将m做noe hot encoding然后作为标签y，Decoder会输出一个概率分布记作p，用标签y和p的交叉熵作为损失函数，所以损失函数越小越好。有了损失函数，就可以反向传播计算梯度，梯度传到Decoder，再由Decoder传到Encoder，然后用梯度下降来调整Encoder和Decoder的参数，从而使得损失函数减小。

然后输入变为两个字符“\tm”，根据上述过程以此类推，在推出下一个字母

然后输入变为三个字符“...”

.......

不断重复这个过程，直到这句德语的最后一个字符，当输出维停止字符"\n"的话,则停止。