当前位置：首页 > news >正文

机器学习--循环神经网络（RNN）3

news 2026/2/9 22:55:00

本篇文章结合具体的例子来介绍一下LSTM运算方式以及原理。请结合上篇文章的介绍食用。

一、具体例子

在这里插入图片描述
如上图所示，网络里面只有一个 LSTM 的单元，输入都是三维的向量，输出都是一维的输出。
这三维的向量跟输出还有记忆元的关系是这样的。
假设 x2 的值是1时，x1 的值就会被写到记忆元里；假设 x2 的值是-1时，就会重置这个记忆元；
假设 x3 的值为1时，才会把输出打开，才能看到输出，看到记忆元的数字。
下面我们来具体来体验一下上述过程：
先看第二个输入，原来存到记忆元里面的值是0，第二个输入 x2 的值是1,3会被存到记忆元里面去。
第四个输入： x2 等于1，所以4会被存到记忆元里面去，所以会得到7。
第六个输入：x3 等于1，这时候7会被输出。
第七个输入： x2 的值为-1，记忆元里面的值会被洗掉变为0。
第八个输入：x2 的值为1，所以把6存进去，因为 x3 的值为1，所以把6输出

二、LSTM运算示例

在这里插入图片描述

记忆元的四个输入标量是这样来的：输入的三维向量乘以线性变换（linear transform）后所得到的结果，x1, x2, x3 乘以权重再加上偏置。

假设这些值是已知的，在实际运算之前，先根据它的输入，分析下可能会得到的结果。
在这里插入图片描述

（1）底下这个外界传入的单元，x1 乘以 1，其他的向量乘以 0，所以就直接把 x1 当做输入。

（2）输入门，x2 乘以 100，偏置乘以 −10。假设 x2 是没有值的话，通常输入门是关闭的（偏置等于 −10）。因为 −10 通过 sigmoid 函数之后会接近 0，所以就代表是关闭的，若 x2 的值大于 1 的话，结果会是一个正值，代表输入门会被打开。

（3）遗忘门通常会被打开的，因为其偏置等于 10，它平常会一直记得东西，只有当 x2 的值为一个很大的负值时，才会把遗忘门关起来。

（4）输出门平常是被关闭的，因为偏置是一个很大的负值，若 x3 有一个很大的正值的话，压过偏置把输出打开。

假设 g 和 h 都是线性的。
在这里插入图片描述

假设存到记忆元里面的初始值是 0，输入第一个向量 [3, 1, 0]T，输入这边 3*1=3，这边输入的是的值为 3。
输入门这边 (1 ∗ 100 − 10 ≈ 1) 是被打开 (输入门约等于 1)。(g(z) ∗ f(zi) = 3)。
遗忘门 (1 ∗ 100 + 10 ≈ 1) 是被打开的 (遗忘门约等于 1)。
0 *1+3=3(c′= g(z)f(zi) + cf(zf))，所以存到记忆元里面的为 3。
输出门 (-10) 是被关起来的，所以 3 无关通过，所以输出值为 0。

在这里插入图片描述
再来看一个[1,0,1]T , 传入输入的值为1，输入门(-10)是关闭的，遗忘门(10)是打开的，记忆元里面存的值不变，输出门(100-10=90)被打开，整个输出为 7，记忆元里面存的 7 会被读取出来。

其他三个留给大家作为练习了。

三、LSTM运作原理

在原来的神经网络里面会有很多的神经元，我们会把输入乘以不同的权重当做不同神经元的输入，每一个神经元都是一个函数，输入一个值然后输出一个值。但是如果是 LSTM 的话，只要把 LSTM 想成是一个神经元。所以要用一个 LSTM 的神经元，其实就是原来简单的神经元换成 LSTM。
在这里插入图片描述

如图所示，为了简化，假设隐藏层只有两个神经元，输入 x1, x2 会乘以不同的权重当做 LSTM 不同的输入。

输入(x1, x2)会乘以不同的权重会去操控输出门，乘以不同的权重操控输入门，乘以不同的权重当做底下的输入，乘以不同的权重当做遗忘门。第二个 LSTM也是一样的。

所以 LSTM 是有四个输入跟一个输出，对于 LSTM 来说，这四个输入是不一样的（每个门的weight，bias是不一样的）。在原来的神经网络里是一个输入一个输出。在 LSTM 里面它需要四个输入，它才能产生一个输出。假设用的神经元的数量跟 LSTM 是一样的，则LSTM需要的参数量是一般神经网络的四倍。

在这里插入图片描述

假设有一整排的 LSTM，这些 LSTM 里面的记忆元都存了一个值，把所有的值接起来就变成了向量写为 ct−1（一个值就代表一个维度）。

现在在时间点 t，输入向量 xt，这个向量首先会乘上一矩阵（线性变换）变成一个向量 z，向量 z 的维度就代表了操控每一个 LSTM 的输入。z 这个维度正好就是 LSTM 记忆元的数量。z 的第一维就丢给第一个单元。这个 xt 会乘上另外的一个矩阵得到 zi，然后这个 zi 的维度也跟单元的数量一样，zi 的每一个维度都会去操控输入门。遗忘门跟输出门同理。

所以我们把 xt 乘以四个不同的变换得到四个不同的向量，四个向量的维度跟单元的数量一样，用着四个向量合起来去操控这些记忆元运作。

在这里插入图片描述

如上图所示，输入分别就是 z, zi, zo, zf(都是向量)，丢到单元里面的值其实是向量的一个维度，因为每一个单元输入的维度都是不一样的，所以每一个单元输入的值都会是不一样。

所以单元是可以共同一起被运算的。zi 通过激活函数跟 z 相乘，zf 通过激活函数跟之前存在记忆元里面的值相乘，然后将 z 跟 zi 相乘的值加上 zf 跟 ct−1 相乘的值，zo 通过激活函数的结果输出，跟之前相加的结果再相乘，最后就得到了输出 yt。

之前那个相加以后的结果就是记忆元里面存放的值 ct，这个过程反复的进行，在下一个时间点输入 xt+1，把 z 跟输入门相乘，把遗忘门跟存在记忆元里面的值相乘，将前面两个值再相加起来，在乘上输出门的值，得到下一个时间点的输出 yt+1。
在这里插入图片描述

但这还不是 LSTM 的最终形态，真正的 LSTM 会把上一个时间的输出接进来，当做下一个时间的输入，即下一个时间点操控这些门的值不是只看那个时间点的输入 xt ，还看前一个时间点的输出 ht 。其实还不止这样，还会添加 peephole 连接。peephole 就是把存在记忆元里面的值也拉过来。操控 LSTM 四个门的时候，同时考虑了 xt+1, ht, ct ，把这三个向量并在一起乘上不同的变换得到四个不同的向量再去操控 LSTM。

LSTM 通常不会只有一层，若有五六层的话，如下图所示。一般做 RNN 的时候，其实指的就用 LSTM。
在这里插入图片描述

门控循环单元（Gated Recurrent Unit，GRU）是 LSTM 稍微简化的版本，它只有两个门。虽然少了一个门，但其性能跟 LSTM 差不多，少了 1/3 的参数，也是比较不容易过拟合。

机器学习--循环神经网络（RNN）3

一、具体例子

二、LSTM运算示例

三、LSTM运作原理

相关文章：

机器学习--循环神经网络（RNN）3

Android Studio编译及调试知识

Fastjson 1.2.24 反序列化导致任意命令执行漏洞复现（CVE-2017-18349）

Spring Boot 注解教程

Day32-计算机基础2

Stable Diffusion WebUI 中英文双语插件（sd-webui-bilingual-localization）并解决了不生效的情况

AndroidStudio连不上adb报错ADB Connection Error

Java程序员常用网站（推荐）

mq基础类设计

【Node.js从基础到高级运用】二、搭建开发环境

kafka查看消息两种方式（命令行和软件）+另附发送消息方式

设计模式单例模式

使用 Mendix 中的 OIDC 模块集成 Azure AD SSO

day12_SpringCloud(Gateway,Nacos配置中心,Sentinel组件)

【基于springboot+Vue+Element ui的电影推荐之协同过滤算法简单实现】

签约仪式如何策划和安排流程？如何邀约媒体现场见证报道

k8s-生产级的k8s高可用(1) 24

python中lambda简介及用法

AI新工具百分50%算力确达到了GPT-4水平；将音乐轨道中的人声、鼓声、贝斯等音源分离出来等

websocket前端应用

利用ngx_stream_return_module构建简易 TCP/UDP 响应网关

大话软工笔记—需求分析概述

可靠性+灵活性：电力载波技术在楼宇自控中的核心价值

MySQL 8.0 OCP 英文题库解析（十三）

UR 协作机器人「三剑客」：精密轻量担当（UR7e）、全能协作主力（UR12e）、重型任务专家（UR15）

有限自动机到正规文法转换器v1.0

docker 部署发现spring.profiles.active 问题

AI，如何重构理解、匹配与决策？

SiFli 52把Imagie图片，Font字体资源放在指定位置，编译成指定img.bin和font.bin的问题

云原生安全实战：API网关Kong的鉴权与限流详解