当前位置：首页 > article >正文

循环神经网络（Recurrent Neural Network, RNN）与 Transformer

article 2026/2/27 17:36:31

循环神经网络（RNN）与 Transformer

1. 循环神经网络（RNN）简介

1.1 RNN 结构

循环神经网络（Recurrent Neural Network, RNN）是一种适用于处理序列数据的神经网络。其核心特点是通过隐藏状态（Hidden State）存储过去的信息，并将其传递到当前时间步，以捕捉时间上的依赖关系。

常见的 RNN 变体包括：

基本 RNN：直接连接隐藏状态，容易出现梯度消失或梯度爆炸问题。
长短时记忆网络（LSTM）：通过引入输入门、遗忘门、输出门解决梯度消失问题。
门控循环单元（GRU）：结构比 LSTM 更简单，计算效率更高。

1.2 RNN 应用场景

语音识别（如 Google 语音助手）
机器翻译（如 Google 翻译）
文本生成（如 GPT 系列模型的早期版本）
股票预测
时间序列分析

1.3 RNN 优缺点

✅ 优点：

能处理变长序列输入
能够捕捉时间序列数据中的依赖关系

❌ 缺点：

梯度消失或梯度爆炸（主要问题）
训练较慢，难以并行计算
远程依赖问题（即长期依赖难以保留）

2. Transformer 简介

2.1 Transformer 结构

Transformer 由 Vaswani 等人在 2017 年提出，彻底改变了 NLP 领域。其核心思想是完全依赖 自注意力机制（Self-Attention） 进行序列建模，而不使用循环网络。

Transformer 由 编码器（Encoder） 和 解码器（Decoder） 组成，每个模块包含：

多头自注意力机制（Multi-Head Self Attention）
前馈神经网络（Feedforward Neural Network）
跳跃连接（Residual Connection）和 Layer Normalization

2.2 Transformer 应用场景

机器翻译（如 Google 翻译）
文本摘要（如 ChatGPT）
代码补全（如 GitHub Copilot）
图像识别（如 Vision Transformer）

2.3 Transformer 优缺点

✅ 优点：

并行计算能力强（相较于 RNN）
处理长距离依赖能力强
训练收敛快

❌ 缺点：

计算复杂度高，消耗大量内存
对长序列的推理成本较高

3. Java 实现 RNN 和 Transformer

在 Java 中，我们可以使用 DeepLearning4J（DL4J） 库来实现 RNN 和 Transformer。

3.1 RNN 例子（时间序列预测）

import org.deeplearning4j.nn.conf.MultiLayerConfiguration;
import org.deeplearning4j.nn.conf.NeuralNetConfiguration;
import org.deeplearning4j.nn.conf.layers.GravesLSTM;
import org.deeplearning4j.nn.conf.layers.OutputLayer;
import org.deeplearning4j.nn.weights.WeightInit;
import org.deeplearning4j.nn.multilayer.MultiLayerNetwork;
import org.deeplearning4j.optimize.listeners.ScoreIterationListener;
import org.nd4j.linalg.activations.Activation;
import org.nd4j.linalg.lossfunctions.LossFunctions;public class RNNExample {public static void main(String[] args) {MultiLayerConfiguration conf = new NeuralNetConfiguration.Builder().weightInit(WeightInit.XAVIER).list().layer(0, new GravesLSTM.Builder().nIn(10).nOut(50).activation(Activation.TANH).build()).layer(1, new OutputLayer.Builder(LossFunctions.LossFunction.MSE).activation(Activation.IDENTITY).nIn(50).nOut(1).build()).build();MultiLayerNetwork model = new MultiLayerNetwork(conf);model.init();model.setListeners(new ScoreIterationListener(10));System.out.println("RNN 模型创建完成！");}
}

该示例使用 GravesLSTM（LSTM 变体）来创建一个简单的时间序列预测模型。

3.2 Transformer 例子（文本分类）

import ai.djl.Model;
import ai.djl.ModelException;
import ai.djl.basicmodelzoo.basic.TransformerBlock;
import ai.djl.inference.Predictor;
import ai.djl.modality.Classifications;
import ai.djl.modality.nlp.DefaultVocabulary;
import ai.djl.modality.nlp.embedding.WordEmbedding;
import ai.djl.modality.nlp.preprocess.SimpleTokenizer;
import ai.djl.translate.TranslateException;
import ai.djl.translate.Translator;
import ai.djl.translate.TranslatorContext;
import ai.djl.translate.TranslatorFactory;
import ai.djl.util.Utils;import java.io.IOException;
import java.nio.file.Paths;
import java.util.Arrays;
import java.util.List;public class TransformerExample {public static void main(String[] args) throws IOException, ModelException, TranslateException {Model model = Model.newInstance("Transformer");model.setBlock(new TransformerBlock(256, 8, 512, 6));Translator<String, Classifications> translator = new Translator<String, Classifications>() {@Overridepublic Classifications processOutput(TranslatorContext ctx, ai.djl.ndarray.NDList list) {return new Classifications(Arrays.asList("Positive", "Negative"), list.singletonOrThrow());}@Overridepublic ai.djl.ndarray.NDList processInput(TranslatorContext ctx, String input) {WordEmbedding embedding = WordEmbedding.builder().optModelPath(Paths.get("glove.6B.50d.txt")).build();List<String> tokens = new SimpleTokenizer().tokenize(input);return new ai.djl.ndarray.NDList(embedding.getEmbedding(tokens));}};Predictor<String, Classifications> predictor = model.newPredictor(translator);System.out.println(predictor.predict("This is a great product!"));}
}

该示例使用 DJL（Deep Java Library） 实现了一个 Transformer 进行文本分类任务。

4. 结论

RNN 适用于时间序列数据，但存在梯度消失问题。
Transformer 依靠自注意力机制解决了长距离依赖问题，并且计算效率更高。
在 Java 中，可以使用 DeepLearning4J（DL4J） 训练 RNN，使用 DJL（Deep Java Library） 实现 Transformer。

循环神经网络（Recurrent Neural Network, RNN）与 Transformer

循环神经网络（RNN）与 Transformer 1. 循环神经网络（RNN）简介 1.1 RNN 结构循环神经网络（Recurrent Neural Network, RNN）是一种适用于处理序列数据的神经网络。其核心特点是通过隐藏状态（Hi…...

编程日记 2026/2/14 1:21:30

力扣45.跳跃游戏

45. 跳跃游戏 II - 力扣（LeetCode） 代码区： #include<vector> class Solution {public:int jump(vector<int>& nums) {int ans[10005] ;memset(ans,1e4,sizeof(ans));ans[0]0;for(int i0;i<nums.size();i){for(int j1;j…...

编程日记 2026/2/17 23:52:17

招聘面试季--方法论--如何从零到-规划一个新的app产品

规划一个新APP产品的系统化步骤及关键要点： 一、需求验证阶段 ‌明确目标用户与核心需求‌ 通过用户调研（问卷、访谈）定义目标人群的痛点和场景，例如购物类APP需优先满足浏览、支付等核心需求‌。判断APP的必要性：若功…...

编程日记 2026/2/17 17:20:13

MacOS安装 nextcloud 的 Virtual File System

需求在Mac上安装next cloud实现类似 OneDrive 那样，文件直接保存在服务器，需要再下载到本地。方法在官网下载Download for desktop，注意要下对版本，千万别下 Mac OS默认的那个。安装了登录在配置过程中千万不要设置任何同…...

编程日记 2026/2/19 11:16:39

OpenCV Imgproc 模块使用指南（Python 版）

一、模块概述 imgproc 模块是 OpenCV 的图像处理核心，提供从基础滤波到高级特征提取的全流程功能。核心功能包括： 图像滤波：降噪、平滑、锐化几何变换：缩放、旋转、透视校正颜色空间转换：BGR↔灰度 / HSV/Lab 等阈值…...

编程日记 2026/2/14 19:27:19

C/C++蓝桥杯算法真题打卡（Day6）

一、P8615 [蓝桥杯 2014 国 C] 拼接平方数 - 洛谷方法一：算法代码（字符串分割法） #include<bits/stdc.h> // 包含标准库中的所有头文件，方便编程 using namespace std; // 使用标准命名空间，避免每次调用…...

编程日记 2026/2/24 20:38:08

ORACLE RAC ASM双存储架构下存储部分LUN异常的处理

早上接到用户电话，出现有表空间不足的告警，事实上此环境经常巡检并且有告警系统，一开始就带着有所疑惑的心理，结果同事在扩大表空间时，遇到报错 ORA-15401/ORA-17505,提示ASM空间满了： ALERT日志&#xff1…...

编程日记 2026/2/22 1:49:37

【设计模式】SOLID 设计原则概述

SOLID 是面向对象设计中的五大原则，不管什么面向对象的语言， 这个准则都很重要，如果你没听说过，赶紧先学一下。它可以提高代码的可维护性、可扩展性和可读性，使代码更加健壮、易于测试和扩展。SOLID 代表以下五个设计原…...

编程日记 2026/2/14 4:31:07

从边缘到核心：群联云防护如何重新定义安全加速边界？

一、安全能力的全方位碾压 1. 协议层深度防护四层防御： 动态过滤畸形TCP/UDP包（如SYN Flood），传统CDN仅限速率控制。技术示例：基于AI的协议指纹分析，拦截异常连接模式。七层防御： 精准识别业…...

编程日记 2025/9/18 10:32:29

title: others-rustdesk远程 categories: Others tags: [others, 远程] date: 2025-03-19 10:19:34 comments: false mathjax: true toc: true others-rustdesk远程, 替代 todesk 的解决方案前篇官方服务器 - https://rustdesk.com/docs/zh-cn/self-host/rustdesk-server-o…...

编程日记 2026/2/25 9:55:06

记录 macOS 上使用 Homebrew 安装的软件

Homebrew 是 macOS 上最受欢迎的软件包管理器之一，能够轻松安装各种命令行工具和 GUI 应用。本文记录了我通过 Homebrew 安装的各种软件，并对它们的用途和基本使用方法进行介绍。 🍺 Homebrew 介绍 Homebrew 是一个开源的包管理器&#xff…...

编程日记 2026/2/14 4:15:54

springmvc中使用interceptor拦截

HandlerInterceptor 是Spring MVC中用于在请求处理之前、之后以及完成之后执行逻辑的接口。它与Servlet的Filter类似，但更加灵活，因为它可以访问Spring的上下文和模型数据。HandlerInterceptor 常用于日志记录、权限验证、性能监控等场景。 ### **1. 创…...

编程日记 2026/2/15 21:11:12

C++基础 [八] - list的使用与模拟实现

目录 list的介绍 List的迭代器失效问题 List中sort的效率测试 list 容器的模拟实现思想模块分析作用分析 list_node类设计 list 的迭代器类设计迭代器类--存在的意义迭代器类--模拟实现模板参数和成员变量构造函数 * 运算符的重载运算符的重载 -- 运…...

编程日记 2026/2/22 16:27:21

使用excel.EasyExcel实现导出有自定义样式模板的excel数据文件，粘贴即用！！！

客户要求导出的excel文件是有好看格式的，当然本文举例模板文件比较简单，内容丰富的模板可以自行设置，话不多说，第一步设置一个"好看"的excel文件模板上面要注意的地方是{.变量名} ，这里的变量名对应的就是…...

编程日记 2026/2/27 10:53:12

Spring Boot 集成 Elasticsearch怎样在不启动es的情况下正常启动服务

解释在spingboot 集成es客户端后，每当服务启动时，服务默认都会查看es中是否已经创建了对应的索引，如果没有索引则创建。基于上面的规则我们可以通过配置不自动创建索引来达到在没有es服务的情况下正常启动服务。解决办法在entity类的Docu…...

编程日记 2026/2/26 12:34:50

Java面试黄金宝典8

1. 什么是 Spring MVC 定义 Spring MVC 是 Spring 框架里用于构建 Web 应用程序的模块，它严格遵循 MVC（Model - View - Controller）设计模式。这种设计模式把应用程序清晰地划分成三个主要部分： Model（模型&#xff0…...

编程日记 2026/2/21 21:28:39

JVM常见概念之条件移动

问题当我们有分支频率数据时，有什么有趣的技巧可以做吗？什么是条件移动？ 基础知识如果您需要在来自一个分支的两个结果之间进行选择，那么您可以在 ISA 级别做两件不同的事情。首先，你可以创建一个分支&#xff…...

编程日记 2026/2/17 21:44:32

Android AI ChatBot-v1.6.3-28-开心版[免登录使用GPT-4o和DeepSeek]

Android AI ChatBot- 链接：https://pan.xunlei.com/s/VOLi1Ua071S6QZBGixcVL5eeA1?pwdp3tt# 免登录使用GPT-4o和DeepSeek...

编程日记 2026/2/21 15:45:06

集成学习（上）：Bagging集成方法

一、什么是集成学习？ 在机器学习的世界里，没有哪个模型是完美无缺的。就像古希腊神话中的"盲人摸象"，单个模型往往只能捕捉到数据特征的某个侧面。但当我们把多个模型的智慧集合起来，就能像拼图一样还原出完整的真相&a…...

编程日记 2026/2/19 11:34:39

DeepSeek R1 本地部署指南 (3) - 更换本地部署模型 Windows/macOS 通用

0.准备完成 Windows 或 macOS 安装： DeepSeek R1 本地部署指南 (1) - Windows 本地部署-CSDN博客 DeepSeek R1 本地部署指南 (2) - macOS 本地部署-CSDN博客以下内容 Windows 和 macOS 命令执行相同： Windows 管理员启动：命令提示符 CMD ma…...

编程日记 2026/2/21 0:56:15

【TI MSPM0】Timer学习

一、计数器加法计数器：每进入一个脉冲，就加一减法计算器：每进入一个脉冲，就减一当计数器减到0，触发中断 1.最短计时时间当时钟周期为1khz时，最短计时时间为1ms，最长计时时间为65535ms 当时…...

编程日记 2026/2/24 5:59:51

Windows部署deepseek R1训练数据后通过AnythingLLM当服务器创建问答页面

如果要了解Windows部署Ollama 、deepseek R1请看我上一篇内容。这是接上一篇的。 AnythingLLM是一个开源的全栈AI客户端，支持本地部署和API集成。它可以将任何文档或内容转化为上下文，供各种语言模型（LLM）在对话中使用。以下是…...

编程日记 2026/2/23 5:33:30

重删算法中的Bloom滤波器详解与C++实现

一、Bloom滤波器基础概念 Bloom滤波器（Bloom Filter）是一种空间高效的概率型数据结构，用于快速判断某个元素是否存在于集合中。其核心特性： 存在不确定性：可能出现假阳性（False Positive）&…...

编程日记 2025/9/6 13:40:18

信奥赛CSP-J复赛集训（模拟算法专题）（27）：P5016 [NOIP 2018 普及组] 龙虎斗

信奥赛CSP-J复赛集训（模拟算法专题）（27）：P5016 [NOIP 2018 普及组] 龙虎斗题目背景 NOIP2018 普及组 T2 题目描述轩轩和凯凯正在玩一款叫《龙虎斗》的游戏，游戏的棋盘是一条线段，线段上有 n n n 个兵营（自左至右编号 1 ∼ n 1 \sim n 1∼n），相邻编号的兵营之间…...

编程日记 2026/2/26 11:14:43

多模态大模型常见问题

1.视觉编码器和 LLM 连接时，使用 BLIP2中 Q-Former那种复杂的 Adaptor 好还是 LLaVA中简单的 MLP 好，说说各自的优缺点？ Q-Former（BLIP2）： 优点：Q-Former 通过查询机制有效融合了视觉和语言特征…...

编程日记 2026/2/27 12:52:21

SpringBoot项目实战（初级）

目录一、数据库搭建二、代码开发 1.pom.xml 2.thymeleaf模块处理的配置类 3.application配置文件 4.配置（在启动类中） 5.编写数据层 ②编写dao层 ③编写service层接口实现类注意补充（注入的3个注解） 1.AutoWir…...

编程日记 2026/2/13 17:41:38

Linux NFS、自动挂载与系统启动管理指南

1. NFS客户端挂载导出的目录的方式 NFS（网络文件系统） 允许将远程服务器的目录挂载到本地，像访问本地文件一样操作远程文件。挂载方式主要有两种： 手动挂载：使用 mount 命令（临时生效，重启后丢…...

编程日记 2025/10/11 8:48:47

uniapp实现全局拖拽按钮

要先引入 “vue3-draggable-resizable”: “^1.6.5” 1.创建DragComponent组件 <template><div class"drag-container" id"dragBox" :style"{ zIndex: zIndex }"><Vue3DraggableResizable :initW"…...

编程日记 2025/9/21 2:33:10