当前位置：首页 > news >正文

论文阅读_时序模型_iTransformer

news 2026/2/9 5:10:03

英文名称: ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING
中文名称: ITRANSFORMER：倒置Transformers在时间序列预测中的有效性
链接: https://openreview.net/forum?id=X6ZmOsTYVs
代码: https://github.com/thuml/iTransformer
作者: Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long
机构: 清华大学软件学院, 清华大学国家数字化治理工程技术研究中心, 蚂蚁集团
日期: 2023-10-10
引用次数: 0

读后感

作者提出了一个疑问：为什么在很多情况下，时序问题使用 Transformer 结构反而不如线性模型好？按理说，Transformer 作为预测序列化数据的模型，应该更擅长处理时序问题。作者认为可能是数据组织方式不够优化引起。

文章主要讨论了多变量时序预测的问题，即使用多变量的 X 来预测 Y，例如使用过去的天气数据和地域数据等来预测未来的天气。

之前我们处理时序数据也存在相同的问题：每种数据的频率和范围都不一样，如果在某个时间点上对所有数据进行采样也不太合适。

因此，作者提出了针对时间序列的另一种输入方式。以前是将每个时间点的所有变量作为一个 token 传递给模型；而现在，将每个变量的整个时间序列独立地嵌入到一个 token 中。简单来说：如果想要预测明天的天气，就将之前一段时间的天气打包成一个 token 传入模型。这样既可以学习到数据时序的前后关系，也可以学习到不同特征之间的相互作用。

图 -2 基础模型 (上) 与将每个时间步嵌入到时间 token 的 Transformer，iTransformer 将单个变量的整个序列独立嵌入到变量 token 中，这样多变量相关性可以通过注意力机制来描述，序列表示由前馈网络编码。

摘要

目标: 解决 Transformer 模型在预测具有大范围回溯窗口的时间序列时性能下降和计算爆炸的问题。

方法: 提出 iTransformer 的模型，该模型通过重新利用 Transformer 架构的基本组件来解决问题。iTransformer 只对转置的维度应用注意力机制和前馈网络。将与单个变量相关联的一系列时间点嵌入到变量 token 中，这些 token 被注意力机制用于捕捉多变量之间的相关性；同时，对每个变量 token 应用前馈网络以学习非线性表示的时序规律。

结果: iTransformer 模型在具有挑战性的实际数据集上取得了最先进的结果。它提高了不同变量之间的泛化能力，并更好地利用了任意回溯窗口，成为时间序列预测的良好基础骨架。

方法

预测使用前 T 步的 X 来预测将来 S 步的 Y，其中 X，Y 都包含 N 个变量。模型结构如下：

图 4：iTransformer 的整体结构，它与 Transformer 的编码器有着相同的模块结构：（a）不同变量的原始系列独立嵌入到 token 中。（b）自注意力应用于嵌入的变量 token，具有增强的可解释性，揭示了多变量相关性。（c）每个 token 的序列表示由共享前馈网络提取。（d）采用层归一化法来减少变量之间的差异。

简单地说，该模型使用了自我注意力机制来学习变量之间的关系，并且利用前馈神经网络（MLP）来学习时序变化的规律。最后，通过一个简单的投影层（Projection）生成对未来各个变量的预测 Y。

实验

实验包括 6 个真实世界的数据集：ETT、天气、电力、交通、能源等。

主实验多变量预测结果如下：

论文阅读_时序模型_iTransformer

读后感

摘要

方法

实验

相关文章：

论文阅读_时序模型_iTransformer

Docker 哲学 - 容器操作 -cp

作品展示ETL

python的集合应用

盒子IM开源仿微信聊天程序源码，可以商用

鸿蒙Harmony应用开发—ArkTS声明式开发（基础手势：Web）中篇

静默安装OGG21.3微服务版本FOR ORACLE版本

[二分查找]LeetCode2040:两个有序数组的第 K 小乘积

【Godot4.2】颜色完全使用手册

Blocks —— 《Objective-C高级编程 iOS与OS X多线程和内存管理》

Python零基础---爬虫技术相关

利用 STM32 TIMER 触发 ADC 实现分组转换

2024 年（第 12 届）“泰迪杯”数据挖掘挑战赛——B 题：基于多模态特征融合的图像文本检索完整思路与源代码分享

Java12~14 switch语法

小狐狸ChatGPT智能聊天系统源码v2.7.6全开源Vue前后端+后端PHP

The Rise and Potential of Large Language Model Based Agents: A Survey

【GPT-SOVITS-06】特征工程-HuBert原理

ros小问题之差速轮式机器人轮子不显示（rviz gazebo）

网络安全实训Day5

【Unity入门】详解Unity中的射线与射线检测

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

TDengine 快速体验（Docker 镜像方式）

golang循环变量捕获问题

day52 ResNet18 CBAM

OkHttp 中实现断点续传 demo

Python如何给视频添加音频和字幕

vue3+vite项目中使用.env文件环境变量方法

C++八股 —— 单例模式

【Oracle】分区表

AspectJ 在 Android 中的完整使用指南