时间序列-数据窗口进行多步预测
在时间序列预测领域,多步预测旨在基于历史数据预测未来多个时间点的值,而创建数据窗口是实现这一目标的常用且高效的技术手段。数据窗口技术的核心是通过滑动窗口机制构建训练数据集,其核心逻辑可概括为:利用历史时间步的序列模式预测未来多步输出。具体而言,首先定义一个固定长度的时间窗口(例如包含过去 个时间步的观测值),将窗口内的序列作为输入特征,对应的未来
个时间步的值作为目标输出(如预测未来1小时、6小时、12小时的负荷值)。随着窗口沿时间轴逐步滑动(每次滑动一个时间步),可生成一系列输入-输出数据对,形成模型训练的样本集。 这种方法的优势在于,通过结构化的窗口划分,将时间序列问题转化为标准的监督学习问题,使模型能够捕捉序列数据的时间依赖性和动态变化规律。例如,在输入维度为
、输出维度为
的场景下,每个训练样本形如
,其中
表示
时刻的观测值。通过调整窗口长度
和预测步长
,可灵活适配不同时间序列的特性和预测目标,是时间序列分析中处理多步预测问题的基础框架。
时间序列多步预测中的数据窗口技术解析
在时间序列分析中,多步预测旨在基于历史数据预测未来多个时间点的值。数据窗口技术通过结构化的滑动窗口机制,将序列数据转换为监督学习样本,是实现多步预测的核心方法。
一、数据窗口技术核心原理
目标:将长度为 T 的时间序列 转换为输入 - 输出数据对
,其中 X 包含过去 N 个时间步的观测值,Y 包含未来 M 个时间步的目标值。
核心步骤:
- 定义窗口参数:
- 输入窗口长度 N:用于提取历史特征的时间步数量(如过去 20 天的销量)。
- 预测步长 M:需要预测的未来时间步数(如未来 5 天的销量)。
- 滑动窗口生成样本: 从时间序列起始位置开始,每次滑动一个时间步,提取连续 N 个历史值作为输入,对应其后 M 个值作为输出。
- 第 t 个样本的输入:
- 第 t 个样本的输出:
- 第 t 个样本的输入:
数学表达: 给定时间序列 ,样本集可表示为:
其中 ,
。
二、多步预测的两种模式
-
直接多步预测(Direct Multi-step)
- 特点:通过单个模型一次性预测未来 M 步的值(如
)。
- 优势:避免误差累积,适合已知固定预测间隔的场景。
- 挑战:需模型同时捕捉不同时间步的依赖关系,对非线性建模能力要求高。
- 特点:通过单个模型一次性预测未来 M 步的值(如
-
递归多步预测(Recursive Multi-step)
- 特点:每次仅预测下一步
,并将预测值作为新输入递归预测
。
- 优势:模型结构简单,适用于动态更新场景。
- 挑战:误差随预测步数指数累积,需结合误差校正技术(如卡尔曼滤波)。
- 特点:每次仅预测下一步
三、完整实现:基于 PyTorch 的 LSTM 多步预测
以下通过生成正弦波数据,演示数据窗口构建、模型设计及结果可视化的全流程。
1. 数据生成与窗口构建
import numpy as np# 生成带噪声的正弦波时间序列
np.random.seed(42)
time_steps = np.linspace(0, 10, 1000) # 时间范围:0~10,共1000个点
data = np.sin(time_steps) + 0.1 * np.random.randn(len(time_steps)) # 信号+噪声def create_data_windows(series: np.ndarray, input_len: int, forecast_horizon: int) -> tuple:"""滑动窗口生成输入-输出对:param series: 原始时间序列数据 (1D array):param input_len: 输入窗口长度(历史时间步数):param forecast_horizon: 预测步长(未来时间步数):return: (X, y),X形状为[样本数, 输入长度], y形状为[样本数, 预测步长]"""X, y = [], []# 窗口滑动范围:从0到总长度 - 输入长度 - 预测步长for i in range(len(series) - input_len - forecast_horizon + 1):X.append(series[i:i+input_len]) # 历史数据:[i, i+input_len)y.append(series[i+input_len:i+input_len+forecast_horizon]) # 未来数据:[i+input_len, i+input_len+forecast_horizon)return np.array(X), np.array(y)# 超参数设置
INPUT_SIZE = 20 # 输入窗口长度:使用过去20个时间步
FORECAST_HORIZON = 5 # 预测步长:预测未来5个时间步
X, y = create_data_windows(data, INPUT_SIZE, FORECAST_HORIZON)# 划分训练集与测试集(8:2)
train_ratio = 0.8
train_idx = int(len(X) * train_ratio)
X_train, y_train = X[:train_idx], y[:train_idx]
X_test, y_test = X[train_idx:], y[train_idx:]
2. 基于 LSTM 的多步预测模型
import torch
import torch.nn as nn
import torch.optim as optim# 数据格式转换:添加特征维度(LSTM要求输入为[batch, seq_len, feature])
X_train_t = torch.from_numpy(X_train).float().unsqueeze(-1) # [N, INPUT_SIZE, 1]
y_train_t = torch.from_numpy(y_train).float() # [N, FORECAST_HORIZON]
X_test_t = torch.from_numpy(X_test).float().unsqueeze(-1)
y_test_t = torch.from_numpy(y_test).float()class LSTMMultiStep(nn.Module):"""多步预测LSTM模型:param input_dim: 输入特征维度(时间序列通常为1):param hidden_dim: LSTM隐层维度:param num_layers: LSTM层数:param forecast_horizon: 预测步长(输出维度)"""def __init__(self, input_dim: int, hidden_dim: int, num_layers: int, forecast_horizon: int):super(LSTMMultiStep, self).__init__()self.lstm = nn.LSTM(input_size=input_dim,hidden_size=hidden_dim,num_layers=num_layers,batch_first=True, # 输入格式:[batch, seq_len, feature]dropout=0.2, # 防止过拟合bidirectional=False)self.fc = nn.Sequential(nn.Linear(hidden_dim, 128), # 中间全连接层nn.ReLU(),nn.Linear(128, forecast_horizon) # 映射到预测步长)def forward(self, x: torch.Tensor) -> torch.Tensor:""":param x: 输入张量 [batch, input_size, 1]:return: 预测张量 [batch, forecast_horizon]"""# LSTM输出:[batch, seq_len, hidden_dim],取最后一个时间步的隐状态lstm_out, _ = self.lstm(x)last_hidden = lstm_out[:, -1, :] # 提取最后一个时间步的隐层状态return self.fc(last_hidden) # 全连接层映射到预测维度# 模型初始化与训练配置
model = LSTMMultiStep(input_dim=1,hidden_dim=64, # 增大隐层维度提升建模能力num_layers=2,forecast_horizon=FORECAST_HORIZON
)
criterion = nn.MSELoss() # 均方误差损失函数
optimizer = optim.Adam(model.parameters(), lr=1e-3, weight_decay=1e-5) # 添加权重衰减防止过拟合
-
输入维度
input_dim=1
,隐层维度hidden_dim=50
,层数num_layers=2
; -
最后一个全连接层将隐含表示直接映射为未来
horizon
个值。
3. 模型训练与损失监控
import matplotlib.pyplot as plt# 训练循环
epochs = 150
loss_history = []for epoch in range(1, epochs + 1):model.train()optimizer.zero_grad()# 前向传播y_pred = model(X_train_t)loss = criterion(y_pred, y_train_t)# 反向传播与优化loss.backward()optimizer.step()loss_history.append(loss.item())# 每20轮打印训练状态if epoch % 20 == 0:print(f"Epoch {epoch:3d}/{epochs:3d} | Loss: {loss.item():.4f}")# 保存最佳模型(可选)
torch.save(model.state_dict(), "lstm_multi_step.pth")
-
训练 100 轮(epochs),记录每一轮的损失
loss_history
; -
每 20 轮打印一次中间结果,方便监控训练进度。
上述代码实现了深度学习模型训练的标准流程:前向计算损失→反向传播算梯度→优化器更新参数,并通过定期打印和保存损失值、模型参数,实现训练过程监控和结果持久化。
4. 预测结果可视化
# 测试集预测
model.eval()
with torch.no_grad():y_pred_test = model(X_test_t).numpy()# 可视化配置
plt.style.use("seaborn-whitegrid")
plt.rcParams["font.family"] = "sans-serif"
plt.rcParams["figure.dpi"] = 150# 图1:原始时间序列
plt.figure(figsize=(12, 4))
plt.plot(time_steps, data, color="#2c3e50", alpha=0.8, label="Original Signal")
plt.title("Synthetic Time Series (Sine Wave + Noise)")
plt.xlabel("Time Step")
plt.ylabel("Value")
plt.legend()
plt.show()# 图2:训练损失曲线
plt.figure(figsize=(10, 4))
plt.plot(range(1, epochs+1), loss_history, color="#e74c3c", alpha=0.7, label="Training Loss")
plt.title("MSE Loss During Training")
plt.xlabel("Epoch")
plt.ylabel("Loss")
plt.legend()
plt.grid(alpha=0.3)
plt.show()# 图3:单样本预测对比
sample_idx = 50 # 选择测试集中第50个样本
plt.figure(figsize=(12, 5))# 输入序列(历史数据)
plt.plot(range(sample_idx, sample_idx + INPUT_SIZE),X_test[sample_idx],"o-",color="#3498db",alpha=0.9,label=f"Input Sequence (Past {INPUT_SIZE} Steps)"
)# 真实未来值
plt.plot(range(sample_idx + INPUT_SIZE, sample_idx + INPUT_SIZE + FORECAST_HORIZON),y_test[sample_idx],"s-",color="#2ecc71",alpha=0.9,label=f"True Future ({FORECAST_HORIZON} Steps)"
)# 预测未来值
plt.plot(range(sample_idx + INPUT_SIZE, sample_idx + INPUT_SIZE + FORECAST_HORIZON),y_pred_test[sample_idx],"v-",color="#e67e22",alpha=0.9,label="Predicted Future"
)plt.title(f"Multi-step Prediction Example (Sample #{sample_idx})")
plt.xlabel("Time Step")
plt.ylabel("Value")
plt.legend()
plt.grid(alpha=0.3)
plt.show()
原始时间序列
上图展示合成时间序列(正弦波叠加噪声)的图像。横轴为时间步(Time Step),范围从 0 到 10;纵轴为数值(Value),范围约在 - 1.0 到 1.0 之间。图中曲线表示 “Original Signal”,呈现出正弦波的大致趋势,但因叠加了噪声,曲线存在许多不规则波动,体现了数据的周期性与随机扰动特性。
均方误差(MSE)损失变化图
上图是可视化的训练过程中的均方误差(MSE)损失变化图。横轴为训练轮次(Epoch),纵轴为损失值(Loss)。图中红色曲线代表训练损失(Training Loss),起始时损失值较高,随着训练轮次增加,损失快速下降,之后下降趋势变缓,最终趋于平稳,表明模型在训练中不断学习优化,误差减小并逐渐收敛至较低水平,体现了训练过程的有效性与模型的学习能力。
多步预测示例图(样本50)
上图为第 50 个样本的多步预测示例图,横轴为时间步,纵轴为数值。蓝色表示过去 20 步的输入序列,绿色为未来 5 步的真实值,橙色为模型预测的未来值。图中展示了历史输入数据、未来真实值与模型预测值的对比,可用于直观评估模型多步预测的精度,可见预测值与真实值存在一定差异,但在一定程度上反映了变化趋势。
四、优化点说明
-
代码可读性提升:
- 添加函数参数说明与类型注解(如
def create_data_windows(series: np.ndarray, ...)
)。 - 模型类中增加注释,解释 LSTM 层与全连接层的设计逻辑(如提取最后时间步隐状态的原因)。
- 添加函数参数说明与类型注解(如
-
模型改进:
- 在全连接层前添加中间层(
nn.Linear(hidden_dim, 128) + ReLU
),增强非线性映射能力。 - 引入 LSTM 层的
dropout
参数和优化器的weight_decay
,缓解过拟合问题。
- 在全连接层前添加中间层(
-
可视化增强:
- 使用专业配色方案(如采用 ColorBrewer 色系),增加图表分辨率(
dpi=150
)。 - 图表标题包含关键参数(如输入窗口长度、预测步长),提升信息密度。
- 使用专业配色方案(如采用 ColorBrewer 色系),增加图表分辨率(
-
技术细节补充:
- 明确区分 “直接多步” 与 “递归多步” 预测的优缺点,帮助读者根据场景选择方案。
- 在数据窗口函数中,通过数学公式和代码注释双重解释滑动逻辑,降低理解成本。
五、扩展与优化方向
- 处理变长序列:使用动态窗口技术(如自适应窗口长度)应对非平稳时间序列。
- 结合注意力机制:在 LSTM/Transformer 模型中引入注意力,增强对关键历史步的权重分配。
- 误差控制:采用模型融合(如集成多个单步预测器)或概率预测(输出预测区间)减少误差累积影响。
通过上述优化,数据窗口技术的实现更加规范,模型性能与可解释性显著提升,适用于工业时序预测、金融市场分析等实际场景。
相关文章:

时间序列-数据窗口进行多步预测
在时间序列预测领域,多步预测旨在基于历史数据预测未来多个时间点的值,而创建数据窗口是实现这一目标的常用且高效的技术手段。数据窗口技术的核心是通过滑动窗口机制构建训练数据集,其核心逻辑可概括为:利用历史时间步的序列模式…...
【系统架构设计师】嵌入式微处理器
目录 1. 说明2. 微处理器(MPU)3. 微控制器(MCU)4. 信号处理器(DSP)5. 图形处理器(GPU)6. 片上系统(SoC)7. 例题7.1 例题1 1. 说明 1.嵌入式微处理器主要用于处理相关任务。2.由于嵌入式系统通常都在室外使用,可能处于不同环境,因此,选择处理…...
Oracle创建触发器实例
一 创建DML 触发器 DML触发器基本要点: 触发时机:指定触发器的触发时间。如果指定为BEFORE,则表示在执行DML操作之前触发,以便防止某些错误操作发生或实现某些业务规则;如果指定为AFTER,则表示在执行DML操作…...

(三)mac中Grafana监控Linux上的Redis(Redis_exporter安装使用)
框架:GrafanaPrometheusRedis_exporter Grafana安装-CSDN博客 普罗米修斯Prometheus监控安装(mac)-CSDN博客 1.Redis_exporter安装 直接下载 wget https://github.com/oliver006/redis_exporter/releases/download/v1.0.3/redis_expor…...

Linux Sed 深度解析:从日志清洗到 K8s 等12个高频场景
看图猜诗,你有任何想法都可以在评论区留言哦~ 摘要:Sed(Stream Editor)作为 Linux 三剑客之一,凭借其流式处理与正则表达式能力,成为运维场景中文本批处理的核心工具。本文聚焦生产环境高频需求ÿ…...

基于java的网络编程入门
1. 什么是IP地址 由此可见,32位最大为255.255.255.255 打开cmd查询自己电脑的ip地址:ipconfig 测试网络是否通畅:ping 目标ip地址 2. IP地址的组成 注意:127.0.0.1是回送地址,指本地机,一般用来测试使用 …...
CV和NLP领域常见模型列表
图像分类(Image Classification) 模型名特点备注ConvNeXt V2卷积改进,媲美 Transformer强于 ResNet、EfficientNetVision Transformer (ViT)全 Transformer 架构开创图像 transformer 浪潮Swin Transformer V2局部注意力 金字塔结构更强的多…...

Git简介与入门
Git的发明 Git由著名的Linux创始人linus于2005年发明(所以git的界面、使用方式与Linux挺像的,即命令行方式) 经过发展,现在广泛应用于代码管理与团队协作。 Git特性 Git是分布式版本控制系统 分布式 每个开发者拥有完整仓库&…...

Linux 网络基础三 (数据链路层协议:以太网协议、ARP 协议)
一、以太网 两个不同局域网的主机传递数据并不是直接传递的,而是通过路由器 “一跳一跳” 的传递过去。 跨网络传输的本质:由无数个局域网(子网)转发的结果。 所以,要理解数据跨网络转发原理就要先理解一个局域网中数…...

16.QT-Qt窗口-菜单栏|创建菜单栏|添加菜单|创建菜单项|添加分割线|添加快捷键|子菜单|图标|内存泄漏(C++)
Qt窗⼝是通过QMainWindow类来实现的。 QMainWindow是⼀个为⽤⼾提供主窗⼝程序的类,继承⾃QWidget类,并且提供了⼀个预定义的布局。QMainWindow包含⼀个菜单栏(menu bar)、多个⼯具栏(tool bars)、多个浮动窗⼝(铆接部…...

[特殊字符] 分布式定时任务调度实战:XXL-JOB工作原理与路由策略详解
在微服务架构中,定时任务往往面临多实例重复执行、任务冲突等挑战。为了解决这一问题,企业级调度框架 XXL-JOB 提供了强大的任务统一调度与执行机制,特别适合在分布式系统中使用。 本文将从 XXL-JOB 的核心架构入手,详细讲解其调…...

java面试题及答案2020,java最新面试题(四十四)
java面试题及答案2020 二面-2020/3/18 1、自我介绍项目比赛 2、java集合框架全部介绍。。从list set queue到map 3、hashmap底层扩容线程安全问题 4、如果-一个对象要作为hashmap的key需要做什么 5、Threadlocal类以及 内存泄漏 6、线程同步方式,具体每一个怎么做的 7、jvm类加…...
Spring Boot 中处理 JSON 数值溢出问题:从报错到优雅解决
一、问题背景:为什么我的接口突然报错了? 假设你正在开发一个 Spring Boot 接口,接收类似这样的 JSON 请求: {"size": 111111111111111111111 }然后突然收到用户的反馈:请求报错啦! 查看日志&a…...

oracle 锁的添加方式和死锁的解决
DML锁添加方式 DML 锁可由一个用户进程以显式的方式加锁,也可通过某些 SQL 语句隐含方式实现。 DML 锁有三种加锁方式:共享锁方式、独占锁方式、共享更新。 共享锁,独占锁用于 TM 锁,共享锁用于 TX 锁。 1)共享方式的表级锁 共享方…...

基于Hadoop的音乐推荐系统(源码+lw+部署文档+讲解),源码可白嫖!
摘要 本毕业生数据分析与可视化系统采用B/S架构,数据库是MySQL,网站的搭建与开发采用了先进的Java语言、爬虫技术进行编写,使用了Spring Boot框架。该系统从两个对象:由管理员和用户来对系统进行设计构建。主要功能包括ÿ…...

Java查询数据库表信息导出Word
参考: POI生成Word多级标题格式_poi设置word标题-CSDN博客 1.概述 使用jdbc查询数据库把表信息导出为word文档, 导出为word时需要下载word模板文件。 已实现数据库: KingbaseES, 实现代码: 点击跳转 2.效果图 2.1.生成word内容 所有数据库合并 数据库不合并 2.2.生成文件…...
DAY9:Oracle数据库安全管理深度解析
引言 在当今数据泄露事件频发的时代,数据库安全管理已成为DBA和开发者的必修课。本文将深入探讨Oracle数据库安全管理的四大核心领域:用户权限管理、数据库审计、透明数据加密(TDE)和虚拟私有数据库(VPD)&…...

RK3588平台用v4l工具调试USB摄像头实践(亮度,饱和度,对比度,色相等)
目录 前言:v4l-utils简介 一:查找当前的摄像头设备 二:查看当前摄像头支持的v4l2-ctl调试参数 三根据提示设置对应参数,在提示范围内设置 四:常用调试命令 五:应用内执行命令方法 前言:v4l-utils简介 v4l-utils工具是由Linu…...
Dart Flutter数据类型详解 int double String bool list Map
目录 字符串的几种方式 bool值的判断 List的定义方式 Map的定义方式 Dart判断数据类型 (is 关键词来判断类型) Dart的数据类型详解 int double String bool list Map 常用数据类型: Numbers(数值): int double Strings(字符串) String Booleans(布尔…...
LainChain技术解析:基于RAG架构的下一代语言模型增强框架
摘要 随着大语言模型(LLM)在自然语言处理领域的突破性进展,如何突破其知识时效性限制、提升事实准确性成为关键挑战。LainChain通过整合检索增强生成(RAG)技术,构建起动态知识接入框架,为LLM提供实时外部知识支持。本文从技术原理、架构设计、应用场景三个维度,深入解…...
组件是怎样写的(1):虚拟列表-VirtualList
本篇文章是《组件是怎样写的》系列文章的第一篇,该系列文章主要说一下各组件实现的具体逻辑,组件种类取自 element-plus 和 antd 组件库。 每个组件都会有 vue 和 react 两种实现方式,可以点击 https://hhk-png.github.io/components-show/ …...

在Linux中,使用read函数去读取写入文件空洞部分时,读取出来的内容是什么?为什么这样操作,以及应用场景?
使用 read 函数读取文件空洞(hole)部分时,读取到的内容会被系统填充为 \0(即零字节)。文件空洞是稀疏文件中未实际分配磁盘空间的区域,但逻辑上表现为连续的零字节。 1.在指定空洞部分后,写入数…...

Qt6笔记-对Qt6中对CMakeLists.txt的解析
首先,新建Qt Console Application项目。 下面对CMakeLists.txt进行次理解。新建好后,Qt Creator会生成CMakeLists.txt,具体内容如下: cmake_minimum_required(VERSION 3.16)project(EasyCppMain LANGUAGES CXX)set(CMAKE_AUTOUIC…...

CIFAR10图像分类学习笔记(三)---数据加载load_cifar10
新创建一个load_cifar10源文件 需要导入的包 import glob from torchvision import transforms from torch.utils.data import DataLoader ,Dataset import os #读取工具 from PIL import Image import numpy as np 01同样定义10个类别的标签名数组 label_name ["airpl…...

计算机视觉cv入门之答题卡自动批阅
前边我们已经讲解了使用cv2进行图像预处理与边缘检测等方面的知识,这里我们以答题卡自动批阅这一案例来实操一下。 大致思路 答题卡自动批阅的大致流程可以分为这五步:图像预处理-寻找考试信息区域与涂卡区域-考生信息区域OCR识别-涂卡区域填涂答案判断…...

Java学习手册:JSON 数据格式基础知识
1. JSON 简介 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于阅读和编写,也易于机器解析和生成。它最初来源于 JavaScript,但如今已被许多语言所采用,包括 Java、Python、C 等。JSON 以…...
【Python爬虫详解】第四篇:使用解析库提取网页数据——BeautifuSoup
在前一篇文章中,我们学习了如何编写第一个爬虫程序,成功获取了网页的HTML内容。然而,原始HTML通常包含大量我们不需要的信息,真正有价值的数据往往隐藏在HTML的标签和属性中。这一篇,我们将学习如何使用Python的解析库…...

《重塑AI应用架构》系列: Serverless与MCP融合创新,构建AI应用全新智能中枢
在人工智能飞速发展的今天,数据孤岛和工具碎片化问题一直是阻碍AI应用高效发展的两大难题。由于缺乏统一的标准,AI应用难以无缝地获取和充分利用数据价值。 为了解决这些问题,2024年AI领域提出了MCP(Model Context Protocol模型上…...

深度图可视化
import cv2# 1.读取一张深度图 depth_img cv2.imread("Dataset_depth/images/train/1112_0-rgb.png", cv2.IMREAD_UNCHANGED) print(depth_img.shape) cv2.imshow("depth", depth_img) # (960, 1280) print(depth_img)# 读取一张rgb的图片做对比 input_p…...
【调优】log日志海量数据分表后查询速度调优
原始实现 使用pagehelper实现分页 // 提取开始时间的年份和月份,拼装成表名List<String> timeBetween getTimeBetween(condition);List<String> fullTableName getFullTableName(Constants.LOG_TABLE_NAME, timeBetween);PageHelperUtil.startPage(c…...