LSTM时间序列模型实战——预测上证指数走势
LSTM时间序列模型实战——预测上证指数走势
关于作者
作者:小白熊
作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测,图像分类,姿态识别,语义分割,路径规划,智能优化算法,数据分析,各类创新融合等等。
联系邮箱:xbx3144@163.com
科研辅导、知识付费答疑、个性化定制以及其他合作需求请联系作者~
前言
时间序列预测在金融市场的分析和建模中占有重要地位,尤其是在股票价格、指数的波动预测中。本文将带领大家从数据预处理、基于TensorFlow的LSTM模型构建与训练,到最终预测结果的可视化,深入探讨如何使用LSTM模型预测上证指数的收盘价走势。
一、环境配置
首先,需要确保安装以下python库。这些库可以通过以下命令进行安装:pip install numpy pandas matplotlib scikit-learn tensorflow openpyxl
- numpy:用于数值计算,支持多维数组和矩阵操作。
- pandas:数据处理工具,用于读取Excel、CSV等数据文件,并提供数据清洗、转换功能。
- matplotlib:用于绘制图形,可视化数据。
- scikit-learn:用于数据标准化、特征提取等机器学习操作。
- tensorflow:神经网络框架,支持深度学习模型的构建和训练。
- openpyxl:读取和操作表格文件。
在代码中,导入上述库:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dropout, Dense, Activation# 正常显示中文
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
二、读取数据
在进行时间序列预测前,需要读取并预处理数据。其中数据文件名为data.xlsx
,其中包含了上证指数的历史数据(获取数据请私信博主)。
# 读取数据
data_all = pd.read_excel('data.xlsx', header=0, index_col=0)# 检测缺失值
missing_values = data_all.isnull()# 打印缺失值数量
print("缺失值的数量:")
print(missing_values.sum())
本文使用pandas
库读取数据文件,并通过isnull()
函数检查数据中的缺失值:
缺失值的存在可能会对模型的性能产生负面影响,在下一步骤中将会对其进行处理!
三、异常值处理与缺失值填充
为了确保数据的质量,需要去除异常值并填补缺失值。异常值指的是那些远离正常分布范围的数据点。缺失值使用interpolate()
函数对缺失值进行插值填充。
# 去除异常值:基于均值和标准差的阈值法
threshold = 5
data_new = data_all[(data_all > data_all.mean() - threshold * data_all.std()) & (data_all < data_all.mean() + threshold * data_all.std())]# 使用插值法填充缺失值
data_new = data_new.interpolate(limit=150)
本文定义了一个阈值 threshold
,基于均值和标准差去除偏离正常范围的异常值。当阈值 threshold
等于 5 时,则认为一个数据点如果偏离了数据均值 ±5倍标准差,就会被视为异常值。
四、特征提取与标准化
本文的LSTM模型是多输入模型,需要提供输入特征和对应的标签。我们将收盘价收盘价_Clpr
作为预测的标签,其他特征作为输入。同时,还需要对数据进行标准化处理,使其具有相同的尺度。
# 提取特征和标签
features = data_new.drop(['收盘价_Clpr'], axis='columns')
labels = data_new['收盘价_Clpr']# 重组特征和标签
labels = labels.values.reshape(-1, 1)
features = features.values# 对特征和标签进行标准化处理
scaler_x, scaler_y = StandardScaler(), StandardScaler()
features = scaler_x.fit_transform(features)
labels = scaler_y.fit_transform(labels)
本文使用StandardScaler
对特征和标签数据进行标准化处理,以消除特征间的量纲差异,确保模型在训练时不会偏向某些特征。
五、划分训练集与验证集
为了评估模型的性能,我们需要将数据集划分为训练集和验证集。通常情况下,我们使用80%的数据作为训练集,20%的数据作为验证集。
# 划分训练集和验证集
train_size = int(len(features) * 0.8)
val_size = len(features) - train_size
x_train, x_val = features[0:train_size, :], features[train_size:, :]
y_train, y_val = labels[0:train_size, :], labels[train_size:, :]
通过上述代码,我们将数据分为训练集(x_train
和y_train
)以及验证集(x_val
和y_val
)。
六、构建时间序列数据
由于LSTM模型适用于处理时间序列数据,因此我们需要将数据转换为时间序列格式。通过自定义get_data
函数,我们可以构建过去若干时间步的数据作为输入,未来若干时间步的数据作为目标标签。
def get_data(dataset_x, dataset_y, n_past, n_future):dataX = []dataY = []for i in range(n_past, len(dataset_x) - n_future):dataX.append(dataset_x[i - n_past:i, :])dataY.append(dataset_y[i:i + n_future, 0])return np.array(dataX), np.array(dataY)# 定义过去和未来的时间步数
n_past = 20
n_future = 5# 构建训练集和验证集的时间序列数据
x_train_lstm, y_train_lstm = get_data(x_train, y_train, n_past, n_future)
x_val_lstm, y_val_lstm = get_data(x_val, y_val, n_past, n_future)
在这个例子中,n_past=20
代表将过去20天的数据作为LSTM的输入,n_future=5
代表将未来5天的数据作为LSTM的输出。自定义函数get_data
会返回适合LSTM模型的时间序列格式数据。
七、LSTM模型的构建
LSTM(长短期记忆网络)是一种特殊的RNN(循环神经网络)。不同于传统RNN随着时间步长的增加,网络难以保持对早期输入信息的敏感性,导致梯度消失或爆炸问题。LSTM则通过引入以下三种门控机制来克服这些问题:
- 遗忘门:控制当前记忆单元应该保留多少信息。
- 输入门:决定当前时间步的输入有多少能被存储到记忆单元中。
- 输出门:控制记忆单元中多少信息将用于当前时间步的输出。
LSTM的记忆单元使其在处理长序列数据时效果尤为突出。LSTM模型结构通过以下代码实现:
# 初始化LSTM模型
model = Sequential()# 第一层LSTM
model.add(LSTM(64, input_shape=(x_train_lstm.shape[1], x_train_lstm.shape[-1]), return_sequences=True))
model.add(Dropout(0.2)) # Dropout层,用于防止过拟合# 第二层LSTM
model.add(LSTM(32, return_sequences=False))
model.add(Dropout(0.2))# 全连接层
model.add(Dense(5)) # 输出维度为5,即预测未来5天的收盘价
model.add(Activation('linear')) # 使用线性激活函数# 编译模型
model.compile(loss='mse', optimizer='rmsprop')
八、训练模型
利用编译好的LSTM模型进行训练。本文将模型训练300轮,并在每轮结束时通过验证集评估模型性能。
e# 训练模型
history = model.fit(x_train_lstm, y_train_lstm, epochs=300, batch_size=128, validation_data=(x_val_lstm, y_val_lstm))
在训练过程中,模型会记录每次迭代的训练误差和验证误差,这些数据可以用于后续的性能分析。
九、模型评估与预测
在训练完成后,我们可以通过绘制损失曲线来评估模型的收敛情况:
# 提取训练和验证损失值
loss = history.history['loss']
val_loss = history.history['val_loss']# 绘制损失曲线
plt.plot(range(len(loss)), loss, 'b-', label='训练集损失')
plt.plot(range(len(loss)), val_loss, 'r-', label='验证集损失')
plt.legend(loc='best')
plt.title('LSTM模型损失曲线')
plt.xlabel('迭代次数')
plt.ylabel('均方误差 (MSE)')
plt.show()
结果如下:
接下来,使用训练好的LSTM模型进行预测:
# 进行预测
y_train_pred = model.predict(x_train_lstm)
y_val_pred = model.predict(x_val_lstm)# 反标准化预测结果
y_train_pred = scaler_y.inverse_transform(y_train_pred)
y_val_pred = scaler_y.inverse_transform(y_val_pred)# 绘制预测结果与真实值
plt.plot(np.arange(len(labels)), scaler_y.inverse_transform(labels), color='red', label='真实值')
plt.plot(np.arange(n_past, len(y_train) - n_future), y_train_pred[:, 0], color='green', label='训练集预测')
plt.plot(np.arange(len(y_train) + n_past, len(labels) - n_future), y_val_pred[:, 0], color='blue', label='验证集预测')
plt.title('上证指数-LSTM预测')
plt.xlabel('天数')
plt.ylabel('收盘价')
plt.legend()
plt.show()
结果如下:
结束语
本文详细介绍了如何使用LSTM模型预测上证指数收盘价。从数据预处理、特征提取、模型构建到预测和评估,逐步展示了时间序列预测的全过程。希望对你有所帮助!
相关文章:

LSTM时间序列模型实战——预测上证指数走势
LSTM时间序列模型实战——预测上证指数走势 关于作者 作者:小白熊 作者简介:精通python、matlab、c#语言,擅长机器学习,深度学习,机器视觉,目标检测,图像分类,姿态识别,…...

基于 STM32F407 的 SPI Flash下载算法
目录 一、概述二、自制 FLM 文件1、修改使用的芯片2、修改输出算法的名称3、其它设置4、修改配置文件 FlashDev.c5、文件 FlashPrg.c 的实现 三、验证算法 一、概述 本文将介绍如何使用 MDK 创建 STM32F407 的 SPI Flash 下载算法。 其中,SPI Flash 芯片使用的是 W…...

力扣之1355.活动参与者
题目: Sql 测试用例: Create table If Not Exists Friends (id int, name varchar(30), activity varchar(30)); Create table If Not Exists Activities (id int, name varchar(30)); Truncate table Friends; insert into Friends (id, name, acti…...
数据资产治理:构建敏捷与安全的数据管理体系
在当今数字化的盛况下,作为核心资产的数据已经越发受到企业的重视。但是随着公司的逐步壮大,如何分析这些数据以及如何有效治理数据资产,以确保安全性、合规性以及易用性,是企业面临的重大挑战。数聚股份将从多年从业经验深度探讨…...

Nodejs连接Mysql笔记
框架搭建 安装Node.js 首先,确保你已经在系统上安装了Node.js和npm(Node Packaged Modules)。你可以通过以下命令检查是否已经安装:shell 或者 node -v 或者 npm -v 数据库连接代码 1.导入MySQL2库 npm install mysql2 2.在文件…...

Canvas:AI协作的新维度
在人工智能的浪潮中,OpenAI的最新力作Canvas,不仅是一款新工具,它标志着人工智能协作方式的一次革命性飞跃。Canvas为写作和编程提供了一个全新的交互界面,让用户能够与ChatGPT进行更紧密、更直观的协作。 Canvas的…...

【深度学习】— softmax回归、网络架构、softmax 运算、小批量样本的向量化、交叉熵
【深度学习】— softmax回归、网络架构、softmax 运算、小批量样本的向量化、交叉熵 3.4 Softmax 回归3.4.1 分类问题3.4.2 网络架构 3.4.3 全连接层的参数开销3.4.4 softmax 运算3.4.5 小批量样本的向量化3.4.6 损失函数对数似然softmax 的导数 3.4.7 信息论基础熵信息量重新审…...
C# Wpf 图片按照鼠标中心缩放和平移
C# Wpf 图片按照鼠标中心缩放和平移 1、缩放事件 MouseWheel(object sender, MouseWheelEventArgs e)2、平移相关的事件 MouseMove(object sender, MouseEventArgs e) MouseDown(object sender, MouseButtonEventArgs e) MouseUp(object sender, MouseButtonEventArgs e)3、…...
网络安全产品类型
1. 防火墙(Firewall) 功能:防火墙是网络安全的第一道防线,通过检查进出网络的流量来阻止未经授权的访问。它可以基于预定义的安全规则,过滤数据包和阻止恶意通信。 类型: 硬件防火墙:以专用设备…...

【开源风云】从若依系列脚手架汲取编程之道(五)
📕开源风云系列 🍊本系列将从开源名将若依出发,探究优质开源项目脚手架汲取编程之道。 🍉从不分离版本开写到前后端分离版,再到微服务版本,乃至其中好玩的一系列增强Plus操作。 🍈希望你具备如下…...
金融市场的衍生品交易及其风险管理探讨
金融衍生品市场是现代金融体系的重要组成部分,其交易量和复杂性在过去几十年中迅速增长。衍生品,如期权、期货、掉期等,因其灵活性和杠杆效应,广泛应用于风险管理、投机和资产配置等多个领域。本文将探讨金融衍生品交易的关键特点…...
一、创建型(单例模式)
单例模式 概念 单例模式是一种创建型设计模式,确保一个类只有一个实例,并提供一个全局访问点。它控制类的实例化过程,防止外部代码创建新的实例。 应用场景 日志记录:确保只有一个日志记录器,以便于管理和避免重复记…...

毕业设计项目-古典舞在线交流平台的设计与实现(源码/论文)
项目简介 基于springboot实现的,主要功能如下: 技术栈 后端框框:springboot/mybatis 前端框架:html/JavaScript/Css/vue/elementui 运行环境:JDK1.8/MySQL5.7/idea(可选)/Maven3(…...
【秋招笔试】10.09华子秋招(已改编)-三语言题解
🍭 大家好这里是 春秋招笔试突围,一起备战大厂笔试 💻 ACM金牌团队🏅️ | 多次AK大厂笔试 | 大厂实习经历 ✨ 本系列打算持续跟新 春秋招笔试题 👏 感谢大家的订阅➕ 和 喜欢💗 和 手里的小花花🌸 ✨ 笔试合集传送们 -> 🧷春秋招笔试合集 本次的三题全部上线…...

【算法笔记】双指针算法深度剖析
【算法笔记】双指针算法深度剖析 🔥个人主页:大白的编程日记 🔥专栏:算法笔记 文章目录 【算法笔记】双指针算法深度剖析前言一.移动零1.1题目1.2思路分析1.3代码实现 二.复写零2.1题目2.2思路分析2.3代码实现 三.快乐数3.1题目…...

第二十二天|回溯算法| 理论基础,77. 组合(剪枝),216. 组合总和III,17. 电话号码的字母组合
目录 回溯算法理论基础 1.题目分类 2.理论基础 3.回溯法模板 补充一个JAVA基础知识 什么时候用ArrayList什么时候用LinkedList 77. 组合 未剪枝优化 剪枝优化 216. 组合总和III 17. 电话号码的字母组合 回溯法的一个重点理解:细细理解这句话!…...

关闭IDM自动更新
关闭IDM自动更新 1 打开注册表2 找到IDM注册表路径 1 打开注册表 winR regedit 2 找到IDM注册表路径 计算机\HKEY_CURRENT_USER\Software\DownloadManager 双击LstCheck,把数值数据改为0 完成 感谢阅读...
Go 性能剖析工具 pprof 与 Graphviz 教程
在 Golang 开发中,性能分析是确保应用高效运行的重要环节。本文介绍如何使用 gin-contrib/pprof 在 Gin 应用中集成性能剖析工具,并结合 Graphviz 生成图形化的性能分析结果,如火焰图。这套流程帮助开发者更好地理解和优化 Go 应用的性能。 目…...
【题目解析】蓝桥杯23国赛C++中高级组 - 斗鱼养殖场
【题目解析】蓝桥杯23国赛C中高级组 - 斗鱼养殖场 题目链接跳转:点击跳转 前置知识: 了解过基本的动态规划。熟练掌握二进制的位运算。 题解思路 这是一道典型的状压动态规划问题。设 d p i , j dp_{i, j} dpi,j 表示遍历到第 i i i 行的时候&a…...
JavaScript可视化:探索顶尖的图表库
JavaScript可视化:探索顶尖的图表库 在这个被数据驱动的时代,你有没有想过,数据本身是如何变得有意义的?答案就是数据可视化。通过图表和图形,我们不仅可以看到数据,还可以感受到它,从而做出明…...
SkyWalking 10.2.0 SWCK 配置过程
SkyWalking 10.2.0 & SWCK 配置过程 skywalking oap-server & ui 使用Docker安装在K8S集群以外,K8S集群中的微服务使用initContainer按命名空间将skywalking-java-agent注入到业务容器中。 SWCK有整套的解决方案,全安装在K8S群集中。 具体可参…...

Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility
Cilium动手实验室: 精通之旅---20.Isovalent Enterprise for Cilium: Zero Trust Visibility 1. 实验室环境1.1 实验室环境1.2 小测试 2. The Endor System2.1 部署应用2.2 检查现有策略 3. Cilium 策略实体3.1 创建 allow-all 网络策略3.2 在 Hubble CLI 中验证网络策略源3.3 …...

基于当前项目通过npm包形式暴露公共组件
1.package.sjon文件配置 其中xh-flowable就是暴露出去的npm包名 2.创建tpyes文件夹,并新增内容 3.创建package文件夹...
五年级数学知识边界总结思考-下册
目录 一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解:由来、作用与意义**一、知识点核心内容****二、知识点的由来:从生活实践到数学抽象****三、知识的作用:解决实际问题的工具****四、学习的意义:培养核心素养…...
linux 下常用变更-8
1、删除普通用户 查询用户初始UID和GIDls -l /home/ ###家目录中查看UID cat /etc/group ###此文件查看GID删除用户1.编辑文件 /etc/passwd 找到对应的行,YW343:x:0:0::/home/YW343:/bin/bash 2.将标红的位置修改为用户对应初始UID和GID: YW3…...

IoT/HCIP实验-3/LiteOS操作系统内核实验(任务、内存、信号量、CMSIS..)
文章目录 概述HelloWorld 工程C/C配置编译器主配置Makefile脚本烧录器主配置运行结果程序调用栈 任务管理实验实验结果osal 系统适配层osal_task_create 其他实验实验源码内存管理实验互斥锁实验信号量实验 CMISIS接口实验还是得JlINKCMSIS 简介LiteOS->CMSIS任务间消息交互…...
【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)
1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...

蓝桥杯3498 01串的熵
问题描述 对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798, 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

Maven 概述、安装、配置、仓库、私服详解
目录 1、Maven 概述 1.1 Maven 的定义 1.2 Maven 解决的问题 1.3 Maven 的核心特性与优势 2、Maven 安装 2.1 下载 Maven 2.2 安装配置 Maven 2.3 测试安装 2.4 修改 Maven 本地仓库的默认路径 3、Maven 配置 3.1 配置本地仓库 3.2 配置 JDK 3.3 IDEA 配置本地 Ma…...
【生成模型】视频生成论文调研
工作清单 上游应用方向:控制、速度、时长、高动态、多主体驱动 类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...