基于机器学习时序库pmdarima实现时序预测
目录
- 一、Pmdarima实现单变量序列预测
- 1.1 核心功能与特性
- 1.2 技术优势对比
- 1.3 python案例
- 1.3.1 时间序列交叉验证
- 1.3.1.1 滚动交叉验证
- 1.3.1.2 滑窗交叉验证
时间序列相关参考文章:
时间序列预测算法—ARIMA
基于VARMAX模型的多变量时序数据预测
基于机器学习时序库pmdarima实现时序预测
时间序列预测算法—Prophet
时间序列预测算法—LSTM
长时间序列预测算法—Informer
时间序列分类任务—tsfresh
有季节效应的非平稳序列分析
python时间序列处理
时间序列异常值检测方法
时间序列异常值处理方法
一、Pmdarima实现单变量序列预测
pmdarima 是 Python 生态中专注于时间序列预测的高阶工具库,基于 ARIMA/SARIMA 模型框架,能够处理平稳性、季节性、周期性等问题,可以执行差分、交叉验证等运算,通过自动化建模流程降低时序分析门槛。其核心设计理念为 “自动化” 与 “兼容性”,旨在为开发者提供简洁、工业级的时序预测解决方案。
官方文档
源码仓库
1.1 核心功能与特性
- 自动化建模引擎
参数自动搜索:通过 auto_arima() 函数一键完成模型参数(p, d, q 及季节性参数 P, D, Q, m)的智能搜索,无需手动调参。内置 ADF检验(Augmented Dickey-Fuller Test)自动确定差分阶数 d,解决非平稳序列问题。
季节性处理:支持季节性差分与傅里叶项分解,自动检测季节性周期 m(如月、季度、年周期)。 - 工程化接口设计
sklearn 兼容性:遵循 scikit-learn API 规范(fit()、predict()、score()),无缝接入机器学习流水线。支持 Pipeline 集成与 GridSearchCV 超参数优化。
扩展功能:模型持久化(pickle 序列化)、置信区间计算、残差诊断(白噪声检验)。 - 性能优化
并行计算:通过 n_jobs 参数启用多核并行加速模型搜索。
大样本支持:分块(Chunking)处理超长时序数据,避免内存溢出。
1.2 技术优势对比
特性 | pmdarima | 传统 ARIMA 实现(如 statsmodels) |
---|---|---|
参数自动化 | ✅ 全自动搜索 (p,d,q,P,D,Q,m) | ❌ 需手动指定所有参数 |
季节性支持 | ✅ 内置季节差分与傅里叶分解 | ⚠️ 需手动配置季节差分项 |
API 易用性 | ✅ 类 sklearn 接口(fit/predict) | ⚠️ 需调用专用函数(如 ARIMA() ) |
非平稳性处理 | ✅ 自动执行ADF检验确定差分阶数d | ❌ 需手动运行平稳性检验 |
计算效率 | ✅ 并行搜索 (n_jobs )、分块处理 | ❌ 单线程计算为主 |
生产集成 | ✅ 兼容sklearn流水线与超参数优化 | ⚠️ 需额外封装才能接入ML系统 |
模型诊断 | ✅ 内置残差检验与置信区间计算 | ⚠️ 需调用其他工具辅助验证 |
1.3 python案例
load_wineind 是pmdarima 库中经典的季节性时间序列数据集,时间范围为1980 年 1 月至 1994 年 8 月(共 176 个月度观测点),反映澳大利亚葡萄酒产业的月度销量。
import pmdarima as pm
from pmdarima import model_selection
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error
import warnings
warnings.filterwarnings("ignore")data = pm.datasets.load_wineind()
fig = plt.figure(figsize=(16,5))
plt.plot(range(data.shape[0]),data)
plt.grid()
#使用pm分割数据,遵循时序规则,不会打乱时间顺序
train, test = model_selection.train_test_split(data, train_size=152)
#自动化建模,只支持SARIMAX混合模型,不支持VARMAX系列模型
arima = pm.auto_arima(train, trace=True, #训练数据,是否打印训练过程error_action='ignore', #设置为'ignore'将会忽略错误并继续,其他选项包括'warn'、'raise'、'trace'等。 suppress_warnings=True, #无视警告和错误maxiter=5, #允许的最大迭代次数seasonal=True,#是否考虑季节性因素。设置为True表示模型将包含季节性成分。m=12 #季节性的周期数)
#预测 - n_periods向未来预测,无法对训练的时间进行预测
preds = arima.predict(n_periods=test.shape[0])
preds #按照测试集的日期进行预测
fig = plt.figure(figsize=(16,5))
plt.plot(range(test.shape[0]),test)
plt.plot(range(test.shape[0]),preds)
plt.grid()
#评估指标 - 可共用sklearn的评估指标,也可调用特定的时序指标AIC
np.sqrt(mean_squared_error(test, preds)) #rmse 输出:2550.8824550311906
arima.aic() #aic 输出:2946.1506587987415
arima.summary()
傻瓜式搜索合适的参数,从效率角度来说远远超过statsmodel,遗憾的是,从上述代码不难看出,pmdarima的代码思路是更靠近机器学习而不是统计学的,因此pmd.auto_arima跑出的结果往往无法满足统计学上的各类检验要求,因此泛化能力无法被保证。同时我们也很容易发现,由于数据集分割的缘故,autoarima选择出的最佳模型可能无法被复现,例如我们使用autoarima选择出的最佳模型建立模型:
model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12), max_iter=500)
model.fit(train)
np.sqrt(mean_squared_error(test, model.predict(n_periods = test.shape[0]))) #RMSE:2983.19明显高于auto_arima:2550.88的结果
model.aic() #AIC:2936.459却低于auto_arima:2946.15的结果,所以AIC并不能作为唯一标准的评估指标fig = plt.figure(figsize=(16,5))
plt.plot(range(test.shape[0]),test)
plt.plot(range(test.shape[0]),model.predict(n_periods = test.shape[0]))
plt.grid()
1.3.1 时间序列交叉验证
在时序模型的选择过程中,可以借助交叉验证来帮助我们选择更好的模型。时间序列的交叉验证非常特殊,因为时间序列数据必须遵守“过去预测未来”、“训练中时间顺序不能打乱”等基本原则,因此传统机器学习中的k折交叉验证肯定无法使用。在时间序列的世界中,有以下两种常见的交叉验证方式:滚动交叉验证和 滑窗交叉验证。
1.3.1.1 滚动交叉验证
滚动交叉验证是一种针对时间序列数据的验证方法,其核心思想是在模型训练过程中不断扩展训练集,同时使验证集逐步向未来推进。这种方式不仅确保了模型始终遵循“用过去预测未来”的原则,还能保证训练数据与预测目标之间的时间间隔足够接近,从而提高预测的现实性和有效性。
相比传统的“多步预测”方法,滚动交叉验证避免了“误差累积”问题。由于训练过程中始终使用真实标签进行拟合,模型不会受到前期预测误差的传递影响,因此能够更稳定地评估未来数据的预测能力。对于时间序列任务,滚动交叉验证能够更真实地模拟未来预测场景,从而提高模型的泛化性能。
在pmdarima中,使用类RollingForecastCV
和cross_validate
来实现交叉验证。
model_selection.RollingForecastCV(h=1, step=1, initial=None)
h:验证集中的样本数量,可以输入[1, n_samples]的整数。
step:训练集中每次增加的样本数量,必须为大于等于1的正整数。
initial:第一次交叉验证时的训练集样本量,如果不填写则按1/3处理。
cv = model_selection.RollingForecastCV(h=1, step=1, initial = 10)
cv_generator = cv.split(data)
next(cv_generator) #根据Initial初始训练集有10个样本,验证集遵循参数h的设置,只包含一个样本
next(cv_generator) #根据step的设置,训练集每次增加1个样本,验证集继续包含一个样本
cv = model_selection.RollingForecastCV(h=5, step=10, initial = 10)
cv_generator = cv.split(data)
next(cv_generator) #验证集包含10个样本
next(cv_generator)
在pmdarima中实现滚动交叉验证时,验证集实际上是可以重复的,可以在有限的数据上进行多轮验证集重合的交叉验证。
model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12),max_iter=500)
cv = model_selection.RollingForecastCV(h=24, step=12, initial=36)
predictions = model_selection.cross_validate(model, data,cv=cv, scoring = "mean_squared_error", verbose = 2, #控制日志输出的详细程度 0:无输出1:仅显示重要信息 2:详 细日志,显示每次滚动交叉验证的进度和结果error_score = "raise") #控制当交叉验证过程中发生错误时的行为:"raise":遇到错误时直接报错np.nan:如果遇到错误,则该次评估返回 NaN,不会影响整个交叉验证流程
predictions
np.sqrt(predictions["test_score"]) #rmse
交叉验证的测试集中得到的RMSE大部分都大于我们之前自动化建模时得到的RMSE,并且训练数据越少时,测试集上的RMSE会越大,这可能说明在前几折交叉验证时,训练集的数据量太少,我们可以考虑增大initial当中的设置来避免这个问题。
1.3.1.2 滑窗交叉验证
与滚动交叉验证类似,滑窗交叉验证中的验证集既可以是单一样本,也可以包含多个时间步数据。相较于滚动交叉验证,滑窗交叉验证的核心优势在于训练集大小保持恒定, 每次训练时仅使用理论上对当前验证集最有效的信息。这避免了训练集无限增长所带来的计算开销,同时确保模型始终基于最新的历史数据进行训练,提高对近期趋势的适应性。然而,这一特性也带来了潜在问题:由于训练集较小,模型需要进行 更多次训练,导致计算量大幅增加,使得交叉验证过程异常缓慢。特别是在高频时间序列或大规模数据集上,滑窗交叉验证的计算成本可能成为实际应用中的限制因素。
在pmdarima当中,使用SlidingWindowForecastCV
来完成滑窗交叉验证:
model_selection.SlidingWindowForecastCV(h=1, step=1, window_size=None)
h:验证集中的样本数量,可以输入[1, n_samples]的整数。
step:每次向未来滑窗的样本数量,必须为大于等于1的正整数。
window_size:滑窗的尺寸大小,如果填写None则按照样本量整除5得到的数来决定。
cv = model_selection.SlidingWindowForecastCV(h=1, step=1, window_size = 10)
cv_generator = cv.split(data)
next(cv_generator)
next(cv_generator)
cv = model_selection.SlidingWindowForecastCV(h=5, step=10, window_size = 10)
cv_generator = cv.split(data)
next(cv_generator)
next(cv_generator)
model = pm.ARIMA(order=(2,1,1),seasonal_order=(1,0,1,12),max_iter=500)
cv = model_selection.SlidingWindowForecastCV(h=24, step=12, window_size=36) #简单粗暴
predictions = model_selection.cross_validate(model,data, cv=cv, scoring = "mean_squared_error", verbose = 2, error_score = "raise")
predictions
np.sqrt(predictions["test_score"])
从结果来看,使用更少的训练集进行训练后,模型输出的RMSE大幅上升了,并且也没有变得更稳定,这说明当前模型下更大的训练集会更有利于模型的训练。
cv = model_selection.SlidingWindowForecastCV(h=24, step=1, window_size=132)
predictions = model_selection.cross_validate(model, data,cv=cv, scoring = "mean_squared_error", verbose = 2, error_score = "raise")
np.sqrt(predictions["test_score"])
此时RMSE的均值大幅下降了,但是模型还是不稳定,这说明当前时间序列各时间段上的差异较大,当前模型的拟合结果一般。虽然通过增加训练集的数据量可以让模型表现提升,但极其不稳定的结果展示当前模型的泛化能力是缺失的。当然,和使用AIC时一样,我们只能选择表现更好的时序模型(只能择优),而无法选择完美的时序模型。当我们将auto_arima选出的最佳参数放弃、而选择带有其他参数的模型,说不定得到的结果会更加不稳定。
相关文章:

基于机器学习时序库pmdarima实现时序预测
目录 一、Pmdarima实现单变量序列预测1.1 核心功能与特性1.2 技术优势对比1.3 python案例1.3.1 时间序列交叉验证1.3.1.1 滚动交叉验证1.3.1.2 滑窗交叉验证 时间序列相关参考文章: 时间序列预测算法—ARIMA 基于VARMAX模型的多变量时序数据预测 基于机器学习时序库…...

Dart语言的云计算
Dart语言在云计算中的应用 引言 云计算作为一种新兴的计算模式,为各行各业带来了重大变革。借助于云计算,用户可以通过互联网获取和使用各种资源,如计算能力、存储、数据库等。随着云计算的快速发展,编程语言的选择变得愈发重要…...

每日一题--数组中只出现一次的两个数字
数组中只出现一次的两个数字 题目描述数据范围提示 示例示例1示例2 题解解题思路位运算方法步骤: 代码实现代码解析时间与空间复杂度按位与操作获取最小位1的原理为什么选择最低有效的 1 位而不是其他位? 题目描述 一个整型数组里除了两个数字只出现一次…...

【数据】数据领域常用名词解释(第一批40个)+ 例子
导读:这些名词解释是基于数据领域的基本原理、技术方法、行业实践以及政策规范等多方面因素综合制定的,旨在为社会各界提供统一、权威的参考标准,推动数据领域的健康有序发展。 目录 数据 原始数据 数据资源 数据要素 数据产品和服务 数…...

Java | RESTful 接口规范
关注:CodingTechWork 引言 作为一名程序员,制定清晰、一致且高效的 RESTful 接口规范对于团队的开发效率和项目的长期维护至关重要。本文将详细介绍 RESTful 接口的设计理念、请求方法分类、核心规范,以及正确和错误的示例,帮助团…...

Baklib优化数字化内容管理用科技提升商业效率与增值潜力
内容概要 在当今数字化迅速发展的时代,数字化内容管理已成为企业提升竞争力的重要手段。Baklib作为一款强大的智能优化内容管理系统,通过先进的科技手段,帮助企业在内容管理和数据整合方面实现高效运作。Baklib 是什么类型的工具,…...

【AI日记】25.02.09
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】【AI应用】 探索 探索 AI 应用 读书 书名:理解公司:产权、激励与治理作者:张维迎 律己 探索:8 小时作息:2:00-10:00短视频娱乐&am…...

Chrome浏览器原理及优化
1. 相关面试题 1.1. 请说说从输入 URL 到页面渲染完成的全过程 1. 输入URL,用户在浏览器的地址栏输入一个URL,并按下回车键; 2. DNS解析; 浏览器需要将域名转换为服务器的IP地址,以建立连接。 (1). 如果浏览器缓存、操作系统缓存或路由器缓存中已有该域名的IP地址,…...

2025_2_9 C语言中队列
1.队列(先进先出) 队列也是一种受限制的线性结构 它只能在一端添加元素,在另一端访问,删除元素 (队首插入,队尾删除) 因为链表实现没有数组实现快,所以队列大多数是用数组实现的 q…...

[图文]DeepSeek能做对《软件方法》的测试题吗?
目前为止,我已经针对《软件方法》涉及的知识点出了几百道选择题,我们来看一下DeepSeek能不能做对这些题。 在选择题目时,我刻意向后兼容,选择只要受过严谨的软件开发方法学训练,即使没听说过《软件方法》也应该能通过…...

推荐个Deepseek网站
这几天有用到Deepseek,但是官网老时崩溃,硅基流动这个网站感觉还可以用,赠送了十多块钱,用完要收费,但比较便宜,可以接受。 https://siliconflow.cn/zh-cn/models 这里可以设置给模型添加固定的标签需求...

【Linux开发工具】C/C++ 在Linux下的编译器-gcc/g++
目录 一、前言 二、gcc/g的使用 三、程序翻译的四个阶段 1.预处理 2.编译 3.汇编 4.链接 四、动静态库 1.库函数的命名和分类 2. 动静态库的区别 一、前言 学习了vim的使用方法后,我们就可以高效编辑文本文件了,但vim并不像vs一样编辑好.c文件…...

hmi界面:工业设计风格如何识别,有什么应用场景。
一、工业设计风格在 HMI 界面中的视觉特征 (一)简洁的布局 功能分区明确 工业设计风格的 HMI 界面往往将不同的功能模块进行清晰的分区,每个区域都有明确的用途。例如,操作区、显示区、状态区等划分一目了然,用户可以…...

NIO三大组件
文章目录 概述Channel & BufferSelector服务器设计历史演化多线程版设计线程池版设计selector 版设计 概述 NIO的意思是 non-blocking io 非阻塞 IO 。NIO中存在3大组件:Channel 、 Buffer 、Selector Channel & Buffer channel (中文 管道的…...

pytest.fixture
pytest.fixture 是 pytest 测试框架中的一个非常强大的功能,它允许你在测试函数运行前后执行一些设置或清理代码。以下是关于 pytest.fixture 的详细介绍: 一、定义与用途 pytest.fixture 是一个装饰器,用于标记一个函数为 fixture。Fixture 函数中的代码可以在测试函数运…...

MHTML文件如何在前端页面展示
MHTML文件如何在前端页面展示 需求背景: 目前在给证券公司做项目,但是在使用新系统的过程中,甲方还希望之前之前系统的历史记录可以看到。 最初制定的计划是项目组里面做数据的把原系统页面爬取下来,转成图片,直接给…...

学习笔记:在华为云ModelArts上运行MindSpore扩散模型教程
目录 一、背景与目的 二、环境搭建 三、模型原理学习 1. 类定义与初始化 2. 初始卷积层 3. 时间嵌入模块 4. 下采样模块 5. 中间模块 6. 上采样模块 7. 最终卷积层 8. 前向传播 9. 关键点总结 四、代码实现与运行 五、遇到的问题及解决方法 六、总结与展望 教程来源:…...

使用sharding-jdbc实现读写分离
简介 读写分离是一种数据库架构设计的模式,主要用于提高数据库的性能和可扩展性。它将数据库的读取操作和写入操作分离到不同的数据库实例上,从而优化系统的负载和响应速度。 实现前提是需要进行主从复制(数据层面的分离) 实现…...

“图像识别分割算法:解锁视觉智能的关键技术
嘿,各位朋友!今天咱们来聊聊图像识别分割算法。这可是计算机视觉领域里特别厉害的一项技术,简单来说,它能让机器“看懂”图像中的不同部分,并把它们精准地分出来。想象一下,机器不仅能识别出图里有猫还是狗…...

【Go语言快速上手】第二部分:Go语言进阶
文章目录 并发编程goroutine:创建和调度 goroutinechannel:无缓冲 channel、有缓冲 channel、select 语句无缓冲 channel有缓冲 channelselect 语句 sync 包:Mutex、RWMutex、WaitGroup 等同步原语Mutex:互斥锁RWMutex:…...

GRN前沿:GRETA:从多模式单细胞数据推断基因调控网络方法的比较与评价
1.论文原名:Comparison and evaluation of methods to infer gene regulatory networks frommultimodal single-cell data 2.发表日期:20254.12.21 摘要: 细胞通过基因表达调节其功能,由转录因子和其他调节机制的复杂相互作用驱…...

python基础入门:4.4模块与包管理
Python模块与包管理完全指南:构建可维护的代码结构 # 示例项目结构 """ my_package/ ├── __init__.py ├── core/ │ ├── __init__.py │ ├── utils.py │ └── calculator.py ├── data/ │ └── config.json └── tes…...

《XSS跨站脚本攻击》
一、XSS简介 XSS全称(Cross Site Scripting)跨站脚本攻击,为了避免和CSS层叠样式表名称冲突,所以改为了XSS,是最常见的Web应用程序安全漏洞之一,位于OWASP top 10 2013/2017年度分别为第三名和第七名&…...

LC-两数之和、字母异位词分组、最长连续序列、移动零、盛最多水的容器
两数之和 class Solution {public int[] twoSum(int[] nums, int target) {int n nums.length; // 获取数组 nums 的长度// 外层循环:遍历数组中的每一个元素 nums[i]for(int i 0; i < n; i) {// 内层循环:从 nums[i] 的下一个元素 nums[j] 开始遍…...

Netty源码解析之线程池的实现(二):创建线程与执行任务
前言 先看下面的代码: public class MyTest {public static void main(String[] args) {//创建NioEventLoopGroupNioEventLoopGroup loopGroup new NioEventLoopGroup(3);System.out.println(Thread.currentThread()"准备执行任务");//执行任务for (in…...

IDEA - 一个启动类多次启动方法
More Run/Debug -> Modify Run Configuration -> modify options -> Allow mutiple instances...

U3D支持webgpu阅读
https://docs.unity3d.com/6000.1/Documentation/Manual/WebGPU-features.html 这里看到已经该有的差不多都有了 WOW VFX更是好东西 https://unity.com/cn/features/visual-effect-graph 这玩意儿化简了纯手搓一个特效的流程 如果按原理说就是compute shader刷position&#…...

C++广度优先搜索
简介 老规矩,先来介绍一下什么是广度优先搜索(至于这么长时间没更新是为什么,我放在文章结尾了,感兴趣可以看看,以后也是如此) 广度优先搜索,从名字就能听出来,他和深度优先搜索关…...

SVN 提交与原有文件类型不一样的文件时的操作
SVN 提交与原有文件类型不一样的文件时的操作 背景 SVN 服务器上原本的文件是软链接类型的,但是我将它改成普通文件再上传。出现了以下提示: 解决过程 本来想着通过 svn rm 和 svn add 来解决,但是行不通。 最终解决方案 svn rm --keep-…...

活动预告 | Power Hour: Copilot 引领商业应用的未来
课程介绍 智能化时代,商业应用如何实现突破?微软全球副总裁 Charles Lamanna 将为您深度解析,剖析其中关键因素。 在本次线上研讨会中,Charles Lamanna 将分享他在增强商业运营方面的独到见解与实战策略,深度解读商业…...