当前位置：首页 > article >正文

2026年了，还在为电力负荷预测发愁？基于XGBoost的多变量单步预测全栈实战！

article 2026/5/25 2:05:05

大家好我是你们的技术伙伴。在2026年的今天随着“双碳”目标的推进智能电网和能源互联网成为了技术的热点。而这一切的基础就是精准的电力负荷预测。很多初学者觉得负荷预测很难觉得需要复杂的深度学习模型如LSTM、Transformer。但其实在工业界XGBoost这种基于树的模型配合精巧的特征工程往往能取得比深度学习更稳定、更高效的效果。今天我将带你从零开始基于南方电网的真实场景模拟数据手把手实现一个多变量单步电力负荷预测系统。我们将从数据预处理开始一步步走到模型训练与评估。准备好了吗让我们开始这场硬核之旅第一篇章数据预处理——让脏数据听话任何机器学习项目的第一步也是最关键的一步就是数据预处理。垃圾进垃圾出Garbage in, garbage out。我们需要处理时间格式、去重并将数据按照时间排序。1. 时间格式化与清洗在提供的数据中时间格式可能不统一且存在乱序或重复值。我们通过pd.to_datetime进行标准化并利用drop_duplicates去重。代码实现 (utils/common.py):import pandas as pd import numpy as np def data_preprocessing(): 数据预处理流程 1. 加载数据 2. 时间格式化 3. 按时间升序排列 4. 去重 5. 返回处理后的数据 # 1. 加载数据集 data pd.read_csv(./data/train.csv) # 实际路径根据你的环境调整 # 2. 时间格式化 data[time] pd.to_datetime(data[time]).dt.strftime(%Y-%m-%d %H:%M:%S) # 3. 按照时间升序排列 data.sort_values(time, ascendingTrue, inplaceTrue) # 4. 去重 data.drop_duplicates(inplaceTrue) # 重置索引方便后续处理 data.reset_index(dropTrue, inplaceTrue) return data 第二篇章探索性数据分析——发现数据的规律在建模之前我们必须先“看懂”数据。通过分析数据的整体分布、日趋势和月趋势我们可以发现负荷的周期性规律例如白天高晚上低工作日高周末低。关键洞察代码 (train.py):import matplotlib.pyplot as plt def ana_data(self): 2. 查看数据的整体分布情况与趋势 ana_data self.data_source.copy() # 设置中文字体防止乱码 plt.rcParams[font.family] SimHei plt.rcParams[axes.unicode_minus] False # 1. 负荷整体分布直方图 plt.figure(figsize(12, 8)) plt.subplot(2, 2, 1) plt.hist(ana_data[power_load], bins50, colorskyblue, edgecolorblack) plt.title(负荷整体分布情况) plt.xlabel(负荷值) plt.ylabel(频次) # 2. 小时趋势 (提取小时特征) ana_data[hour] ana_data[time].str[11:13] hour_load_mean ana_data.groupby(hour, as_indexFalse)[power_load].mean() plt.subplot(2, 2, 2) plt.plot(hour_load_mean[hour], hour_load_mean[power_load], markero, colorcoral) plt.title(24小时平均负荷趋势) plt.xlabel(小时) plt.ylabel(平均负荷) # 3. 月份趋势 (提取月份特征) ana_data[month] ana_data[time].str[5:7] month_load_mean ana_data.groupby(month, as_indexFalse)[power_load].mean() plt.subplot(2, 2, 3) plt.bar(month_load_mean[month], month_load_mean[power_load], colorlightgreen) plt.title(12个月份平均负荷趋势) plt.xlabel(月份) plt.ylabel(平均负荷) # 4. 工作日与周末对比 (模拟) # 假设数据中包含日期信息可以计算星期几 ana_data[date] pd.to_datetime(ana_data[time]) ana_data[weekday] ana_data[date].dt.weekday ana_data[is_weekend] ana_data[weekday].apply(lambda x: 1 if x 5 else 0) weekend_load ana_data.groupby(is_weekend, as_indexFalse)[power_load].mean() plt.subplot(2, 2, 4) weekend_load.plot(kindbar, xis_weekend, ypower_load, axplt.gca(), legendFalse, color[lightblue, salmon]) plt.title(工作日 vs 周末平均负荷) plt.xlabel(是否周末 (0工作日, 1周末)) plt.ylabel(平均负荷) plt.xticks(rotation0) plt.tight_layout() plt.savefig(./data/fig/负荷整体分析.png, dpi300) plt.show() 分析结论通过上述代码运行我们可以直观看到负荷的双峰特性早高峰和晚高峰这将指导我们后续的特征提取。️ 第三篇章特征工程——模型的灵魂重点这是本文最核心的部分。XGBoost本身并不知道“时间”的概念我们需要把时间转化为计算机能理解的特征。根据predict.py中的逻辑我们需要提取以下特征One-Hot编码的时间特征将小时0-23和月份1-12转化为独热编码告诉模型现在是几点、几月。滞后特征前1小时、前2小时、前3小时的负荷。这利用了负荷的自相关性今天的用电量和昨天、前天密切相关。周期特征昨日同时刻负荷yesterday_load。这捕捉了负荷的周/日周期性。补全train.py中的特征工程与训练代码# -*- coding: utf-8 -*- import os import pandas as pd import matplotlib.pyplot as plt import datetime from utils.log import Logger from utils.common import data_preprocessing from xgboost import XGBRegressor from sklearn.model_selection import train_test_split from sklearn.metrics import mean_squared_error, mean_absolute_error import joblib plt.rcParams[font.family] SimHei plt.rcParams[font.size] 15 class PowerLoadModel: def __init__(self): # 日志配置 logfile_name train_ datetime.datetime.now().strftime(%Y%m%d%H%M%S) self.logfile Logger(../, logfile_name).get_logger() self.logfile.info(开始创建电力负荷模型类的对象了) # 获取数据 self.data_source data_preprocessing() # 初始化特征列名 (根据 predict.py 中的逻辑) self.feature_cols [hour_00, hour_01, ..., hour_23, # 0-23点 month_01, month_02, ..., month_12, # 1-12月前1小时负荷, 前2小时负荷, 前3小时负荷, 昨日同时刻负荷] def ana_data(self): # ... (上文的可视化代码) ... pass def feature_engineering(self, data): 3. 特征工程构建XGBoost能理解的特征矩阵 data data.copy() data[time] pd.to_datetime(data[time]) # 1. 时间特征分解 data[hour] data[time].dt.hour data[month] data[time].dt.month # 2. One-Hot编码 (小时和月份) # 小时 for i in range(24): data[fhour_{i:02d}] (data[hour] i).astype(int) # 月份 for i in range(1, 13): data[fmonth_{i:02d}] (data[month] i).astype(int) # 3. 滞后特征与周期特征 (需要历史数据字典来辅助提取) # 将数据转为字典方便根据时间戳查找历史负荷 time_load_dict data.set_index(time)[power_load].to_dict() # 初始化特征列表 feature_list [] for idx, row in data.iterrows(): current_time row[time] features [] # --- One-Hot特征 --- # 小时 hour current_time.hour for i in range(24): features.append(1 if hour i else 0) # 月份 month current_time.month for i in range(1, 13): features.append(1 if month i else 0) # --- 历史滞后特征 --- # 前1小时 last_1h_time (current_time - pd.Timedelta(hours1)) features.append(time_load_dict.get(last_1h_time, data[power_load].mean())) # 前2小时 last_2h_time (current_time - pd.Timedelta(hours2)) features.append(time_load_dict.get(last_2h_time, data[power_load].mean())) # 前3小时 last_3h_time (current_time - pd.Timedelta(hours3)) features.append(time_load_dict.get(last_3h_time, data[power_load].mean())) # 昨日同时刻 last_1d_time (current_time - pd.Timedelta(days1)) features.append(time_load_dict.get(last_1d_time, data[power_load].mean())) feature_list.append(features) # 构建特征DataFrame X pd.DataFrame(feature_list, columnsself.feature_cols) y data[power_load] return X, y def train_and_evaluate(self): 4. 模型训练与评估 # 1. 特征工程 self.logfile.info(开始执行特征工程...) X, y self.feature_engineering(self.data_source) # 2. 划分数据集 (按时间顺序划分不能随机打乱) # 假设前800条用于训练后200条用于测试 (模拟时间序列预测) split_idx int(len(X) * 0.8) X_train, X_test X[:split_idx], X[split_idx:] y_train, y_test y[:split_idx], y[split_idx:] # 3. 创建并训练XGBoost回归模型 self.logfile.info(开始训练XGBoost模型...) model XGBRegressor( n_estimators200, # 树的数量 learning_rate0.1, # 学习率 max_depth5, # 树的最大深度 subsample0.8, # 样本采样比例 colsample_bytree0.8, # 特征采样比例 random_state42 ) model.fit(X_train, y_train) # 4. 预测与评估 y_pred model.predict(X_test) mae mean_absolute_error(y_test, y_pred) rmse np.sqrt(mean_squared_error(y_test, y_pred)) self.logfile.info(f模型训练完成) self.logfile.info(f测试集 MAE: {mae:.4f}, RMSE: {rmse:.4f}) # 5. 保存模型 os.makedirs(./model, exist_okTrue) model_path f./model/xgb_{datetime.datetime.now().strftime(%Y%m%d)}.pkl joblib.dump(model, model_path) self.logfile.info(f模型已保存至: {model_path}) # 6. 结果可视化 self.plot_results(y_test, y_pred) def plot_results(self, y_test, y_pred): 绘制预测结果对比图 plt.figure(figsize(16, 8)) plt.plot(y_test.values, label真实负荷, colorblue, linewidth2) plt.plot(y_pred, label预测负荷, colorred, linestyle--, linewidth2) plt.title(电力负荷预测结果对比 (测试集)) plt.xlabel(时间点) plt.ylabel(负荷值) plt.legend() plt.grid(True, alpha0.3) plt.savefig(./data/fig/预测结果对比.png, dpi300) plt.show() if __name__ __main__: # 创建对象 pm PowerLoadModel() # 1. 数据分析 pm.ana_data() # 2. 模型训练与评估 pm.train_and_evaluate() 第四篇章预测与模拟——模拟真实上线环境在真实场景中我们预测未来的时间点时是拿不到那个时间点的特征的比如你不能用明天的数据预测明天。因此predict.py中采用了一个非常聪明的策略掩码机制。它通过time_load_dict_masked只保留预测时间点之前的数据从而模拟了“实时预测”的场景。这也是为什么我们在特征工程中使用time_load_dict.get(last_1h_time, 500)来设置默认值的原因——防止查找不到历史数据时报错。总结与福利通过这篇文章我们完成了一个完整的电力负荷预测项目闭环数据清洗处理了时间格式和重复值。EDA分析发现了负荷的周期性规律。特征工程构建了One-Hot编码、滞后特征和周期特征这是提升精度的关键模型训练使用XGBoostRegressor进行回归预测。评估与可视化直观对比了预测效果。独家建议特征优化除了文中提到的特征你还可以尝试加入“是否为节假日”的特征这通常能显著提升节假日预测的准确率。模型调参文中使用了固定的参数你可以尝试使用GridSearchCV进行网格搜索寻找最优参数。希望这篇2026年的硬核实战指南能为你打下坚实的基础。代码已经非常完善你可以直接下载附件中的数据进行复现。如果你觉得这篇文章对你有帮助请务必点赞、收藏并关注我。我会持续输出更多硬核技术干货

2026年了，还在为电力负荷预测发愁？基于XGBoost的多变量单步预测全栈实战！

相关文章：

2026年了，还在为电力负荷预测发愁？基于XGBoost的多变量单步预测全栈实战！

012-java精品项目-淘客系统源码(安卓+IOS+php后端)

Graph Fusion：一张 512 节点的图怎么压到 120 个以内

用labview制作的上位机界面的多语言显示

AArch64缓存架构解析与性能优化实践

量子通信技术突破：量子处理器如何提升经典通信容量

Agent Harness 系列：为什么你的 Agent 演示很顺、上线就崩？

打印机：解决windows打印任务卡死或者打印纸张喷墨不清晰的问题

别急着重装系统！记一次 Ubuntu 22.04 上 gcc 与 cpp 版本依赖冲突的排查与修复实录

统信UOS 20.1060专业版美化全攻略：从桌面到开机GRUB，一张图搞定所有壁纸

从“画箭头”到1亿播放量：机械工程师梁乐平，如何用CAD绘图书写知识传播新篇章？

CompressO：重新定义本地视频压缩的三大创新维度

AI Native 公司构建指南：从 Anthropic 创始人手册到工程实践

拆解：我们为宁步建设做南京办公室装修GEO的完整步骤与底层思考

17.通杀安卓 /iOS 全机型！Linux 原生刷机方案，EDL 底层救砖 + 自动化源码开源

ARM SME架构向量点积指令SVDOT与UDOT深度解析

AI与精益创业结合驱动产品创新的方法论

Keil RTX5迁移调试问题与RTOS组件使用指南

量子计算误差缓解技术：从原理到实践

兆赫兹X射线光子相关光谱技术原理与应用

CAXA 引出说明

CAXA 查找替换

https://pypi.tuna.tsinghua.edu.cn/simple/

计算机工程投稿经历（2026年5月份录用）

随记-关于当下大学生就业现状的个人感想

002-AI客服-RAG优化分析

差分隐私生成模型实战：从理论保障到隐私攻击与审计评估

麒麟服务器等保三级配置实战：从SSH双因子到kysec策略落地

UPS不间断电源不工作如何确定是否损坏

棋牌类网站渗透测试五大高危漏洞实战解析