当前位置：首页 > news >正文

数据挖掘实训：天气数据分析与机器学习模型构建

news 2026/5/31 13:50:34

随着气候变化对各行各业的影响日益加剧，精准的天气预测已经变得尤为重要。降雨预测在日常生活中尤其关键，例如农业、交通和灾害预警等领域。本文将通过机器学习方法，利用历史天气数据预测明天是否会下雨，具体内容包括数据预处理、模型训练、调参、评估与优化等多个环节。

1. 项目背景与目标

本项目的核心任务是通过分析天气数据来预测明天是否降雨。数据集包含了多个天气特征（如温度、湿度、风速、气压等），我们使用这些特征作为输入，构建机器学习模型预测目标变量（是否下雨）。具体目标如下：

使用历史天气数据来预测明天是否降雨。
使用多种机器学习算法进行模型训练和评估。
处理数据中的缺失值、类别不平衡等问题，提高模型的预测准确性。

2. 数据集介绍

我们使用一个典型的天气数据集，它包含了如下几个主要特征：

Location：表示获取该信息的气象站的名称。
MinTemp：以摄氏度为单位的最低温度。
MaxTemp：以摄氏度为单位的最高温度。
Rainfall：当天记录的降雨量，单位为毫米（mm）。
Evaporation：到早上9点之前的24小时内的A级蒸发量，单位为毫米（mm）。
Sunshine：白天日照的完整小时数，表示当天白昼时段阳光的强度。
WindGustDir：表示在午夜12点前24小时内，最强风的风向。
WindGustSpeed：表示在午夜12点前24小时内，最强风的风速，单位为千米每小时（km/h）。
WindDir9am：上午9点时的风向。
WindDir3pm：下午3点时的风向。
WindSpeed9am：上午9点之前每个十分钟的风速平均值，单位为千米每小时（km/h）。
WindSpeed3pm：下午3点之前每个十分钟的风速平均值，单位为千米每小时（km/h）。
Humidity9am：上午9点的湿度，单位为百分比。
Humidity3pm：下午3点的湿度，单位为百分比。
Pressure9am：上午9点的平均海平面气压，单位为百帕（hpa）。
Pressure3pm：下午3点的平均海平面气压，单位为百帕（hpa）。
Cloud9am：上午9点时的天空云层遮蔽程度，以“oktas”单位衡量。0表示完全晴朗，8表示完全阴天。
Cloud3pm：下午3点时的天空云层遮蔽程度，单位同上午9点。
Temp9am：上午9点的温度，单位为摄氏度。
Temp3pm：下午3点的温度，单位为摄氏度。
RainTomorrow：目标变量，表示明天是否会下雨。1表示下雨，0表示不下雨。

目标是基于这些特征来预测RainTomorrow，即明天是否会下雨。

3. 数据预处理

机器学习模型的效果很大程度上取决于数据的质量，因此数据预处理是一个至关重要的步骤。

3.1 读取数据

我们从CSV文件中加载数据并进行抽样：

import pandas as pd# 读取数据
data = pd.read_csv("weather.csv", encoding='gbk', index_col=0)
weather = data.sample(n=5000, random_state=0)
weather.index = range(weather.shape[0])

3.2 特征与目标变量分离

我们将数据集分为特征（X）和目标变量（Y）：

X = weather.iloc[:, :-1]  # 所有列，除了最后一列
Y = weather.iloc[:, -1]   # 目标变量，即是否下雨

3.3 处理缺失值

数据中可能存在缺失值，特别是对于天气数据，缺失值可能较为常见。我们可以使用适当的策略填充这些缺失值。对于分类特征，我们使用众数（最频繁的值）填充；对于数值型特征，我们使用均值填充：

from sklearn.impute import SimpleImputer# 对分类变量使用众数填充
categorical_columns = X.select_dtypes(include=['object']).columns
si = SimpleImputer(strategy="most_frequent")
X[categorical_columns] = si.fit_transform(X[categorical_columns])# 对连续变量使用均值填充
continuous_columns = X.select_dtypes(include=['float64', 'int64']).columns
impmean = SimpleImputer(strategy="mean")
X[continuous_columns] = impmean.fit_transform(X[continuous_columns])

3.4 特征工程

特征工程旨在通过从现有数据中提取更有用的特征来提升模型性能。例如，我们可以通过分析降水量来生成一个新特征，表示当天是否有降水：

X['RainToday'] = X['Rainfall'].apply(lambda x: "Yes" if x >= 1 else "No")

此外，我们还可以从日期中提取月份信息，因为不同季节的天气差异较大：

X['Month'] = pd.to_datetime(X['Date']).dt.month

3.5 类别特征编码

机器学习模型通常无法直接处理非数值型数据，因此我们需要对类别特征进行编码。我们可以使用OrdinalEncoder将类别变量转换为数字值：

from sklearn.preprocessing import OrdinalEncoderencoder = OrdinalEncoder()
categorical_columns = ['Location', 'WindGustDir']  
X[categorical_columns] = encoder.fit_transform(X[categorical_columns])

3.6 特征标准化

标准化步骤有助于加速梯度下降优化算法的收敛，并提高模型性能。我们可以使用StandardScaler对数值特征进行标准化，使得数据具有零均值和单位方差：

from sklearn.preprocessing import StandardScalerscaler = StandardScaler()
X[continuous_columns] = scaler.fit_transform(X[continuous_columns])

3.7 处理类别不平衡

由于“下雨”的频率较低，目标变量RainTomorrow的类别可能不平衡。我们使用SMOTE（合成少数类过采样技术）来生成新的少数类样本，以平衡数据集：

from imblearn.over_sampling import SMOTEsmote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, Y)

4. 模型训练与评估

在数据预处理完成后，我们开始使用不同的分类模型进行训练，并评估它们的表现。常见的分类模型包括：

逻辑回归（Logistic Regression）
支持向量机（SVM）
随机森林（Random Forest）
XGBoost（XGBoost）
AdaBoost（AdaBoost）
Gradient Boosting（Gradient Boosting）

4.1 数据集划分

首先，我们将数据划分为训练集和验证集。一般来说，80%的数据用于训练，20%的数据用于验证：

from sklearn.model_selection import train_test_splitX_train, X_val, y_train, y_val = train_test_split(X_resampled, y_resampled, test_size=0.2, random_state=42)

4.2 训练模型

接下来，我们训练多种分类模型，并评估它们的性能：

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.svm import SVC
import xgboost as xgb
from sklearn.metrics import classification_report# 定义模型
models = {"Logistic Regression": LogisticRegression(),"Random Forest": RandomForestClassifier(),"SVM": SVC(),"XGBoost": xgb.XGBClassifier(),"AdaBoost": AdaBoostClassifier(),"Gradient Boosting": GradientBoostingClassifier()
}# 训练并评估每个模型
for name, model in models.items():model.fit(X_train, y_train)y_pred = model.predict(X_val)print(f"{name} Performance:")print(classification_report(y_val, y_pred))

4.3 投票分类器（集成方法）

为了提升预测效果，我们使用投票分类器（Voting Classifier）。投票分类器通过结合多个分类器的预测结果，达到提升预测准确率的效果。我们选择几个表现较好的分类器进行组合：

from sklearn.ensemble import VotingClassifiervoting_classifier = VotingClassifier(estimators=[('rf', RandomForestClassifier()),('ada', AdaBoostClassifier()),('gb', GradientBoostingClassifier()),('xgb', xgb.XGBClassifier())],voting='hard'
)voting_classifier.fit(X_train, y_train)
y_pred = voting_classifier.predict(X_val)
print("Voting Classifier Performance:")
print(classification_report(y_val, y_pred))

5. 结果分析与模型评估

通过模型训练与评估，我们可以比较各个模型的表现。通常，随机森林和XGBoost模型会表现较好，因为它们能够处理复杂的非线性关系并具有较强的抗过拟合能力。

模型评估结果通常包含如下指标：

Accuracy（准确率）：模型正确预测的样本数占总样本数的比例。
Precision（精确度）：预测为“降雨”时，实际降雨的比例。
Recall（召回率）：实际降雨时，模型正确预测为“降雨”的比例。
F1-Score：精确度与召回率的调和平均值，是分类模型中较为综合的评估指标。

6. 结论与未来方向

本文展示了如何利用机器学习方法预测明天是否会下雨。通过合理的数据预处理、特征工程以及使用多种机器学习模型进行训练与评估，我们成功地建立了一个天气预测模型。

未来的工作包括：

深度学习方法：可以考虑使用LSTM（长短时记忆网络）等深度学习方法

来建模天气的时间序列特性。

集成学习优化：进一步优化集成学习方法，如Stacking、Boosting等。
更多的特征：增加更多天气相关的特征，如气象卫星数据等，来提高模型的准确性。

通过不断优化模型与特征，天气预测的准确性可以得到显著提高，为农业、物流等领域提供更加精确的预报。

参考资料

XGBoost Documentation
Random Forest Documentation
SMOTE - imbalanced-learn

这篇博客详细介绍了使用机器学习方法进行天气预测的步骤，包括数据预处理、特征工程、模型训练与评估等多个环节。希望能帮助大家在实际项目中更好地应用这些技术。如果有任何问题或建议，欢迎在评论区留言。

篇幅有限，需要完整的代码的私信我

数据挖掘实训：天气数据分析与机器学习模型构建

随着气候变化对各行各业的影响日益加剧，精准的天气预测已经变得尤为重要。降雨预测在日常生活中尤其关键，例如农业、交通和灾害预警等领域。本文将通过机器学习方法，利用历史天气数据预测明天是否会下雨，具体内容包括数据预处理、…...

编程日记 2025/1/12 13:05:24

STM32如何使用内部晶振作为晶振

目录前言首先说明一下芯片内部并没有时钟， 而是内部振荡。使用内部振荡的好处是外部无需设计晶振电路 ，再说的简单点 ，不用外部晶振依然可以让单片机正常运转。环境： 芯片：STM32F103C8T6 Keil：V5.24…...

编程日记 2025/1/12 13:02:21

【Maui】导航栏样式调整

前言 .NET 多平台应用 UI (.NET MAUI) 是一个跨平台框架，用于使用 C# 和 XAML 创建本机移动和桌面应用。使用 .NET MAUI，可从单个共享代码库开发可在 Android、iOS、macOS 和 Windows 上运行的应用。 .NET MAUI 是一款开放源代码应用，是 X…...

编程日记 2025/1/12 13:01:20

【黑马程序员三国疫情折线图——json+pyechart=数据可视化】

json数据在文末将海量的数据处理成我们肉眼可以进行分析的形式，数据的可视化，可以分为两个步骤： 数据处理：利用三方网站厘清json层次格式化，再对文件的读取、检查是否符合JSON规范以及规范化、JSON格式的转化&#…...

编程日记 2025/1/12 12:57:16

如何实现多级缓存？

本文重点说一说在Java应用中，多级缓存如何实现。多级缓存是比较常见的一种性能优化的手段，一般来说就是本地缓存分布式缓存。本地缓存一般采用Caffeine和Guava，这两种是性能比较高的本地缓存的框架。他们都提供了缓存的过期、管理等功能。…...

编程日记 2025/1/12 12:56:13

Saas数据库迁移单租户数据

1、背景租户使用Saas系统，用一段时间后要将系统、数据搬迁到自建服务器。该Saas系统没有按租户分库，且数据库数据量太大，需要将单租户的数据抽取出来。Saas系统使用Mysql5.7数据库，主要使用INFORMATION_SCHEMA.COLUMNS表进行数据…...

编程日记 2025/1/12 12:55:12

LeetCode100之括号生成(22)--Java

1.问题描述数字 n 代表生成括号的对数，请你设计一个函数，用于能够生成所有可能的并且有效的括号组合。示例1 输入：n 3 输出：["((()))","(()())","(())()","()(())","()()()&qu…...

编程日记 2025/1/12 12:52:09

阿里云ios镜像源

阿里云镜像源：阿里巴巴开源镜像站-OPSX镜像站-阿里云开发者社区下载centos7...

编程日记 2025/1/12 12:51:08

芯片：为何英伟达的GPU能在AI基础设施领域扮演重要角色？

英伟达的GPU之所以能在AI基础设施领域扮演重要角色，主要源于其硬件架构的优势以及其与深度学习算法的高度兼容性。以下是几个关键因素： 1. 并行计算能力 GPU（图形处理单元）本质上是为处理大量并行计算任务而设计的。与CPU相比&a…...

编程日记 2025/1/12 12:41:58

Linux系统之hostname相关命令基本使用

Linux系统之hostname相关命令基本使用一、检查本地系统版本二、hostname命令的帮助说明中文帮助说明三、hostname命令的基本使用1. 查看计算机名2. 查看本机上所有IP地址3. 查看主机FQDN4. 查看短主机名四、hostnamectl命令的使用1. 查看主机详细信息2. 设置主机名3. hostna…...

编程日记 2025/1/12 12:39:56

Domain Adaptation（李宏毅）机器学习 2023 Spring HW11 （Boss Baseline）

1. 领域适配简介领域适配是一种迁移学习方法，适用于源领域和目标领域数据分布不同但学习任务相同的情况。具体而言，我们在源领域（通常有大量标注数据）训练一个模型，并希望将其应用于目标领域（通常只有少量或没有标注数据）。然而，由于这两个领域的数据分布不同，模型在…...

编程日记 2025/1/12 12:38:55

在php中，Fiber、Swoole、Swow这3个协程都是如何并行运行的？

文章精选推荐 1 JetBrains Ai assistant 编程工具让你的工作效率翻倍 2 Extra Icons：JetBrains IDE的图标增强神器 3 IDEA插件推荐-SequenceDiagram，自动生成时序图 4 BashSupport Pro 这个ides插件主要是用来干嘛的 ？ 5 IDEA必装的插件&…...

编程日记 2025/1/12 12:37:53

SQLite PRAGMA

SQLite的PRAGMA命令是一种特殊的命令，用于在SQLite环境中控制各种环境变量和状态标志。PRAGMA值可以被读取，也可以根据需求进行设置【0†source】。 PRAGMA命令的语法格式如下： 要查询当前的PRAGMA值，只需提供该PRAGMA的名字&am…...

编程日记 2025/1/12 12:35:50

使用python调用JIRA6 REST API及遇到的问题

JIRA认证方式简述 JIRA接口调用有两种认证方式访问Jira Rest API，基本认证⽅式(⽤户名和密码)和OAuth1认证方式。基本认证⽅式：因为⽤户名和密码会被浏览器重复地请求和发送，即使采⽤ SSL/TLS 发送，也会有安全隐患，…...

编程日记 2025/1/12 12:31:44

基于STM32的智能电表可视化设计：ESP8266、AT指令集、python后端Flask（代码示例）

一、项目概述随着智能家居的普及，智能电表作为家庭用电管理的重要工具，能够实时监测电流、电压及功率，并将数据传输至后台进行分析和可视化。本项目以STM32C8T6为核心，结合交流电压电流监测模块、ESP8266 Wi-Fi模块、OLED显示屏…...

编程日记 2025/1/12 12:25:34

图片和短信验证码（头条项目-06）

1 图形验证码接口设计将后端⽣成的图⽚验证码存储在redis数据库2号库。结构： {img_uuid:0594} 1.1 创建验证码⼦应⽤ $ cd apps $ python ../../manage.py startapp verifications # 注册新应⽤ INSTALLED_APPS [django.contrib.admin,django.contrib.auth,…...

编程日记 2025/1/12 12:18:24

2501,wtl显示html

原文在MFC程序中有专门封装的CHTMLView来显示超文本文件,如果在对话框中显示网页可用CDHTMLDialog,甚至可实现多页超文本向导风格的对话框,但是在WTL中却没有单独封装超文本的对应控件,这是因为COM组件的使用和编写本来就是ATL的强项,WTL扩展的是ATL欠缺的桌面应用的功能部分…...

编程日记 2025/1/12 12:17:20

嵌入式C语言：什么是指针？

目录一、指针的基本概念 1.1. 定义指针 1.2. 赋值给指针 1.3. 解引用指针 1.4. 指针运算 1.5. 空指针 1.6. 函数参数 1.7. 数组和指针 1.8. 示例代码二、指针在内存中的表示 2.1. 内存地址存储 2.2. 内存模型 2.3. 指针与硬件交互 2.4. 示例代码三、指针的重…...

编程日记 2025/1/12 12:16:15

解锁 KaiwuDB 数据库工程师，开启进阶之路

解锁 KaiwuDB 数据库工程师试题，开启进阶之路一、KaiwuDB 数据库全方位洞察（一）核心特性深度解析原生分布式架构：摒弃传统集中式存储的局限，KaiwuDB 采用原生分布式架构，将数据分散存于多个节点。这不仅能有效避免单点故障风险，保障数据的高可用性，还能凭借并行处…...

编程日记 2025/1/12 12:15:12

ffmpeg7.0 aac转pcm

#pragma once #define __STDC_CONSTANT_MACROS #define _CRT_SECURE_NO_WARNINGSextern "C" { #include "libavcodec/avcodec.h" }//缓冲区大小（缓存5帧数据） #define AUDIO_INBUF_SIZE 40960 /*name depthu8 8s16 …...

编程日记 2025/1/12 12:14:10

DeepSeek代码质量评估实战手册：7步完成从混沌到可度量的质变跃迁

更多请点击： https://kaifayun.com 第一章：DeepSeek代码质量评估的底层逻辑与核心价值 DeepSeek代码质量评估并非简单地统计行数或检测语法错误，而是基于多维语义理解构建的推理系统。其底层逻辑融合了静态分析、符号执行与大语言模型生成式…...

编程新知 2026/5/26 3:44:10

别再让模型在Unity里‘抽风’了！Blender导出FBX到Unity的7步避坑自查清单

别再让模型在Unity里‘抽风’了！Blender导出FBX到Unity的7步避坑自查清单当你花了三天三夜精心雕琢的Blender模型，导入Unity后却变成了一团旋转错乱、贴图闪烁的"抽象艺术"，那种崩溃感每个3D开发者都懂。本文将用实战经验帮你建立一…...

编程新知 2026/5/26 3:24:07

SSH工具对比：新手用户和熟练运维，选型逻辑有什么不同

结论新手用户和熟练运维在选择 SSH 工具时，关注点往往完全不同。新手更在意的是：能不能顺利连接、界面是否直观、文件和配置是否容易找到、网站出问题时能不能快速定位。而熟练运维更在意的是：连接效率、命令自由度、多服务器管理能力、原…...

编程新知 2026/5/26 1:29:07

告别浪费！SolidWorks企业级共享方案，实现降本增效全攻略

还在为 SolidWorks 高昂的硬件投入和混乱的图纸管理头疼？告别“一人一机”的浪费模式，企业级共享方案才是降本增效的正解。这套攻略基于“1 台高性能服务器云飞云共享云桌面”架构，帮你把硬件成本砍掉 60%，把软件利用率翻倍。一…...

编程新知 2026/5/26 0:30:20

阿波罗登月，不可能：读心术与影子叙事 ——不是向全世界展示登月，而是向全世界注射登月

阿波罗登月，不可能：读心术与影子叙事 ——不是向全世界展示登月，而是向全世界注射登月 Jianbing Zhu 1^{1}1 1^{1}1 ECT-OS-JiuHuaShan 文明实验室 ORCID: 0009-0006-8591-1891 DOI: 10.5281/zenodo.20373157 Email: ect-os-jiuhuashanzoho…...

编程新知 2026/5/25 23:02:48

CausalVLR基准测试报告：在IU X-Ray和MIMIC-CXR数据集上的性能分析

CausalVLR基准测试报告：在IU X-Ray和MIMIC-CXR数据集上的性能分析【免费下载链接】CausalVLR CausalVLR: A Toolbox and Benchmark for Vision-Language Causal Reasoning (多模态因果推理开源框架) 项目地址: https://gitcode.com/gh_mirrors/ca/CausalVLR …...

编程新知 2026/5/25 22:14:20

操作符从浅入深的讲解

1. 操作符的分类 2. ⼆进制和进制转换 3. 原码、反码、补码 4. 移位操作符 5. 位操作符：&、|、^、~ 6. 单⽬操作符 7. 逗号表达式 8. 下标访问[]、函数调⽤() 9. 结构成员访问操作符 10. 操作符的属性：优先级、结合性 11. 表达式求值1.操作符的分类以…...

编程新知 2026/5/25 19:36:55

基于STM32WL与LoRaWAN的远程空气质量监测系统全栈开发实践

1. 项目概述：构建一个远程空气质量监测系统最近在做一个挺有意思的玩意儿：一个能自己找地方待着、靠太阳能供电，然后把周围空气数据悄无声息传回来的远程监测终端。核心想法很简单，就是想知道某个犄角旮旯，比如工厂周边…...

编程新知 2026/5/27 4:37:14

收藏干货｜2026 版双非零基础入局大模型开发，RAG 与 Agent 就业上岸全攻略

日常总能收到不少初学伙伴的私信，大家普遍都有同一个疑惑：二本及普通院校学历，零基础入门 RAG、Agent 大模型应用开发，究竟能不能顺利入职？行业后续发展前景又如何？ 本篇 2026 年全新内容，不空谈…...

编程新知 2026/5/25 16:54:51

3步零基础掌握星露谷物语SMAPI模组加载器：高效管理你的模组世界

3步零基础掌握星露谷物语SMAPI模组加载器：高效管理你的模组世界【免费下载链接】SMAPI The modding API for Stardew Valley. 项目地址: https://gitcode.com/gh_mirrors/smap/SMAPI SMAPI（Stardew Valley Modding API）是星露谷物语官…...

编程新知 2026/5/25 16:46:25