天气预测demo
天气预测
- 1 数据集介绍
- 1.1 训练集
- 1.2 测试集
 
- 2 导入数据进行数据分析
- 2.1 浏览数据
- 2.2 探索数据
- 2.2.1 查看数据类型
 
 
1 数据集介绍
1.1 训练集
训练集中共有116369个样本,每个样本有23个特征,特征具体介绍如下:
| 列名 | 解释 | 
|---|---|
| Date: | 日期; | 
| Location: | 地点; | 
| MinTemp: | 最小温度; | 
| MaxTemp: | 最大温度; | 
| Rainfall: | 降雨量; | 
| Evaporation: | 蒸发量; | 
| Sunshine: | 一天中阳光明媚的小时数; | 
| WindGustDir: | 最强阵风方向; | 
| WindGustSpeed: | 最强阵风风速; | 
| WindDir9am: | 上午9点风向; | 
| WindDir3pm: | 下午3点风向; | 
| WindSpeed9am: | 上午9点风速; | 
| WindSpeed3pm: | 下午3点风速; | 
| Humidity9am: | 上午9点湿度; | 
| Humidity3pm: | 下午3点湿度; | 
| Pressure9am: | 上午9点压强; | 
| Pressure3pm: | 下午3点压强; | 
| Cloud9am: | 上午9点云层遮盖了天空的比例; | 
| Cloud3pm: | 下午3点云层遮盖了天空的比例; | 
| Temp9am: | 上午9点温度; | 
| Temp3pm: | 下午3点温度; | 
| RainToday: | 今天是否下雨; | 
| RainTomorr: | 明天是否下雨。 | 
1.2 测试集
测试集中共有29093个样本,每个样本有22个特征,没有训练集中的RainTomorrow这一项特征。
| 列名 | 解释 | 
|---|---|
| Date: | 日期; | 
| Location: | 地点; | 
| MinTemp: | 最小温度; | 
| MaxTemp: | 最大温度; | 
| Rainfall: | 降雨量; | 
| Evaporation: | 蒸发量; | 
| Sunshine: | 一天中阳光明媚的小时数; | 
| WindGustDir: | 最强阵风方向; | 
| WindGustSpeed: | 最强阵风风速; | 
| WindDir9am: | 上午9点风向; | 
| WindDir3pm: | 下午3点风向; | 
| WindSpeed9am: | 上午9点风速; | 
| WindSpeed3pm: | 下午3点风速; | 
| Humidity9am: | 上午9点湿度; | 
| Humidity3pm: | 下午3点湿度; | 
| Pressure9am: | 上午9点压强; | 
| Pressure3pm: | 下午3点压强; | 
| Cloud9am: | 上午9点云层遮盖了天空的比例; | 
| Cloud3pm: | 下午3点云层遮盖了天空的比例; | 
| Temp9am: | 上午9点温度; | 
| Temp3pm: | 下午3点温度; | 
| RainToday: | 今天是否下雨; | 
2 导入数据进行数据分析
2.1 浏览数据
#%%import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split# 导入数据
weather = pd.read_csv(r"./work/train.csv",index_col=False)# 观察前五行数据
print(weather.head(5))
      Date   Location  MinTemp  MaxTemp  Rainfall  Evaporation  Sunshine  \
0  2012-03-07   Dartmoor     10.1     24.6       1.2          2.6      11.3   
1  2014-12-21  Newcastle     17.0     28.7       0.0          NaN       NaN   
2  2011-01-14     Albany     17.9     20.8       0.1          9.6      12.1   
3  2011-10-19   Ballarat      8.9     25.5       0.0          NaN       NaN   
4  2013-11-04      Uluru     21.3     38.3       0.0          NaN       NaN   WindGustDir  WindGustSpeed WindDir9am      ...      Humidity9am  \
0         ESE           54.0         SE      ...             86.0   
1         NaN            NaN         NE      ...             63.0   
2         NaN            NaN         NE      ...             61.0   
3         NNE           54.0          N      ...             56.0   
4         ENE           57.0          E      ...             15.0   Humidity3pm  Pressure9am  Pressure3pm  Cloud9am  Cloud3pm  Temp9am  \
0         41.0       1028.6       1025.7       NaN       NaN     13.9   
1         58.0          NaN          NaN       1.0       1.0     24.0   
2         67.0       1005.1       1007.6       5.0       4.0     19.8   
3         44.0       1027.1       1022.9       0.0       NaN     16.7   
4          9.0       1018.4       1013.9       NaN       NaN     28.8   Temp3pm  RainToday  RainTomorrow  
0     23.0        Yes            No  
1     28.0         No            No  
2     20.0         No            No  
3     25.0         No            No  
4     36.9         No            No  [5 rows x 23 columns]
通过简单的观察数据,我们发现有很多需要我们要作的事情,例如Nan值、字符型变量的处理,这些都是特征工程中的难点。
2.2 探索数据
2.2.1 查看数据类型
#%%
# 查看数据类型
weather.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 116368 entries, 0 to 116367
Data columns (total 23 columns):
Date             116368 non-null object
Location         116368 non-null object
MinTemp          115160 non-null float64
MaxTemp          115354 non-null float64
Rainfall         113762 non-null float64
Evaporation      66053 non-null float64
Sunshine         60402 non-null float64
WindGustDir      108111 non-null object
WindGustSpeed    108158 non-null float64
WindDir9am       107925 non-null object
WindDir3pm       112986 non-null object
WindSpeed9am     114940 non-null float64
WindSpeed3pm     113920 non-null float64
Humidity9am      114227 non-null float64
Humidity3pm      112736 non-null float64
Pressure9am      104345 non-null float64
Pressure3pm      104377 non-null float64
Cloud9am         71571 non-null float64
Cloud3pm         68773 non-null float64
Temp9am          114947 non-null float64
Temp3pm          113466 non-null float64
RainToday        113762 non-null object
RainTomorrow     113776 non-null object
dtypes: float64(16), object(7)
memory usage: 20.4+ MB
相关文章:
天气预测demo
天气预测1 数据集介绍1.1 训练集1.2 测试集2 导入数据进行数据分析2.1 浏览数据2.2 探索数据2.2.1 查看数据类型1 数据集介绍 1.1 训练集 训练集中共有116369个样本,每个样本有23个特征,特征具体介绍如下: 列名解释Date:日期&a…...
 
HDMI协议介绍(四)--Video
目录 视频格式 RGB444 YUV444 YUV422 YUV420 Color Depth Video控制信号 Pixel Repetition HDMI支持多种视频格式和分辨率。以hdmi1.4和2.0协议来说,视频格式支持RGB444、YUV444、YUV422和YUV420,其中RGB444和YUV444一般都是要求支持的。 视频格式…...
 
微信授权登录流程以及公众号配置方法(golang后端)
一、准备一个已经认证OK的微信公众号和已经备案的域名,且解析好配置好https证书。 1.如上图 微信公众号 > 基本配置 ,设置开发者密码 2.设置IP白名单,白名单填写提供后端服务的服务器公网IP 二、公众号服务器配置。 1.找到基本配置 2.将服…...
 
【软件测试面试题】大厂头条:如何定位bug?实际案例拿offer还不简单......
目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 问题: 用…...
kubeconfig生成最高权限的token
参考文档 1.https://kubernetes.io/zh-cn/docs/reference/access-authn-authz/authentication/ 2. https://kubernetes.io/zh-cn/docs/reference/access-authn-authz/rbac/ 操作流程 生成kubernetes集群最高权限admin用户的token admin-role.yaml kind: ClusterRoleBindin…...
Android 9.0 蓝牙去掉传输文件的功能
1.概述 在9.0的系统rom定制化产品开发中,在原生系统中蓝牙这块的功能也是非常重要的,所以在对蓝牙功能开发过程中,对功能的定制要求也多,在蓝牙的开发需求中,功能要求 也是越来越多的,产品需要要求在蓝牙文件传输过程中,进行限制就是不让蓝牙传输文件,所以要求在开始传…...
 
C语言指针易错点—字符数组与字符指针
C语言指针易错点—字符数组与字符指针字符数组与字符指针的区别字符数组与字符指针的区别举例字符指针必须先赋值,后引用字符数组与字符指针的区别 因为字符数组与字符指针都可以表示字符串,但他们不是等价的。下面就来讲讲他们的区别。 char sa[ ] &…...
 
Yolov3,v4,v5区别
网络区别就不说了,ipad笔记记录了,这里只说其他的区别1 输入区别1.1 yolov3没什么特别的数据增强方式1.2 yolov4Mosaic数据增强Yolov4中使用的Mosaic是参考2019年底提出的CutMix数据增强的方式,但CutMix只使用了两张图片进行拼接,…...
基于Appium+WinAppDriver+Python的winUI3应用的自动化框架搭建分享(一)环境配置
安装WinAppDriver下载并安装WinAppDriver:来源 https://github.com/Microsoft/WinAppDriver/releases开启电脑的开发者模式设置-隐私和安全性-开发者选项-开发人员模式安装Appium安装Appium Server Gui https://github.com/appium/appium-desktop/releases安装Appium Inspector…...
使用docker安装RocketMQ
文章目录1.创建namesrv服务拉取镜像创建namesrv数据存储路径构建namesrv容器2.创建broker节点创建broker数据存储路径创建配置文件构建broker容器3.创建rockermq-console服务拉取镜像构建rockermq-console容器需要关闭防火墙或者开放namesrv和broker端口关闭防火墙开放指定端口…...
【FPGA仿真】Matlab生成二进制、十六进制的txt数据以及Vivado读取二进制、十六进制数据并将结果以txt格式保存
Matlab 生成二进制、十六进制数据 在使用Vivado软件进行Verilog程序仿真时可能需要对模块输入仿真的数据,因此我们需要一个产生数据的方法(二进制或者十六进制的数据),Matlab软件是一个很好的工具,当然你也可以使用VS…...
【第四章 IOC操作bean管理(基于注解方式创建对象,注入属性),完全注解开发】
第四章 IOC操作bean管理(基于注解方式创建对象,注入属性),完全注解开发 1.IOC操作bean管理(基于注解方式) (1)什么是注解: ①注解是代码特殊标记,格式&#…...
 
【手把手一起学习】(六) Altium Designer 20 STM32核心板Demo----PCB设计
1 PCB设计 PCB设计是制作STM32核心板的关键步骤,其关系到最终生产厂家制作的电路板能否正常使用,PCB设计包括布局,裁板,布线,覆铜,DRC检查等,其中要求、细节、技巧比较多,以后会更详…...
 
【蓝桥杯集训·周赛】AcWing 第92场周赛
文章目录第一题 AcWing 4864. 多边形一、题目1、原题链接2、题目描述二、解题报告1、思路分析2、时间复杂度3、代码详解第二题 AcWing 4865. 有效类型一、题目1、原题链接2、题目描述二、解题报告1、思路分析2、时间复杂度3、代码详解第三题 AcWing 4866. 最大数量一、题目1、原…...
编程参考 - GCC中的Basic ASM
asm关键字允许你在C代码中嵌入汇编程序指令。GCC提供两种形式的内联asm语句。一种是基本asm语句,是没有操作数的语句(见基本asm),而另一种扩展asm语句(见扩展asm)包括一个或多个操作数。在函数内部混合使用…...
 
软考中级-操作系统
1 操作系统地位计算机系统由硬件和软件组成,未配置软件的称为裸机,但这会导致效率低下。操作系统是为弥补用户与硬件之间的鸿沟的一种系统软件,汇编、编译、解释、数据库管理系统等系统软件和其他应用软件都在此基础。2 进程管理又称处理机管…...
MYD-Y6ULL开发笔记
MYD-Y6ULL开发 文章目录MYD-Y6ULL开发一、系统移植1. 核板说明2. 文件系统操作二、应用开发1. 应用自启动2. 应用编译3.系统应用4.网络5.系统参数一、系统移植 1. 核板说明 型号 MYIR-Y6UL Y2 V2-256N 256D-50I烧了固件命令 uuu.exe myd-y6ulx-y2-256n256d-core-base.auto2. 文…...
 
三天吃透Java虚拟机面试八股文
本文已经收录到Github仓库,该仓库包含计算机基础、Java基础、多线程、JVM、数据库、Redis、Spring、Mybatis、SpringMVC、SpringBoot、分布式、微服务、设计模式、架构、校招社招分享等核心知识点,欢迎star~ Github地址:https://github.com/…...
 
Spring Cloud Alibaba全家桶(二)——微服务组件Nacos注册中心
前言 本文为微服务组件Nacos注册中心相关知识,下边将对什么是 Nacos,Nacos注册中心(包括:注册中心演变及其设计思想、核心功能),Nacos Server部署(包括:单机模式、集群模式ÿ…...
 
命令执行漏洞 | iwebsec
文章目录1 靶场环境2 命令执行漏洞介绍3 靶场练习01-命令执行漏洞02-命令执行漏洞空格绕过03-命令执行漏洞关键命令绕过04-命令执行漏洞通配符绕过05-命令执行漏洞base64编码绕过4 命令执行漏洞危害01-读写系统文件02-执行系统命令03-种植恶意木马04-反弹shellpython反弹shellp…...
k8s从入门到放弃之Ingress七层负载
k8s从入门到放弃之Ingress七层负载 在Kubernetes(简称K8s)中,Ingress是一个API对象,它允许你定义如何从集群外部访问集群内部的服务。Ingress可以提供负载均衡、SSL终结和基于名称的虚拟主机等功能。通过Ingress,你可…...
工程地质软件市场:发展现状、趋势与策略建议
一、引言 在工程建设领域,准确把握地质条件是确保项目顺利推进和安全运营的关键。工程地质软件作为处理、分析、模拟和展示工程地质数据的重要工具,正发挥着日益重要的作用。它凭借强大的数据处理能力、三维建模功能、空间分析工具和可视化展示手段&…...
 
MODBUS TCP转CANopen 技术赋能高效协同作业
在现代工业自动化领域,MODBUS TCP和CANopen两种通讯协议因其稳定性和高效性被广泛应用于各种设备和系统中。而随着科技的不断进步,这两种通讯协议也正在被逐步融合,形成了一种新型的通讯方式——开疆智能MODBUS TCP转CANopen网关KJ-TCPC-CANP…...
 
Linux-07 ubuntu 的 chrome 启动不了
文章目录 问题原因解决步骤一、卸载旧版chrome二、重新安装chorme三、启动不了,报错如下四、启动不了,解决如下 总结 问题原因 在应用中可以看到chrome,但是打不开(说明:原来的ubuntu系统出问题了,这个是备用的硬盘&a…...
工业自动化时代的精准装配革新:迁移科技3D视觉系统如何重塑机器人定位装配
AI3D视觉的工业赋能者 迁移科技成立于2017年,作为行业领先的3D工业相机及视觉系统供应商,累计完成数亿元融资。其核心技术覆盖硬件设计、算法优化及软件集成,通过稳定、易用、高回报的AI3D视觉系统,为汽车、新能源、金属制造等行…...
 
华为云Flexus+DeepSeek征文|DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建
华为云FlexusDeepSeek征文|DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建 前言 如今大模型其性能出色,华为云 ModelArts Studio_MaaS大模型即服务平台华为云内置了大模型,能助力我们轻松驾驭 DeepSeek-V3/R1,本文中将分享如何…...
 
学习STC51单片机32(芯片为STC89C52RCRC)OLED显示屏2
每日一言 今天的每一份坚持,都是在为未来积攒底气。 案例:OLED显示一个A 这边观察到一个点,怎么雪花了就是都是乱七八糟的占满了屏幕。。 解释 : 如果代码里信号切换太快(比如 SDA 刚变,SCL 立刻变&#…...
 
优选算法第十二讲:队列 + 宽搜 优先级队列
优选算法第十二讲:队列 宽搜 && 优先级队列 1.N叉树的层序遍历2.二叉树的锯齿型层序遍历3.二叉树最大宽度4.在每个树行中找最大值5.优先级队列 -- 最后一块石头的重量6.数据流中的第K大元素7.前K个高频单词8.数据流的中位数 1.N叉树的层序遍历 2.二叉树的锯…...
 
智能分布式爬虫的数据处理流水线优化:基于深度强化学习的数据质量控制
在数字化浪潮席卷全球的今天,数据已成为企业和研究机构的核心资产。智能分布式爬虫作为高效的数据采集工具,在大规模数据获取中发挥着关键作用。然而,传统的数据处理流水线在面对复杂多变的网络环境和海量异构数据时,常出现数据质…...
 
使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台
🎯 使用 Streamlit 构建支持主流大模型与 Ollama 的轻量级统一平台 📌 项目背景 随着大语言模型(LLM)的广泛应用,开发者常面临多个挑战: 各大模型(OpenAI、Claude、Gemini、Ollama)接口风格不统一;缺乏一个统一平台进行模型调用与测试;本地模型 Ollama 的集成与前…...
