2024年妈杯MathorCup大数据竞赛A题超详细解题思路
2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价+预测问题;B题为库存和销量的预测+优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码+论文。
下面为大家带来详细的A题解题思路【注:该思路为真实求解之前的暂定思路,实际论文代码可能因数据问题、模型问题与思路有一定出入】
作为数据类型题目,本题可以分为四个大部分,分别为数据处理、台风分类评价模型、台风路径预测模型、台风登陆后的风速与降水量预测模型。
数据处理
对于题目给出的数据一共提供了1945年至今1813场台风的相关数据。我们需要对题目给出的数据进行必要的处理。主要包括,缺失值处理、时间处理、数据编码、异常值处理、数据描述性分析。
1、缺失值处理;对于题目存在的大量缺失值,我们可以选择插值填充,也可以选择直接删除所在行。

2、时间处理,对于题目给出的数据格式,直接进行变成计算机无法识别,我们需要根据数据特征六小时间隔转化为YYYYMMDDHH格式,方便进一步进行处理

3、数据编码 对于题目给出的各种数据,存在直接使用汉字或者字母进行编码的结果,需要转化为数据才能进一步建立模型。

4、异常值处理 对于题目中存在的极端数据,例如 高达110的风速 低至50的气压都应该结合实际情况进行分析。

5、数据描述性分析;我们可以对题目给出的路径绘制对应的可视化,进一步进行描述分析

问题 1:台风特征参数与气象因素的关系及分类评价模型
根据题目提供数据,台风特征信息主要为台风强度、台风等级、风速、气压、移动方向、移动速度。首先,可以对台风特征参数进行相关性分析,了解每个指标与台风强度、等级之间的关系。计算特征之间的相关系数(例如使用皮尔逊相关系数),找出与台风强度(风速、气压)高度相关的气象因素。并使用热力图进行可视化展示。根据分析结果进行特征选择。
建立相关的分类模型进行分类即可,可以使用无监督学习方法,例如K-means聚类,对台风进行初步的类别划分。可以根据台风的风速、气压、移动速度等指标对台风进行聚类,分为若干类(如弱台风、中等台风、强台风)。
也可以从历史数据中获取台风类别(例如夏台风、秋台风的标签),可以使用**随机森林(Random Forest)或支持向量机(SVM)**进行分类。使用历史台风数据训练模型,以气温、气压、季风等气象数据作为输入,台风等级或类型作为输出。
问题 2:台风路径预测模型
要求根据多种气象因素(气温、气压、洋流、风场等)预测台风路径,并利用Dynamic Time Warping(DTW)算法与实际路径进行对比。
主要求解思路:使用回归模型或者时空序列模型进行路径预测。例如,考虑使用多元线性回归或者**LSTM(长短期记忆网络)**等适合时间序列预测的深度学习模型。使用**Dynamic Time Warping (DTW)**来度量预测路径与实际路径之间的相似性,DTW可以处理不同长度的时间序列,衡量它们之间的相似性。
具体过程
基于物理机制的数值预测模型
可以使用基于气象动力学的数值天气预报模型,如WRF,通过模拟台风生成的物理过程来进行路径预测。这些模型考虑了大气的物理过程,包括风场、气压梯度、地球自转等,但其计算量较大,操作难度较大,不推荐。
基于数据驱动的机器学习模型
台风路径预测属于典型的时空序列预测问题,深度学习方法中的**长短期记忆网络(LSTM)**和**门控循环单元(GRU)**非常适合这类应用。
LSTM/GRU**通过捕捉历史路径和气象因素的时间依赖性,能够预测台风未来的路径点。
模型输入包括过去的经纬度坐标、气压、风场等特征,输出为未来时间点的经纬度。
通过这种方式,LSTM或GRU可以用于逐步预测台风未来的路径点,从而形成完整的预测路径。这些模型需要大量历史台风数据进行训练,并通过交叉验证来确保模型的泛化能力。
多元函数型数据主成分分析(FPCA)
将台风路径的时间序列数据表示为连续函数,并通过主成分分解提取主要的变化模式,得到路径变化的主要特征。
可以将台风路径数据降维,得到几组主成分得分,这些主成分得分描述了台风路径的主要变化模式,如向北、向西的偏向趋势或路径曲率的变化。
Dynamic Time Warping(DTW)对比分析
将**预测路径**和**实际路径**使用DTW进行对比,计算它们之间的相似度。
问题 3:台风登陆后降水量和风速的关系
问题三要求建立台风在登陆后风速和降水量之间的关系,以及降水量与距台风中心距离之间的关系。我们需要结合物理机制和统计建模的方法,建立一个综合的预测模型,并应用于2024年9月16日至18日第13号台风贝碧嘉的实际情况进行预测与分析。
主要思想为建立 风速与距离、降雨量与距离的两个函数关系
使用历史台风数据拟合模型,计算出各回归系数,进行模型验证确保其泛化能力。
1风速与距离的关系模型
台风登陆后,风速通常呈现出逐渐衰减的趋势。我们可以使用指数衰减模型来描述风速随距离的变化:

相关文章:
 
2024年妈杯MathorCup大数据竞赛A题超详细解题思路
2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价预测问题;B题为库存和销量的预测优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码论文。 下面为大家带来…...
Kafka系列之:Kafka集群磁盘条带划分和Kafka集群磁盘扩容详细方案
Kafka系列之:Kafka集群磁盘条带划分和Kafka集群磁盘扩容详细方案 一、lsblk命令二、Kafka节点磁盘条带化方案一三、Kafka节点磁盘条带化方案二四、理解逻辑区块LE五、查看kafka节点磁盘条带划分情况六、Kafka节点磁盘扩容一、lsblk命令 lsblk命令用于列出块设备的信息,包括磁…...
 
【LeetCode】修炼之路-0007- Reverse Integer (整数反转)【python】
题目 Reverse Integer Given a signed 32-bit integer x, return x with its digits reversed. If reversing x causes the value to go outside the signed 32-bit integer range [-231, 231 - 1], then return 0. Assume the environment does not allow you to store 64-b…...
【Flutter】页面布局:线性布局(Row 和 Column)
在 Flutter 中,布局(Layout)是应用开发的核心之一。通过布局组件,开发者可以定义应用中的控件如何在屏幕上排列。Row 和 Column 是 Flutter 中最常用的两种线性布局方式,用于水平和垂直排列子组件。在本教程中…...
C语言巨难题:执行操作可获得的最大总奖励 I(C语言版)
1.题目: 给你一个整数数组 rewardValues,长度为 n,代表奖励的值。 最初,你的总奖励 x 为 0,所有下标都是 未标记 的。你可以执行以下操作 任意次 : 从区间 [0, n - 1] 中选择一个 未标记 的下标 i。如果…...
 
【力扣】GO解决子序列相关问题
文章目录 一、引言二、动态规划方法论深度提炼子序列问题的通用解法模式 三、通用方法论应用示例:最长递增子序列(LeetCode题目300)Go 语言代码实现 四、最长连续递增序列(LeetCode题目674)Go 语言代码实现 五、最长重…...
Ubuntu20.04安装VM tools并实现主机和虚拟机之间文件夹共享
1、Ubuntu20.04安装VM tools 参考这个,很详细:Ubuntu 20.04 安装 VMwareTools 教程 2、实现主机与VMware虚拟机共享文件夹 设置共享文件夹参考:windows和虚拟机互传文件的三种方式 挂载操作参考:主机与VMware虚拟机共享文件夹&…...
Linux 学习笔记(十七)—— 文件系统
终极目标:理解 inode 和 软硬连接; 文件系统:Ext2; 文件 文件内容 文件属性; ——> 磁盘上存储的文件 存储的文件内容 存储的文件属性; Linux系统中:文件内容使用数据块存储,文件属性使用inode(固定…...
【计算机网络 - 基础问题】每日 3 题(五十八)
✍个人博客:https://blog.csdn.net/Newin2020?typeblog 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞…...
 
Netty入门基础:IO模型中BIO\NIO概念及区别【附演示代码】
文章目录 😀BIO💢实战demo 🌈NIO🏍Buffer核心属性核心方法 🎗Channel🎈Selector核心方法 🧨实战demo 🎨粘包与半包 😀BIO 传统IO模型,同步阻塞,每…...
 
vue2 使用环境变量
一. 在根目录下创建.env.xxx文件 .env 基础系统变量,无论何种环境,都可使用其中配置的值,其他环境中的变量会覆盖.env中的同名变量。 .env.development 开发环境 .env.production 生产环境 .env.staging 测试环境 二. 内容格式 vue2 使用是以…...
数据预处理
继续提取代码片段: 12. **导入iris数据集并查看前5行数据**: python from sklearn.datasets import load_iris iris load_iris() X iris.data print(iris数据集的维度为:, X.shape) print(iris数据集的前5行数据为:\n, X[:5]) …...
 
django宠物领养管理系统-计算机毕业设计源码26858
目录 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章小结 3 系统总体设计 3…...
 
使用TeamViewer远程局域网内的两台电脑
有个场景,有人还不知道TV可以局域网操作,记录一下。 主要就是修改设置,将取消激活改为接受 然后输入受控端的ip即可...
 
GUI简介、Swing的常用组件、java程序的运行过程、class文件、JAR、runable_jar、双括号初始化
GUI简介 GUI:图形用户界面,在计算机中采用图形的方式显示用户界面 java的GUI开发 AWT:java最早推出的GUI编程开发包,界面风格跟随操作系统SWT:eclipse就是java使用SWT开发的Swing:在AWT的基础上扩充了功能…...
@Autowired和@Resource和getBean()区别
今天遇到一个对我来说很奇葩的错误,我想在Service中注入bean,我这里使用了Autowired和Resource都不能注入,导致初始化失败,使用了getBean()方法就可以注入。从来没有遇到过这个问题。后来我查询了一下,才明白了原理。我…...
 
Merlion笔记(四):添加一个新的预测模型
文章目录 1 模型配置类2 模型类3 运行模型:一个简单的例子4 可视化5 定量评估6 定义一个基于预测器的异常检测器 本文提供了一个示例,展示如何向 Merlion 添加一个新的预测模型,遵循 CONTRIBUTING.md 中的说明。建议在阅读本篇文章之前,先查…...
 
【论文阅读】ESRGAN
学习资料 论文题目:增强型超分辨率生成对抗网络(ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)论文地址:[1809.00219] ESRGAN:增强型超分辨率生成对抗网络代码:xinntao / ESRGAN&am…...
 
电脑异常情况总结
文章目录 笔记本无症状息屏黑屏 笔记本无症状息屏黑屏 🍎 问题描述: 息屏导致黑屏;依次操作计算机--》右键--》管理--》事件查看器--》Windows日志--》系统;从息屏到异常黑屏之间出现了很多错误,如下:事件…...
 
[项目详解][boost搜索引擎#1] 概述 | 去标签 | 数据清洗 | scp
目录 一、前言 二、项目的相关背景 三、搜索引擎的宏观原理 四、搜索引擎技术栈和项目环境 五、正排索引 VS 倒排索引--原理 正排索引 分词 倒排索引 六、编写数据去除标签和数据清洗模块 Parser 1.数据准备 parser 编码 1.枚举文件 EnumFile 2.去标签ParseHtml(…...
 
Docker 离线安装指南
参考文章 1、确认操作系统类型及内核版本 Docker依赖于Linux内核的一些特性,不同版本的Docker对内核版本有不同要求。例如,Docker 17.06及之后的版本通常需要Linux内核3.10及以上版本,Docker17.09及更高版本对应Linux内核4.9.x及更高版本。…...
 
树莓派超全系列教程文档--(61)树莓派摄像头高级使用方法
树莓派摄像头高级使用方法 配置通过调谐文件来调整相机行为 使用多个摄像头安装 libcam 和 rpicam-apps依赖关系开发包 文章来源: http://raspberry.dns8844.cn/documentation 原文网址 配置 大多数用例自动工作,无需更改相机配置。但是,一…...
 
Unity3D中Gfx.WaitForPresent优化方案
前言 在Unity中,Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染(即CPU被阻塞),这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案: 对惹,这里有一个游戏开发交流小组&…...
 
【入坑系列】TiDB 强制索引在不同库下不生效问题
文章目录 背景SQL 优化情况线上SQL运行情况分析怀疑1:执行计划绑定问题?尝试:SHOW WARNINGS 查看警告探索 TiDB 的 USE_INDEX 写法Hint 不生效问题排查解决参考背景 项目中使用 TiDB 数据库,并对 SQL 进行优化了,添加了强制索引。 UAT 环境已经生效,但 PROD 环境强制索…...
 
Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件
今天呢,博主的学习进度也是步入了Java Mybatis 框架,目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学,希望能对大家有所帮助,也特别欢迎大家指点不足之处,小生很乐意接受正确的建议&…...
镜像里切换为普通用户
如果你登录远程虚拟机默认就是 root 用户,但你不希望用 root 权限运行 ns-3(这是对的,ns3 工具会拒绝 root),你可以按以下方法创建一个 非 root 用户账号 并切换到它运行 ns-3。 一次性解决方案:创建非 roo…...
 
如何将联系人从 iPhone 转移到 Android
从 iPhone 换到 Android 手机时,你可能需要保留重要的数据,例如通讯录。好在,将通讯录从 iPhone 转移到 Android 手机非常简单,你可以从本文中学习 6 种可靠的方法,确保随时保持连接,不错过任何信息。 第 1…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
 
企业如何增强终端安全?
在数字化转型加速的今天,企业的业务运行越来越依赖于终端设备。从员工的笔记本电脑、智能手机,到工厂里的物联网设备、智能传感器,这些终端构成了企业与外部世界连接的 “神经末梢”。然而,随着远程办公的常态化和设备接入的爆炸式…...
 
MySQL 知识小结(一)
一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库,分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷,但是文件存放起来数据比较冗余,用二进制能够更好管理咱们M…...
