当前位置: 首页 > news >正文

2024年妈杯MathorCup大数据竞赛A题超详细解题思路

2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价+预测问题;B题为库存和销量的预测+优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码+论文。

下面为大家带来详细的A题解题思路【注:该思路为真实求解之前的暂定思路,实际论文代码可能因数据问题、模型问题与思路有一定出入】

作为数据类型题目,本题可以分为四个大部分,分别为数据处理、台风分类评价模型、台风路径预测模型、台风登陆后的风速与降水量预测模型。

数据处理

对于题目给出的数据一共提供了1945年至今1813场台风的相关数据。我们需要对题目给出的数据进行必要的处理。主要包括,缺失值处理、时间处理、数据编码、异常值处理、数据描述性分析。

1、缺失值处理;对于题目存在的大量缺失值,我们可以选择插值填充,也可以选择直接删除所在行。

图片

2、时间处理,对于题目给出的数据格式,直接进行变成计算机无法识别,我们需要根据数据特征六小时间隔转化为YYYYMMDDHH格式,方便进一步进行处理

图片

3、数据编码 对于题目给出的各种数据,存在直接使用汉字或者字母进行编码的结果,需要转化为数据才能进一步建立模型。

图片

4、异常值处理 对于题目中存在的极端数据,例如 高达110的风速 低至50的气压都应该结合实际情况进行分析。

图片

5、数据描述性分析;我们可以对题目给出的路径绘制对应的可视化,进一步进行描述分析

图片

问题 1:台风特征参数与气象因素的关系及分类评价模型

根据题目提供数据,台风特征信息主要为台风强度、台风等级、风速、气压、移动方向、移动速度。首先,可以对台风特征参数进行相关性分析,了解每个指标与台风强度、等级之间的关系。计算特征之间的相关系数(例如使用皮尔逊相关系数),找出与台风强度(风速、气压)高度相关的气象因素。并使用热力图进行可视化展示。根据分析结果进行特征选择。

建立相关的分类模型进行分类即可,可以使用无监督学习方法,例如K-means聚类,对台风进行初步的类别划分。可以根据台风的风速、气压、移动速度等指标对台风进行聚类,分为若干类(如弱台风、中等台风、强台风)。

也可以从历史数据中获取台风类别(例如夏台风、秋台风的标签),可以使用**随机森林(Random Forest)或支持向量机(SVM)**进行分类。使用历史台风数据训练模型,以气温、气压、季风等气象数据作为输入,台风等级或类型作为输出。

问题 2:台风路径预测模型

要求根据多种气象因素(气温、气压、洋流、风场等)预测台风路径,并利用Dynamic Time Warping(DTW)算法与实际路径进行对比。

主要求解思路:使用回归模型或者时空序列模型进行路径预测。例如,考虑使用多元线性回归或者**LSTM(长短期记忆网络)**等适合时间序列预测的深度学习模型。使用**Dynamic Time Warping (DTW)**来度量预测路径与实际路径之间的相似性,DTW可以处理不同长度的时间序列,衡量它们之间的相似性。

具体过程

基于物理机制的数值预测模型

可以使用基于气象动力学的数值天气预报模型,如WRF,通过模拟台风生成的物理过程来进行路径预测。这些模型考虑了大气的物理过程,包括风场、气压梯度、地球自转等,但其计算量较大,操作难度较大,不推荐

基于数据驱动的机器学习模型

台风路径预测属于典型的时空序列预测问题,深度学习方法中的**长短期记忆网络(LSTM)**和**门控循环单元(GRU)**非常适合这类应用。

LSTM/GRU**通过捕捉历史路径和气象因素的时间依赖性,能够预测台风未来的路径点。

模型输入包括过去的经纬度坐标、气压、风场等特征,输出为未来时间点的经纬度。

通过这种方式,LSTM或GRU可以用于逐步预测台风未来的路径点,从而形成完整的预测路径。这些模型需要大量历史台风数据进行训练,并通过交叉验证来确保模型的泛化能力。

多元函数型数据主成分分析(FPCA)

将台风路径的时间序列数据表示为连续函数,并通过主成分分解提取主要的变化模式,得到路径变化的主要特征。

可以将台风路径数据降维,得到几组主成分得分,这些主成分得分描述了台风路径的主要变化模式,如向北、向西的偏向趋势或路径曲率的变化。

Dynamic Time Warping(DTW)对比分析

将**预测路径**和**实际路径**使用DTW进行对比,计算它们之间的相似度。

问题 3:台风登陆后降水量和风速的关系

问题三要求建立台风在登陆后风速和降水量之间的关系,以及降水量与距台风中心距离之间的关系。我们需要结合物理机制和统计建模的方法,建立一个综合的预测模型,并应用于2024年9月16日至18日第13号台风贝碧嘉的实际情况进行预测与分析。

主要思想为建立 风速与距离、降雨量与距离的两个函数关系

使用历史台风数据拟合模型,计算出各回归系数,进行模型验证确保其泛化能力。

1风速与距离的关系模型

台风登陆后,风速通常呈现出逐渐衰减的趋势。我们可以使用指数衰减模型来描述风速随距离的变化:

图片

相关文章:

2024年妈杯MathorCup大数据竞赛A题超详细解题思路

2024年妈杯大数据竞赛初赛整体难度约为0.6个国赛。A题为台风中心路径相关问题,为评价预测问题;B题为库存和销量的预测优化问题。B题难度稍大于A题,可以根据自己队伍情况进行选择。26日早六点之前发布AB两题相关解题代码论文。 下面为大家带来…...

Kafka系列之:Kafka集群磁盘条带划分和Kafka集群磁盘扩容详细方案

Kafka系列之:Kafka集群磁盘条带划分和Kafka集群磁盘扩容详细方案 一、lsblk命令二、Kafka节点磁盘条带化方案一三、Kafka节点磁盘条带化方案二四、理解逻辑区块LE五、查看kafka节点磁盘条带划分情况六、Kafka节点磁盘扩容一、lsblk命令 lsblk命令用于列出块设备的信息,包括磁…...

【LeetCode】修炼之路-0007- Reverse Integer (整数反转)【python】

题目 Reverse Integer Given a signed 32-bit integer x, return x with its digits reversed. If reversing x causes the value to go outside the signed 32-bit integer range [-231, 231 - 1], then return 0. Assume the environment does not allow you to store 64-b…...

【Flutter】页面布局:线性布局(Row 和 Column)

在 Flutter 中,布局(Layout)是应用开发的核心之一。通过布局组件,开发者可以定义应用中的控件如何在屏幕上排列。Row 和 Column 是 Flutter 中最常用的两种线性布局方式,用于水平和垂直排列子组件。在本教程中&#xf…...

C语言巨难题:执行操作可获得的最大总奖励 I(C语言版)

1.题目: 给你一个整数数组 rewardValues,长度为 n,代表奖励的值。 最初,你的总奖励 x 为 0,所有下标都是 未标记 的。你可以执行以下操作 任意次 : 从区间 [0, n - 1] 中选择一个 未标记 的下标 i。如果…...

【力扣】GO解决子序列相关问题

文章目录 一、引言二、动态规划方法论深度提炼子序列问题的通用解法模式 三、通用方法论应用示例:最长递增子序列(LeetCode题目300)Go 语言代码实现 四、最长连续递增序列(LeetCode题目674)Go 语言代码实现 五、最长重…...

Ubuntu20.04安装VM tools并实现主机和虚拟机之间文件夹共享

1、Ubuntu20.04安装VM tools 参考这个,很详细:Ubuntu 20.04 安装 VMwareTools 教程 2、实现主机与VMware虚拟机共享文件夹 设置共享文件夹参考:windows和虚拟机互传文件的三种方式 挂载操作参考:主机与VMware虚拟机共享文件夹&…...

Linux 学习笔记(十七)—— 文件系统

终极目标:理解 inode 和 软硬连接; 文件系统:Ext2; 文件 文件内容 文件属性; ——> 磁盘上存储的文件 存储的文件内容 存储的文件属性; Linux系统中:文件内容使用数据块存储,文件属性使用inode(固定…...

【计算机网络 - 基础问题】每日 3 题(五十八)

✍个人博客:https://blog.csdn.net/Newin2020?typeblog 📣专栏地址:http://t.csdnimg.cn/fYaBd 📚专栏简介:在这个专栏中,我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话,欢迎点赞…...

Netty入门基础:IO模型中BIO\NIO概念及区别【附演示代码】

文章目录 😀BIO💢实战demo 🌈NIO🏍Buffer核心属性核心方法 🎗Channel🎈Selector核心方法 🧨实战demo 🎨粘包与半包 😀BIO 传统IO模型,同步阻塞,每…...

vue2 使用环境变量

一. 在根目录下创建.env.xxx文件 .env 基础系统变量,无论何种环境,都可使用其中配置的值,其他环境中的变量会覆盖.env中的同名变量。 .env.development 开发环境 .env.production 生产环境 .env.staging 测试环境 二. 内容格式 vue2 使用是以…...

数据预处理

继续提取代码片段: 12. **导入iris数据集并查看前5行数据**: python from sklearn.datasets import load_iris iris load_iris() X iris.data print(iris数据集的维度为:, X.shape) print(iris数据集的前5行数据为:\n, X[:5]) …...

django宠物领养管理系统-计算机毕业设计源码26858

目录 1 绪论 1.1 选题背景与意义 1.2国内外研究现状 1.3论文结构与章节安排 2系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1 数据流程 3.3.2 业务流程 2.3 系统功能分析 2.3.1 功能性分析 2.3.2 非功能性分析 2.4 系统用例分析 2.5本章小结 3 系统总体设计 3…...

使用TeamViewer远程局域网内的两台电脑

有个场景,有人还不知道TV可以局域网操作,记录一下。 主要就是修改设置,将取消激活改为接受 然后输入受控端的ip即可...

GUI简介、Swing的常用组件、java程序的运行过程、class文件、JAR、runable_jar、双括号初始化

GUI简介 GUI:图形用户界面,在计算机中采用图形的方式显示用户界面 java的GUI开发 AWT:java最早推出的GUI编程开发包,界面风格跟随操作系统SWT:eclipse就是java使用SWT开发的Swing:在AWT的基础上扩充了功能…...

@Autowired和@Resource和getBean()区别

今天遇到一个对我来说很奇葩的错误,我想在Service中注入bean,我这里使用了Autowired和Resource都不能注入,导致初始化失败,使用了getBean()方法就可以注入。从来没有遇到过这个问题。后来我查询了一下,才明白了原理。我…...

Merlion笔记(四):添加一个新的预测模型

文章目录 1 模型配置类2 模型类3 运行模型:一个简单的例子4 可视化5 定量评估6 定义一个基于预测器的异常检测器 本文提供了一个示例,展示如何向 Merlion 添加一个新的预测模型,遵循 CONTRIBUTING.md 中的说明。建议在阅读本篇文章之前,先查…...

【论文阅读】ESRGAN

学习资料 论文题目:增强型超分辨率生成对抗网络(ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks)论文地址:[1809.00219] ESRGAN:增强型超分辨率生成对抗网络代码:xinntao / ESRGAN&am…...

电脑异常情况总结

文章目录 笔记本无症状息屏黑屏 笔记本无症状息屏黑屏 🍎 问题描述: 息屏导致黑屏;依次操作计算机--》右键--》管理--》事件查看器--》Windows日志--》系统;从息屏到异常黑屏之间出现了很多错误,如下:事件…...

[项目详解][boost搜索引擎#1] 概述 | 去标签 | 数据清洗 | scp

目录 一、前言 二、项目的相关背景 三、搜索引擎的宏观原理 四、搜索引擎技术栈和项目环境 五、正排索引 VS 倒排索引--原理 正排索引 分词 倒排索引 六、编写数据去除标签和数据清洗模块 Parser 1.数据准备 parser 编码 1.枚举文件 EnumFile 2.去标签ParseHtml(…...

Ubuntu系统下交叉编译openssl

一、参考资料 OpenSSL&&libcurl库的交叉编译 - hesetone - 博客园 二、准备工作 1. 编译环境 宿主机:Ubuntu 20.04.6 LTSHost:ARM32位交叉编译器:arm-linux-gnueabihf-gcc-11.1.0 2. 设置交叉编译工具链 在交叉编译之前&#x…...

linux之kylin系统nginx的安装

一、nginx的作用 1.可做高性能的web服务器 直接处理静态资源(HTML/CSS/图片等),响应速度远超传统服务器类似apache支持高并发连接 2.反向代理服务器 隐藏后端服务器IP地址,提高安全性 3.负载均衡服务器 支持多种策略分发流量…...

Zustand 状态管理库:极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库,特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。 核心优势对比 基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

PHP和Node.js哪个更爽?

先说结论,rust完胜。 php:laravel,swoole,webman,最开始在苏宁的时候写了几年php,当时觉得php真的是世界上最好的语言,因为当初活在舒适圈里,不愿意跳出来,就好比当初活在…...

3.3.1_1 检错编码(奇偶校验码)

从这节课开始,我们会探讨数据链路层的差错控制功能,差错控制功能的主要目标是要发现并且解决一个帧内部的位错误,我们需要使用特殊的编码技术去发现帧内部的位错误,当我们发现位错误之后,通常来说有两种解决方案。第一…...

unix/linux,sudo,其发展历程详细时间线、由来、历史背景

sudo 的诞生和演化,本身就是一部 Unix/Linux 系统管理哲学变迁的微缩史。来,让我们拨开时间的迷雾,一同探寻 sudo 那波澜壮阔(也颇为实用主义)的发展历程。 历史背景:su的时代与困境 ( 20 世纪 70 年代 - 80 年代初) 在 sudo 出现之前,Unix 系统管理员和需要特权操作的…...

【HTTP三个基础问题】

面试官您好!HTTP是超文本传输协议,是互联网上客户端和服务器之间传输超文本数据(比如文字、图片、音频、视频等)的核心协议,当前互联网应用最广泛的版本是HTTP1.1,它基于经典的C/S模型,也就是客…...

Android 之 kotlin 语言学习笔记三(Kotlin-Java 互操作)

参考官方文档:https://developer.android.google.cn/kotlin/interop?hlzh-cn 一、Java(供 Kotlin 使用) 1、不得使用硬关键字 不要使用 Kotlin 的任何硬关键字作为方法的名称 或字段。允许使用 Kotlin 的软关键字、修饰符关键字和特殊标识…...

Element Plus 表单(el-form)中关于正整数输入的校验规则

目录 1 单个正整数输入1.1 模板1.2 校验规则 2 两个正整数输入&#xff08;联动&#xff09;2.1 模板2.2 校验规则2.3 CSS 1 单个正整数输入 1.1 模板 <el-formref"formRef":model"formData":rules"formRules"label-width"150px"…...

Java线上CPU飙高问题排查全指南

一、引言 在Java应用的线上运行环境中&#xff0c;CPU飙高是一个常见且棘手的性能问题。当系统出现CPU飙高时&#xff0c;通常会导致应用响应缓慢&#xff0c;甚至服务不可用&#xff0c;严重影响用户体验和业务运行。因此&#xff0c;掌握一套科学有效的CPU飙高问题排查方法&…...