当前位置：首页 > news >正文

【2023美赛】C题Wordle预测27页中文论文及Python代码详解

news 2026/3/31 15:13:27

【2023美赛】C题Wordle预测27页中文论文及Python详解

在这里插入图片描述

1 论文简介

在这里插入图片描述

1.1 问题一

通过解读问题，其中需要解决两个问题，第一小问为了对2023年3月1日的 Number of reported results进行预测，并创建一个预测区间。这是一个时间序列预测问题，本文建立机器学习模型进行时间序列数据回归预测。对于时间序列的回归预测，线性回归模型需要满足线性、独立性、正态性、方差齐性、自变量间不存在多重共线、因变量为连续变量。所以首先要对数据进行数据分析，查看数据的分布、异常值、是否存在季节性趋势和。正态分布检验是计算偏度(skewness)和峰度(kurtosis)。偏度能够反应分布的对称情况，若以bs表示偏度。bs<0称分布具有负偏离，也称左偏态，此时数据位于均值左边的比位于右边的少，直观表现为左边的尾部相对于与右边的尾部要长，因为有少数变量值很小，使曲线左侧尾部拖得很长；bs>0称分布具有正偏离，也称右偏态，此时数据位于均值右边的比位于左边的少，直观表现为右边的尾部相对于与左边的尾部要长，因为有少数变量值很大，使曲线右侧尾部拖得很长；而bs接近0则可认为分布是对称的。是指反应的是图像的尖锐程度。峰度越大，表现在图像上面是中心点越尖锐。峰度为0表示该总体数据分布与正态分布的陡缓程度相同；峰度大于0表示该总体数据分布与正态分布相比较为陡峭，为尖顶峰；峰度小于0表示该总体数据分布与正态分布相比较为平坦，为平顶峰。峰度的绝对值数值越大表示其分布形态的陡缓程度与正态分布的差异程度越大。对于异常值可以采用以箱线图查看，异常值的处理有填充法和删除样本的方法，但在时间序列中，优先考虑填充的方法，填充的方法又向前填充、中位数填充、平均数填充以及众数填充。

其次，需要进一步做特征工程，特征工程是将原始数据转化成更好的表达问题本质的特征的过程，使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度，包括对时间特征进行信息提取、提取不同长度的滑动平均值、标准差等特征，提高机器学习模型的拟合能力。在此基础上，选择多种机器学习模型进行回归预测，并可以通过K折验证来防止模型过拟合。最后，预测阶段计算模型测试集误差，将预测结果减去误差，得到预测区间的最低值，加上预测结果的误差，得到预测区间的最高值。

第二小问需要分析单词的属性是否会影响困难模式下玩家得分的百分比。首先，单词的属性有元音、辅音、字母序号、字母顺序、词性。将字母频率、字母序号、字母顺序、元音、辅音编码后分析与7种百分比的分析相关性，可视化相关性，得出结论。
在这里插入图片描述

1.2 问题二

通过解读问题，其中需要解决两个问题，第一小问需要在开发一个时间序列预测模型，能够预测报告结果的分布，即预测未来日期(1,2,3,4,5,6,X)的相关百分比。首先，针对1-7种尝试，建立7个回归模型，特征工程部分包括提取百分比的数据特征，包括滑动平均值、窗口标准差，获取时间特征，以及将字母频率、字母序号、字母顺序、元音、辅音编码行编码作为类别特征，采用机器学习的回归模型，进行预测7种情况的百分比。其次，大部分特征可能存在多重共线性，数据存在多重过线性，会导模型容易过拟合，或者导致模型无法解释。去除共线性特征的方法有画图法定性分析、相关法定量分析、方差膨胀系数分析、Principal Component Analysis (PCA)分析、相关法迭代分析。然后将数据标准化后，才能将数据作为训练集和测试用来训练和测试模型。回归模型有线性回归、多项式回归、逐步回归、岭回归、Boost模型XGBoost和融合模型LightGBM回归。最后，题目中要求评价模型的性能，可以采用多重误差评价方法，包括均方误差（Mean Squared Error，MSE），均方根误差（Root Mean Squard Error，RMSE）以及平均绝对误差（Mean Absolute Error，MAE）。

在这里插入图片描述

1.3 问题三

题目中要求建立一个模型，对单词进行分类，我们采用机器学习中的聚类方法，对单词进行编码后，采用K-Means(K均值)聚类、均值漂移聚类、基于密度的聚类方法(DBSCAN)、层级聚类算法、（EM）聚类或者图团体检测(Graph Community Detection)，将单词难度分为三类或者更多，如困难、一般、简单。然后对每一类的单词可视化分析，并描述数据得出结论。并分析EERIE的类别，以轮廓系数等评价方式评价聚类效果的好坏。

在这里插入图片描述

2 下载方式

betterbench.top/#/45/detail
在这里插入图片描述

【2023美赛】C题Wordle预测27页中文论文及Python代码详解

【2023美赛】C题Wordle预测27页中文论文及Python详解

相关链接

1 论文简介

1.1 问题一

1.2 问题二

1.3 问题三

2 下载方式

相关文章：

【2023美赛】C题Wordle预测27页中文论文及Python代码详解

【C++修行之路】STL——模拟实现string类

CorelDRAW2023最新版序列号使用教程

【一天一门编程语言】Python 语言程序设计极简教程

14、KL散度

TypeError: load() missing 1 required positional argument: ‘Loader‘解决方案

【设计模式】观察者模式介绍及C代码实现

01-Maven基础-简介安装、基本使用(命令)、IDEA配置、(写jar，刷新自动下载)、依赖管理

一、前端稳定性规约该如何制定

Docker（三）Docker网络

Js高级API

团队：在人身上，你到底愿意花多大精力？

Linux-Poolkit提权

【React全家桶】React Hooks

CLIP论文阅读

华为OD机试真题Python实现【身高排序】真题+解题思路+代码（20222023）

Spring Cache的使用--快速上手篇

（三十八）MySQL是如何支持4种事务隔离级别的？Spring事务注解是如何设置的？

【博学谷学习记录】大数据课程-学习第八周总结

go cobra初试

Ceph存储集群搭建：如何选择RAID卡模式（HBA vs IT vs non-RAID）

收藏！阿里后端转大模型应用层，2年Agent/RAG经验，斩获字节30%涨幅offer｜小白程序员必看学习路径

内存取证新手必看：用Lovelymem+MemProcFS挂载分析，像访问文件夹一样查看RAW镜像

Umi-OCR终极指南：3分钟掌握免费离线OCR文字识别

Phi-4-reasoning-vision-15B部署教程：开源大模型镜像适配国产GPU方案

30 分钟搞定答辩 PPT！Paperxie AI 生成器：拯救论文人的「熬夜克星」

重装系统后的环境快速恢复：包含BERT模型部署的自动化脚本

springboot+vue基于web的药店管理系统药品商城在线购药系统

保姆级教程：用OpenAI Whisper给视频自动生成字幕（附Python代码）

CH340/CH341安卓USB主机模式开发实战