当前位置：首页 > article >正文

机器学习第二十七讲：Kaggle → 参加机器学习界的奥林匹克

article 2026/4/18 8:52:19

机器学习第二十七讲：Kaggle → 参加机器学习界的奥林匹克

资料取自《零基础学机器学习》。
查看总目录：学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章：DeepSeek R1本地与线上满血版部署：超详细手把手指南

Kaggle详解：超市销量预测竞赛全流程解析[^10-2]

Kaggle竞赛的权威性

全球影响力：Kaggle是全球最大的数据科学社区和竞赛平台，拥有超过1200万开发者、学者及企业团队。其竞赛吸引了全球各地的数据科学家和机器学习爱好者，参赛者来自不同的国家和地区，具有广泛的国际影响力。
行业认可度：Kaggle竞赛在数据科学和机器学习领域具有极高的认可度，其竞赛结果和参赛者的表现受到业界和学术界的广泛关注。许多知名科技公司，如Google、Facebook、Microsoft等，都在Kaggle上举办过数据挖掘比赛，这进一步提升了Kaggle竞赛的权威性和影响力。

以"超市月度销量预测"竞赛为例，结合买菜、会员日促销等生活场景，展示完整Kaggle参赛流程：

一、数据初探（第三章）

销售数据分析四步法：

import pandas as pd
import matplotlib.pyplot as plt# 读取数据（类似查看超市进货记录）
sales_data = pd.read_csv('/kaggle/input/supermarket-sales/sales.csv')  # [^7-1]# 可视化分析（发现周末销量激增）
plt.plot(sales_data['日期'], sales_data['销量'])  # 每周六出现波峰 [^2-2]

关键特征矩阵：

特征	处理方式	章节引用
温度	标准化处理[^4-1]	第四章第二节
是否节假日	二进制编码[^4-3]	第四章第四节
历史销量	滑动窗口平均值[^4章]	第四章第三节
促销活动	直接保留原始值[^5章]	第五章第一节

二、特征烹饪（第四章）

销量数据加工流水线：

温度标准化：

from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
sales_data['温度'] = scaler.fit_transform(sales_data[['温度']])  # [^4-1]

节假日编码：

# 将"春节/国庆"转为1，平常日转为0
sales_data['节日'] = sales_data['节日'].apply(lambda x: 1 if x != '无' else 0)  # [^4-3]

创建历史特征：

# 计算前3天平均销量（类似观察近期趋势）
sales_data['3日平均'] = sales_data['销量'].rolling(window=3).mean()  # [^4章]

三、模型训练（第五章）

多模型对比策略：

代码实现：

from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import cross_val_score  # [^8-2]# 线性回归训练（类似画销售趋势线）
lr = LinearRegression()
print(cross_val_score(lr, X, y, cv=5).mean())  # 交叉验证[^8-2]# 决策树训练（类似多条件判断）
tree = DecisionTreeRegressor(max_depth=5)
tree.fit(train_X, train_y)  # [^5-2]

模型对比表：

模型	MAE误差	训练时间	章节知识点
线性回归	23.5	0.8s	第五章第一节[^5-1]
决策树	18.7	1.2s	第五章第三节[^5-2]
随机森林	15.3	3.5s	第七章第一节[^7-1]

四、结果优化（第八章）

三级提升方法：

添加周末特征：

sales_data['周末'] = sales_data['日期'].dt.weekday.apply(lambda x: 1 if x >=5 else 0)

网格搜索调参：

from sklearn.model_selection import GridSearchCV
params = {'max_depth': [3,5,7], 'min_samples_split': [2,5]}  # [^8-3]
grid = GridSearchCV(tree, params, cv=5)

正则化处理：

from sklearn.linear_model import Ridge
ridge = Ridge(alpha=0.5)  # 控制模型复杂度[^8-4]

五、完整参赛示例

# 超市销量预测完整流程（含数据预处理、建模、提交）
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import OneHotEncoder# 数据读取（相当于拿到进货记录）
train = pd.read_csv('/kaggle/input/supermarket-sales/train.csv')
test = pd.read_csv('/kaggle/input/supermarket-sales/test.csv')# 处理天气数据（晴天=1，雨天=0）
weather_mapping = {'晴':1, '雨':0}
train['天气'] = train['天气'].map(weather_mapping)  # [^4-3]# 添加温度影响分档
train['温度区间'] = pd.cut(train['温度'], bins=5, labels=False)  # [^4章]# 选择关键特征
features = ['温度', '节日', '周末', '促销活动']
X = train[features]
y = train['销量']# 训练随机森林（类似综合多个店员经验）
model = RandomForestRegressor(n_estimators=200)  # [^5-2]
model.fit(X, y)# 生成提交文件
test_pred = model.predict(test[features])
submission = pd.DataFrame({'ID': test['ID'], '销量': test_pred})
submission.to_csv('submission.csv', index=False)  # [^10-2]

六、竞赛进阶技巧

Kaggle四大法宝：

新手避坑指南：

避免数据泄露 → 不要用未来数据预测过去（如用全量数据计算均值）[^8-2]
理解评估指标 → 选择MAE还是RMSE影响优化方向[^8-1]
学习优秀方案 → 在Kaggle的Kernel区查看金牌解法[^10-2]

特征增强示例：

原始特征	增强方法	效果提升
日期	提取"月份"和"周数"	+3%
温度	添加"温差"特征	+2.5%
历史销量	计算7日移动平均	+4%

目录：总目录
上篇文章：机器学习第二十六讲：官方示例 → 跟着菜谱学做经典菜肴

[^2-2]《零基础学机器学习》第二章数据分析
[^4-1]《零基础学机器学习》第四章标准化
[^4-3]《零基础学机器学习》第四章编码处理
[^4章]《零基础学机器学习》第四章特征工程
[^5-1]《零基础学机器学习》第五章线性回归
[^5-2]《零基础学机器学习》第五章树模型
[^7-1]《零基础学机器学习》第七章工具使用
[^8-1]《零基础学机器学习》第八章评估指标
[^8-2]《零基础学机器学习》第八章交叉验证
[^8-3]《零基础学机器学习》第八章参数调优
[^8-4]《零基础学机器学习》第八章正则化
[^10-2]《零基础学机器学习》第十竞赛指导

机器学习第二十七讲：Kaggle → 参加机器学习界的奥林匹克

机器学习第二十七讲：Kaggle → 参加机器学习界的奥林匹克

Kaggle详解：超市销量预测竞赛全流程解析[^10-2]

一、数据初探（第三章）

二、特征烹饪（第四章）

三、模型训练（第五章）

四、结果优化（第八章）

五、完整参赛示例

六、竞赛进阶技巧

相关文章：

机器学习第二十七讲：Kaggle → 参加机器学习界的奥林匹克

C++（初阶）（二十）——封装实现set和map

【MySQL】06.内置函数

企业微信内部网页开发流程笔记

智慧在线判题OJ系统项目总体，包含功能开发思路，内部中间件，已经部分知识点

【MySQL】2-MySQL索引P2-执行计划

云电脑显卡性能终极对决：ToDesk云电脑/顺网云/海马云，谁才是4K游戏之王？

11 接口自动化-框架封装之统一请求封装和接口关联封装

influxdb时序数据库

OpenCV CUDA模块图像处理------颜色空间处理之用于执行伽马校正（Gamma Correction）函数gammaCorrection()

机器学习10-随机森林

商品条形码查询接口如何用C#进行调用？

编译pg_duckdb步骤

多模态大语言模型arxiv论文略读（九十一）

攻防世界 - MISCall

数据结构测试模拟题（2）

在PyTorch中，对于一个张量，如何快速为多个元素赋值相同的值

苍穹外卖--Redis

C++ 条件变量虚假唤醒问题的解决

深度学习————注意力机制模块

openssl 使用生成key pem

python：基础爬虫、搭建简易网站

好坏质检分类实战（异常数据检测、降维、KNN模型分类、混淆矩阵进行模型评估）

链表：数据结构的灵动舞者

YOLOv4：目标检测的新标杆

PyTorch 2.1新特性：TorchDynamo如何实现30%训练加速（原理+自定义编译器开发）

LabVIEW通用测控平台设计

【机器学习基础】机器学习入门核心算法：K-近邻算法（K-Nearest Neighbors, KNN）

FastMoss 国际电商Tiktok数据分析 JS 逆向 | MD5加密

Redis分布式缓存核心架构全解析：持久化、高可用与分片实战