当前位置：首页 > article >正文

用Python和Pandas搞定泰坦尼克号数据集：从数据清洗到特征工程的完整实战

article 2026/5/25 1:13:38

用Python和Pandas征服泰坦尼克号数据集从数据清洗到特征工程的实战指南当第一次打开泰坦尼克号数据集时那些密密麻麻的乘客信息就像一艘沉船上的碎片——杂乱无章却又充满故事。作为数据科学领域最经典的入门数据集它包含了891名乘客的12个特征变量从年龄、性别到船票价格和舱位等级。本文将带你用Python和Pandas工具像考古学家一样清理、修复这些数据碎片最终构建一个有预测价值的特征集。1. 数据探索第一眼看到的不只是冰山一角在开始任何数据分析项目前我们需要先了解数据的全貌。泰坦尼克号数据集通常包含以下关键列Survived: 生存状态0遇难1生还Pclass: 舱位等级1头等舱2二等舱3三等舱Sex: 性别Age: 年龄SibSp: 船上兄弟姐妹/配偶数量Parch: 船上父母/子女数量Fare: 船票价格Embarked: 登船港口CCherbourg, QQueenstown, SSouthampton让我们先用Pandas加载数据并快速浏览import pandas as pd import seaborn as sns import matplotlib.pyplot as plt # 加载数据 titanic pd.read_csv(titanic.csv) # 查看数据概览 print(f数据集形状: {titanic.shape}) print(titanic.info()) print(titanic.head())关键发现数据集有891行12列Age年龄列有177个缺失值Cabin舱位列缺失严重只有204个非空值Embarked登船港口有2个缺失值2. 数据清洗处理缺失值的艺术缺失值是数据分析中最常见的挑战之一。泰坦尼克号数据集中的缺失值主要集中在三个列Age、Cabin和Embarked。我们需要根据每列的特点采用不同的处理策略。2.1 年龄缺失值的智能填充单纯用平均值填充年龄会丢失很多信息。更聪明的做法是根据乘客的性别、舱位和头衔来分组填充# 从姓名中提取头衔 titanic[Title] titanic[Name].str.extract( ([A-Za-z])\., expandFalse) # 常见头衔映射 title_mapping {Mr: 0, Miss: 1, Mrs: 2, Master: 3, Dr: 3, Rev: 3, Col: 3, Major: 3, Mlle: 3, Countess: 3, Ms: 3, Lady: 3, Jonkheer: 3, Don: 3, Dona: 3, Mme: 3, Capt: 3, Sir: 3} titanic[Title] titanic[Title].map(title_mapping) # 按性别、舱位和头衔分组填充年龄中位数 titanic[Age] titanic.groupby([Sex, Pclass, Title])[Age].apply( lambda x: x.fillna(x.median()))2.2 处理其他缺失值对于Embarked登船港口的2个缺失值我们可以用最常见的港口填充# 用最常见的登船港口填充缺失值 most_common_embarked titanic[Embarked].mode()[0] titanic[Embarked] titanic[Embarked].fillna(most_common_embarked)至于Cabin舱位列缺失值太多约77%直接删除这一列可能更合理titanic titanic.drop(Cabin, axis1)3. 特征工程从原始数据中挖掘黄金原始数据就像未经加工的矿石特征工程就是提炼有价值信息的过程。以下是几个关键的特征工程步骤3.1 创建家庭规模特征将SibSp兄弟姐妹/配偶数量和Parch父母/子女数量组合成一个新特征FamilySizetitanic[FamilySize] titanic[SibSp] titanic[Parch] 1 # 创建是否独自旅行的特征 titanic[IsAlone] 0 titanic.loc[titanic[FamilySize] 1, IsAlone] 13.2 票价分组和标准化票价Fare的分布非常不均衡我们可以将其分组# 将票价分成4个组 titanic[FareBand] pd.qcut(titanic[Fare], 4, labels[0, 1, 2, 3]) titanic titanic.drop(Fare, axis1)3.3 年龄分组同样我们可以将年龄分成几个有意义的组别# 将年龄分成5个组 titanic[AgeBand] pd.cut(titanic[Age], 5, labels[0, 1, 2, 3, 4]) titanic titanic.drop(Age, axis1)3.4 类别变量编码机器学习算法通常需要数值输入所以我们需要将类别变量转换为数值# 性别编码 titanic[Sex] titanic[Sex].map({female: 0, male: 1}) # 登船港口编码 titanic[Embarked] titanic[Embarked].map({S: 0, C: 1, Q: 2}) # 头衔已经是数值无需进一步处理4. 数据可视化用图形讲述泰坦尼克号的故事可视化不仅能帮助我们理解数据还能发现潜在的模式和关系。让我们用Seaborn创建几个关键图表4.1 生存率与舱位等级的关系plt.figure(figsize(8, 5)) sns.barplot(xPclass, ySurvived, datatitanic) plt.title(Survival Rate by Passenger Class) plt.show()4.2 年龄分布与生存状态plt.figure(figsize(10, 6)) sns.histplot(datatitanic, xAgeBand, hueSurvived, multiplestack) plt.title(Age Distribution by Survival Status) plt.show()4.3 性别与生存率的交叉分析plt.figure(figsize(8, 5)) sns.countplot(xSex, hueSurvived, datatitanic) plt.title(Survival Count by Gender) plt.show()5. 构建机器学习模型从数据到预测经过以上步骤我们的数据已经准备好用于建模。让我们用随机森林算法来预测乘客的生存状态from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score # 准备特征和目标变量 X titanic.drop([PassengerId, Name, Ticket, Survived], axis1) y titanic[Survived] # 划分训练集和测试集 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42) # 初始化随机森林分类器 rf RandomForestClassifier(n_estimators100, random_state42) # 训练模型 rf.fit(X_train, y_train) # 预测测试集 predictions rf.predict(X_test) # 评估模型 print(f模型准确率: {accuracy_score(y_test, predictions):.2f})特征重要性分析# 获取特征重要性 feature_importance pd.DataFrame({ Feature: X.columns, Importance: rf.feature_importances_ }).sort_values(Importance, ascendingFalse) print(feature_importance)在实际项目中我们还可以进一步优化模型比如使用网格搜索调整超参数尝试不同的特征组合使用交叉验证评估模型稳定性6. 经验分享与实用技巧在处理泰坦尼克号数据集的过程中有几个关键点值得注意数据探索阶段不要急于填充缺失值先理解数据分布和缺失模式再决定如何处理。有时候缺失本身也是一种信息。特征工程比算法选择更重要好的特征可以显著提升模型性能即使使用简单算法。花在特征工程上的时间通常会有丰厚回报。可视化是理解数据的有力工具在建模前通过多种图表探索数据关系这往往能发现意想不到的模式。不要忽视类别变量的编码方式除了简单的标签编码还可以尝试独热编码、目标编码等方法根据具体场景选择最合适的。模型解释性很重要使用特征重要性分析、SHAP值等工具理解模型决策过程这在实际业务中往往比单纯的预测准确率更重要。记住每个数据集都有其独特性。泰坦尼克号数据集教会我们的不仅是具体的技术操作更是一种数据思维——如何从原始数据中提取有价值的信息如何通过迭代优化提升模型性能。这些技能在任何数据分析项目中都是通用的。

用Python和Pandas搞定泰坦尼克号数据集：从数据清洗到特征工程的完整实战

相关文章：

用Python和Pandas搞定泰坦尼克号数据集：从数据清洗到特征工程的完整实战

避坑指南：处理NOAA海温数据时，关于陆地掩膜、时间解析和面积加权的三个常见错误

避坑指南：用SARIMA做时间序列预测时，这5个参数调优错误千万别犯（Python实战）

从‘交并比’到损失函数：一文搞懂Dice Loss在图像分割里的前世今生与代码实现

单向晶闸管调压电路基础知识及Multisim电路仿真

2026年AI模型接口中转站真实测评：五大主流大模型API聚合平台深度实测调研指南

2026年AI模型接口中转站全网全维度硬核实测面向开发者与企业的权威选型实用指南

【STM32 C 语言入门】什么是强制类型转换？小白也能秒懂！

3D光学流技术在机器人动作生成中的应用与优化

从‘看山是山’到‘看山不是山’：手把手教你用Landsat8波段组合玩转地物‘透视’

Nsight System和Compute命令行

从集合运算到代码：一文搞懂Jaccard系数，附Python/NumPy/Pandas三种实现方法对比

不用开WPS会员了！这一款电子发票批量打印工具：支持排版 + OCR识别，完全免费！

MNIST识别项目复盘：除了准确率97%，我们更应该关注数据预处理与损失函数的选择

人工智能通识课：深度学习框架 PyTorch

LLM：大语言模型的主要任务

AI 术语通俗词典：RAG

ChatGPT生成图表总“丑”？3步精准调优Prompt+4类D3.js/Plotly适配模板，即刻提升专业度

ICLR 2026小米AI 技术深度解读

【深度解析】从 Mythos 到 DeepSeek 降价：大模型工程化选型、成本控制与 API 实战

Android 框架入门到实战：从系统架构到四大组件，面试官问的全在这了（附流程图）

OpenCV实战：用Python从零实现Canny边缘检测（含完整代码与调参技巧）

从‘栅栏’看频谱：一个音频信号处理的例子，讲透FFT分辨率与泄漏的权衡

破解‘特质波动率之谜’？用Python回测A股创业板数据，看看风险与收益到底啥关系

多重检验策略：提升NPLM信号无关搜索的鲁棒性与均匀性

对称性自适应机器学习力场：高效精准计算碳纳米管声子谱

【AI问答/前端】前端瞒天过海局（三）

【AI问答/前端】现代前端的满天过海局（二）

Android 全栈体系 150 讲 - 49 深度完整版 Android 常用设计模式 + 架构模式源码剖析、业务落地、面试精讲

基于静态动态障碍物DWA、DWA+RRT、改进A、RRT* 2D和3D的路径规划算法Matlab代码