当前位置：首页 > news >正文

机器学习必修课 - 如何处理缺失数据

news 2026/2/10 20:44:24

运行环境：Google Colab

处理缺失数据可简单分为两种方法：1. 删除具有缺失值的列 2. 填充

!git clone https://github.com/JeffereyWu/Housing-prices-data.git

下载数据集

import pandas as pd
from sklearn.model_selection import train_test_split

导入库

# Read the data
X_full = pd.read_csv('/content/Housing-prices-data/train.csv', index_col='Id')
X_test_full = pd.read_csv('/content/Housing-prices-data/test.csv', index_col='Id')

读取数据
index_col='Id'是为了将数据框的索引列设置为’Id’列。

# Remove rows with missing target, separate target from predictors
X_full.dropna(axis=0, subset=['SalePrice'], inplace=True)
y = X_full.SalePrice
X_full.drop(['SalePrice'], axis=1, inplace=True)

SalePrice 是我们尝试预测的目标变量。
删除训练数据中带有缺失目标值（‘SalePrice’）的行。
将目标值（‘SalePrice’）存储在变量y中，并从特征中删除。

# To keep things simple, we'll use only numerical predictors
X = X_full.select_dtypes(exclude=['object'])
X_test = X_test_full.select_dtypes(exclude=['object'])

将特征数据限制为仅包含数值型特征
select_dtypes 函数用于根据数据类型（在这里是’object’，即非数值型）选择特定类型的列。

X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2,random_state=0)

使用train_test_split 函数将训练数据X和目标值y分成训练集和验证集。train_size参数指定了训练集的比例（80%），test_size参数指定了验证集的比例（20%），random_state参数用于控制随机分割的种子，以确保每次运行代码时分割结果都一样。

1. 了解训练数据的形状和每列数据中缺失值的数量

# Shape of training data (num_rows, num_columns)
print(X_train.shape)# Number of missing values in each column of training data
missing_val_count_by_column = (X_train.isnull().sum())
print(missing_val_count_by_column[missing_val_count_by_column > 0])

在这里插入图片描述

首先使用.isnull()方法将每个单元格是否为缺失值进行检查，然后使用.sum()方法计算每列中缺失值的总数。
最后，它打印出那些包含至少一个缺失值的列的缺失值数量。
这段代码可以帮助你了解哪些特征（列）在训练数据中存在缺失值，以便在数据预处理过程中采取适当的措施来处理这些缺失值，例如填充它们或者删除相关的特征。

考虑到数据中缺失值的数量并不是很多，如果我们删除带有缺失值的列，那么就会丢失掉很多有用的信息。因此，更好的做法是对缺失值进行填充（imputation），以尽量保留数据的完整性。填充缺失值通常可以采用一些方法，如用平均值、中位数或者其他相关数据来替代缺失值，这样可以更好地保留数据的特征和信息，提高模型的性能。

from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error# Function for comparing different approaches
def score_dataset(X_train, X_valid, y_train, y_valid):model = RandomForestRegressor(n_estimators=100, random_state=0)model.fit(X_train, y_train)preds = model.predict(X_valid)return mean_absolute_error(y_valid, preds)

RandomForestRegressor 是一个随机森林回归模型，用于机器学习中的回归问题。mean_absolute_error 是一个评估回归模型性能的函数，它用于计算预测值与实际值之间的平均绝对误差。
函数的目的是通过比较不同数据集处理方法的分数来评估哪种方法在机器学习任务中效果最好。

# Get names of columns with missing values
cols_with_missing = [col for col in X_train.columnsif X_train[col].isnull().any()]# Drop columns in training and validation data
reduced_X_train = X_train.drop(cols_with_missing, axis=1)
reduced_X_valid = X_valid.drop(cols_with_missing, axis=1)

创建了一个列表cols_with_missing，用于存储训练数据X_train中具有缺失值的列名。
遍历X_train的每一列，使用.isnull().any()来检查每列是否包含任何缺失值。如果某列中至少有一个缺失值，就将其列名添加到cols_with_missing列表中。
使用.drop()方法从训练数据X_train和验证数据X_valid中删除具有缺失值的列。cols_with_missing列表中包含了所有具有缺失值的列名，通过axis=1参数，可以指定删除列而不是行。

print("MAE (Drop columns with missing values):")
print(score_dataset(reduced_X_train, reduced_X_valid, y_train, y_valid))

在这里插入图片描述

2. 数据填充

from sklearn.impute import SimpleImputer# Imputation
my_imputer = SimpleImputer() 
imputed_X_train = pd.DataFrame(my_imputer.fit_transform(X_train))
imputed_X_valid = pd.DataFrame(my_imputer.transform(X_valid))# Imputation removed column names; put them back
imputed_X_train.columns = X_train.columns
imputed_X_valid.columns = X_valid.columns

导入了Scikit-learn库中的SimpleImputer类，该类用于处理缺失值，它可以用于填充数据中的缺失值。
分别使用fit_transform方法来对训练数据X_train和验证数据X_valid进行缺失值填充。
在训练过程中，模型需要学习如何处理缺失值以及其他特征，因此使用fit_transform方法对训练数据进行预处理。
使用transform方法对验证数据进行数据预处理，包括填充缺失值。在验证过程中，模型不应该再次拟合填充器，因为这会导致信息泄露。模型在实际应用中不会在新的数据上重新拟合填充器，而是使用在训练数据上学到的填充策略。
将填充后的数据框中的列名恢复为原始数据X_train和X_valid的列名。这是因为在填充数据时，列名可能被丢失。

print("MAE (Imputation):")
print(score_dataset(imputed_X_train, imputed_X_valid, y_train, y_valid))

在这里插入图片描述

这里我们可以看到，填充的方法没有删除的方法成效好。由于数据集中缺失值很少，所以通常来说，使用填充方法来处理缺失值应该比完全删除带有缺失值的列更好。但是在实际情况中，填充的方式也需要谨慎选择，不一定每次都使用均值填充就是最佳选择。具体的填充策略需要根据数据的特点和背后的含义来确定，可能需要尝试不同的填充方式以找到最合适的方法。同时，一些填充方式可能会导致糟糕的结果，因此需要谨慎评估和选择。

3. 对训练数据和验证数据进行最终的数据预处理

# Preprocessed training and validation features
final_imputer = SimpleImputer(strategy='median')
final_X_train = pd.DataFrame(final_imputer.fit_transform(X_train))
final_X_valid = pd.DataFrame(final_imputer.transform(X_valid))final_X_train.columns = X_train.columns
final_X_valid.columns = X_valid.columns

设置填充策略为’median’（中位数）。这意味着缺失值将会使用每列的中位数值来进行填充。

# Define and fit model
model = RandomForestRegressor(n_estimators=100, random_state=0)
model.fit(final_X_train, y_train)# Get validation predictions and MAE
preds_valid = model.predict(final_X_valid)
print("MAE (Your approach):")
print(mean_absolute_error(y_valid, preds_valid))

在这里插入图片描述

# Fill in the line below: preprocess test data
final_X_test = pd.DataFrame(final_imputer.transform(X_test))
final_X_test.columns = X_test.columns# Fill in the line below: get test predictions
preds_test = model.predict(final_X_test)

# Save test predictions to file
output = pd.DataFrame({'Id': X_test.index,'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)

机器学习必修课 - 如何处理缺失数据

运行环境：Google Colab 处理缺失数据可简单分为两种方法：1. 删除具有缺失值的列 2. 填充 !git clone https://github.com/JeffereyWu/Housing-prices-data.git下载数据集 import pandas as pd from sklearn.model_selection import train_test_split导…...

编程日记 2023/10/3 5:01:19

阿里云服务器方升架构、自研硬件、AliFlash技术创新

阿里云服务器技术创新：服务器方升架构及自研硬件、自研存储硬件AliFlash和阿里云异构计算加速平台，阿里云百科分享阿里云服务器有哪些技术创新： 目录服务器技术创新服务器方升架构及自研硬件自研存储硬件AliFlash 阿里云异构计算加速…...

编程日记 2023/10/3 5:00:11

知识工程---neo4j 5.12.0+GDS2.4.6安装

（已安装好neo4j community 5.12.0） 一. GDS下载 jar包下载地址：https://neo4j.com/graph-data-science-software/ 下载得到一个zip压缩包，解压后得到jar包。二. GDS安装及配置将解压得到的jar包放入neo4j安装目录下的plugi…...

编程日记 2023/10/3 4:50:01

BUUCTF reverse wp 81 - 85

[SCTF2019]babyre 反编译失败, 有花指令有一个无用字节, 阻止反编译, patch成0x90 所有标红的地方nop掉之后按p重申函数main和loc_C22, F5成功 int __cdecl main(int argc, const char **argv, const char **envp) {char v4; // [rspFh] [rbp-151h]int v5; // [rsp10h] [rb…...

编程日记 2023/10/3 4:48:59

数据结构-哈希表

系列文章目录 1.集合-Collection-CSDN博客 2.集合-List集合-CSDN博客 3.集合-ArrayList源码分析(面试)_喜欢吃animal milk的博客-CSDN博客 4.数据结构-哈希表_喜欢吃animal milk的博客-CSDN博客文章目录目录系列文章目录文章目录前言一 . 什么是哈希表&a…...

编程日记 2023/10/3 4:47:58

深度学习在图像识别领域还有哪些应用？

深度学习在图像识别领域的应用非常广泛，除了之前提到的图像分类、目标检测、语义分割和图像生成，还有其他一些应用。图像超分辨率重建：深度学习技术可以用于提高图像的分辨率，例如通过使用生成对抗网络（GAN&#xff…...

编程日记 2023/10/3 4:44:55

前端项目练习（练习-005-webpack-03）

学习前，首先，创建一个web-005项目，内容和web-004一样。（注意将package.json中的name改为web-005） 前面的代码中，打包工作已经基本完成了，下面开始在本地启动项目。这里需要用到webpack-dev-serv…...

编程日记 2023/10/3 4:41:52

『力扣每日一题10』：字符串中的单词数

因为身体原因，再加上学校的 DeadLine 比较多，太忙太累，拖更了半个月。现在开始重拾日更，期待我们一起遇见更好的自己！ 一、题目统计字符串中的单词个数，这里的单词指的是连续的不是空格的字符。请注意&a…...

编程日记 2023/10/3 4:40:51

初级篇—第三章多表查询

文章目录为什么需要多表查询一个案例引发的多表连接初代查询笛卡尔积（或交叉连接）的理解多表查询分类等值连接 vs 非等值连接自连接 vs 非自连接内连接VS外连接 SQL99语法实现多表查询内连接的实现外连接的实现左外连接右外连接满外连接 UNION的使用7种…...

编程日记 2023/10/3 4:39:50

＜Xcode＞ Xcode IOS无开发者账号打包和分发

关于flutter我们前边聊到的初入门、数据解析、适配、安卓打包、ios端的开发和黑苹果环境部署，但是对于苹果的打包和分发，我只是给大家了一个链接，作为一个顶级好男人，我认为这样是对大家的不负责任，那么这篇就主要是针…...

编程日记 2023/10/3 4:36:47

vertx的学习总结2

一、什么是verticle verticle是vertx的基本单元，其作用就是封装用于处理事件的技术功能单元 （如果不能理解，到后面的实战就可以理解了） 二、写一个verticle 1. 引入依赖（这里用的是gradle，不会吧&#…...

编程日记 2023/10/3 4:35:46

网络安全内网渗透之DNS隧道实验--dnscat2直连模式

目录一、DNS隧道攻击原理二、DNS隧道工具 （一）安装dnscat2服务端 （二）启动服务器端 （三）在目标机器上安装客户端 （四）反弹shell 一、DNS隧道攻击原理在进行DNS查询时&#x…...

编程日记 2023/10/3 4:34:44

探索ClickHouse——连接Kafka和Clickhouse

安装Kafka 新增用户 sudo adduser kafka sudo adduser kafka sudo su -l kafka安装JDK sudo apt-get install openjdk-8-jre下载解压kafka 可以从https://downloads.apache.org/kafka/下找到希望安装的版本。需要注意的是，不要下载路径包含src的包，否…...

编程日记 2023/10/3 4:33:43

基于监督学习的多模态MRI脑肿瘤分割，使用来自超体素的纹理特征（Matlab代码实现）

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势：🌞🌞🌞博客内容尽量做到思维缜密，逻辑清晰，为了方便读者。 ⛳️座右铭&a…...

编程日记 2023/10/3 4:32:43

【RocketMQ】（八）Rebalance负载均衡

消费者负载均衡，是指为消费组下的每个消费者分配订阅主题下的消费队列，分配了消费队列消费者就可以知道去消费哪个消费队列上面的消息，这里针对集群模式，因为广播模式，所有的消息队列可以被消费组下的每个消费者消费不…...

编程日记 2023/10/3 4:31:42

线性筛和埃氏筛

线性筛： #define _CRT_SECURE_NO_WARNINGS #include<iostream> #include<cstdio> #include<cstdlib> #include<string> #include<cstring> #include<cmath> #include<ctime> #include<algorithm> #include<ut…...

编程日记 2023/10/3 4:30:41

【Java 进阶篇】JDBC ResultSet 类详解

在Java应用程序中，与数据库交互通常涉及执行SQL查询以检索数据。一旦执行查询，您将获得一个ResultSet对象，该对象包含查询结果的数据。本文将深入介绍ResultSet类，它是Java JDBC编程中的一个核心类，用于处理查询结果。…...

编程日记 2023/10/3 4:29:41

Centos7常用服务脚本（.service）

Centos7常用服务脚本（.service） 注意：[Service]中配置路径必须使用绝对路径。启停： systemctl { start | stop | restart | reload } xxx.service 自启动： systemctl { enable | disable } xxx.service nginx.se…...

编程日记 2023/10/3 4:28:39

MySQL 视图View的SQL语法和更新（视图篇二）

视图语法基本操作创建 -- [ ]表示可选 create [or replace] view 视图名称[(列名列表)] as select语句 [ with [cascaded | local ] check option ]; 添加（虽然视图是虚拟表，但是向视图操作的数据实际上会影响到实际关联的表数据） -- 视图添…...

编程日记 2023/10/3 4:24:36

38 翻转二叉树

翻转二叉树理解题意，翻转即每个结点的左右子树翻转/对调题解1 递归——自下而上题解2 迭代——自上而下给你一棵二叉树的根节点 root ，翻转这棵二叉树，并返回其根节点。提示： 树中节点数目范围在 [0, 100] 内-100 < Node.…...

编程日记 2023/10/3 4:21:32

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…...

编程新知 2026/2/8 4:37:19

Linux 文件类型，目录与路径，文件与目录管理

文件类型后面的字符表示文件类型标志普通文件：-（纯文本文件，二进制文件，数据格式文件） 如文本文件、图片、程序文件等。目录文件：d（directory） 用来存放其他文件或子目录。设备…...

编程新知 2026/2/8 20:42:46

系统设计 --- MongoDB亿级数据查询优化策略

系统设计 --- MongoDB亿级数据查询分表策略背景Solution --- 分表背景使用audit log实现Audi Trail功能 Audit Trail范围: 六个月数据量: 每秒5-7条audi log，共计7千万 – 1亿条数据需要实现全文检索按照时间倒序因为license问题，不能使用ELK只能使用…...

编程新知 2026/1/4 3:47:09

Linux云原生安全：零信任架构与机密计算

Linux云原生安全：零信任架构与机密计算构建坚不可摧的云原生防御体系引言：云原生安全的范式革命随着云原生技术的普及，安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测，到2025年，零信任架构将成为超…...

编程新知 2025/8/17 17:11:47

OPenCV CUDA模块图像处理-----对图像执行均值漂移滤波（Mean Shift Filtering）函数meanShiftFiltering()

操作系统：ubuntu22.04 OpenCV版本：OpenCV4.9 IDE:Visual Studio Code 编程语言：C11 算法描述在 GPU 上对图像执行均值漂移滤波（Mean Shift Filtering），用于图像分割或平滑处理。该函数将输入图像中的…...

编程新知 2026/2/10 9:20:22

AspectJ 在 Android 中的完整使用指南

一、环境配置（Gradle 7.0 适配） 1. 项目级 build.gradle // 注意：沪江插件已停更，推荐官方兼容方案 buildscript {dependencies {classpath org.aspectj:aspectjtools:1.9.9.1 // AspectJ 工具} } 2. 模块级 build.gradle plu…...

编程新知 2025/7/7 22:33:57

在web-view 加载的本地及远程HTML中调用uniapp的API及网页和vue页面是如何通讯的？

uni-app 中 Web-view 与 Vue 页面的通讯机制详解一、Web-view 简介 Web-view 是 uni-app 提供的一个重要组件，用于在原生应用中加载 HTML 页面： 支持加载本地 HTML 文件支持加载远程 HTML 页面实现 Web 与原生的双向通讯可用于嵌入第三方网页或 H5 应…...

编程新知 2025/8/6 2:19:46