当前位置：首页 > news >正文

机器学习预处理-表格数据的空值处理

news 2025/7/13 13:07:57

机器学习预处理-表格数据的空值处理

机器学习预处理-表格数据的分析与可视化中详细介绍了表格数据的python可视化，可视化能够帮助我们了解数据的构成和分布，是我们进行机器学习的必备步骤。上文中也提及，原始的数据存在部分的缺失，需要进行数据的空值处理，下面进行介绍。

PY工程下载：机器学习预处理-表格数据的空值处理-py工程

0、原始数据集空缺信息查看

使用下面代码进行数据集的加载，并查看数据集的描述信息：

import pandas as pd
import osHOUSING_PATH = os.path.join("datasets", "housing")  # 存储位置def load_housing_data(housing_path=HOUSING_PATH):csv_path = os.path.join(housing_path, "housing.csv")return pd.read_csv(csv_path)  # 返回 包含所有数据的pandas DataFrame对象housing = load_housing_data()
housing.info()#查看数据集属性描述

在这里插入图片描述

1、删除空值所在行

下面代码能够删除空值所在行，只要有空值，这一行都会被删除：

housing_drop_row = housing.dropna()  # 删除包含空值的行
housing_drop_row.info()  # 查看数据集属性描述
output_path = os.path.join(HOUSING_PATH, "housing_drop_row.csv")  # 定义保存清理后数据的路径和文件名
housing_drop_row.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

删除后的无空值数据如下所示：
在这里插入图片描述

2、删除空值所在列

下面代码能够删除空值所在列，只要有空值，这一列都会被删除（从上面截图看一共有9列，删除之后变成了8列）：

housing_drop_column = housing.dropna(axis=1)  # axis=1 表示按列操作
housing_drop_column.info()  # 查看数据集属性描述
output_path = os.path.join(HOUSING_PATH, "housing_drop_column.csv")  # 定义保存清理后数据的路径和文件名
housing_drop_column.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

在这里插入图片描述

3、使用中位数、均值进行填补

# 遍历DataFrame的每一列，用该列的中位数填补空值
housing_fill_median = housing.copy()
for column in housing_fill_median.columns:# 跳过非数值列，因为中位数仅适用于数值数据if housing_fill_median[column].dtype in ['int64', 'float64']:# fill_value = housing_fill_median[column].median()  # 计算中位数fill_value = housing_fill_median[column].mean()  # 计算均值housing_fill_median[column] = housing_fill_median[column].fillna(fill_value)  # 直接赋值
housing_fill_median.info()
output_path = os.path.join(HOUSING_PATH, "housing_fill_median.csv")  # 定义保存清理后数据的路径和文件名
housing_fill_median.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

其中，修改下面代码的注释切换使用中位数、均值进行填充：

# fill_value = housing_fill_median[column].median()  # 计算中位数
fill_value = housing_fill_median[column].mean()  # 计算均值

在这里插入图片描述

4、使用k-means算法进行补充

这是一种高级的方式，使用k-means对空值进行填充，如果部分数据是字符串的，则先对其进行编码后在进行K-Means 聚类处理：

# 使用 K-Means 填充空值
# 定义填补函数
def fill_missing_with_kmeans(df, n_clusters=5):df = df.copy()label_encoders = {}# 对非数值型特征进行编码for column in df.select_dtypes(exclude=[np.number]).columns:le = LabelEncoder()# 注意空值先暂时填充为一个特殊字符 '<missing>'，避免 LabelEncoder 出错df[column] = df[column].fillna('<missing>')df[column] = le.fit_transform(df[column])label_encoders[column] = le# 找到含有空值的列missing_columns = df.columns[df.isnull().any()]# 针对每一列进行填补for column in missing_columns:# 提取当前列非空的数据用于聚类non_missing_data = df.loc[df[column].notnull(), :]missing_data = df.loc[df[column].isnull(), :]# 如果整列为空，直接跳过if non_missing_data.empty:continue# 使用 K-Means 聚类kmeans = KMeans(n_clusters=n_clusters, random_state=42)cluster_features = non_missing_data.drop(columns=[column])kmeans.fit(cluster_features)# 将每个非空数据点分配到一个簇，并计算簇中心的均值cluster_labels = kmeans.labels_for cluster_idx in range(n_clusters):# 当前簇的数据cluster_data = non_missing_data.loc[cluster_labels == cluster_idx]if column in df.select_dtypes(include=[np.number]).columns:# 如果是数值型特征，用簇中心的均值填充cluster_mean = cluster_data[column].mean()else:# 如果是编码后的字符串特征，用簇中最频繁的值填充cluster_mean = cluster_data[column].mode().iloc[0]# 填充缺失数据中属于该簇的值cluster_missing_data = missing_data[kmeans.predict(missing_data.drop(columns=[column])) == cluster_idx]df.loc[cluster_missing_data.index, column] = cluster_mean# 反编码字符串特征for column, le in label_encoders.items():df[column] = le.inverse_transform(df[column].astype(int))return df# 填充数据中的缺失值
housing_fill_kmeans = fill_missing_with_kmeans(housing)
housing_fill_kmeans.info()
output_path = os.path.join(HOUSING_PATH, "housing_fill_kmeans.csv")  # 定义保存清理后数据的路径和文件名
housing_fill_kmeans.to_csv(output_path, index=False)  # index=False 表示不保存行索引,将清理后的数据保存到新的 CSV 文件中

在这里插入图片描述

机器学习预处理-表格数据的空值处理

机器学习预处理-表格数据的空值处理机器学习预处理-表格数据的分析与可视化中详细介绍了表格数据的python可视化，可视化能够帮助我们了解数据的构成和分布，是我们进行机器学习的必备步骤。上文中也提及，原始的数据存在部分的缺失&#xff0…...

编程日记 2024/12/19 15:36:24

数据结构_平衡二叉树

结点类构造函数分为有参和无参，相同点都是初始化树高为1 class Node { public:int data; // 用于输出int val; // 数据域，用于排序int height; // 树高Node* left;Node* right;Node();Node(int v, int d);static int max(int a, int b); };Node::N…...

编程日记 2024/12/19 15:35:22

C++对象的赋值与复制复制构造函数（指针数据成员）

一、对象的赋值同类对象之间可以相互赋值，对象赋值的一般形式：对象名2 对象名1; 原理是，赋值运算符的重载。仅赋值，因此赋值前，需要先定义并初始化对象2。对象的赋值针对指对象中所有数据成员的值； 对…...

编程日记 2024/12/19 15:32:19

Coding Caprice - monotonic stack2

42. 接雨水 class Solution { public:int trap(vector<int>& height) {stack<int> sh;int out 0;for(int i0; i<height.size(); i){while(!sh.empty() && height[sh.top()]<height[i]){int bo height[sh.top()];sh.pop();if(sh.empty()){brea…...

编程日记 2024/12/19 15:31:18

Spring Mvc面试题(常见)

1 Spring MVC的执行流程用户发起请求，请求先被Servlet拦截以后，转发给SpringMVC框架SpringMVC 里面的DispatcherServlet(核心控制器) 接收到请求，并转发给HandlerMappingHandlerMapping负责解析请求，根据请求信息和配置信息找到匹配的Controller类（当这里有配置拦截器，会…...

编程日记 2024/12/19 15:29:15

opencv # Sobel算子、Laplacian算子、Canny边缘检测、findContours、drawContours绘制轮廓、外接矩形

一、Sobel算子案例图片 cv2.Sobel(src, ddepth, dx, dy, ksize3, scale1, delta0, borderTypeNone) 功能：用于计算图像梯度（gradient）的函数参数： src: 输入图像，它应该是灰度图像。 ddepth: 输出图像的所需深度&am…...

编程日记 2024/12/19 15:27:12

Neo4j插入数据逐级提升速度4倍又4倍

语雀版：https://www.yuque.com/xw76/back/dtukgqfkfwg1d6yo 目录背景介绍初始方案Node()创建事务批量提交记录Node是否存在生成Cypher语句执行数据库参数优化切换成85k个三元组测试建索引（很显著！！！）MATCH…...

编程日记 2024/12/19 15:25:09

C++特殊类设计（单例模式等）

目录引言 1.请设计一个类，不能被拷贝 2. 请设计一个类，只能在堆上创建对象为什么设置实例的方法为静态成员呢 3. 请设计一个类，只能在栈上创建对象 4. 请设计一个类，不能被继承 5. 请设计一个类，只能创建一个对…...

编程日记 2024/12/19 15:22:01

J8学习打卡笔记

🍨 本文为🔗365天深度学习训练营中的学习记录博客🍖 原作者：K同学啊 Inception v1算法实战与解析导入数据数据预处理划分数据集搭建模型训练模型正式训练结果可视化详细网络结构图个人总结 import os, PIL, random, pathlib imp…...

编程日记 2024/12/19 15:17:56

前端学习-操作元素内容（二十二）

目录前言目标对象.innerText 属性对象.innerHTML属性案例年会抽奖需求方法一方法二总结前言曾经沧海难为水，除却巫山不是云。目标能够修改元素的文本更换内容 DOM对象都是根据标签生成的,所以操作标签,本质上就是操作DOM对象，…...

编程日记 2024/12/19 15:13:52

【踩坑】pip离线+在线在虚拟环境中安装指定版本cudnn攻略

pip离线在线在虚拟环境中安装指定版本cudnn攻略在线安装离线安装Windows环境：Linux环境： 清华源官方帮助文档 https://mirrors.tuna.tsinghua.edu.cn/help/pypi/ 标题的离线的意思是先下载whl文件再安装到虚拟环境，在线的意思是直接在当前虚…...

编程日记 2024/12/19 15:12:51

golang操作sqlite3加速本地结构化数据查询

目录摘要Sqlite3SQLite 命令SQLite 语法SQLite 数据类型列亲和类型——优先选择机制 SQLite 创建数据库SQLite 附加数据库SQLite 分离数据库 SQLite 创建表SQLite 删除表 SQLite Insert 语句SQLite Select 语句SQLite 运算符SQLite 算术运算符SQLite 比较运算符SQLite 逻辑运算…...

编程日记 2024/12/19 15:11:45

vllm加速（以Qwen2.5-7B-instruction为例）与流式响应

1. vllm介绍什么是vllm? vLLM 是一个高性能的大型语言模型推理引擎，采用创新的内存管理和执行架构，显著提升了大模型推理的速度和效率。它支持高度并发的请求处理，能够同时服务数千名用户，并且兼容多种深度学习框架，…...

编程日记 2024/12/19 15:04:38

WordPress弹窗公告插件-ts小陈

使用效果使用后网站所有页面弹出窗口插件特色功能设置弹窗公告样式：这款插件可展示弹窗样式公告，用户点击完之后不再弹出，不会频繁打扰用户。可设置弹窗中间的logo图：这款插件针对公告图片进行独立设置，你可以在设…...

编程日记 2024/12/19 14:57:31

【ELK】容器化部署Elasticsearch1.14.3集群【亲测可用】

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 1. 部署1.1 单节点1.2 新节点加入集群1.3 docker-compose部署集群 1. 部署按照官网流程进行部署使用 Docker 安装 Elasticsearch |Elasticsearch 指南 [8.14] |…...

编程日记 2024/12/19 14:55:29

[SAP ABAP] ALV状态栏GUI STATUS的快速创建

使用事务码SE38进入到指定程序，点击"显示对象列表"按钮鼠标右键，选择"GUI状态" 弹出【创建状态】窗口，填写状态以及短文本描述以后，点击按钮点击"调整模板"，复制已有程序的状态栏填…...

编程日记 2024/12/19 14:52:24

【Linux】NET9运行时移植到低版本GLIBC的Linux纯内核板卡上

背景介绍自制了一块Linux板卡(基于全志T113i) 厂家给的SDK和根文件系统能够提供的GLIBC的版本比较低 V2.25/GCC 7.3.1 这个版本是无法运行dotnet以及dotnet生成的AOT应用的我用另一块同Cortex-A7的板子运行dotnet的报错版本不够，运行不了而我的板子是根本就识…...

编程日记 2024/12/19 14:51:23

深入浅出支持向量机（SVM）

1. 引言支持向量机（SVM, Support Vector Machine）是一种常见的监督学习算法，广泛应用于分类、回归和异常检测等任务。自1990年代初期由Vapnik等人提出以来，SVM已成为机器学习领域的核心方法之一，尤其在模式识别、文本…...

编程日记 2024/12/19 14:50:21

Vue脚手架相关记录

脚手架安装与配置安装node node -> 16.20.2 切换淘宝镜像 npm install -g cnpm -registryhttp://registry.npm.taobao.orgnpm config set registry http://registry.npm.taobao.org/使用了第二个,下一步才有用安装vue npm install -g vue/clivscode中不给运行vue解…...

编程日记 2024/12/19 14:48:18

基于Docker的Minio分布式集群实践

目录 1. 说明 2. 配置表 3. 步骤 3.1 放行服务端口 3.2 docker-compose 编排 4. 入口反向代理与负载均衡配置 4.1 api入口 4.2 管理入口 5. 用例 6. 参考 1. 说明以多节点的Docker容器方式实现minio存储集群，并配以nginx反向代理及负载均衡作为访问入口。…...

编程日记 2024/12/19 14:44:14

华为云AI开发平台ModelArts

华为云ModelArts：重塑AI开发流程的“智能引擎”与“创新加速器”！ 在人工智能浪潮席卷全球的2025年，企业拥抱AI的意愿空前高涨，但技术门槛高、流程复杂、资源投入巨大的现实，却让许多创新构想止步于实验室。数据科学家…...

编程新知 2025/7/13 9:04:17

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

编程新知 2025/7/12 18:00:50

Vue记事本应用实现教程

文章目录 1. 项目介绍2. 开发环境准备3. 设计应用界面4. 创建Vue实例和数据模型5. 实现记事本功能5.1 添加新记事项5.2 删除记事项5.3 清空所有记事 6. 添加样式7. 功能扩展：显示创建时间8. 功能扩展：记事项搜索9. 完整代码10. Vue知识点解析10.1 数据绑…...

编程新知 2025/6/15 12:05:47

使用VSCode开发Django指南

使用VSCode开发Django指南一、概述 Django 是一个高级 Python 框架，专为快速、安全和可扩展的 Web 开发而设计。Django 包含对 URL 路由、页面模板和数据处理的丰富支持。本文将创建一个简单的 Django 应用，其中包含三个使用通用基本模板的页面。在此…...

编程新知 2025/7/11 21:14:17

逻辑回归：给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告（肿瘤大小、血液指标），你需要做出一个**决定性判断**：恶性还是良性？这种“非黑即白”的抉择，正是**逻辑回归（Logistic Regression）** 的战场&a…...

编程新知 2025/6/20 12:22:50

8k长序列建模，蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂

蛋白质结合剂（如抗体、抑制肽）在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上，高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术，但这类方法普遍面临资源消耗巨大、研发周期冗长…...

编程新知 2025/7/12 4:26:32

【位运算】消失的两个数字（hard）

消失的两个数字（hard） 题⽬描述：解法（位运算）：Java 算法代码：更简便代码题⽬链接：⾯试题 17.19. 消失的两个数字题⽬描述： 给定⼀个数组，包含从 1 到 N 所有…...

编程新知 2025/7/8 4:43:23

解决Ubuntu22.04 VMware失败的问题 ubuntu入门之二十八

现象1 打开VMware失败 Ubuntu升级之后打开VMware上报需要安装vmmon和vmnet，点击确认后如下提示最终上报fail 解决方法内核升级导致，需要在新内核下重新下载编译安装查看版本 $ vmware -v VMware Workstation 17.5.1 build-23298084$ lsb_release…...

编程新知 2025/7/10 10:28:03

Leetcode 3577. Count the Number of Computer Unlocking Permutations

Leetcode 3577. Count the Number of Computer Unlocking Permutations 1. 解题思路2. 代码实现题目链接：3577. Count the Number of Computer Unlocking Permutations 1. 解题思路这一题其实就是一个脑筋急转弯，要想要能够将所有的电脑解锁&#x…...

编程新知 2025/7/5 22:29:13

Auto-Coder使用GPT-4o完成：在用TabPFN这个模型构建一个预测未来3天涨跌的分类任务

通过akshare库，获取股票数据，并生成TabPFN这个模型可以识别、处理的格式，写一个完整的预处理示例，并构建一个预测未来 3 天股价涨跌的分类任务用TabPFN这个模型构建一个预测未来 3 天股价涨跌的分类任务，进行预测并输…...

编程新知 2025/6/26 20:21:28

机器学习预处理-表格数据的空值处理

目录

0、原始数据集空缺信息查看

1、删除空值所在行

2、删除空值所在列

3、使用中位数、均值进行填补

4、使用k-means算法进行补充

相关文章：