当前位置：首页 > news >正文

【数据评估与清洗】对数据结构和内容进行清洗

news 2026/2/9 0:50:56

评估数据

结构方面
- 需要清理：乱数据
- 不需要清理：整洁数据
  - 每列是一个变量
  - 每行是一个观察值
  - 每个单元格是一个值
内容方面
- 需要清理：脏数据
  - 丢失数据
  - 重复数据
  - 不一致数据
  - 无效或错误数据
- 不需要清理：干净数据

# 获取整体信息
df.info()
# 获取开头/结尾/随机数据来评估
df.head(10)
df.tail(10)
df.sample(10)
# 调整展示上限
pd.set_option("display.max_columns", 150)
pd.set_option("display.max_colwidth", 500)# 评估丢失数据
# 返回布尔值组成的Series或DataFrame
scores["考试2"].isnull()
df.isnull()
# 获取空缺值数量
scores["考试2"].isnull().sum()
df.isnull().sum()
# 提取丢失数据的行
scores[scores["考试2"].isnull()]# 评估重复数据
students["学号"].duplicated()
students.duplicated(subset=["学号","性别"])# 评估不一致数据
students["班级"].value_counts()# 评估无效/错误数据
# 排序
students["身高"].sort_values()
students.describe()

清洗数据

结构方面：更改为整洁数据结构
内容方面
- 丢失数据
  - 人工填入缺失值
  - 不处理缺失值
  - 把有缺失值的行删除
  - 用例如平均数等填充代替缺失值
- 重复数据：删除
- 不一致数据：统一
- 无效数据：删除或替换
- 数据类型转换
实际操作

# 重命名索引和列名(原变量不变，需要重新赋值或可选参数inplace=True
df1.rename(index={"2_":"2", "_5":"5", "6*":"6"})
df1.rename(columns={"2_":"2", "_5":"5", "6*":"6"})
df2.rename(index=某函数/方法）
df2.rename(columns=str.upper） # 大写
# 更多Series相关方法：https://pandas.pydata.org/docs/reference/api/pandas.Series.html
# 更多DataFrame相关方法：https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html# 重设索引
# 将列值作为索引
df3.set_index("Salesperson")
# 还原
df3.reset_index()# 对索引和列名重新排序(原变量不变，需要重新赋值或可选参数inplace=True
df4.sort_index()# 对数据进行转置
df1 = df1.T
# 对列进行拆分
df2[["人口", "面积"]] = df2["人口密度"].str.split("/", expand=True)
df2 = df2.drop("人口密度", axis=1)
# 把不同列合并成一列
df3["姓].str.cat(df3["名"], sep="-")
# 把宽数据转换成长数据（列名变成列值）
df4 = pf.melt(df4, id_vars=['不变的列名'], var_name='列名所在列列名', value_name='原列值所在列列名')
# 对行进行拆分
df5.explode("课程列表")
# 删除行，删除列(原变量不变，需要重新赋值或可选参数inplace=True
df6.drop(2)
df6.drop(["列","lie"],axis=1)# 对整列缺失值进行填充（索引定位）
df1["国家"] = "中国"
# 对某个缺失值进行填充
df2.loc["003":"004", "销售额"] = 800
# 自动找到缺失值进行填充
df4["B"].fillna(df["B"].mean())
df4.fillna(0)
df4.fillna({'A': 0, 'B': 10}) # 不同列可指定替换值
# 删除存在缺失值的行(原变量不变，需要重新赋值或可选参数inplace=True
df5.dropna()
df5.dropna(subset=["工资"]) # 控制范围
# 删除重复数据(原变量不变，需要重新赋值或可选参数inplace=True
df6["姓名"].drop_duplicates()
df6.drop_duplicates(subset=['a','b']， keep='last') #同时重复，保留最后
# 对值进行替换（不一致数据）(原变量不变，需要重新赋值或可选参数inplace=True
df7.replace(["hnu", "湖大"], "湖南大学")
df7.replace("hnu": "湖南大学")
# 对值的类型进行转换
# 分类数据建议转换为category，有利于减小内存，让Pandas自动选用合适的统计方法或图表类型
s1=pd.Series(["1","2","3"])
s1.astype("category")

保存数据(覆盖原始数据）

df1.to_csv("cleaned_sales_data.csv")
# 读取时会将索引作为第一列，需要更改列名并将其重新设置为索引# 写入时忽略索引(索引无关键信息）
df1.to_csv("cleaned_sales_data2.csv"， index=False)

【数据评估与清洗】对数据结构和内容进行清洗

评估数据结构方面需要清理：乱数据不需要清理：整洁数据每列是一个变量每行是一个观察值每个单元格是一个值内容方面需要清理：脏数据丢失数据重复数据不一致数据无效或错误数据不需要清理：干净数据 # 获取整体信息 df.in…...

编程日记 2024/9/27 4:47:30

机器学习和深度学习的区别

1. 基本概念 1.1 机器学习定义机器学习是人工智能的一个核心分支，它赋予计算机系统无需明确编程即可学习和改进的能力。通过分析大量数据，机器学习算法能够识别数据中的模式和趋势，从而做出预测或决策。这种方法通常涉及统计模型和优化技术…...

编程日记 2024/9/27 4:46:29

UE虚幻引擎云渲染汽车动画的优势！

在汽车广告和动画制作领域，虚幻引擎（UE）结合云渲染技术正掀起一场技术革命。这项技术以其高性能、成本效益和灵活性，为创作者提供了强大的工具，以实现更加逼真和高效的汽车动画制作。一、为什么选择UE虚幻引擎制作汽车…...

编程日记 2024/9/27 4:45:28

Teams集成-会议侧边栏应用开发-实时转写

Teams虽然提供了转写的接口，但是不是实时的，即便使用订阅事件也不是实时的，为了达到实时转写的效果，使用recall.ai的转录和assembly_ai的转写实现。前提：除Teams会议侧边栏应用开发-会议转写-CSDN博客的基本要求外&a…...

编程日记 2024/9/27 4:44:27

归并排序，外排序，计数排序(非比较排序)

归并排序：（MERGE-SORT）是建立在归并操作上的一种有效的排序算法,该算法是采用分治法（Divide and Conquer）的一个非常典型的应用。将已有序的子序列合并，得到完全有序的序列；即先使每个子序列有序…...

编程日记 2024/9/27 4:43:26

1. 启动 2.相关配置 2.1 data.yaml path: D:/yolo-tool/yaunshen-yolov8/YOLOv8ys/YOLOv8-CUDA10.2/1/datasets/ceshi001 train: images val: images names: [蔡徐坤,篮球] 2.2 cfg.yaml # Ultralytics YOLOv8, GPL-3.0 license # Default training settings and hyp…...

编程日记 2024/9/27 4:42:25

JavaScript 学习

一、输出为方便调试可以输出内容，但是用户是看不到的。要在开发者模式中看。 console . log ( "Hello" )； 二、外部文件引用可以直接在html中写JS <head> <meta charset"utf-8"> <script> console.log("he…...

编程日记 2024/9/27 4:40:23

【算法】分治：归并之 912.排序数组（medium)

系列专栏双指针模拟算法分治思想目录 1、题目链接 2、题目介绍 3、解法解决方案选择解题步骤 4、代码 1、题目链接 912. 排序数组 - 力扣（LeetCode） 2、题目介绍给你一个整数数组 nums，请你将该数组升序排列。你必须在 …...

编程日记 2024/9/27 4:39:22

Cocos 3.8.3 实现外描边效果（逃课玩法）

本来想着用Cocos 的Shader Graph照搬Unity的思路来加外描边，发现不行，然后我就想弄两个物体不就行了吗，一个是放大的版本，再放大的版本上加一个材质，这个材质面剔除选择前面的面剔除就行了，果不其然还真行。…...

编程日记 2024/9/27 4:38:21

著名建筑物检测与识别系统源码分享

著名建筑物检测与识别检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Comp…...

编程日记 2024/9/27 4:37:20

使用php生成图片

可以用这方法生成图片水印字体可以在资源绑定下载，如果字体路径不对，则不会输出文字图片 public function generateImage($text,$id) { header("Cache-Control: no-cache, must-revalidate"); header("Expires: Mon, 26 Jul 1997 05:0…...

编程日记 2024/9/27 4:36:19

C++ 数据类型分类

在C中，数据类型可以大致分为内置类型（Built-in Types）、标准库类型（Standard Library Types）和自定义类型（User-Defined Types）三大类。内置类型（Built-in Types） 内置…...

编程日记 2024/9/27 4:35:18

java安装更新jdk11后设置环境JAVA_HOME

背景，已经安装成功，但是环境还是java1.8 java -version openjdk version "11.0.23" 2024-04-16 LTS OpenJDK Runtime Environment (Red_Hat-11.0.23.0.9-2.el7_9) (build 11.0.23+9-LTS) OpenJDK 64-Bit Server VM (Red_Hat-11.0.23.0.9-2.el7_9) (build 11.0.…...

编程日记 2024/9/27 4:30:10

Java.动态代理

1.创建一个接口 package Mydynamicproxy1;public interface Star {public abstract String sing(String str);public abstract void dance(String str); }2.创建一个BigStar类，要实现Star这个接口 package Mydynamicproxy1;public class BigStar implements Star{…...

编程日记 2024/9/27 4:28:06

SpringBoot自定义异常

前言在前后端开发中，后端接口返回的数据都是JSON格式的，但是后端可能会出现一些可以未知从异常，在后端抛出这些异常的时候，也需要返回相同格式的JSON数据，这时候就需要我们设置全局异常处理器。在后端开发中&#xf…...

编程日记 2024/9/27 4:27:06

华为源NAT技术与目的NAT技术

1）源NAT对报文源地址进行转换，分为NAT NO-PAT，NAPT,EASY-IP,三元组NAT； （1）NAT NO-PAT原理： no-port address translation:非端口地址转换：只转换地址，不转换端口&…...

编程日记 2024/9/27 4:23:02

人工智能与机器学习原理精解【25】

文章目录正则化概述一、正则化的种类二、正则化的定义三、正则化的计算四、正则化的性质五、正则化的例子公式与计算一、正则化的种类Dropout正则化一、基本思想二、实现方法三、作用机制四、使用注意事项五、总结Dropout正则化的例子和公式。一、Dropout正则化的例子二、Dro…...

编程日记 2024/9/27 4:19:58

一篇文章讲清楚synchronized关键字的作用及原理

概述在应用Sychronized关键字时需要把握如下注意点： 一把锁只能同时被一个线程获取，没有获得锁的线程只能等待； 每个实例都对应有自己的一把锁(this),不同实例之间互不影响；例外：锁对象是*.class以及synchronized修…...

编程日记 2024/9/27 4:18:57

深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

原始信息论文： Well-Read Students Learn Better: On the Importance of Pre-training Compact Models作者：Iulia Turc, Ming-Wei Chang, Kenton Lee, Kristina Toutanova地址：arxiv.org/pdf/1908.08…中文：阅读良好的学生学得更…...

编程日记 2024/9/27 4:17:55

【HarmonyOS】深入理解@Observed装饰器和@ObjectLink装饰器：嵌套类对象属性变化

【HarmonyOS】深入理解Observed装饰器和ObjectLink装饰器：嵌套类对象属性变化前言之前就Observed和ObjectLink写过一篇讲解博客【HarmonyOS】多层嵌套对象通过ObjectLink和Observed实现渲染更新处理！ 其中就Observe监听类的使用，Object…...

编程日记 2024/9/27 4:16:54

在软件开发中正确使用MySQL日期时间类型的深度解析

在日常软件开发场景中，时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志，到供应链系统的物流节点时间戳，时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库，其日期时间类型的…...

编程新知 2025/10/16 13:22:06

【Go】3、Go语言进阶与依赖管理

前言本系列文章参考自稀土掘金上的【字节内部课】公开课，做自我学习总结整理。 Go语言并发编程 Go语言原生支持并发编程，它的核心机制是 Goroutine 协程、Channel 通道，并基于CSP（Communicating Sequential Processes&#xff0…...

编程新知 2025/10/7 0:32:40

视频字幕质量评估的大规模细粒度基准

大家读完觉得有帮助记得关注和点赞！！！ 摘要视频字幕在文本到视频生成任务中起着至关重要的作用，因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型（VLMs）在字幕生成方面…...

编程新知 2026/2/6 9:24:15

免费PDF转图片工具

免费PDF转图片工具一款简单易用的PDF转图片工具，可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件，也不需要在线上传文件，保护您的隐私。工具截图主要特点 🚀 快速转换：本地转换，无需等待上…...

编程新知 2026/1/26 9:07:56

站群服务器的应用场景都有哪些？

站群服务器主要是为了多个网站的托管和管理所设计的，可以通过集中管理和高效资源的分配，来支持多个独立的网站同时运行，让每一个网站都可以分配到独立的IP地址，避免出现IP关联的风险，用户还可以通过控制面板进行管理功…...

编程新知 2025/9/1 19:01:24

【JVM】Java虚拟机（二）——垃圾回收

目录一、如何判断对象可以回收 （一）引用计数法 （二）可达性分析算法二、垃圾回收算法 （一）标记清除 （二）标记整理 （三）复制 （四&#xff…...

编程新知 2026/1/31 9:49:23

计算机基础知识解析：从应用到架构的全面拆解

目录前言 1、计算机的应用领域：无处不在的数字助手 2、计算机的进化史：从算盘到量子计算 3、计算机的分类：不止 “台式机和笔记本” 4、计算机的组件：硬件与软件的协同 4.1 硬件：五大核心部件 4.2 软件&#…...

编程新知 2026/1/31 9:44:27

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement 1. LAB环境2. L2公告策略2.1 部署Death Star2.2 访问服务2.3 部署L2公告策略2.4 服务宣告 3. 可视化 ARP 流量3.1 部署新服务3.2 准备可视化3.3 再次请求 4. 自动IPAM4.1 IPAM Pool4.2 …...

编程新知 2026/2/5 17:29:21

渗透实战PortSwigger靶场：lab13存储型DOM XSS详解

进来是需要留言的，先用做简单的 html 标签测试发现面的</h1>不见了数据包中找到了一个loadCommentsWithVulnerableEscapeHtml.js 他是把用户输入的<>进行 html 编码，输入的<>当成字符串处理回显到页面中，看来只是把用户输…...

编程新知 2026/2/4 18:11:56

【UE5 C++】通过文件对话框获取选择文件的路径

目录效果步骤源码效果步骤 1. 在“xxx.Build.cs”中添加需要使用的模块 ，这里主要使用“DesktopPlatform”模块 2. 添加后闭UE编辑器，右键点击 .uproject 文件，选择 "Generate Visual Studio project files"，重…...

编程新知 2026/2/7 16:24:49

【数据评估与清洗】对数据结构和内容进行清洗

评估数据

清洗数据

保存数据(覆盖原始数据）

相关文章：

【数据评估与清洗】对数据结构和内容进行清洗

机器学习和深度学习的区别

UE虚幻引擎云渲染汽车动画的优势！

Teams集成-会议侧边栏应用开发-实时转写

归并排序，外排序，计数排序(非比较排序)

使用离火插件yoloV8数据标注，模型训练

JavaScript 学习

【算法】分治：归并之 912.排序数组（medium)

Cocos 3.8.3 实现外描边效果（逃课玩法）

著名建筑物检测与识别系统源码分享

使用php生成图片

C++ 数据类型分类

java安装更新jdk11后设置环境JAVA_HOME

Java.动态代理

SpringBoot自定义异常

华为源NAT技术与目的NAT技术

人工智能与机器学习原理精解【25】

一篇文章讲清楚synchronized关键字的作用及原理

深度学习模型之BERT的24个小模型源码与预训练紧凑模型的重要性

【HarmonyOS】深入理解@Observed装饰器和@ObjectLink装饰器：嵌套类对象属性变化

在软件开发中正确使用MySQL日期时间类型的深度解析

【Go】3、Go语言进阶与依赖管理

视频字幕质量评估的大规模细粒度基准

免费PDF转图片工具

站群服务器的应用场景都有哪些？

【JVM】Java虚拟机（二）——垃圾回收

计算机基础知识解析：从应用到架构的全面拆解

Cilium动手实验室: 精通之旅---13.Cilium LoadBalancer IPAM and L2 Service Announcement

渗透实战PortSwigger靶场：lab13存储型DOM XSS详解

【UE5 C++】通过文件对话框获取选择文件的路径