当前位置：首页 > news >正文

数据分析--观察数据处理异常值

news 2026/5/16 6:52:15

引包：

import pandas as pd
import  numpy as np

读取文件：

df=pd.read_csv('./HR.csv')

文件见绑定资源（来自kaggle的HR.csv）

处理过程：

一、从df中拿出处理对象

二、找出缺失值的位置并删除

s1_s=df['satisfaction_level']
# s1_s.isnull()
#查找空值
print(s1_s[s1_s.isnull()])
# 查看空值的具体情况
print(df[df['satisfaction_level'].isnull()])
# 删除空值
s1_s=s1_s.dropna()
# print(s1_s)

三、观察数据组成情况

（均值。中位数、最大值最小值、标准差、偏度和峰度.......）

print(s1_s.mean())#均值
print(s1_s.median())#中位数
print(s1_s.std())#标准差
print(s1_s.max())#最大值
print(s1_s.min())#最小值
print(s1_s.quantile(q=0.25))#下四分位数
print(s1_s.quantile(q=0.75))#上四分位数
print(s1_s.skew())#偏度=-0.4763...为负偏--均值偏小，大部分数大于均值
print(s1_s.kurt())#峰度=-0.67...-->相对于正态分布来说属于比较平缓的状态

(获取离散化的分布用numpy.histogram)

 获取离散化的分布用numpy.histogram
s=np.histogram(s1_s.values,bins=np.arange(0.0,1.1,0.1))# series的值  bins：切分的临界
print(s)
# 输出：              (array([ 195, 1214,  532,  974, 1668, 2146, 1972, 2074, 2220, 2004],# dtype=int64), array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ]))

其他列的数据也是同上三部的操作代码如下：

（多了一个删除异常值）

le_s=df['last_evaluation']
print(le_s[le_s.isnull()])print(le_s.mean())#均值
print(le_s.std())#标准差
print(le_s.max())#最大值
print(le_s.min())#最小值
print(le_s.median())#中位数
print(le_s.skew())#偏度
print(le_s.kurt())#峰度
print(df['last_evaluation'].describe())
print(df.describe())q_low=le_s.quantile(q=0.25)
q_high=le_s.quantile(q=0.75)
q_interval=q_high-q_low
k=1.5
le_s=le_s[le_s<q_high+k*q_interval][le_s>q_low-k*q_interval]
print(le_s)
print(np.histogram(le_s.values,bins=np.arange(0.0,1.1,0.1)))#处理number_project
np_s=df['number_project']
print(np_s[np_s.isnull()])np_s=np_s.dropna()
print('====')
print(np_s)
# print(np_s.skew())k=1.5
np_s1=np_s.quantile(0.25)
np_s2=np_s.quantile(0.75)
np_ss=np_s2-np_s1
np_s=np_s[np_s<np_s2+k*np_ss][np_s>np_s1-k*np_ss]
print(np_s)
print(np_s.describe())
# 查看数据的个数
print(np_s.value_counts())
# 查看各个数据所占的比例
print(np_s.value_counts(normalize=True))
#                        normalize：输出占比比例
# 按照index排序和values排序
print(np_s.value_counts(normalize=True).sort_index())
print(np_s.value_counts(normalize=True).sort_values())# 处理average_montly_hours
amh_s=df['average_montly_hours']
# print(amh_s)
print(amh_s[amh_s.isnull()])
amh_s=amh_s.dropna()
# print('===\n',amh_s[amh_s.isnull()])
# print(amh_s)
# print(amh_s.describe())
Upper_q=amh_s.quantile(q=0.75)
Lower_q=amh_s.quantile(q=0.25)
q=Upper_q-Lower_q
amh_s=amh_s[amh_s<=Upper_q+q*1.5][amh_s>=Lower_q-q*1.5]
print(amh_s)
# 输出偏度和峰度
print(amh_s.skew(),amh_s.kurt())

观察数值的分布情况

使用了histogram和可视化两个方法


# 方法一
print(np.histogram(amh_s.values,bins=10))
# print(np.histogram(amh_s.values,bins=np.arange(amh_s.min(),amh_s.max()+10,10)))
# # 方法二：画图--利用直方图来观察数据的分布情况
# import matplotlib.pyplot as plt
# plt.hist(amh_s.values,np.arange(amh_s.min(),amh_s.max()+10,10))
# plt.show()

其他列的简单操作大部分都是删除空值

tsc_s=df['time_spend_company']
# print(tsc_s)
x=tsc_s[tsc_s.isnull()]
# print(x)
tsc_s=tsc_s.dropna()
# print(tsc_s)
print(tsc_s.min(),tsc_s.max(),tsc_s.kurt(),tsc_s.skew(),tsc_s.std())
uper_q=tsc_s.quantile(q=0.75)
lower_q=tsc_s.quantile(q=0.25)
q=uper_q-lower_q
tsc_s=tsc_s[tsc_s<uper_q+q*1.5][tsc_s>lower_q-q*1.5]
print(tsc_s)
print(tsc_s.min(),tsc_s.max(),tsc_s.kurt(),tsc_s.skew(),tsc_s.std())
print(tsc_s.value_counts().sort_index())
print(np.histogram(tsc_s.values,bins=np.arange(tsc_s.min(),tsc_s.max()+1,1)))wa_s=df['Work_accident']
print(wa_s)
wa_s.value_counts()
wa_s=wa_s[wa_s==0.0]
print(wa_s)lf_s=df['left']
print(lf_s)
lf_s=lf_s[lf_s==1.0]
print(lf_s)
print(lf_s.value_counts())pro_s=df['promotion_last_5years']
print(pro_s)
pro_s=pro_s[pro_s==0.0]
print(pro_s)
print(pro_s.value_counts())s_s=df['salary']
print(s_s)
s_s=s_s.dropna()
print(s_s)
print(s_s.value_counts())dpt_s=df['sales']
print(dpt_s)
dpt_s=dpt_s.dropna()
print(dpt_s)
dpt_s.where()
print(dpt_s.value_counts())say_s=df['salary']

其实删除空值只需一行代码上面是为了一列一列的观察数据查看还有没有其他的异常值：

df=df.dropna(axis=0,how='any')

意思是删除只要有空值的行。

对比分析：

（将不同列放在一起观察并分析数据）

这里的代码类似与sql的DQL代码


df=df.dropna(axis=0,how='any')
# print(df)df1=df.groupby('sales').min()
print(df1)
df2=df.loc[:,['satisfaction_level','sales']].groupby('sales').mean()
print(df2)
print('=====')
# 输出极差
df3=df.loc[:,['average_montly_hours','sales']].groupby('sales')['average_montly_hours'].apply(lambda x:x.max()-x.min())
print(df3)
print(df['salary'].value_counts())
print(len(df['salary'].value_counts()))

简单的可视化操作：

这里用到的是matplotlib

import matplotlib.pyplot as plt
plt.title('salary')
plt.xlabel('salary_zhonglei')
plt.ylabel('shuliang')
plt.xticks(np.arange(len(df['salary'].value_counts())),df['salary'].value_counts().index)
# bottom=['low','medium','high']
plt.axis([-1,3,0,10000])
plt.bar(np.arange(len(df['salary'].value_counts())),df['salary'].value_counts(),width=0.4)
for x,y in zip(np.arange(len(df['salary'].value_counts())),df['salary'].value_counts()):plt.text(x,y,y,ha='center',va='bottom')# ha = 'center', va = 'bottom'
plt.show()

数据分析--观察数据处理异常值

引包： import pandas as pd import numpy as np 读取文件： dfpd.read_csv(./HR.csv) 文件见绑定资源（来自kaggle的HR.csv） 处理过程： 一、从df中拿出处理对象二、找出缺失值的位置并删除 s1_sdf[satisfactio…...

编程日记 2023/10/7 19:03:33

vue3+elementPlus el-input的type=“number“时去除右边的上下箭头

改成代码如下 <script lang"ts" setup> import {ref} from vue const inputBtn ref() </script> <template><el-input type"number" v-model"inputBtn" style"width: 80px;" class"no_number">…...

编程日记 2023/10/7 19:02:33

华为云云耀云服务器L实例评测｜Elasticsearch的可视化Kibana工具安装 IK分词器的安装和使用

前言最近华为云云耀云服务器L实例上新，也搞了一台来玩，期间遇到各种问题，在解决问题的过程中学到不少和运维相关的知识。本篇博客介绍Elasticsearch的可视化Kibana工具安装，以及IK分词器的安装和使用。其他相关的Elasticsea…...

编程日记 2023/10/7 19:00:30

加密货币交易技巧——人和（一）

交易原则本篇主要讲述加密货币交易人需要注意的几个原则。 1.不能贪心，具体表现在做好仓位管理。第一，不要重仓进去，一定要轻仓。第二，开仓就想好本次要赚多少钱，不要太贪，到了预期点就止盈。第三&am…...

编程日记 2023/10/7 18:58:27

数学建模：最优化问题及其求解概述

数学建模：最优化问题及其求解概述最优化问题定义分类离散优化问题连续优化问题求解此博客围绕运筹学以及最优化理论的相关知识，通俗易懂地介绍了最优化问题的定义、分类以及求解算法。最优化问题定义数学优化（Mathematical Optimiza…...

编程日记 2023/10/7 18:57:26

企业办理CS资质，怎么选择办理等级？

信息系统建设和服务能力等级证书（Information system construction and service—Capability assessment system，简称：CS），由中国电子信息行业联合会组织开展的第三方评估活动，是根据《信息系统建设和服务能…...

编程日记 2023/10/7 18:56:24

华为云云耀云服务器L实例评测｜Huawei Cloud EulerOS 自动化环境部署

[toc] Huawei Cloud EulerOS 自动化环境部署云耀云服务器L实例【Huawei Cloud EulerOS 2.0 64bit】 Python Git Google Chrome Chromedriver Selenium More… 1. Python 镜像创建后自带。 2.Git 拉取项目。 sudo yum install git3. Google Chrome 使用root权限或sudo权…...

编程日记 2023/10/7 18:53:22

从一张表格开始做挖机报价系统

一、前言历时4个月的挖机销售报价系统进入收尾阶段，由我直接负责与业务方对接，这中间各种折腾真是一言难尽，项目开发过程中还要维护POS系统以及牛奶配送系统，本项目我们采用的是迭代开发，今天讲一下具体的开发过程以…...

编程日记 2023/10/7 18:52:21

Qt扫盲-QTreeView 理论总结

QTreeView 理论使用总结一、概述二、快捷键绑定三、提高性能四、简单实例1. 设计与概念2. TreeItem类定义3. TreeItem类的实现4. TreeModel类定义5. TreeModel类实现6. 在模型中设置数据一、概述 QTreeView实现了 model 中item的树形表示。这个类用于提供标准的层次列表&…...

编程日记 2023/10/7 18:51:19

BF算法详解（JAVA语言实现）

目录 BF算法的介绍图解 JAVA语言实现 BF算法的时间复杂度 BF算法的介绍 BF算法，即暴力(Brute Force)算法，是普通的模式匹配算法，BF算法的思想就是将目标串S的第一个字符与模式串T的第一个字符进行匹配，若相等，则继…...

编程日记 2023/10/7 18:48:17

零基础转行网络工程师，过来人给的一些建议

最近收到好多同学的一些提问，零基础没经验，能不能转行到网络工程师？薪资能有多少？发展前景怎么样？ 应该有不少朋友都有这个疑问，那么，今天我尽量给大家做出一个详细的解答，希望能有…...

编程日记 2023/10/7 18:47:15

Vue中如何进行分布式搜索与全文搜索（如Elasticsearch）

在Vue中实现分布式搜索与全文搜索（使用Elasticsearch） 分布式搜索和全文搜索在现代应用程序中变得越来越重要，因为它们可以帮助用户快速查找和检索大量数据。Elasticsearch是一种强大的分布式搜索引擎，它可以用于实现高性能的全文…...

编程日记 2023/10/7 18:45:13

数据结构-图-最小生成树问题

最小生成树并查集定义举例说明查找某个元素属于哪个集合代码实现路径压缩 Kruskal算法原理代码实现 Prim算法原理代码实现并查集定义 🚀在一些应用问题中，需要将n个不同的元素分成一些不相交的集合。开始时，每个元素自成一个单元素集合&…...

编程日记 2023/10/7 18:44:11

使用vite+npm封装组件库并发布到npm仓库

组件库背景：使用elementplusvue封装了一个通过表单组件。通过JSX对el-form下的el-input和el-button等表单进行统一封装，最后达到，通过数据即可一键生成页面表单的功能。 1.使用vite创建vue项目 npm create vitelatest elementplus-auto-form…...

编程日记 2023/10/7 18:41:08

85.最大矩形

单调栈，时间复杂度o(mn)，空间复杂度o(mn) class Solution { public:int maximalRectangle(vector<vector<char>>& matrix) {int mmatrix.size();if(m0){return 0;}int nmatrix[0].size();//记录矩阵中每个元素左边连续1的数量vector<…...

编程日记 2023/10/7 18:39:05

Windows服务器开机自启动服务

1、新建txt，并粘贴下面脚本 start cmd /k "cd /d D:\ahjd&&java -jar clips-admin.jar" start cmd /k "cd /d D:\ahjd\dist&&simple-http-server.exe -i -p 8000"说明，脚本格式为：start cmd /k “cd /d…...

编程日记 2023/10/7 18:37:03

《算法通关之路》chapter17一些通用解题模板

《算法通关之路》学习笔记，记录一下自己的刷题过程，详细的内容请大家购买作者的书籍查阅。 1 二分法 1.1 普通二分法 # 查找nums数组中元素值为target的下标。如果不存在，则返回-1def bs(nums: list[int], target: int) -> int :l, h …...

编程日记 2023/10/7 18:35:01

常用求解器安装

1 建模语言pyomo Pyomo是一个Python建模语言，用于数学优化建模。它可以与不同的求解器（如Gurobi，CPLEX，GLPK，SCIP等）集成使用，以求解各种数学优化问题。可以使用Pyomo建立数学优化模型&#xf…...

编程日记 2023/10/7 18:34:00

第三章：最新版零基础学习 PYTHON 教程（第一节 - Python 运算符）

在Python编程中，运算符一般用于对值和变量进行操作。这些是用于逻辑和算术运算的标准符号。在本文中，我们将研究不同类型的Python 运算符。运算符：这些是特殊符号。例如- + 、 * 、 / 等。操作数：它是应用运算符的值。目录 Python 中的运算符类型 Python 中的算术运算符…...

编程日记 2023/10/7 18:32:59

细粒度特征提取和定位用于目标检测：PPCNN

1、简介近年来，深度卷积神经网络在计算机视觉上取得了优异的性能。深度卷积神经网络以精确地分类目标信息而闻名，并采用了简单的卷积体系结构来降低图层的复杂性。基于深度卷积神经网络概念设计的VGG网络。VGGNet在对大规模图像进行分类方面取得了巨大…...

编程日记 2023/10/7 18:29:55

PCB 设计避坑指南｜从基础规范到制造验证，一文吃透所有核心规则

1 设计基础规范1.1 文件命名与管理PCB 命名遵循 “产品型号功能代码设计序号版本” 格式，例如 “AIP25-Lab-V1.0” 。严禁直接覆盖旧版文件，确保设计版本的可追溯性和规范性。1.2 材料与工艺选择1.2.1.基材采用 FR4 环氧玻璃布。 1.2.2 板厚厚度范…...

编程新知 2026/5/16 6:31:07

嵌入式游戏开发实战：在4x8 LED点阵上用CircuitPython复刻FlappyBird

1. 项目概述：在4x8的像素矩阵上“复活”FlappyBird如果你玩过嵌入式开发，尤其是用那些小巧的微控制器板子，可能会觉得游戏开发离它们很远——资源有限，没有图形库，怎么搞？但恰恰是这种限制，最能…...

编程新知 2026/5/16 5:38:18

用STC89C52单片机+ADC0832做个智能台灯：手把手教你实现PWM调光和光敏自动控制

从零打造智能台灯：STC89C52与ADC0832的完美结合记得第一次在宿舍熬夜赶项目时，刺眼的台灯总让我眼睛酸涩不已。那时我就在想，如果能有一个能自动调节亮度的台灯该多好。今天，我们就用STC89C52单片机和ADC0832模数转换器&#xff…...

编程新知 2026/5/16 5:27:35

Spring源码全家桶核心宝典，Java程序员提升基础内功必备！

Spring是我们Java程序员面试和工作都绕不开的重难点。很多粉丝就经常跟我反馈说由Spring衍生出来的一系列框架太多了，根本不知道从何下手；大家学习过程中大都不成体系，但面试的时候都上升到源码级别了，你不光要清楚了解Spring源码…...

编程新知 2026/5/16 5:05:25

保姆级拆解：用代码和图示彻底搞懂YOLOv7的Backbone与Head（附ELAN模块详解）

保姆级拆解：用代码和图示彻底搞懂YOLOv7的Backbone与Head（附ELAN模块详解） 在计算机视觉领域，目标检测一直是热门研究方向。YOLO系列作为其中的佼佼者，以其高效和准确著称。YOLOv7作为该系列的最新成员，在速…...

编程新知 2026/5/16 5:03:12

LightGlue深度解析：自适应神经网络特征匹配架构剖析与性能优化

LightGlue深度解析：自适应神经网络特征匹配架构剖析与性能优化【免费下载链接】LightGlue LightGlue: Local Feature Matching at Light Speed (ICCV 2023) 项目地址: https://gitcode.com/gh_mirrors/li/LightGlue LightGlue作为ICCV 2023提出的革命性特征…...

编程新知 2026/5/16 4:54:41

树莓派Pico舵机控制库picoclaw：从PWM原理到多舵机机器人应用

1. 项目概述：一个为树莓派Pico量身打造的舵机控制库如果你玩过树莓派Pico，并且尝试过用它来控制舵机，那你大概率会遇到一个头疼的问题：Pico的MicroPython固件本身并没有内置专门的舵机控制库。这意味着你需要自己动手，…...

编程新知 2026/5/16 3:19:32

BilibiliDown：专业级B站视频下载工具，高效构建个人媒体库

BilibiliDown：专业级B站视频下载工具，高效构建个人媒体库【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.co…...

编程新知 2026/5/15 23:10:16

番茄小说下载器：全平台小说下载与有声书生成解决方案

番茄小说下载器：全平台小说下载与有声书生成解决方案【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 在数字阅读时代，你是否曾为无法离线阅读喜爱的小说…...

编程新知 2026/5/15 21:35:38

智能助手会话上下文管理：基于向量检索的长期记忆与多技能协作实践

1. 项目概述与核心价值最近在折腾一个基于大语言模型的智能助手项目，发现一个挺有意思的痛点：如何让AI在持续的对话中，不仅能记住当前聊了什么，还能“聪明地”回忆起我们之前讨论过的所有相关背景？比如，你昨…...

编程新知 2026/5/15 21:13:36

相关文章：