yjs12——pandas缺失值的处理
1.缺失值的表示
正常来说,pandas缺失值是“nan”表示,但是有且文件可能自己改成了相应的别的符号
2.如何将缺失值符号改成nan
xxx.replace(to_replace="...",value=np.nan)
3.判断是否有缺失值
1.pd.notnull(xxx)————如果有缺失,则在缺失处返回false2.pd.isnull(xxx)——————如果有缺失,在缺失处返回True在判断缺失时,我们常常要的是最后的结果,不是这个表的所有数据的true/false
所以常常搭配 numpy中的all或者any来进行数据的判断
notnull——如果数据有缺失值,该处返回false,np.all在外嵌套,一旦不全是true,就会返回false,所以一旦有缺失,最终返回false np.all(pd.notnull(data))isnull————一旦有数据缺失,isnull就会在该处返回true;np.any在外嵌套,如果数据存在true,就会返回true。综上所述,一旦有缺失,就会返回true np.any(pd.isnull(data))
4.缺失值的替换、删除
# 替换——xx=xxx.fillna(替换后的值,inplace=True、False) inplace=True,原数据也会替换,=False,原数据不会做出改变# 删除———xx=xxx.dropna()删除操作不会对原数据进行改变一般的写法:
for i in data_drop.columns:if np.any(pd.isnull(data_drop[i])) == True:data_drop[i].dropna() print(data_drop)
代码:
# 缺失值的处理
import pandas as pd
import numpy as np
from pandas import DataFrame# 1.引入文件
data = pd.read_csv("E:/研究生/机器学习/百度云笔记/data/s1.csv")
data_replace = data
data_drop = data# 2.查看是否有缺失值
print(np.all(pd.notnull(data)))
# notnull——如果数据有缺失值,该处返回false,np.all在外嵌套,一旦不全是true,就会返回false,所以一旦有缺失,最终返回falseprint(np.any(pd.isnull(data)))
# isnull————一旦有数据缺失,isnull就会在该处返回true;np.any在外嵌套,如果数据存在true,就会返回true。综上所述,一旦有缺失,就会返回true
"""注意搭配:np.all与notnull搭配,np.any与isnull搭配"""# 3.缺失值的查找+替换、删除
# 替换——xxx.fillna(替换后的值,inplace=True、False)
for i in data_replace.columns:if np.any(pd.isnull(data_replace[i])) == True:data_replace[i].fillna(data_replace[i].mean(), inplace=False)
print(data)
print(data_replace)# 删除———xxx.dropna()
for i in data_drop.columns:if np.any(pd.isnull(data_drop[i])) == True:data_drop[i].dropna()
print(data)
print(data_drop)# 当缺失值不是nan形式,如何替换?
data1=pd.read_csv("E:/研究生/机器学习/百度云笔记/data/Salary_1.csv")
data1.replace(to_replace="?",value=np.nan)
print(data1)
结果:
False
True
Unnamed: 0 Rk PLAYER ... PACE W SALARY_MILLIONS
0 0 1 Russell Westbrook ... 102.31 46 26.50
1 1 2 James Harden ... 102.98 54 26.50
2 2 3 Isaiah Thomas ... 99.84 51 26.50
3 3 4 Anthony Davis ... 100.19 31 NaN
4 4 6 DeMarcus Cousins ... 97.11 30 NaN
5 5 7 Damian Lillard ... 99.68 38 24.33
6 6 8 LeBron James ... 98.38 51 30.96
7 7 9 Kawhi Leonard ... 95.79 54 31.30[8 rows x 13 columns]
Unnamed: 0 Rk PLAYER ... PACE W SALARY_MILLIONS
0 0 1 Russell Westbrook ... 102.31 46 26.50
1 1 2 James Harden ... 102.98 54 26.50
2 2 3 Isaiah Thomas ... 99.84 51 26.50
3 3 4 Anthony Davis ... 100.19 31 NaN
4 4 6 DeMarcus Cousins ... 97.11 30 NaN
5 5 7 Damian Lillard ... 99.68 38 24.33
6 6 8 LeBron James ... 98.38 51 30.96
7 7 9 Kawhi Leonard ... 95.79 54 31.30[8 rows x 13 columns]
Unnamed: 0 Rk PLAYER ... PACE W SALARY_MILLIONS
0 0 1 Russell Westbrook ... 102.31 46 26.50
1 1 2 James Harden ... 102.98 54 26.50
2 2 3 Isaiah Thomas ... 99.84 51 26.50
3 3 4 Anthony Davis ... 100.19 31 NaN
4 4 6 DeMarcus Cousins ... 97.11 30 NaN
5 5 7 Damian Lillard ... 99.68 38 24.33
6 6 8 LeBron James ... 98.38 51 30.96
7 7 9 Kawhi Leonard ... 95.79 54 31.30[8 rows x 13 columns]
Unnamed: 0 Rk PLAYER ... PACE W SALARY_MILLIONS
0 0 1 Russell Westbrook ... 102.31 46 26.50
1 1 2 James Harden ... 102.98 54 26.50
2 2 3 Isaiah Thomas ... 99.84 51 26.50
3 3 4 Anthony Davis ... 100.19 31 NaN
4 4 6 DeMarcus Cousins ... 97.11 30 NaN
5 5 7 Damian Lillard ... 99.68 38 24.33
6 6 8 LeBron James ... 98.38 51 30.96
7 7 9 Kawhi Leonard ... 95.79 54 31.30[8 rows x 13 columns]
Rk PLAYER POSITION AGE ... PIE PACE W SALARY_MILLIONS
0 1 Russell Westbrook PG 28 ... 23.0 102.31 46 26.5
1 2 James Harden PG 27 ... 19.0 102.98 54 26.5
2 3 Isaiah Thomas PG 27 ... 16.1 99.84 51 26.5
3 4 Anthony Davis C 23 ... 19.2 100.19 31 ?
4 6 DeMarcus Cousins C 26 ... 17.8 97.11 30 16.96
5 7 Damian Lillard PG 26 ... 15.9 99.68 38 24.33
6 8 LeBron James SF 32 ... 18.3 98.38 51 30.96
7 9 Kawhi Leonard SF 25 ... 17.4 95.79 54 ?[8 rows x 12 columns]
进程已结束,退出代码为 0
注意:
1.any与all是np的函数,并且注意 any搭配的是isnull,all搭配的是notnull
2.isnull、notnull和fillna、dropna的写法
pd.~null(数据集) ; 数据集.dropna()3.注意查找+替换的写法,是 for i in data.columns,然后是data[i]...
相关文章:
yjs12——pandas缺失值的处理
1.缺失值的表示 正常来说,pandas缺失值是“nan”表示,但是有且文件可能自己改成了相应的别的符号 2.如何将缺失值符号改成nan xxx.replace(to_replace"...",valuenp.nan) 3.判断是否有缺失值 1.pd.notnull(xxx)————如果有缺失,…...
噪声分布 双峰,模拟函数 或者模拟方法 python人工智能 深度神经网络
在Python中模拟双峰分布,可以通过多种方法实现。以下是一些常用的方法: 1. **使用正态分布混合**: 可以通过组合两个正态分布来创建一个双峰分布。每个正态分布都有其自己的均值(mu)和标准差(sigma&…...
5个免费ppt模板网站推荐!轻松搞定职场ppt制作!
每次过完小长假,可以明显地感觉到,2024这一年很快又要结束了,不知此刻的你有何感想呢?是满载而归,还是准备着手制作年终总结ppt或年度汇报ppt呢? 每当说到制作ppt,很多人的第一反应,…...
HTML5+Css3(背景属性background)
css背景属性 background 1. background-color背景颜色 背景颜色可以用“十六进制”、“rgb()”、“rgba()”或“英文单词”表示 2. background-image:url(路径);背景图片 也可以写成 background:url(); 3. background-repeat背景重复 属性值: - repeat:x,y平铺…...
高亚科技助力优巨新材,打造高效数字化研发项目管理平台
近日,中国企业管理软件资深服务商高亚科技与广东优巨先进新材料股份有限公司(以下简称“优巨新材”)正式签署合作协议,共同推进产品研发管理数字化升级。此次合作的主要目标是通过8Manage PM项目管理系统,提升优巨新材…...
用布尔表达式巧解数字电路图
1.前置知识 明确AND,OR,XOR,NOR,NOT运算的规则 参见:E25.【C语言】练习:修改二进制序列的指定位 这里再补充一个布尔运算符:NOR,即先进行OR运算,再进行NOT运算 如下图为其数字电路的符号 注意到在OR符号的基础上,在尾部加了一个(其实由简化而来) 附:NOR的真值表 2.R-S触发…...
面试--开源框架面试题集合
Spring 谈谈自己对于 Spring IoC 的了解什么是 IoC?IoC 解决了什么问题?什么是 Spring Bean?将一个类声明为 Bean 的注解有哪些?Component 和 Bean 的区别是什么?注入 Bean 的注解有哪些?Autowired 和 Resource 的区别是什么?…...
如何选择医疗器械管理系统?盘谷医疗符合最新版GSP要求
去年12月7日,新版《医疗器械经营质量管理规范》正式发布,并于今年7月1日正式实施。新版GSP第五十一条提出“经营第三类医疗器械的企业,应当具有符合医疗器械经营质量管理要求的计算机信息系统,保证经营的产品可追溯”,…...
shell 脚本批量更新本地git仓库
文章目录 一、问题概述二、解决方法三、运行效果1. windows2. centos 一、问题概述 你是否遇到这样的场景: 本地git仓库克隆了线上的多个项目,需要更新时,无法象svn一样,选中多个项目一起更新。 只能苦逼的一个个选中,…...
Linux相关概念和易错知识点(12)(命令行参数、环境变量、本地变量)
1.命令行参数 (1)main函数的参数int argc和char* argv[]是什么? main函数可以带参数,即int main(int argc, char* argv[]),(int argc, char* argv[])叫做命令行参数列表,int argc叫参数的个数&a…...
wenserver中 一些常见的 错误码
EINTR 是 Linux 系统中定义的一个错误码,代表“被信号中断”。当一个系统调用在执行过程中被一个信号处理函数中断时,这个系统调用会立即返回错误,并且 errno 被设置为 EINTR。 举个例子 read函数是阻塞的 现在没有数据要读 我们read一直阻…...
【电路笔记】-求和运算放大器
求和运算放大器 文章目录 求和运算放大器1、概述2、反相求和放大器3、同相求和放大器4、减法放大器5、应用5.1 音频混合器5.2 数模转换器 (DAC)6、总结1、概述 在我们之前有关运算放大器的大部分文章中,仅将一个输入应用于反相或非反相运算放大器的输入。在本文中,将讨论一种…...
java实现桌面程序开机自启动
问题: 最近用java写一个桌面闹钟程序,需要实现开机自启动功能 解决办法: jna官网:https://github.com/java-native-access/jna?tabreadme-ov-file 使用jna库可以轻松实现 下载jna-5.15.0.jar和jna-platform-5.15.0.jar这两个库…...
Vuex 使用实例
文章目录 Vuex介绍使用步骤安装使用定义配置文件代码解释: 导入到 App.vue使用使用vuex Vuex 介绍 简单来说就是,多个组件需要共享一个data,原本只能通过父子组件来进行,但是vuex可以实现共享data 使用步骤 安装 npm install v…...
深度分离卷积
深度可分离卷积(Depthwise Separable Convolution)是一种高效的卷积操作,它将传统卷积操作分解为两个独立的步骤:深度卷积(Depthwise Convolution) 和 逐点卷积(Pointwise Convolutionÿ…...
JSONL 文件的检查和修订器
下面是一个JSONL 文件的检查和修订器,代码如下: import json import tkinter as tk from tkinter import filedialog, messageboxdef check_jsonl_file(input_file, log_file, output_file=None):errors = []valid_lines = []with open(input_file, r, encoding=utf-8) as in…...
输电线路悬垂线夹检测无人机航拍图像数据集,总共1600左右图片,悬垂线夹识别,标注为voc格式
输电线路悬垂线夹检测无人机航拍图像数据集,总共1600左右图片,悬垂线夹识别,标注为voc格式 输电线路悬垂线夹检测无人机航拍图像数据集介绍 数据集名称 输电线路悬垂线夹检测数据集 (Transmission Line Fittings Detection Dataset) 数据集…...
杭电合集小tips
刷HDU的题过程中,有一些值得注意的小问题,这里我踩坑之后记录下来,以便回顾与各位分享 一,关于语言的使用 主要大家还是用C和C多,但是注意的是,#include<bits/stdc.h>这个文件是G自带的,…...
Python的输入输出函数
1.输入函数 Python的输入函数是input().input的引号里面是提示的内容,从键盘输入的任何字符都会当成字符串赋值给变量. n input("请输入:") print(type(n)) print(n) 输出结果为: 请输入:33 <class str> 33 2.输出函数 Python的内置…...
如何进行搭建与部署云主机?
云主机是一种基于虚拟化技术的服务器,云主机可以为用户提供一种非常高效且可扩展的计算机资源服务,主要是由操作系统和云硬盘等基础的计算组件所构成的,用户能够根据自身的需求来选择相关的配置规格,来满足不同的业务需求。 那么我…...
【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15
缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下: struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...
【Linux】shell脚本忽略错误继续执行
在 shell 脚本中,可以使用 set -e 命令来设置脚本在遇到错误时退出执行。如果你希望脚本忽略错误并继续执行,可以在脚本开头添加 set e 命令来取消该设置。 举例1 #!/bin/bash# 取消 set -e 的设置 set e# 执行命令,并忽略错误 rm somefile…...
2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...
Qt Widget类解析与代码注释
#include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this); }Widget::~Widget() {delete ui; }//解释这串代码,写上注释 当然可以!这段代码是 Qt …...
376. Wiggle Subsequence
376. Wiggle Subsequence 代码 class Solution { public:int wiggleMaxLength(vector<int>& nums) {int n nums.size();int res 1;int prediff 0;int curdiff 0;for(int i 0;i < n-1;i){curdiff nums[i1] - nums[i];if( (prediff > 0 && curdif…...
新能源汽车智慧充电桩管理方案:新能源充电桩散热问题及消防安全监管方案
随着新能源汽车的快速普及,充电桩作为核心配套设施,其安全性与可靠性备受关注。然而,在高温、高负荷运行环境下,充电桩的散热问题与消防安全隐患日益凸显,成为制约行业发展的关键瓶颈。 如何通过智慧化管理手段优化散…...
css的定位(position)详解:相对定位 绝对定位 固定定位
在 CSS 中,元素的定位通过 position 属性控制,共有 5 种定位模式:static(静态定位)、relative(相对定位)、absolute(绝对定位)、fixed(固定定位)和…...
ElasticSearch搜索引擎之倒排索引及其底层算法
文章目录 一、搜索引擎1、什么是搜索引擎?2、搜索引擎的分类3、常用的搜索引擎4、搜索引擎的特点二、倒排索引1、简介2、为什么倒排索引不用B+树1.创建时间长,文件大。2.其次,树深,IO次数可怕。3.索引可能会失效。4.精准度差。三. 倒排索引四、算法1、Term Index的算法2、 …...
MySQL 8.0 OCP 英文题库解析(十三)
Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...
多模态大语言模型arxiv论文略读(108)
CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文标题:CROME: Cross-Modal Adapters for Efficient Multimodal LLM ➡️ 论文作者:Sayna Ebrahimi, Sercan O. Arik, Tejas Nama, Tomas Pfister ➡️ 研究机构: Google Cloud AI Re…...
