pandas数据预处理
pandas数据预处理
- pandas及其数据结构
- pandas简介
- Series数据结构及其创建
- DataFrame数据结构及其创建
- 利用pandas导入导出数据
- 导入外部数据
- 导入数据文件
- 导出外部数据
- 导出数据文件
- 数据概览及预处理
- 数据概览分析
- 利用DataFrame的常用属性
- 利用DataFrame的常用方法
- 数据清洗
- 缺失值处理
- 删除法
- 替换法
- 重复值处理
- 去重
- 异常值检测与处理
- 数据抽取与合并
- 数据抽取
- 数据合并
- 数据增删改
- 数据转换
- 数据的描述性统计分析
- 数据排序
- 常见数据计算
- 数值型特征的描述性统计
- 类别型特征的描述统计
- 分组统计分析
- 数据分组
- 分组聚合
pandas及其数据结构
pandas简介
pandas是Python语言的一个第三方库,开放源码,提供高性能、易于使用的数据结构和数据分析工具。pandas是一个强大的分析结构化数据的工具集,基于numpy实现的。

Series数据结构及其创建
pandas的核心是Series和DataFrame两大数据结构
- Series数据结构是用于存储一个序列的一维数组,而DataFrame数据结构则是用于存储复杂数据的二维数据结构。
- Series是一种类似于一维数组的对象,它是由一组数据,这组数据可以是Numpy中任意类型的数据,以及一组与之相关的数据标签组成。
- Series对象的内部结构是由两个相互关联的数组组成,即数值和索引。

Series类型是带索引的一维数组对象。包含了一个值序列,并且包含了数据标签,称为索引(index),可通过索引来访问数组中的数据。
Series的创建格式:
pandas.Series(data[, index])
函数中的参数:
data是输入给Series构造器的数据。
index是Series对象中数据的标签(即索引)。
例如:






DataFrame数据结构及其创建
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。
分别有行索引和列索引。
常用于表达二维数组,也可以表达多维数组。DataFrame的创建格式:

pandas.DataFrame(data[,index[,columns]])
函数中的参数说明:
- data是输入给DataFrame构造器的数据,见下页。
- Index是DataFrame对象中行索引的标签。
- columns是DataFrame对象中列索引的标签。



利用pandas导入导出数据
导入外部数据
导入数据文件



导出外部数据
导出数据文件

数据概览及预处理
数据概览分析
数据概览是在数据分析之前对数据的规模、数据的类型及数据的质量等进行概览性的分析

利用DataFrame的常用属性

利用DataFrame的常用方法



数据清洗
数据清洗是通过预处理,剔除数据中的噪声,恢复数据完整性和一致性

缺失值处理
删除法

替换法

重复值处理
去重

异常值检测与处理

数据抽取与合并
数据抽取

数据合并






数据增删改



数据转换

数据的描述性统计分析
数据排序


常见数据计算

数值型特征的描述性统计

类别型特征的描述统计


分组统计分析
数据分组


分组聚合



相关文章:
pandas数据预处理
pandas数据预处理 pandas及其数据结构pandas简介Series数据结构及其创建DataFrame数据结构及其创建 利用pandas导入导出数据导入外部数据导入数据文件 导出外部数据导出数据文件 数据概览及预处理数据概览分析利用DataFrame的常用属性利用DataFrame的常用方法 数据清洗缺失值处…...
Jupyter Notebook如何导入导出文件
目录 0.系统:windows 1.打开 Jupyter Notebook 2.Jupyter Notebook导入文件 3.Jupyter Notebook导出文件 0.系统:windows 1.打开 Jupyter Notebook 1)下载【Anaconda】后,直接点击【Jupyter Notebook】即可在网页打开 Jupyte…...
Linux:/dev/tty、/dev/tty0 和 /dev/console 之间的区别
在Linux操作系统中,/dev/tty、/dev/tty0和/dev/console是三个特殊的设备文件,它们在终端控制和输入/输出过程中扮演着重要的角色。尽管它们看起来很相似,但实际上它们之间存在一些重要的区别。本文将详细介绍这三个设备文件之间的区别以及它们…...
Linux 上安装 PostgreSQL——Ubuntu
打开 PostgreSQL 官网 PostgreSQL: The worlds most advanced open source database,点击菜单栏上的 Download ,可以看到这里包含了很多平台的安装包,包括 Linux、Windows、Mac OS等 。 Linux 我们可以看到支持 Ubuntu 和 Red Hat 等各个平台…...
合并两个有序链表(java)
leetcode 21题:合并两个有序链表 题目描述解题思路:链表的其它题型。 题目描述 leetcode21题:合并两个有序链表 将两个升序链表合并为一个新的 升序 链表并返回。新链表是通过拼接给定的两个链表的所有节点组成的。 示例: 输入&…...
KEYSIGHT是德DSOX4034A 示波器 350 MHz
KEYSIGHT是德DSOX4034A 示波器 350 MHz,是德4000 X 系列拥有一系列引以为傲的配置,包括采用了电容触摸屏技术的 12.1 英寸显示屏、InfiniiScan 区域触摸触发、100 万波形/秒捕获率、MegaZoom IV 智能存储器技术和标配分段存储器。 是德DSO-X4034A 主要特…...
局域网技术
共享信道的分配技术是局域网的核心技术,而这一技术又与网络的拓扑结构和传输介质有关。 拓扑结构: 1.总线型拓扑: 总线一种多点广播介质,所有的站点通过接口硬件连接到总线上。 传输介质主要是同轴电缆(基带和宽带…...
Pixhawk无人机-ArduPilot 软件SITL仿真模拟飞行(SITL+MAVProxy)
1 引言 本人是先看了多个博客实现了:在ubuntu下建立完整的ardupilot开发环境。 该文是基于搭建完编译环境后,也就是搭建好ardupilot的仿真环境实现的。 在文章: 《Pixhawk无人机扩展教程(5)—SITL仿真模拟飞行:开发环境搭建》.中指出&#…...
vue实现深拷贝的方法
在 vue中,深拷贝是一个很有用的功能,在不改变原来对象状态的情况下,进行对象的复制。 但要实现深拷贝,需要两个对象具有相同的属性。如果两个对象不同,深拷贝也不能实现。 1.我们将变量A的属性赋给变量B,但…...
LAMP架构
文章目录 LAMP架构一.简述各组件的主要作用如下: 二.过程展示1.编译安装Apache httpd服务(1)关闭防火墙,将安装Apache所需软件包传到/opt目录下(2)安装环境依赖包(3)配置软件模块(4)编译及安装(5)优化配置文件路径,并把httpd服务的可执行程序…...
javascript基础七:说说你对Javascript中作用域的理解?
一、作用域 作用域,即变量(变量作用域又称上下文)和函数生效(能被访问)的区域或集合 换句话说,作用域决定了代码区块中变量和其他资源的可见性 举个粟子 function myFunction(){let name小爱同学 } undef…...
chatgpt赋能python:Python变量赋值
Python 变量赋值 在 Python 中,我们可以使用多种符号来给变量赋值。本文将介绍这些符号以及它们在编程中的应用。 等号() 在 Python 中,我们最常用的符号是等号(),它可以将一个值赋给一个变量…...
SAP-QM-物料主数据-质量管理视图字段解析
过账到质检库存:要勾选,否则收货后库存不进入质检库存HU检验:收货到启用HU管理的库位时产生检验批,例如某个成品物料是收货到C002库位,该库位启用了HU管理,那么此处要勾选。但是如果勾选了,却收…...
【Netty】一行简单的writeAndFlush都做了哪些事(十八)
文章目录 前言一、源码分析1.1 ctx.writeAndFlush 的逻辑1.2 writeAndFlush 源码1.3 ChannelOutBoundBuff 类1.4 addMessage 方法1.5 addFlush 方法1.6 AbstractNioByteChannel 类 总结 前言 回顾Netty系列文章: Netty 概述(一)Netty 架构设…...
STM32U575 DMA配置
起个摘要,后期维护 1、DMA原理:参考:【STM32】DMA原理,配置步骤超详细,一文搞懂DMA_dma配置_~Old的博客-CSDN博客 2、STM32U575的DMA资源: (datasheet摘要) 3、UART的使用 4、I2…...
14-Vue3快速上手
目录 1.Vue3简介2. Vue3带来了什么2.1 性能的提升2.2 源码的升级2.3 拥抱TypeScript2.4 新的特性 1、海贼王,我当定了!——路飞 2、人,最重要的是“心”啊!——山治 3、如果放弃,我将终身遗憾。——路飞 4、人的梦想是…...
Docker registry 搭建
1、安装 docker 环境 参考:https://mp.csdn.net/mp_blog/creation/editor/104673841 2、准备 registry 镜像 机器有外网访问权限,直接 docker pull registry 通过 docker images 查看本地镜像 3、启动 registry docker run -d -p 5000:5000 --rest…...
关于三维布尔运算的几点思考
目录 三维布尔运算概述三角网格布尔运算效率提升思考BSPTree方式优化 参考 三维布尔运算概述 三维布尔运算根据三维实体数据结构表达分为CSG布尔运算、Brep布尔运算、三角网格布尔运算等类型。这几种类型算法在不同情境下有不同的优势,根据情况进行选择。但这也不能…...
【03.04】大数据教程--html+css基础
当谈到大数据时,HTML和CSS可能并不是最相关的技术。HTML和CSS主要用于构建网页和应用程序的用户界面,而大数据则涉及处理和分析大规模数据集。但是,如果您想展示有关大数据的信息或结果,并在网页上呈现,那么HTML和CSS可…...
深入理解与实践Seata:分布式事务解决方案
✅作者简介:热爱Java后端开发的一名学习者,大家可以跟我一起讨论各种问题喔。 🍎个人主页:Hhzzy99 🍊个人信条:坚持就是胜利! 💞当前专栏:微服务 🥭本文内容&…...
TMSpeech终极指南:如何在Windows上实现零延迟的本地语音实时转文字,彻底告别会议记录焦虑
TMSpeech终极指南:如何在Windows上实现零延迟的本地语音实时转文字,彻底告别会议记录焦虑 【免费下载链接】TMSpeech 腾讯会议摸鱼工具 项目地址: https://gitcode.com/gh_mirrors/tm/TMSpeech 想象一下,当你在重要的视频会议中&#…...
如何零门槛构建企业级智能Agent?AI应用开发全攻略
如何零门槛构建企业级智能Agent?AI应用开发全攻略 【免费下载链接】fast-agent Code, Build and Evaluate agents - excellent Model and Skills/MCP/ACP Support 项目地址: https://gitcode.com/gh_mirrors/fa/fast-agent 在AI技术迅猛发展的今天࿰…...
关于sms,voip路由以及smpp
SMS 和 VoIP 路由是国际通讯行业核心技术,用于高效传递短信和语音通话。SMPP 协议则是 SMS 传输的关键标准,帮助运营商和企业实现全球消息互联。SMS 基础知识SMS(Short Message Service,短消息服务)是手机最常见的文本…...
Jetson Nano/Orin上离线语音识别的实战踩坑:从Whisper到Sherpa-onnx,我最终选了它
Jetson Nano/Orin离线语音识别实战:从Whisper到Sherpa-onnx的技术选型与避坑指南 在边缘计算设备上实现高质量的离线语音识别(ASR)一直是开发者面临的挑战。Jetson系列作为NVIDIA推出的边缘AI计算平台,凭借其强大的GPU加速能力和低…...
给OpenClaw小龙虾喂点 “数据库饲料”,它竟能替你加班到天亮?
目录 💡DBA 的痛,龙虾不懂 🦞 给“龙虾”喂点“硬菜” 📍 成为首批体验官,有福利 最近大家都在养龙虾。 龙虾越养越聪明,写代码、查资料、做分析……什么都能干。 但有一件事,现在的龙虾还…...
BilibiliDown:如何轻松搞定B站视频下载与批量管理的完整指南
BilibiliDown:如何轻松搞定B站视频下载与批量管理的完整指南 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mir…...
3步释放20GB空间:Windows驱动清理神器完全指南
3步释放20GB空间:Windows驱动清理神器完全指南 【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 驱动管理痛点分析 系统臃肿的隐形杀手 随着电脑使用时间增长,Wi…...
实战演练:三种常见办公文档加密破解技巧(ZIP密码/ZIP伪加密/DOC密码)
1. ZIP密码破解实战:从入门到精通 工作中经常会遇到这种情况:同事发来的压缩包设置了密码,但对方忘记告诉你密码是什么;或者多年前自己加密的压缩包,现在怎么也打不开了。这时候就需要掌握一些ZIP密码破解的技巧。 我遇…...
国内开发者如何高效集成Nano Banana Pro与Sora2?——API中转站选型与实战避坑指南
1. 为什么需要API中转站? 对于国内开发者来说,想要直接调用Nano Banana Pro和Sora2的官方API,面临着几个现实问题。首先是网络访问的稳定性,Google和OpenAI的API服务器都部署在海外,国内直连经常会出现高延迟、丢包甚至…...
GitLab Runner配置总出错?手把手教你调试config.toml文件
GitLab Runner配置总出错?手把手教你调试config.toml文件 当你第一次打开GitLab Runner的config.toml文件时,可能会被里面密密麻麻的参数搞得一头雾水。这个看似简单的配置文件,实际上藏着许多让中高级用户都容易踩坑的细节。今天我们就来彻底…...
