当前位置: 首页 > news >正文

Pandas库常用方法、函数集合

Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。

这里列举下Pandas中常用的函数和方法,方便大家查询使用。

读取 写入

  • read_csv:读取CSV文件
  • to_csv:导出CSV文件
  • read_excel:读取Excel文件
  • to_excel:导出Excel文件
  • read_json:读取Json文件
  • to_json:导出Json文件
  • read_html:读取网页中HTML表格数据
  • to_html:导出网页HTML表格
  • read_clipboard:读取剪切板数据
  • to_clipboard:导出数据到剪切板
  • to_latex:导出数据为latex格式
  • read_sas:读取sas格式数据(一种统计分析软件数据格式)
  • read_spss:读取spss格式数据(一种统计分析软件数据格式)
  • read_stata:读取stata格式数据(一种统计分析软件数据格式)
  • read_sql:读取sql查询的数据(需要连接数据库),输出dataframe格式
  • to_sql:向数据库写入dataframe格式数据

连接 合并 重塑

  • merge:根据指定键关联连接多个dataframe,类似sql中的join
  • concat:合并多个dataframe,类似sql中的union
  • pivot:按照指定的行列重塑表格
  • pivot_table:数据透视表,类似excel中的透视表
  • cut:将一组数据分割成离散的区间,适合将数值进行分类
  • qcut:和cut作用一样,不过它是将数值等间距分割
  • crosstab:创建交叉表,用于计算两个或多个因子之间的频率
  • join:通过索引合并两个dataframe
  • stack: 将数据框的列“堆叠”为一个层次化的Series
  • unstack: 将层次化的Series转换回数据框形式
  • append: 将一行或多行数据追加到数据框的末尾

分组 聚合 转换 过滤

  • groupby:按照指定的列或多个列对数据进行分组
  • agg:对每个分组应用自定义的聚合函数
  • transform:对每个分组应用转换函数,返回与原始数据形状相同的结果
  • rank:计算元素在每个分组中的排名
  • filter:根据分组的某些属性筛选数据
  • sum:计算分组的总和
  • mean:计算分组的平均值
  • median:计算分组的中位数
  • min和 max:计算分组的最小值和最大值
  • count:计算分组中非NA值的数量
  • size:计算分组的大小
  • std和 var:计算分组的标准差和方差
  • describe:生成分组的描述性统计摘要
  • first和 last:获取分组中的第一个和最后一个元素
  • nunique:计算分组中唯一值的数量
  • cumsum、cummin、cummax、cumprod:计算分组的累积和、最小值、最大值、累积乘积

数据清洗

  • dropna: 丢弃包含缺失值的行或列
  • fillna: 填充或替换缺失值
  • interpolate: 对缺失值进行插值
  • duplicated: 标记重复的行
  • drop_duplicates: 删除重复的行
  • str.strip: 去除字符串两端的空白字符
  • str.lower和 str.upper: 将字符串转换为小写或大写
  • str.replace: 替换字符串中的特定字符
  • astype: 将一列的数据类型转换为指定类型
  • sort_values: 对数据框按照指定列进行排序
  • rename: 对列或行进行重命名
  • drop: 删除指定的列或行

数据可视化

  • pandas.DataFrame.plot.area:绘制堆积图
  • pandas.DataFrame.plot.bar:绘制柱状图
  • pandas.DataFrame.plot.barh:绘制水平条形图
  • pandas.DataFrame.plot.box:绘制箱线图
  • pandas.DataFrame.plot.density:绘制核密度估计图
  • pandas.DataFrame.plot.hexbin:绘制六边形分箱图
  • pandas.DataFrame.plot.hist:绘制直方图
  • pandas.DataFrame.plot.line:绘制线型图
  • pandas.DataFrame.plot.pie:绘制饼图
  • pandas.DataFrame.plot.scatter:绘制散点图
  • pandas.plotting.andrews_curves:绘制安德鲁曲线,用于可视化多变量数据
  • pandas.plotting.autocorrelation_plot:绘制时间序列自相关图
  • pandas.plotting.bootstrap_plot:用于评估统计数据的不确定性,例如均值,中位数,中间范围等
  • pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据中的模式、趋势和季节性
  • pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征的数据集中各个样本之间的关系
  • pandas.plotting.scatter_matrix:绘制散点矩阵图
  • pandas.plotting.table:绘制表格形式可视化图

日期时间

  • to_datetime: 将输入转换为Datetime类型
  • date_range: 生成日期范围
  • to_timedelta: 将输入转换为Timedelta类型
  • timedelta_range: 生成时间间隔范围
  • shift: 沿着时间轴将数据移动
  • resample: 对时间序列进行重新采样
  • asfreq: 将时间序列转换为指定的频率
  • cut: 将连续数据划分为离散的箱
  • period_range: 生成周期范围
  • infer_freq: 推断时间序列的频率
  • tz_localize: 设置时区
  • tz_convert: 转换时区
  • dt: 用于访问Datetime中的属性
  • day_name, month_name: 获取日期的星期几和月份的名称
  • total_seconds: 计算时间间隔的总秒数
  • rolling: 用于滚动窗口的操作
  • expanding: 用于展开窗口的操作
  • at_time, between_time: 在特定时间进行选择
  • truncate: 截断时间序列

相关文章:

Pandas库常用方法、函数集合

Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。 这里列举下Pandas中常用的函数和方法,方便大家查询使用。 读取 写…...

Qt实现TFTP Server和 TFTP Client(一)

1 概述 TFTP协议是基于UDP的简单文件传输协议,协议双方为Client和Server.Client和Server之间通过5种消息来传输文件,消息前两个字节Code是消息类型,消息内容随消息类型不同而不同。传输模式有三种:octet,netascii和mail,octet为二…...

MySQL数据库的日志管理以及备份和恢复

目录 1、日志管理 2、查询日志 3、数据备份的重要性 4、数据库备份的分类 4.1物理备份 4.2逻辑备份: 4.3完全备份 5、常见的备份方法 6、MySQL完全备份 6.1MySQL完全备份优缺点 6.2数据库完全备份分类 6.2.1物理冷备份与恢复 6.2.2mysqldump备份…...

Maven发布开源框架到远程仓库

1.背景 当你写了一个自我感觉良好的开源工具希望给他人分享,如果只是在github等网站进行公布之外,用户使用起来还不是很方便,特别是当你提供是特定领域的基础工具。你还可以把它部署到中央仓库,这样别人使用就会方便很多。接下来…...

Qt创建窗口选择的三个父类介绍 ----- QWidget、QMainWindow、QDialog

QWidget类 简介 QWidget是Qt中所有用户界面元素的基类。它提供了窗口的基本功能,并允许用户自定义窗口的外观和行为。QWidget可以包含其他QWidget子类的子窗口,从而实现复杂的用户界面。 特性 提供了窗口的基本功能,包括绘制、事件处理、…...

论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

论文链接:https://arxiv.org/pdf/2309.14348.pdf Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Abstract1 Introduction2 Related Works3 Our Proposed Method3.1 Threat Model3.2 Our Proposed Method3.3 Practical Designs3.4 Theoret…...

Kafka总结问题

Kafka Kafka Kafka Kafka的核心概念/ 结构 topoic Topic 被称为主题,在 kafka 中,使用一个类别属性来划分消息的所属类,划分消息的这个类称为 topic。topic 相当于消息的分配标签,是一个逻辑概念。主题好比是数据库的表&#xff0…...

【RPG Maker MV 仿新仙剑 战斗场景UI (八)】

RPG Maker MV 仿新仙剑 战斗场景UI 八 状态及装备场景代码效果 状态及装备场景 本计划在战斗场景中直接制作的,但考虑到在战斗场景中加入太多的窗口这不太合适,操作也繁琐,因此直接使用其他场景。 代码 Pal_Window_EquipStatus.prototype.…...

【PyQt】18 -菜单等顶层操作

顶层界面的使用 前言一、菜单栏1.1 代码1.2 运行结果 二、工具栏2.1 代码几种显示方法 2.2 运行结果 三、状态栏3.1 代码3.2 运行结果 总结 前言 1、介绍顶层菜单栏目的使用,但没有陆续绑定槽函数。 2、工具栏 3、状态栏 一、菜单栏 1.1 代码 #Author &#xff1a…...

线性代数基础概念和在AI中的应用

基本概念 线性代数是数学的一个分支,专注于向量、向量空间(也称为线性空间)、线性变换和矩阵的研究。这些概念在数据科学、人工智能、工程学和物理学等多个领域都有广泛应用。以下是这些基本概念的详细解释和它们在数据处理和AI中的应用。 …...

elasticsearch _cat/indices docs.count is different than <index>/_count

今天遇到一个问题,kibana中看到文档数与下面语句查询到的不同 GET /_cat/count/jiankunking_xxxxx_product_expand_test?v GET /jiankunking_xxxxx_product_expand_test/_search?track_total_hitstrue语句查询结果 epoch timestamp count 1711433785 06:16…...

关系型数据库mysql(7)sql高级语句

目录 一.MySQL常用查询 1.按关键字(字段)进行升降排序 按分数排序 (默认为升序) 按分数升序显示 按分数降序显示 根据条件进行排序(加上where) 根据多个字段进行排序 ​编辑 2.用或(or&…...

计算机网络——网络基础1

网络基础一 1.初识网络 ​ 网卡也是一种文件,所以对于网络的编程也是一种文件操作; ​ 早期由于不同的计算机之间要根据数据进行协作,但是计算机之间是独立的,所以使用了光驱或者软盘之类的进行协作;对于将计算机连…...

ERDUnet: An Efficient Residual Double-codingUnet for Medical Image Segmentation

ERDUnet:一种用于医学图像分割的高效残差双编码单元 摘要 医学图像分割在临床诊断中有着广泛的应用,基于卷积神经网络的分割方法已经能够达到较高的准确率。然而,提取全局上下文特征仍然很困难,而且参数太大,无法临床应用。为此,我们提出了一种新的网络结构来改进传统的…...

vue响应式基础

声明响应式状态​ ref()​ 在组合式 API 中,推荐使用 ref() 函数来声明响应式状态: import { ref } from vueconst count ref(0) ref() 接收参数,并将其包裹在一个带有 .value 属性的 ref 对象中返回: const count ref(0)c…...

每天上万简历,录取不到1%!阿里腾讯的 offer 都给了哪些人?

三月天杨柳醉春烟~正是求职好时节~ 与去年秋招的冷淡不同,今年春招市场放宽了许多,不少企业纷纷抛出橄榄枝,各大厂的只差把“缺人”两个字写在脸上了。 字节跳动技术方向开放数10个类型岗位,研发需求占比60%,非研发新增…...

外包干了20天,技术退步明显.......

先说一下自己的情况,大专生,21年通过校招进入杭州某软件公司,干了接近2年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了2年的功能测试…...

4核8G云服务器,阿里云要多少钱?

阿里云4核8G服务器优惠价格955元一年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云活动链接 aliyunfuwuq…...

数学分析复习:振荡型级数的收敛判别

文章目录 振荡型级数的收敛判别 本篇文章适合个人复习翻阅,不建议新手入门使用 振荡型级数的收敛判别 直观上,振荡型级数说的是级数各项有正有负,求和的时候可以相互抵消,故可能收敛 命题:Abel求和公式 设复数列 { …...

阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中

文章目录 阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中一、CICD流水线的初步使用可以看我之前的两篇文章二、添加部署任务,进行Docker部署,创建一个阿里的试用主机1、选择主机部署,并添加服务主机2、创建免费体…...

并发VS并行

参考文章 面试必考的:并发和并行有什么区别? 并发:一个人同时做多件事(射击游戏队友抢装备) 并行:多人同时处理同一件事(射击游戏敌人同时射击对方)...

C语言经典例题(8) --- 进制A+B、网购、及格分数、最高分数、计算一元二次方程

文章目录 1.进制AB2.网购3.及格分数4.最高分数5.计算一元二次方程 1.进制AB 题目描述: 输入一个十六进制数a,和一个八进制数b,输出ab的十进制结果(范围-231~231-1)。 输入描述: 一行,一个十六…...

两区域二次调频风火机组,麻雀启发式算法改进simulink与matlab联合

区域1结果 区域2结果 红色曲线为优化后结果〔风火机组二次调频〕...

自动驾驶国际标准ISO文件

Coordinate system:Road vehicles — Vehicle dynamics and road-holding ability — Vocabulary...

【数据结构】双向奔赴的爱恋 --- 双向链表

关注小庄 顿顿解馋๑ᵒᯅᵒ๑ 引言:上回我们讲解了单链表(单向不循环不带头链表),我们可以发现他是存在一定缺陷的,比如尾删的时候需要遍历一遍链表,这会大大降低我们的性能,再比如对于链表中的一个结点我们是无法直接…...

【Redis】高频面试题

提供五种常见的数据类型:String(字符串),Hash(哈希),List(列表),Set(集合)、Zset(有序集合) 文章目录 1、为什…...

数据分析基础

数据分析基础 1. 数据加载 使用 Pandas 库可以轻松地加载各种格式的数据,如 CSV、Excel、JSON 等。 import pandas as pd# 从 CSV 文件加载数据 data pd.read_csv(‘data.csv’). 2. 数据探索 一旦数据加载完成,我们可以开始对数据进行探索性分析&a…...

ffmpeg把一个平面视频,做成左右平面视频

要使用FFmpeg将单个平面视频转换为左右(或称为并排)3D格式的视频,你可以使用FFmpeg的filter_complex功能来实现。这种类型的视频通常用于3D视觉效果,其中同一画面的两个版本并排放置,每个版本略有不同的视角&#xff0…...

Docker搭建LNMP环境实战(02):Win10下安装VMware

实战开始,先安装 VMware 虚拟机。话不多说,上手就干! 1、基本环境检查 1.1、本机Bios是否支持虚拟化 进入:任务管理器- 性能,查看“虚拟化”是否启用,如果已启用,则满足要求,如果未…...

苍穹外卖笔记

苍穹外卖 DAY01nginx反向代理MD5加密yapi进行接口导入Swagger介绍 DAY02新增员工需求分析和设计写相关代码测试(1. 后端文档测试 2. 前后端联调代码完善 员工分页查询DAY01 02涉及到的知识 DAY03阿里云OSS事务注解 Transactional DAY01 nginx反向代理 MD5加密 拓展&#xff1…...