当前位置: 首页 > news >正文

Pandas库常用方法、函数集合

Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。

这里列举下Pandas中常用的函数和方法,方便大家查询使用。

读取 写入

  • read_csv:读取CSV文件
  • to_csv:导出CSV文件
  • read_excel:读取Excel文件
  • to_excel:导出Excel文件
  • read_json:读取Json文件
  • to_json:导出Json文件
  • read_html:读取网页中HTML表格数据
  • to_html:导出网页HTML表格
  • read_clipboard:读取剪切板数据
  • to_clipboard:导出数据到剪切板
  • to_latex:导出数据为latex格式
  • read_sas:读取sas格式数据(一种统计分析软件数据格式)
  • read_spss:读取spss格式数据(一种统计分析软件数据格式)
  • read_stata:读取stata格式数据(一种统计分析软件数据格式)
  • read_sql:读取sql查询的数据(需要连接数据库),输出dataframe格式
  • to_sql:向数据库写入dataframe格式数据

连接 合并 重塑

  • merge:根据指定键关联连接多个dataframe,类似sql中的join
  • concat:合并多个dataframe,类似sql中的union
  • pivot:按照指定的行列重塑表格
  • pivot_table:数据透视表,类似excel中的透视表
  • cut:将一组数据分割成离散的区间,适合将数值进行分类
  • qcut:和cut作用一样,不过它是将数值等间距分割
  • crosstab:创建交叉表,用于计算两个或多个因子之间的频率
  • join:通过索引合并两个dataframe
  • stack: 将数据框的列“堆叠”为一个层次化的Series
  • unstack: 将层次化的Series转换回数据框形式
  • append: 将一行或多行数据追加到数据框的末尾

分组 聚合 转换 过滤

  • groupby:按照指定的列或多个列对数据进行分组
  • agg:对每个分组应用自定义的聚合函数
  • transform:对每个分组应用转换函数,返回与原始数据形状相同的结果
  • rank:计算元素在每个分组中的排名
  • filter:根据分组的某些属性筛选数据
  • sum:计算分组的总和
  • mean:计算分组的平均值
  • median:计算分组的中位数
  • min和 max:计算分组的最小值和最大值
  • count:计算分组中非NA值的数量
  • size:计算分组的大小
  • std和 var:计算分组的标准差和方差
  • describe:生成分组的描述性统计摘要
  • first和 last:获取分组中的第一个和最后一个元素
  • nunique:计算分组中唯一值的数量
  • cumsum、cummin、cummax、cumprod:计算分组的累积和、最小值、最大值、累积乘积

数据清洗

  • dropna: 丢弃包含缺失值的行或列
  • fillna: 填充或替换缺失值
  • interpolate: 对缺失值进行插值
  • duplicated: 标记重复的行
  • drop_duplicates: 删除重复的行
  • str.strip: 去除字符串两端的空白字符
  • str.lower和 str.upper: 将字符串转换为小写或大写
  • str.replace: 替换字符串中的特定字符
  • astype: 将一列的数据类型转换为指定类型
  • sort_values: 对数据框按照指定列进行排序
  • rename: 对列或行进行重命名
  • drop: 删除指定的列或行

数据可视化

  • pandas.DataFrame.plot.area:绘制堆积图
  • pandas.DataFrame.plot.bar:绘制柱状图
  • pandas.DataFrame.plot.barh:绘制水平条形图
  • pandas.DataFrame.plot.box:绘制箱线图
  • pandas.DataFrame.plot.density:绘制核密度估计图
  • pandas.DataFrame.plot.hexbin:绘制六边形分箱图
  • pandas.DataFrame.plot.hist:绘制直方图
  • pandas.DataFrame.plot.line:绘制线型图
  • pandas.DataFrame.plot.pie:绘制饼图
  • pandas.DataFrame.plot.scatter:绘制散点图
  • pandas.plotting.andrews_curves:绘制安德鲁曲线,用于可视化多变量数据
  • pandas.plotting.autocorrelation_plot:绘制时间序列自相关图
  • pandas.plotting.bootstrap_plot:用于评估统计数据的不确定性,例如均值,中位数,中间范围等
  • pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据中的模式、趋势和季节性
  • pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征的数据集中各个样本之间的关系
  • pandas.plotting.scatter_matrix:绘制散点矩阵图
  • pandas.plotting.table:绘制表格形式可视化图

日期时间

  • to_datetime: 将输入转换为Datetime类型
  • date_range: 生成日期范围
  • to_timedelta: 将输入转换为Timedelta类型
  • timedelta_range: 生成时间间隔范围
  • shift: 沿着时间轴将数据移动
  • resample: 对时间序列进行重新采样
  • asfreq: 将时间序列转换为指定的频率
  • cut: 将连续数据划分为离散的箱
  • period_range: 生成周期范围
  • infer_freq: 推断时间序列的频率
  • tz_localize: 设置时区
  • tz_convert: 转换时区
  • dt: 用于访问Datetime中的属性
  • day_name, month_name: 获取日期的星期几和月份的名称
  • total_seconds: 计算时间间隔的总秒数
  • rolling: 用于滚动窗口的操作
  • expanding: 用于展开窗口的操作
  • at_time, between_time: 在特定时间进行选择
  • truncate: 截断时间序列

相关文章:

Pandas库常用方法、函数集合

Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。 这里列举下Pandas中常用的函数和方法,方便大家查询使用。 读取 写…...

Qt实现TFTP Server和 TFTP Client(一)

1 概述 TFTP协议是基于UDP的简单文件传输协议,协议双方为Client和Server.Client和Server之间通过5种消息来传输文件,消息前两个字节Code是消息类型,消息内容随消息类型不同而不同。传输模式有三种:octet,netascii和mail,octet为二…...

MySQL数据库的日志管理以及备份和恢复

目录 1、日志管理 2、查询日志 3、数据备份的重要性 4、数据库备份的分类 4.1物理备份 4.2逻辑备份: 4.3完全备份 5、常见的备份方法 6、MySQL完全备份 6.1MySQL完全备份优缺点 6.2数据库完全备份分类 6.2.1物理冷备份与恢复 6.2.2mysqldump备份…...

Maven发布开源框架到远程仓库

1.背景 当你写了一个自我感觉良好的开源工具希望给他人分享,如果只是在github等网站进行公布之外,用户使用起来还不是很方便,特别是当你提供是特定领域的基础工具。你还可以把它部署到中央仓库,这样别人使用就会方便很多。接下来…...

Qt创建窗口选择的三个父类介绍 ----- QWidget、QMainWindow、QDialog

QWidget类 简介 QWidget是Qt中所有用户界面元素的基类。它提供了窗口的基本功能,并允许用户自定义窗口的外观和行为。QWidget可以包含其他QWidget子类的子窗口,从而实现复杂的用户界面。 特性 提供了窗口的基本功能,包括绘制、事件处理、…...

论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM

论文链接:https://arxiv.org/pdf/2309.14348.pdf Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Abstract1 Introduction2 Related Works3 Our Proposed Method3.1 Threat Model3.2 Our Proposed Method3.3 Practical Designs3.4 Theoret…...

Kafka总结问题

Kafka Kafka Kafka Kafka的核心概念/ 结构 topoic Topic 被称为主题,在 kafka 中,使用一个类别属性来划分消息的所属类,划分消息的这个类称为 topic。topic 相当于消息的分配标签,是一个逻辑概念。主题好比是数据库的表&#xff0…...

【RPG Maker MV 仿新仙剑 战斗场景UI (八)】

RPG Maker MV 仿新仙剑 战斗场景UI 八 状态及装备场景代码效果 状态及装备场景 本计划在战斗场景中直接制作的,但考虑到在战斗场景中加入太多的窗口这不太合适,操作也繁琐,因此直接使用其他场景。 代码 Pal_Window_EquipStatus.prototype.…...

【PyQt】18 -菜单等顶层操作

顶层界面的使用 前言一、菜单栏1.1 代码1.2 运行结果 二、工具栏2.1 代码几种显示方法 2.2 运行结果 三、状态栏3.1 代码3.2 运行结果 总结 前言 1、介绍顶层菜单栏目的使用,但没有陆续绑定槽函数。 2、工具栏 3、状态栏 一、菜单栏 1.1 代码 #Author &#xff1a…...

线性代数基础概念和在AI中的应用

基本概念 线性代数是数学的一个分支,专注于向量、向量空间(也称为线性空间)、线性变换和矩阵的研究。这些概念在数据科学、人工智能、工程学和物理学等多个领域都有广泛应用。以下是这些基本概念的详细解释和它们在数据处理和AI中的应用。 …...

elasticsearch _cat/indices docs.count is different than <index>/_count

今天遇到一个问题,kibana中看到文档数与下面语句查询到的不同 GET /_cat/count/jiankunking_xxxxx_product_expand_test?v GET /jiankunking_xxxxx_product_expand_test/_search?track_total_hitstrue语句查询结果 epoch timestamp count 1711433785 06:16…...

关系型数据库mysql(7)sql高级语句

目录 一.MySQL常用查询 1.按关键字(字段)进行升降排序 按分数排序 (默认为升序) 按分数升序显示 按分数降序显示 根据条件进行排序(加上where) 根据多个字段进行排序 ​编辑 2.用或(or&…...

计算机网络——网络基础1

网络基础一 1.初识网络 ​ 网卡也是一种文件,所以对于网络的编程也是一种文件操作; ​ 早期由于不同的计算机之间要根据数据进行协作,但是计算机之间是独立的,所以使用了光驱或者软盘之类的进行协作;对于将计算机连…...

ERDUnet: An Efficient Residual Double-codingUnet for Medical Image Segmentation

ERDUnet:一种用于医学图像分割的高效残差双编码单元 摘要 医学图像分割在临床诊断中有着广泛的应用,基于卷积神经网络的分割方法已经能够达到较高的准确率。然而,提取全局上下文特征仍然很困难,而且参数太大,无法临床应用。为此,我们提出了一种新的网络结构来改进传统的…...

vue响应式基础

声明响应式状态​ ref()​ 在组合式 API 中,推荐使用 ref() 函数来声明响应式状态: import { ref } from vueconst count ref(0) ref() 接收参数,并将其包裹在一个带有 .value 属性的 ref 对象中返回: const count ref(0)c…...

每天上万简历,录取不到1%!阿里腾讯的 offer 都给了哪些人?

三月天杨柳醉春烟~正是求职好时节~ 与去年秋招的冷淡不同,今年春招市场放宽了许多,不少企业纷纷抛出橄榄枝,各大厂的只差把“缺人”两个字写在脸上了。 字节跳动技术方向开放数10个类型岗位,研发需求占比60%,非研发新增…...

外包干了20天,技术退步明显.......

先说一下自己的情况,大专生,21年通过校招进入杭州某软件公司,干了接近2年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了2年的功能测试…...

4核8G云服务器,阿里云要多少钱?

阿里云4核8G服务器优惠价格955元一年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云活动链接 aliyunfuwuq…...

数学分析复习:振荡型级数的收敛判别

文章目录 振荡型级数的收敛判别 本篇文章适合个人复习翻阅,不建议新手入门使用 振荡型级数的收敛判别 直观上,振荡型级数说的是级数各项有正有负,求和的时候可以相互抵消,故可能收敛 命题:Abel求和公式 设复数列 { …...

阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中

文章目录 阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中一、CICD流水线的初步使用可以看我之前的两篇文章二、添加部署任务,进行Docker部署,创建一个阿里的试用主机1、选择主机部署,并添加服务主机2、创建免费体…...

XML Group端口详解

在XML数据映射过程中,经常需要对数据进行分组聚合操作。例如,当处理包含多个物料明细的XML文件时,可能需要将相同物料号的明细归为一组,或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码,增加了开…...

【人工智能】神经网络的优化器optimizer(二):Adagrad自适应学习率优化器

一.自适应梯度算法Adagrad概述 Adagrad(Adaptive Gradient Algorithm)是一种自适应学习率的优化算法,由Duchi等人在2011年提出。其核心思想是针对不同参数自动调整学习率,适合处理稀疏数据和不同参数梯度差异较大的场景。Adagrad通…...

【2025年】解决Burpsuite抓不到https包的问题

环境:windows11 burpsuite:2025.5 在抓取https网站时,burpsuite抓取不到https数据包,只显示: 解决该问题只需如下三个步骤: 1、浏览器中访问 http://burp 2、下载 CA certificate 证书 3、在设置--隐私与安全--…...

三体问题详解

从物理学角度,三体问题之所以不稳定,是因为三个天体在万有引力作用下相互作用,形成一个非线性耦合系统。我们可以从牛顿经典力学出发,列出具体的运动方程,并说明为何这个系统本质上是混沌的,无法得到一般解…...

selenium学习实战【Python爬虫】

selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...

.Net Framework 4/C# 关键字(非常用,持续更新...)

一、is 关键字 is 关键字用于检查对象是否于给定类型兼容,如果兼容将返回 true,如果不兼容则返回 false,在进行类型转换前,可以先使用 is 关键字判断对象是否与指定类型兼容,如果兼容才进行转换,这样的转换是安全的。 例如有:首先创建一个字符串对象,然后将字符串对象隐…...

LeetCode - 199. 二叉树的右视图

题目 199. 二叉树的右视图 - 力扣(LeetCode) 思路 右视图是指从树的右侧看,对于每一层,只能看到该层最右边的节点。实现思路是: 使用深度优先搜索(DFS)按照"根-右-左"的顺序遍历树记录每个节点的深度对于…...

Linux离线(zip方式)安装docker

目录 基础信息操作系统信息docker信息 安装实例安装步骤示例 遇到的问题问题1:修改默认工作路径启动失败问题2 找不到对应组 基础信息 操作系统信息 OS版本:CentOS 7 64位 内核版本:3.10.0 相关命令: uname -rcat /etc/os-rele…...

uniapp 小程序 学习(一)

利用Hbuilder 创建项目 运行到内置浏览器看效果 下载微信小程序 安装到Hbuilder 下载地址 :开发者工具默认安装 设置服务端口号 在Hbuilder中设置微信小程序 配置 找到运行设置,将微信开发者工具放入到Hbuilder中, 打开后出现 如下 bug 解…...

【Linux手册】探秘系统世界:从用户交互到硬件底层的全链路工作之旅

目录 前言 操作系统与驱动程序 是什么,为什么 怎么做 system call 用户操作接口 总结 前言 日常生活中,我们在使用电子设备时,我们所输入执行的每一条指令最终大多都会作用到硬件上,比如下载一款软件最终会下载到硬盘上&am…...