Pandas库常用方法、函数集合
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。
这里列举下Pandas中常用的函数和方法,方便大家查询使用。
读取 写入
- read_csv:读取CSV文件
- to_csv:导出CSV文件
- read_excel:读取Excel文件
- to_excel:导出Excel文件
- read_json:读取Json文件
- to_json:导出Json文件
- read_html:读取网页中HTML表格数据
- to_html:导出网页HTML表格
- read_clipboard:读取剪切板数据
- to_clipboard:导出数据到剪切板
- to_latex:导出数据为latex格式
- read_sas:读取sas格式数据(一种统计分析软件数据格式)
- read_spss:读取spss格式数据(一种统计分析软件数据格式)
- read_stata:读取stata格式数据(一种统计分析软件数据格式)
- read_sql:读取sql查询的数据(需要连接数据库),输出dataframe格式
- to_sql:向数据库写入dataframe格式数据
连接 合并 重塑
- merge:根据指定键关联连接多个dataframe,类似sql中的join
- concat:合并多个dataframe,类似sql中的union
- pivot:按照指定的行列重塑表格
- pivot_table:数据透视表,类似excel中的透视表
- cut:将一组数据分割成离散的区间,适合将数值进行分类
- qcut:和cut作用一样,不过它是将数值等间距分割
- crosstab:创建交叉表,用于计算两个或多个因子之间的频率
- join:通过索引合并两个dataframe
- stack: 将数据框的列“堆叠”为一个层次化的Series
- unstack: 将层次化的Series转换回数据框形式
- append: 将一行或多行数据追加到数据框的末尾
分组 聚合 转换 过滤
- groupby:按照指定的列或多个列对数据进行分组
- agg:对每个分组应用自定义的聚合函数
- transform:对每个分组应用转换函数,返回与原始数据形状相同的结果
- rank:计算元素在每个分组中的排名
- filter:根据分组的某些属性筛选数据
- sum:计算分组的总和
- mean:计算分组的平均值
- median:计算分组的中位数
- min和 max:计算分组的最小值和最大值
- count:计算分组中非NA值的数量
- size:计算分组的大小
- std和 var:计算分组的标准差和方差
- describe:生成分组的描述性统计摘要
- first和 last:获取分组中的第一个和最后一个元素
- nunique:计算分组中唯一值的数量
- cumsum、cummin、cummax、cumprod:计算分组的累积和、最小值、最大值、累积乘积
数据清洗
- dropna: 丢弃包含缺失值的行或列
- fillna: 填充或替换缺失值
- interpolate: 对缺失值进行插值
- duplicated: 标记重复的行
- drop_duplicates: 删除重复的行
- str.strip: 去除字符串两端的空白字符
- str.lower和 str.upper: 将字符串转换为小写或大写
- str.replace: 替换字符串中的特定字符
- astype: 将一列的数据类型转换为指定类型
- sort_values: 对数据框按照指定列进行排序
- rename: 对列或行进行重命名
- drop: 删除指定的列或行
数据可视化
- pandas.DataFrame.plot.area:绘制堆积图
- pandas.DataFrame.plot.bar:绘制柱状图
- pandas.DataFrame.plot.barh:绘制水平条形图
- pandas.DataFrame.plot.box:绘制箱线图
- pandas.DataFrame.plot.density:绘制核密度估计图
- pandas.DataFrame.plot.hexbin:绘制六边形分箱图
- pandas.DataFrame.plot.hist:绘制直方图
- pandas.DataFrame.plot.line:绘制线型图
- pandas.DataFrame.plot.pie:绘制饼图
- pandas.DataFrame.plot.scatter:绘制散点图
- pandas.plotting.andrews_curves:绘制安德鲁曲线,用于可视化多变量数据
- pandas.plotting.autocorrelation_plot:绘制时间序列自相关图
- pandas.plotting.bootstrap_plot:用于评估统计数据的不确定性,例如均值,中位数,中间范围等
- pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据中的模式、趋势和季节性
- pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征的数据集中各个样本之间的关系
- pandas.plotting.scatter_matrix:绘制散点矩阵图
- pandas.plotting.table:绘制表格形式可视化图
日期时间
- to_datetime: 将输入转换为Datetime类型
- date_range: 生成日期范围
- to_timedelta: 将输入转换为Timedelta类型
- timedelta_range: 生成时间间隔范围
- shift: 沿着时间轴将数据移动
- resample: 对时间序列进行重新采样
- asfreq: 将时间序列转换为指定的频率
- cut: 将连续数据划分为离散的箱
- period_range: 生成周期范围
- infer_freq: 推断时间序列的频率
- tz_localize: 设置时区
- tz_convert: 转换时区
- dt: 用于访问Datetime中的属性
- day_name, month_name: 获取日期的星期几和月份的名称
- total_seconds: 计算时间间隔的总秒数
- rolling: 用于滚动窗口的操作
- expanding: 用于展开窗口的操作
- at_time, between_time: 在特定时间进行选择
- truncate: 截断时间序列
相关文章:
Pandas库常用方法、函数集合
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。 这里列举下Pandas中常用的函数和方法,方便大家查询使用。 读取 写…...
Qt实现TFTP Server和 TFTP Client(一)
1 概述 TFTP协议是基于UDP的简单文件传输协议,协议双方为Client和Server.Client和Server之间通过5种消息来传输文件,消息前两个字节Code是消息类型,消息内容随消息类型不同而不同。传输模式有三种:octet,netascii和mail,octet为二…...
MySQL数据库的日志管理以及备份和恢复
目录 1、日志管理 2、查询日志 3、数据备份的重要性 4、数据库备份的分类 4.1物理备份 4.2逻辑备份: 4.3完全备份 5、常见的备份方法 6、MySQL完全备份 6.1MySQL完全备份优缺点 6.2数据库完全备份分类 6.2.1物理冷备份与恢复 6.2.2mysqldump备份…...
Maven发布开源框架到远程仓库
1.背景 当你写了一个自我感觉良好的开源工具希望给他人分享,如果只是在github等网站进行公布之外,用户使用起来还不是很方便,特别是当你提供是特定领域的基础工具。你还可以把它部署到中央仓库,这样别人使用就会方便很多。接下来…...
Qt创建窗口选择的三个父类介绍 ----- QWidget、QMainWindow、QDialog
QWidget类 简介 QWidget是Qt中所有用户界面元素的基类。它提供了窗口的基本功能,并允许用户自定义窗口的外观和行为。QWidget可以包含其他QWidget子类的子窗口,从而实现复杂的用户界面。 特性 提供了窗口的基本功能,包括绘制、事件处理、…...
论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM
论文链接:https://arxiv.org/pdf/2309.14348.pdf Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Abstract1 Introduction2 Related Works3 Our Proposed Method3.1 Threat Model3.2 Our Proposed Method3.3 Practical Designs3.4 Theoret…...
Kafka总结问题
Kafka Kafka Kafka Kafka的核心概念/ 结构 topoic Topic 被称为主题,在 kafka 中,使用一个类别属性来划分消息的所属类,划分消息的这个类称为 topic。topic 相当于消息的分配标签,是一个逻辑概念。主题好比是数据库的表࿰…...
【RPG Maker MV 仿新仙剑 战斗场景UI (八)】
RPG Maker MV 仿新仙剑 战斗场景UI 八 状态及装备场景代码效果 状态及装备场景 本计划在战斗场景中直接制作的,但考虑到在战斗场景中加入太多的窗口这不太合适,操作也繁琐,因此直接使用其他场景。 代码 Pal_Window_EquipStatus.prototype.…...
【PyQt】18 -菜单等顶层操作
顶层界面的使用 前言一、菜单栏1.1 代码1.2 运行结果 二、工具栏2.1 代码几种显示方法 2.2 运行结果 三、状态栏3.1 代码3.2 运行结果 总结 前言 1、介绍顶层菜单栏目的使用,但没有陆续绑定槽函数。 2、工具栏 3、状态栏 一、菜单栏 1.1 代码 #Author :…...
线性代数基础概念和在AI中的应用
基本概念 线性代数是数学的一个分支,专注于向量、向量空间(也称为线性空间)、线性变换和矩阵的研究。这些概念在数据科学、人工智能、工程学和物理学等多个领域都有广泛应用。以下是这些基本概念的详细解释和它们在数据处理和AI中的应用。 …...
elasticsearch _cat/indices docs.count is different than <index>/_count
今天遇到一个问题,kibana中看到文档数与下面语句查询到的不同 GET /_cat/count/jiankunking_xxxxx_product_expand_test?v GET /jiankunking_xxxxx_product_expand_test/_search?track_total_hitstrue语句查询结果 epoch timestamp count 1711433785 06:16…...
关系型数据库mysql(7)sql高级语句
目录 一.MySQL常用查询 1.按关键字(字段)进行升降排序 按分数排序 (默认为升序) 按分数升序显示 按分数降序显示 根据条件进行排序(加上where) 根据多个字段进行排序 编辑 2.用或(or&…...
计算机网络——网络基础1
网络基础一 1.初识网络 网卡也是一种文件,所以对于网络的编程也是一种文件操作; 早期由于不同的计算机之间要根据数据进行协作,但是计算机之间是独立的,所以使用了光驱或者软盘之类的进行协作;对于将计算机连…...
ERDUnet: An Efficient Residual Double-codingUnet for Medical Image Segmentation
ERDUnet:一种用于医学图像分割的高效残差双编码单元 摘要 医学图像分割在临床诊断中有着广泛的应用,基于卷积神经网络的分割方法已经能够达到较高的准确率。然而,提取全局上下文特征仍然很困难,而且参数太大,无法临床应用。为此,我们提出了一种新的网络结构来改进传统的…...
vue响应式基础
声明响应式状态 ref() 在组合式 API 中,推荐使用 ref() 函数来声明响应式状态: import { ref } from vueconst count ref(0) ref() 接收参数,并将其包裹在一个带有 .value 属性的 ref 对象中返回: const count ref(0)c…...
每天上万简历,录取不到1%!阿里腾讯的 offer 都给了哪些人?
三月天杨柳醉春烟~正是求职好时节~ 与去年秋招的冷淡不同,今年春招市场放宽了许多,不少企业纷纷抛出橄榄枝,各大厂的只差把“缺人”两个字写在脸上了。 字节跳动技术方向开放数10个类型岗位,研发需求占比60%,非研发新增…...
外包干了20天,技术退步明显.......
先说一下自己的情况,大专生,21年通过校招进入杭州某软件公司,干了接近2年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了2年的功能测试…...
4核8G云服务器,阿里云要多少钱?
阿里云4核8G服务器优惠价格955元一年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云活动链接 aliyunfuwuq…...
数学分析复习:振荡型级数的收敛判别
文章目录 振荡型级数的收敛判别 本篇文章适合个人复习翻阅,不建议新手入门使用 振荡型级数的收敛判别 直观上,振荡型级数说的是级数各项有正有负,求和的时候可以相互抵消,故可能收敛 命题:Abel求和公式 设复数列 { …...
阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中
文章目录 阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中一、CICD流水线的初步使用可以看我之前的两篇文章二、添加部署任务,进行Docker部署,创建一个阿里的试用主机1、选择主机部署,并添加服务主机2、创建免费体…...
云原生核心技术 (7/12): K8s 核心概念白话解读(上):Pod 和 Deployment 究竟是什么?
大家好,欢迎来到《云原生核心技术》系列的第七篇! 在上一篇,我们成功地使用 Minikube 或 kind 在自己的电脑上搭建起了一个迷你但功能完备的 Kubernetes 集群。现在,我们就像一个拥有了一块崭新数字土地的农场主,是时…...
MySQL 隔离级别:脏读、幻读及不可重复读的原理与示例
一、MySQL 隔离级别 MySQL 提供了四种隔离级别,用于控制事务之间的并发访问以及数据的可见性,不同隔离级别对脏读、幻读、不可重复读这几种并发数据问题有着不同的处理方式,具体如下: 隔离级别脏读不可重复读幻读性能特点及锁机制读未提交(READ UNCOMMITTED)允许出现允许…...
边缘计算医疗风险自查APP开发方案
核心目标:在便携设备(智能手表/家用检测仪)部署轻量化疾病预测模型,实现低延迟、隐私安全的实时健康风险评估。 一、技术架构设计 #mermaid-svg-iuNaeeLK2YoFKfao {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg…...
Debian系统简介
目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍 软件包管理工具dpkg dpkg核心指令详解 安装软件包 卸载软件包 查询软件包状态 验证软件包完整性 手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核 的 Linux 发行版ÿ…...
STM32F4基本定时器使用和原理详解
STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...
全球首个30米分辨率湿地数据集(2000—2022)
数据简介 今天我们分享的数据是全球30米分辨率湿地数据集,包含8种湿地亚类,该数据以0.5X0.5的瓦片存储,我们整理了所有属于中国的瓦片名称与其对应省份,方便大家研究使用。 该数据集作为全球首个30米分辨率、覆盖2000–2022年时间…...
Keil 中设置 STM32 Flash 和 RAM 地址详解
文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面(Target 选项卡)1. IROM1(用于配置 Flash)2. IRAM1(用于配置 RAM)二、链接器设置界面(Linker 选项卡)1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数(如果没有勾选上面…...
三体问题详解
从物理学角度,三体问题之所以不稳定,是因为三个天体在万有引力作用下相互作用,形成一个非线性耦合系统。我们可以从牛顿经典力学出发,列出具体的运动方程,并说明为何这个系统本质上是混沌的,无法得到一般解…...
安宝特案例丨Vuzix AR智能眼镜集成专业软件,助力卢森堡医院药房转型,赢得辉瑞创新奖
在Vuzix M400 AR智能眼镜的助力下,卢森堡罗伯特舒曼医院(the Robert Schuman Hospitals, HRS)凭借在无菌制剂生产流程中引入增强现实技术(AR)创新项目,荣获了2024年6月7日由卢森堡医院药剂师协会࿰…...
「全栈技术解析」推客小程序系统开发:从架构设计到裂变增长的完整解决方案
在移动互联网营销竞争白热化的当下,推客小程序系统凭借其裂变传播、精准营销等特性,成为企业抢占市场的利器。本文将深度解析推客小程序系统开发的核心技术与实现路径,助力开发者打造具有市场竞争力的营销工具。 一、系统核心功能架构&…...
