Pandas库常用方法、函数集合
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。
这里列举下Pandas中常用的函数和方法,方便大家查询使用。
读取 写入
- read_csv:读取CSV文件
- to_csv:导出CSV文件
- read_excel:读取Excel文件
- to_excel:导出Excel文件
- read_json:读取Json文件
- to_json:导出Json文件
- read_html:读取网页中HTML表格数据
- to_html:导出网页HTML表格
- read_clipboard:读取剪切板数据
- to_clipboard:导出数据到剪切板
- to_latex:导出数据为latex格式
- read_sas:读取sas格式数据(一种统计分析软件数据格式)
- read_spss:读取spss格式数据(一种统计分析软件数据格式)
- read_stata:读取stata格式数据(一种统计分析软件数据格式)
- read_sql:读取sql查询的数据(需要连接数据库),输出dataframe格式
- to_sql:向数据库写入dataframe格式数据
连接 合并 重塑
- merge:根据指定键关联连接多个dataframe,类似sql中的join
- concat:合并多个dataframe,类似sql中的union
- pivot:按照指定的行列重塑表格
- pivot_table:数据透视表,类似excel中的透视表
- cut:将一组数据分割成离散的区间,适合将数值进行分类
- qcut:和cut作用一样,不过它是将数值等间距分割
- crosstab:创建交叉表,用于计算两个或多个因子之间的频率
- join:通过索引合并两个dataframe
- stack: 将数据框的列“堆叠”为一个层次化的Series
- unstack: 将层次化的Series转换回数据框形式
- append: 将一行或多行数据追加到数据框的末尾
分组 聚合 转换 过滤
- groupby:按照指定的列或多个列对数据进行分组
- agg:对每个分组应用自定义的聚合函数
- transform:对每个分组应用转换函数,返回与原始数据形状相同的结果
- rank:计算元素在每个分组中的排名
- filter:根据分组的某些属性筛选数据
- sum:计算分组的总和
- mean:计算分组的平均值
- median:计算分组的中位数
- min和 max:计算分组的最小值和最大值
- count:计算分组中非NA值的数量
- size:计算分组的大小
- std和 var:计算分组的标准差和方差
- describe:生成分组的描述性统计摘要
- first和 last:获取分组中的第一个和最后一个元素
- nunique:计算分组中唯一值的数量
- cumsum、cummin、cummax、cumprod:计算分组的累积和、最小值、最大值、累积乘积
数据清洗
- dropna: 丢弃包含缺失值的行或列
- fillna: 填充或替换缺失值
- interpolate: 对缺失值进行插值
- duplicated: 标记重复的行
- drop_duplicates: 删除重复的行
- str.strip: 去除字符串两端的空白字符
- str.lower和 str.upper: 将字符串转换为小写或大写
- str.replace: 替换字符串中的特定字符
- astype: 将一列的数据类型转换为指定类型
- sort_values: 对数据框按照指定列进行排序
- rename: 对列或行进行重命名
- drop: 删除指定的列或行
数据可视化
- pandas.DataFrame.plot.area:绘制堆积图
- pandas.DataFrame.plot.bar:绘制柱状图
- pandas.DataFrame.plot.barh:绘制水平条形图
- pandas.DataFrame.plot.box:绘制箱线图
- pandas.DataFrame.plot.density:绘制核密度估计图
- pandas.DataFrame.plot.hexbin:绘制六边形分箱图
- pandas.DataFrame.plot.hist:绘制直方图
- pandas.DataFrame.plot.line:绘制线型图
- pandas.DataFrame.plot.pie:绘制饼图
- pandas.DataFrame.plot.scatter:绘制散点图
- pandas.plotting.andrews_curves:绘制安德鲁曲线,用于可视化多变量数据
- pandas.plotting.autocorrelation_plot:绘制时间序列自相关图
- pandas.plotting.bootstrap_plot:用于评估统计数据的不确定性,例如均值,中位数,中间范围等
- pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据中的模式、趋势和季节性
- pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征的数据集中各个样本之间的关系
- pandas.plotting.scatter_matrix:绘制散点矩阵图
- pandas.plotting.table:绘制表格形式可视化图
日期时间
- to_datetime: 将输入转换为Datetime类型
- date_range: 生成日期范围
- to_timedelta: 将输入转换为Timedelta类型
- timedelta_range: 生成时间间隔范围
- shift: 沿着时间轴将数据移动
- resample: 对时间序列进行重新采样
- asfreq: 将时间序列转换为指定的频率
- cut: 将连续数据划分为离散的箱
- period_range: 生成周期范围
- infer_freq: 推断时间序列的频率
- tz_localize: 设置时区
- tz_convert: 转换时区
- dt: 用于访问Datetime中的属性
- day_name, month_name: 获取日期的星期几和月份的名称
- total_seconds: 计算时间间隔的总秒数
- rolling: 用于滚动窗口的操作
- expanding: 用于展开窗口的操作
- at_time, between_time: 在特定时间进行选择
- truncate: 截断时间序列
相关文章:
Pandas库常用方法、函数集合
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。 这里列举下Pandas中常用的函数和方法,方便大家查询使用。 读取 写…...
Qt实现TFTP Server和 TFTP Client(一)
1 概述 TFTP协议是基于UDP的简单文件传输协议,协议双方为Client和Server.Client和Server之间通过5种消息来传输文件,消息前两个字节Code是消息类型,消息内容随消息类型不同而不同。传输模式有三种:octet,netascii和mail,octet为二…...
MySQL数据库的日志管理以及备份和恢复
目录 1、日志管理 2、查询日志 3、数据备份的重要性 4、数据库备份的分类 4.1物理备份 4.2逻辑备份: 4.3完全备份 5、常见的备份方法 6、MySQL完全备份 6.1MySQL完全备份优缺点 6.2数据库完全备份分类 6.2.1物理冷备份与恢复 6.2.2mysqldump备份…...
Maven发布开源框架到远程仓库
1.背景 当你写了一个自我感觉良好的开源工具希望给他人分享,如果只是在github等网站进行公布之外,用户使用起来还不是很方便,特别是当你提供是特定领域的基础工具。你还可以把它部署到中央仓库,这样别人使用就会方便很多。接下来…...
Qt创建窗口选择的三个父类介绍 ----- QWidget、QMainWindow、QDialog
QWidget类 简介 QWidget是Qt中所有用户界面元素的基类。它提供了窗口的基本功能,并允许用户自定义窗口的外观和行为。QWidget可以包含其他QWidget子类的子窗口,从而实现复杂的用户界面。 特性 提供了窗口的基本功能,包括绘制、事件处理、…...
论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM
论文链接:https://arxiv.org/pdf/2309.14348.pdf Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Abstract1 Introduction2 Related Works3 Our Proposed Method3.1 Threat Model3.2 Our Proposed Method3.3 Practical Designs3.4 Theoret…...
Kafka总结问题
Kafka Kafka Kafka Kafka的核心概念/ 结构 topoic Topic 被称为主题,在 kafka 中,使用一个类别属性来划分消息的所属类,划分消息的这个类称为 topic。topic 相当于消息的分配标签,是一个逻辑概念。主题好比是数据库的表࿰…...
【RPG Maker MV 仿新仙剑 战斗场景UI (八)】
RPG Maker MV 仿新仙剑 战斗场景UI 八 状态及装备场景代码效果 状态及装备场景 本计划在战斗场景中直接制作的,但考虑到在战斗场景中加入太多的窗口这不太合适,操作也繁琐,因此直接使用其他场景。 代码 Pal_Window_EquipStatus.prototype.…...
【PyQt】18 -菜单等顶层操作
顶层界面的使用 前言一、菜单栏1.1 代码1.2 运行结果 二、工具栏2.1 代码几种显示方法 2.2 运行结果 三、状态栏3.1 代码3.2 运行结果 总结 前言 1、介绍顶层菜单栏目的使用,但没有陆续绑定槽函数。 2、工具栏 3、状态栏 一、菜单栏 1.1 代码 #Author :…...
线性代数基础概念和在AI中的应用
基本概念 线性代数是数学的一个分支,专注于向量、向量空间(也称为线性空间)、线性变换和矩阵的研究。这些概念在数据科学、人工智能、工程学和物理学等多个领域都有广泛应用。以下是这些基本概念的详细解释和它们在数据处理和AI中的应用。 …...
elasticsearch _cat/indices docs.count is different than <index>/_count
今天遇到一个问题,kibana中看到文档数与下面语句查询到的不同 GET /_cat/count/jiankunking_xxxxx_product_expand_test?v GET /jiankunking_xxxxx_product_expand_test/_search?track_total_hitstrue语句查询结果 epoch timestamp count 1711433785 06:16…...
关系型数据库mysql(7)sql高级语句
目录 一.MySQL常用查询 1.按关键字(字段)进行升降排序 按分数排序 (默认为升序) 按分数升序显示 按分数降序显示 根据条件进行排序(加上where) 根据多个字段进行排序 编辑 2.用或(or&…...
计算机网络——网络基础1
网络基础一 1.初识网络 网卡也是一种文件,所以对于网络的编程也是一种文件操作; 早期由于不同的计算机之间要根据数据进行协作,但是计算机之间是独立的,所以使用了光驱或者软盘之类的进行协作;对于将计算机连…...
ERDUnet: An Efficient Residual Double-codingUnet for Medical Image Segmentation
ERDUnet:一种用于医学图像分割的高效残差双编码单元 摘要 医学图像分割在临床诊断中有着广泛的应用,基于卷积神经网络的分割方法已经能够达到较高的准确率。然而,提取全局上下文特征仍然很困难,而且参数太大,无法临床应用。为此,我们提出了一种新的网络结构来改进传统的…...
vue响应式基础
声明响应式状态 ref() 在组合式 API 中,推荐使用 ref() 函数来声明响应式状态: import { ref } from vueconst count ref(0) ref() 接收参数,并将其包裹在一个带有 .value 属性的 ref 对象中返回: const count ref(0)c…...
每天上万简历,录取不到1%!阿里腾讯的 offer 都给了哪些人?
三月天杨柳醉春烟~正是求职好时节~ 与去年秋招的冷淡不同,今年春招市场放宽了许多,不少企业纷纷抛出橄榄枝,各大厂的只差把“缺人”两个字写在脸上了。 字节跳动技术方向开放数10个类型岗位,研发需求占比60%,非研发新增…...
外包干了20天,技术退步明显.......
先说一下自己的情况,大专生,21年通过校招进入杭州某软件公司,干了接近2年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了2年的功能测试…...
4核8G云服务器,阿里云要多少钱?
阿里云4核8G服务器优惠价格955元一年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云活动链接 aliyunfuwuq…...
数学分析复习:振荡型级数的收敛判别
文章目录 振荡型级数的收敛判别 本篇文章适合个人复习翻阅,不建议新手入门使用 振荡型级数的收敛判别 直观上,振荡型级数说的是级数各项有正有负,求和的时候可以相互抵消,故可能收敛 命题:Abel求和公式 设复数列 { …...
阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中
文章目录 阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中一、CICD流水线的初步使用可以看我之前的两篇文章二、添加部署任务,进行Docker部署,创建一个阿里的试用主机1、选择主机部署,并添加服务主机2、创建免费体…...
UDP(Echoserver)
网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...
学校招生小程序源码介绍
基于ThinkPHPFastAdminUniApp开发的学校招生小程序源码,专为学校招生场景量身打造,功能实用且操作便捷。 从技术架构来看,ThinkPHP提供稳定可靠的后台服务,FastAdmin加速开发流程,UniApp则保障小程序在多端有良好的兼…...
高等数学(下)题型笔记(八)空间解析几何与向量代数
目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...
html-<abbr> 缩写或首字母缩略词
定义与作用 <abbr> 标签用于表示缩写或首字母缩略词,它可以帮助用户更好地理解缩写的含义,尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时,会显示一个提示框。 示例&#x…...
免费PDF转图片工具
免费PDF转图片工具 一款简单易用的PDF转图片工具,可以将PDF文件快速转换为高质量PNG图片。无需安装复杂的软件,也不需要在线上传文件,保护您的隐私。 工具截图 主要特点 🚀 快速转换:本地转换,无需等待上…...
LabVIEW双光子成像系统技术
双光子成像技术的核心特性 双光子成像通过双低能量光子协同激发机制,展现出显著的技术优势: 深层组织穿透能力:适用于活体组织深度成像 高分辨率观测性能:满足微观结构的精细研究需求 低光毒性特点:减少对样本的损伤…...
MyBatis中关于缓存的理解
MyBatis缓存 MyBatis系统当中默认定义两级缓存:一级缓存、二级缓存 默认情况下,只有一级缓存开启(sqlSession级别的缓存)二级缓存需要手动开启配置,需要局域namespace级别的缓存 一级缓存(本地缓存&#…...
Python实现简单音频数据压缩与解压算法
Python实现简单音频数据压缩与解压算法 引言 在音频数据处理中,压缩算法是降低存储成本和传输效率的关键技术。Python作为一门灵活且功能强大的编程语言,提供了丰富的库和工具来实现音频数据的压缩与解压。本文将通过一个简单的音频数据压缩与解压算法…...
aardio 自动识别验证码输入
技术尝试 上周在发学习日志时有网友提议“在网页上识别验证码”,于是尝试整合图像识别与网页自动化技术,完成了这套模拟登录流程。核心思路是:截图验证码→OCR识别→自动填充表单→提交并验证结果。 代码在这里 import soImage; import we…...
Python的__call__ 方法
在 Python 中,__call__ 是一个特殊的魔术方法(magic method),它允许一个类的实例像函数一样被调用。当你在一个对象后面加上 () 并执行时(例如 obj()),Python 会自动调用该对象的 __call__ 方法…...
