Pandas库常用方法、函数集合
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。
这里列举下Pandas中常用的函数和方法,方便大家查询使用。
读取 写入
- read_csv:读取CSV文件
- to_csv:导出CSV文件
- read_excel:读取Excel文件
- to_excel:导出Excel文件
- read_json:读取Json文件
- to_json:导出Json文件
- read_html:读取网页中HTML表格数据
- to_html:导出网页HTML表格
- read_clipboard:读取剪切板数据
- to_clipboard:导出数据到剪切板
- to_latex:导出数据为latex格式
- read_sas:读取sas格式数据(一种统计分析软件数据格式)
- read_spss:读取spss格式数据(一种统计分析软件数据格式)
- read_stata:读取stata格式数据(一种统计分析软件数据格式)
- read_sql:读取sql查询的数据(需要连接数据库),输出dataframe格式
- to_sql:向数据库写入dataframe格式数据
连接 合并 重塑
- merge:根据指定键关联连接多个dataframe,类似sql中的join
- concat:合并多个dataframe,类似sql中的union
- pivot:按照指定的行列重塑表格
- pivot_table:数据透视表,类似excel中的透视表
- cut:将一组数据分割成离散的区间,适合将数值进行分类
- qcut:和cut作用一样,不过它是将数值等间距分割
- crosstab:创建交叉表,用于计算两个或多个因子之间的频率
- join:通过索引合并两个dataframe
- stack: 将数据框的列“堆叠”为一个层次化的Series
- unstack: 将层次化的Series转换回数据框形式
- append: 将一行或多行数据追加到数据框的末尾
分组 聚合 转换 过滤
- groupby:按照指定的列或多个列对数据进行分组
- agg:对每个分组应用自定义的聚合函数
- transform:对每个分组应用转换函数,返回与原始数据形状相同的结果
- rank:计算元素在每个分组中的排名
- filter:根据分组的某些属性筛选数据
- sum:计算分组的总和
- mean:计算分组的平均值
- median:计算分组的中位数
- min和 max:计算分组的最小值和最大值
- count:计算分组中非NA值的数量
- size:计算分组的大小
- std和 var:计算分组的标准差和方差
- describe:生成分组的描述性统计摘要
- first和 last:获取分组中的第一个和最后一个元素
- nunique:计算分组中唯一值的数量
- cumsum、cummin、cummax、cumprod:计算分组的累积和、最小值、最大值、累积乘积
数据清洗
- dropna: 丢弃包含缺失值的行或列
- fillna: 填充或替换缺失值
- interpolate: 对缺失值进行插值
- duplicated: 标记重复的行
- drop_duplicates: 删除重复的行
- str.strip: 去除字符串两端的空白字符
- str.lower和 str.upper: 将字符串转换为小写或大写
- str.replace: 替换字符串中的特定字符
- astype: 将一列的数据类型转换为指定类型
- sort_values: 对数据框按照指定列进行排序
- rename: 对列或行进行重命名
- drop: 删除指定的列或行
数据可视化
- pandas.DataFrame.plot.area:绘制堆积图
- pandas.DataFrame.plot.bar:绘制柱状图
- pandas.DataFrame.plot.barh:绘制水平条形图
- pandas.DataFrame.plot.box:绘制箱线图
- pandas.DataFrame.plot.density:绘制核密度估计图
- pandas.DataFrame.plot.hexbin:绘制六边形分箱图
- pandas.DataFrame.plot.hist:绘制直方图
- pandas.DataFrame.plot.line:绘制线型图
- pandas.DataFrame.plot.pie:绘制饼图
- pandas.DataFrame.plot.scatter:绘制散点图
- pandas.plotting.andrews_curves:绘制安德鲁曲线,用于可视化多变量数据
- pandas.plotting.autocorrelation_plot:绘制时间序列自相关图
- pandas.plotting.bootstrap_plot:用于评估统计数据的不确定性,例如均值,中位数,中间范围等
- pandas.plotting.lag_plot:绘制时滞图,用于检测时间序列数据中的模式、趋势和季节性
- pandas.plotting.parallel_coordinates:绘制平行坐标图,用于展示具有多个特征的数据集中各个样本之间的关系
- pandas.plotting.scatter_matrix:绘制散点矩阵图
- pandas.plotting.table:绘制表格形式可视化图
日期时间
- to_datetime: 将输入转换为Datetime类型
- date_range: 生成日期范围
- to_timedelta: 将输入转换为Timedelta类型
- timedelta_range: 生成时间间隔范围
- shift: 沿着时间轴将数据移动
- resample: 对时间序列进行重新采样
- asfreq: 将时间序列转换为指定的频率
- cut: 将连续数据划分为离散的箱
- period_range: 生成周期范围
- infer_freq: 推断时间序列的频率
- tz_localize: 设置时区
- tz_convert: 转换时区
- dt: 用于访问Datetime中的属性
- day_name, month_name: 获取日期的星期几和月份的名称
- total_seconds: 计算时间间隔的总秒数
- rolling: 用于滚动窗口的操作
- expanding: 用于展开窗口的操作
- at_time, between_time: 在特定时间进行选择
- truncate: 截断时间序列
相关文章:
Pandas库常用方法、函数集合
Pandas是Python数据分析处理的核心第三方库,它使用二维数组形式,类似Excel表格,并封装了很多实用的函数方法,让你可以轻松地对数据集进行各种操作。 这里列举下Pandas中常用的函数和方法,方便大家查询使用。 读取 写…...
Qt实现TFTP Server和 TFTP Client(一)
1 概述 TFTP协议是基于UDP的简单文件传输协议,协议双方为Client和Server.Client和Server之间通过5种消息来传输文件,消息前两个字节Code是消息类型,消息内容随消息类型不同而不同。传输模式有三种:octet,netascii和mail,octet为二…...
MySQL数据库的日志管理以及备份和恢复
目录 1、日志管理 2、查询日志 3、数据备份的重要性 4、数据库备份的分类 4.1物理备份 4.2逻辑备份: 4.3完全备份 5、常见的备份方法 6、MySQL完全备份 6.1MySQL完全备份优缺点 6.2数据库完全备份分类 6.2.1物理冷备份与恢复 6.2.2mysqldump备份…...
Maven发布开源框架到远程仓库
1.背景 当你写了一个自我感觉良好的开源工具希望给他人分享,如果只是在github等网站进行公布之外,用户使用起来还不是很方便,特别是当你提供是特定领域的基础工具。你还可以把它部署到中央仓库,这样别人使用就会方便很多。接下来…...
Qt创建窗口选择的三个父类介绍 ----- QWidget、QMainWindow、QDialog
QWidget类 简介 QWidget是Qt中所有用户界面元素的基类。它提供了窗口的基本功能,并允许用户自定义窗口的外观和行为。QWidget可以包含其他QWidget子类的子窗口,从而实现复杂的用户界面。 特性 提供了窗口的基本功能,包括绘制、事件处理、…...
论文翻译 - Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM
论文链接:https://arxiv.org/pdf/2309.14348.pdf Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM Abstract1 Introduction2 Related Works3 Our Proposed Method3.1 Threat Model3.2 Our Proposed Method3.3 Practical Designs3.4 Theoret…...
Kafka总结问题
Kafka Kafka Kafka Kafka的核心概念/ 结构 topoic Topic 被称为主题,在 kafka 中,使用一个类别属性来划分消息的所属类,划分消息的这个类称为 topic。topic 相当于消息的分配标签,是一个逻辑概念。主题好比是数据库的表࿰…...
【RPG Maker MV 仿新仙剑 战斗场景UI (八)】
RPG Maker MV 仿新仙剑 战斗场景UI 八 状态及装备场景代码效果 状态及装备场景 本计划在战斗场景中直接制作的,但考虑到在战斗场景中加入太多的窗口这不太合适,操作也繁琐,因此直接使用其他场景。 代码 Pal_Window_EquipStatus.prototype.…...
【PyQt】18 -菜单等顶层操作
顶层界面的使用 前言一、菜单栏1.1 代码1.2 运行结果 二、工具栏2.1 代码几种显示方法 2.2 运行结果 三、状态栏3.1 代码3.2 运行结果 总结 前言 1、介绍顶层菜单栏目的使用,但没有陆续绑定槽函数。 2、工具栏 3、状态栏 一、菜单栏 1.1 代码 #Author :…...
线性代数基础概念和在AI中的应用
基本概念 线性代数是数学的一个分支,专注于向量、向量空间(也称为线性空间)、线性变换和矩阵的研究。这些概念在数据科学、人工智能、工程学和物理学等多个领域都有广泛应用。以下是这些基本概念的详细解释和它们在数据处理和AI中的应用。 …...
elasticsearch _cat/indices docs.count is different than <index>/_count
今天遇到一个问题,kibana中看到文档数与下面语句查询到的不同 GET /_cat/count/jiankunking_xxxxx_product_expand_test?v GET /jiankunking_xxxxx_product_expand_test/_search?track_total_hitstrue语句查询结果 epoch timestamp count 1711433785 06:16…...
关系型数据库mysql(7)sql高级语句
目录 一.MySQL常用查询 1.按关键字(字段)进行升降排序 按分数排序 (默认为升序) 按分数升序显示 按分数降序显示 根据条件进行排序(加上where) 根据多个字段进行排序 编辑 2.用或(or&…...
计算机网络——网络基础1
网络基础一 1.初识网络 网卡也是一种文件,所以对于网络的编程也是一种文件操作; 早期由于不同的计算机之间要根据数据进行协作,但是计算机之间是独立的,所以使用了光驱或者软盘之类的进行协作;对于将计算机连…...
ERDUnet: An Efficient Residual Double-codingUnet for Medical Image Segmentation
ERDUnet:一种用于医学图像分割的高效残差双编码单元 摘要 医学图像分割在临床诊断中有着广泛的应用,基于卷积神经网络的分割方法已经能够达到较高的准确率。然而,提取全局上下文特征仍然很困难,而且参数太大,无法临床应用。为此,我们提出了一种新的网络结构来改进传统的…...
vue响应式基础
声明响应式状态 ref() 在组合式 API 中,推荐使用 ref() 函数来声明响应式状态: import { ref } from vueconst count ref(0) ref() 接收参数,并将其包裹在一个带有 .value 属性的 ref 对象中返回: const count ref(0)c…...
每天上万简历,录取不到1%!阿里腾讯的 offer 都给了哪些人?
三月天杨柳醉春烟~正是求职好时节~ 与去年秋招的冷淡不同,今年春招市场放宽了许多,不少企业纷纷抛出橄榄枝,各大厂的只差把“缺人”两个字写在脸上了。 字节跳动技术方向开放数10个类型岗位,研发需求占比60%,非研发新增…...
外包干了20天,技术退步明显.......
先说一下自己的情况,大专生,21年通过校招进入杭州某软件公司,干了接近2年的功能测试,今年年初,感觉自己不能够在这样下去了,长时间呆在一个舒适的环境会让一个人堕落! 而我已经在一个企业干了2年的功能测试…...
4核8G云服务器,阿里云要多少钱?
阿里云4核8G服务器优惠价格955元一年,配置为ECS通用算力型u1实例(ecs.u1-c1m2.xlarge)4核8G配置、1M到3M带宽可选、ESSD Entry系统盘20G到40G可选,CPU采用Intel(R) Xeon(R) Platinum处理器,阿里云活动链接 aliyunfuwuq…...
数学分析复习:振荡型级数的收敛判别
文章目录 振荡型级数的收敛判别 本篇文章适合个人复习翻阅,不建议新手入门使用 振荡型级数的收敛判别 直观上,振荡型级数说的是级数各项有正有负,求和的时候可以相互抵消,故可能收敛 命题:Abel求和公式 设复数列 { …...
阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中
文章目录 阿里CICD流水线Docker部署,将阿里镜像私仓中的镜像部署到服务器中一、CICD流水线的初步使用可以看我之前的两篇文章二、添加部署任务,进行Docker部署,创建一个阿里的试用主机1、选择主机部署,并添加服务主机2、创建免费体…...
Cursor Pro免费激活终极指南:如何突破试用限制重新获得AI编程体验
Cursor Pro免费激活终极指南:如何突破试用限制重新获得AI编程体验 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reach…...
重塑机械键盘体验:ZMK固件的革新之旅与实践指南
重塑机械键盘体验:ZMK固件的革新之旅与实践指南 【免费下载链接】zmk ZMK Firmware Repository 项目地址: https://gitcode.com/gh_mirrors/zm/zmk 在机械键盘的世界里,固件如同键盘的灵魂,决定着它的响应速度、功能拓展性和个性化程度…...
Graphormer部署教程:/etc/supervisor/conf.d/graphormer.conf配置解析
Graphormer部署教程:/etc/supervisor/conf.d/graphormer.conf配置解析 1. 项目介绍 Graphormer是一种基于纯Transformer架构的图神经网络模型,专门为分子图(原子-键结构)的全局结构建模与属性预测而设计。该模型在OGB、PCQM4M等…...
Python MCP服务端框架源码剖析(2024最新LTS版内核解密)
第一章:Python MCP服务端框架源码剖析(2024最新LTS版内核解密)Python MCP(Modular Control Protocol)服务端框架2024 LTS版标志着其架构从单体调度向轻量级异步模块总线的重大演进。该版本基于 Python 3.11 构建&#…...
迷宫问题求解:从递归到队列的算法实战与性能对比
1. 迷宫问题与三种经典解法 迷宫问题就像我们小时候玩的走迷宫游戏,需要在错综复杂的路径中找到一条从起点到终点的通路。在计算机科学中,迷宫被抽象成一个二维矩阵,其中0代表可通行的路径,1代表障碍物。这个问题看似简单…...
Phi-4-mini-reasoning企业应用探索:智能客服知识推理模块集成方案
Phi-4-mini-reasoning企业应用探索:智能客服知识推理模块集成方案 1. 轻量级推理模型的价值 在当今企业智能化转型浪潮中,轻量级推理模型正成为技术落地的关键。Phi-4-mini-reasoning作为一款专注于高质量推理的开源模型,凭借其128K令牌的超…...
从键盘敲击到屏幕显示:一个字符在Linux内核里的完整旅程(附C代码模拟)
从键盘敲击到屏幕显示:一个字符在Linux内核里的完整旅程 当你在终端敲下字母"A"时,这个简单的动作背后隐藏着一场跨越硬件、内核和用户空间的精密协作。让我们跟随这个字符的脚步,揭开Linux系统如何处理键盘输入的神秘面纱。 1. …...
保姆级教程:在OBBDetection项目中为DOTA数据集定制检测结果可视化(mmdetection 2.2)
深度定制OBBDetection检测结果可视化:DOTA数据集高级实践指南 在旋转目标检测领域,DOTA数据集因其复杂的航拍场景和多角度目标特性,对结果可视化提出了独特挑战。本文将带您从零构建一套完整的可视化解决方案,涵盖从基础配置到高级…...
Hunyuan-MT-7B效果实测:Pixel Language Portal对中文网络用语、方言、谐音梗的跨维转码能力分析
Hunyuan-MT-7B效果实测:Pixel Language Portal对中文网络用语、方言、谐音梗的跨维转码能力分析 1. 引言:当翻译遇上像素冒险 在数字时代的语言交流中,传统翻译工具往往显得生硬而缺乏温度。Pixel Language Portal(像素语言跨维…...
用战神引擎开服后,别忘了这几步:服务器安全、日志监控与性能调优指南
战神引擎开服后的高阶运维指南:安全加固、日志监控与性能调优实战 当你成功用战神引擎架设传奇手游服务器后,真正的挑战才刚刚开始。服务器能跑起来只是第一步,如何让它跑得稳、跑得安全、跑得高效,才是区分普通服主和专业运维的关…...
