从Pandas到Polars :数据的ETL和查询
对于我们日常的数据清理、预处理和分析方面的大多数任务,Pandas已经绰绰有余。但是当数据量变得非常大时,它的性能开始下降。
本文将介绍如何将日常的数据ETL和查询过滤的Pandas转换成polars。
图片
Polars的优势
Polars是一个用于Rust和Python的DataFrame库。
Polars利用机器上所有可用的内核,而pandas使用单个CPU内核来执行操作。
Polars比pandas相对轻量级,没有依赖关系,这使得导入Polars的速度更快。导入Polars只需要70毫秒,而导入pandas需要520毫秒。
Polars进行查询优化减少了不必要的内存分配。它还能够以流方式部分或全部地处理查询。
Polars可以处理比机器可用RAM更大的数据集。
ETL
Extract, Transform, and Load (ETL)的过程是怎样的:
“提取、转换和加载(ETL)是将来自多个数据源的数据组合到称为数据仓库的过程。ETL使用一组业务规则来清理和组织原始数据,并为存储、数据分析和机器学习(ML)做好准备。可以通过数据分析解决特定的业务智能需求(例如预测业务决策的结果、生成报告、减少操作效率低下,等等)。(来源:AWS)
Polars和Pandas都支持从各种来源读取数据,包括CSV、Parquet和JSON。
df = pl.read_csv(‘data.csv’)
df = pl.read_parquet(‘data.parquet’)
df = pl.read_json(‘data.json’)
对于数据的读取方面和Pandas基本一致。
转换是ETL中最重要、最困难和最耗时的步骤。
polar支持Pandas函数的一个子集,所以我们可以使用熟悉的Pandas函数来执行数据转换。
df = df.select([‘A’, ‘C’])
df = df.rename({‘A’: ‘ID’, ‘C’: ‘Total’})
df = df.filter(pl.col(‘A’) > 2)
df = df.groupby(‘A’).agg({‘C’: ‘sum’})
这些Pandas函数都可以直接使用。
创建新列:
df = df.with_column(pl.col(‘Total’) / 2, ‘Half Total’)
处理空值:
df = df.fill_null(0)
df_filled = df.fill_null(‘backward’)
df = df.fillna(method=‘ffill’)
Dataframe 的合并
#pandas
df_join = pd.merge(df1, df2, on=‘A’)
#polars
df_join = df1.join(df2, on=‘A’)
连接两个DF
#pandas
df_union = pd.concat([df1, df2], ignore_index=True)
#polars
df_union = pl.vstack([df1, df2])
polar使用与Pandas相同的函数来将数据保存到CSV、JSON和Parquet文件中。
CSV
df.to_csv(file)
JSON
df.to_json(file)
Parquet
df.to_parquet(file)
最后,如果你还需要使用Pandas做一些特殊的操作,可以使用:
df.to_pandas()
这可以将polar的DF转换成pandas的DF。
最后我们整理一个简单的表格:
图片
数据的查询过滤
我们的日常工作中,数据的查询是最重要,也是用的最多的,所以在这里我们再整理下查询过滤的操作。
首先创建一个要处理的DataFrame。
pandas
import pandas as pd
read csv
df_pd = pd.read_csv(“datasets/sales_data_with_stores.csv”)
display the first 5 rows
df_pd.head()
图片
polars
import polars as pl
read_csv
df_pl = pl.read_csv(“datasets/sales_data_with_stores.csv”)
display the first 5 rows
df_pl.head()
图片
polars首先显示了列的数据类型和输出的形状,这对我们来说非常好。下面我们进行一些查询,我们这里只显示一个输出,因为结果都是一样的:
1、按数值筛选
pandas
df_pd[df_pd[“cost”] > 750]
df_pd.query(‘cost > 750’)
polars
df_pl.filter(pl.col(“cost”) > 750)
图片
2、多个条件查询
pandas和polar都支持根据多个条件进行过滤。我们可以用“and”和“or”逻辑组合条件。
pandas
df_pd[(df_pd[“cost”] > 750) & (df_pd[“store”] == “Violet”)]
polars
df_pl.filter((pl.col(“cost”) > 750) & (pl.col(“store”) == “Violet”))
图片
3、isin
pandas的isin方法可用于将行值与值列表进行比较。当条件包含多个值时,它非常有用。这个方法的polar版本是" is_in "。
pandas
df_pd[df_pd[“product_group”].isin([“PG1”, “PG2”, “PG5”])]
polars
df_pl.filter(pl.col(“product_group”).is_in([“PG1”, “PG2”, “PG5”]))
图片
4、选择列的子集
为了选择列的子集,我们可以将列名传递给pandas和polar,如下所示:
cols = [“product_code”, “cost”, “price”]
pandas (both of the following do the job)
df_pd[cols]
df_pd.loc[:, cols]
polars
df_pl.select(pl.col(cols))
图片
5、选择行子集
pandas中可以使用loc或iloc方法选择行。在polar则更简单。
pandas
df_pd.iloc[10:20]
polars
df_pl[10:20]
选择相同的行,但只选择前三列:
pandas
df_pd.iloc[10:20, :3]
polars
df_pl[10:20, :3]
如果要按名称选择列:
pandas
df_pd.loc[10:20, [“store”, “product_group”, “price”]]
polars
df_pl[10:20, [“store”, “product_group”, “price”]]
按数据类型选择列:
我们还可以选择具有特定数据类型的列。
pandas
df_pd.select_dtypes(include=“int64”)
polars
df_pl.select(pl.col(pl.Int64))
图片
总结
可以看到polar与pandas非常相似,所以如果在处理大数据集的时候,我们可以尝试使用polar,因为它在处理大型数据集时的效率要比pandas高,我们这里只介绍了一些简单的操作,如果你想了解更多,请看polar的官方文档:
https://pola-rs.github.io/polars-book/user-guide/coming_from_pandas.html
相关文章:
从Pandas到Polars :数据的ETL和查询
对于我们日常的数据清理、预处理和分析方面的大多数任务,Pandas已经绰绰有余。但是当数据量变得非常大时,它的性能开始下降。 本文将介绍如何将日常的数据ETL和查询过滤的Pandas转换成polars。 图片 Polars的优势 Polars是一个用于Rust和Python的Data…...
Node.Js编码注意事项
Node.js 中不能使用 BOM 和 DOM 的 API,可以使用 console 和定时器 APINode.js 中的顶级对象为 global,也可以用 globalThis 访问顶级对象 浏览器端js的组成 Node.js中的JavaScript组成 相比较之下发现只有console与定时器是两个API所共有的ÿ…...
floodfill算法题目
前言 大家好,我是jiantaoyab,在下面的题目中慢慢体会floodFill算法,虽然是新的算法,但是用的思想和前面的文章几乎一样,代码格式也几乎一样,但不要去背代码 图像渲染 https://leetcode.cn/problems/flood…...
AI相关的实用工具分享
AI实用工具大赏:赋能科研与生活,探索AI的无限可能 前言 在数字化浪潮汹涌而至的今天,人工智能(AI)已经渗透到我们生活的方方面面,无论是工作还是生活,都在悄然发生改变。AI的崛起不仅为我们带…...
K8s — PVC|PV Terminating State
在本文中,我们将讨论PV和PVC一直Terminating的状态。 何时会Terminting? 在以下情况下,资源将处于Terminating状态。 在删除Bounded 状态的PVC之前,删除了对应的PV,PV在删除后是Terminting状态。删除PVC时,仍有引用…...
C语言 --- 指针(5)
目录 一.sizeof和strlen对比 1.sizeof 2.strlen 3.strlen 和sizeof的对比 二.数组和指针笔试题目详解 回顾:数组名的理解 1.一维数组 2.字符数组 代码1: 代码2: 代码3: 代码4: 代码5: 代码6&am…...
Android Studio Iguana | 2023.2.1版本
Android Gradle 插件和 Android Studio 兼容性 Android Studio 构建系统基于 Gradle,并且 Android Gradle 插件 (AGP) 添加了一些特定于构建 Android 应用程序的功能。下表列出了每个版本的 Android Studio 所需的 AGP 版本。 如果特定版本的 Android Studio 不支持…...
并查集(蓝桥杯 C++ 题目 代码 注解)
目录 介绍: 模板: 题目一(合根植物): 代码: 题目二(蓝桥幼儿园): 代码: 题目三(小猪存钱罐): 代码: …...
MapReduce内存参数自动推断
MapReduce内存参数自动推断。在Hadoop 2.0中,为MapReduce作业设置内存参数非常繁琐,涉及到两个参数:mapreduce.{map,reduce}.memory.mb和mapreduce.{map,reduce}.java.opts,一旦设置不合理,则会使得内存资源浪费严重&a…...
pyside6 pytq PyDracula QVideoWidget视频只有画面没有声音
解决方案: 先不使用框架,纯pyside6代码,如果添加视频有画面有声音,那可以排除是硬件问题,如果没有画面只有声音,可能是视频解码器无法解码,换个格式的视频文件如果只有使用PyDracula 出问题&am…...
Axure基础 各元件的作用及介绍
图像热区 增加按钮或者文本的点击区域,他是透明的,在预览时看不见。 动态面板 用来绘制一下带交互效果的元件,他是动态的,如轮播图,一个动态面板里可以有多个子面板,每一个子面板对应着不同的效果。 他…...
学习Java的第六天
目录 一、变量 1、变量的定义 2、变量的声明格式 3、变量的注意事项 4、变量的作用域 二、常量 三、命名规范 Java 语言支持如下运算符: 1、算术运算符 解析图: 示例: 2、赋值运算符 解析图: 示例: 3、关…...
基于Spring Boot+ Vue的房屋租赁系统
末尾获取源码作者介绍:大家好,我是墨韵,本人4年开发经验,专注定制项目开发 更多项目:CSDN主页YAML墨韵 学如逆水行舟,不进则退。学习如赶路,不能慢一步。 目录 一、项目简介 二、开发技术与环…...
多轨迹建模方法的介绍与实操-基于R语言
本文介绍了多轨迹建模方法(Group-Based Multivariate Trajectory Modeling),这是一种扩展了单指标组基轨迹建模的技术,用于分析多个疾病生物标志物或临床重要因素的联合轨迹,以更好地理解和追踪疾病进程、行为或健康状…...
【Spring】Spring状态机
1.什么是状态机 (1). 什么是状态 先来解释什么是“状态”( State )。现实事物是有不同状态的,例如一个自动门,就有 open 和 closed 两种状态。我们通常所说的状态机是有限状态机,也就是被描述的事物的状态的数量是有…...
Node.js基础---使用Express写接口
1. 创建基本的服务器 2. 创建 API 路由模块 // aoiRouter.js 路由模块 const express require(express) const apiRouter express.Router()module.exports apiRouter// ------------------------------------------// app.js 导入并注册路由模块 const apiRouter require(…...
小蓝的钥匙(蓝桥杯错排)
现在有28个小朋友,每个人手上有一把钥匙,每一个钥匙都只能打开自己的房间门,现在将所有钥匙都收上来,然后再随机打乱分给每个小朋友,也就是有28!的分法,请问现在其中14个小朋友的钥匙能恰好打开…...
【Python】科研代码学习:八 FineTune PretrainedModel (用 trainer,用 script);LLM文本生成
【Python】科研代码学习:八 FineTune PretrainedModel [用 trainer,用 script] LLM文本生成 自己整理的 HF 库的核心关系图用 trainer 来微调一个预训练模型用 script 来做训练任务使用 LLM 做生成任务可能犯的错误,以及解决措施 自己整理的 …...
SpringBoot RestTemplate远程调用总结
1、get请求 GetMapping("/searchEntryRecordPageList") public JSONObject searchEntryRecordPageList(RequestParam Map<String,Object> params){HttpHeaders requestHeaders new HttpHeaders();requestHeaders.add("Authorization","Bearer…...
Python 强大邮件处理库 Imbox
目录 IMAP Mailbox Imbox 安装 特性 提取邮件内容 处理附件 安全性 示例 1:读取收件箱中的邮件 2:搜索并下载附件 3:连接到IMAP服务器获取所有邮件 结论 IMAP Mailbox IMAP(Internet Message Access Protocol&#x…...
浅谈 React Hooks
React Hooks 是 React 16.8 引入的一组 API,用于在函数组件中使用 state 和其他 React 特性(例如生命周期方法、context 等)。Hooks 通过简洁的函数接口,解决了状态与 UI 的高度解耦,通过函数式编程范式实现更灵活 Rea…...
【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15
缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下: struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...
HBuilderX安装(uni-app和小程序开发)
下载HBuilderX 访问官方网站:https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本: Windows版(推荐下载标准版) Windows系统安装步骤 运行安装程序: 双击下载的.exe安装文件 如果出现安全提示&…...
大模型多显卡多服务器并行计算方法与实践指南
一、分布式训练概述 大规模语言模型的训练通常需要分布式计算技术,以解决单机资源不足的问题。分布式训练主要分为两种模式: 数据并行:将数据分片到不同设备,每个设备拥有完整的模型副本 模型并行:将模型分割到不同设备,每个设备处理部分模型计算 现代大模型训练通常结合…...
聊一聊接口测试的意义有哪些?
目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开,首…...
【Oracle】分区表
个人主页:Guiat 归属专栏:Oracle 文章目录 1. 分区表基础概述1.1 分区表的概念与优势1.2 分区类型概览1.3 分区表的工作原理 2. 范围分区 (RANGE Partitioning)2.1 基础范围分区2.1.1 按日期范围分区2.1.2 按数值范围分区 2.2 间隔分区 (INTERVAL Partit…...
用机器学习破解新能源领域的“弃风”难题
音乐发烧友深有体会,玩音乐的本质就是玩电网。火电声音偏暖,水电偏冷,风电偏空旷。至于太阳能发的电,则略显朦胧和单薄。 不知你是否有感觉,近两年家里的音响声音越来越冷,听起来越来越单薄? —…...
RabbitMQ入门4.1.0版本(基于java、SpringBoot操作)
RabbitMQ 一、RabbitMQ概述 RabbitMQ RabbitMQ最初由LShift和CohesiveFT于2007年开发,后来由Pivotal Software Inc.(现为VMware子公司)接管。RabbitMQ 是一个开源的消息代理和队列服务器,用 Erlang 语言编写。广泛应用于各种分布…...
springboot 日志类切面,接口成功记录日志,失败不记录
springboot 日志类切面,接口成功记录日志,失败不记录 自定义一个注解方法 import java.lang.annotation.ElementType; import java.lang.annotation.Retention; import java.lang.annotation.RetentionPolicy; import java.lang.annotation.Target;/***…...
pycharm 设置环境出错
pycharm 设置环境出错 pycharm 新建项目,设置虚拟环境,出错 pycharm 出错 Cannot open Local Failed to start [powershell.exe, -NoExit, -ExecutionPolicy, Bypass, -File, C:\Program Files\JetBrains\PyCharm 2024.1.3\plugins\terminal\shell-int…...
