快速提升Python Pandas处理速度的秘诀
大家好,Python的Pandas库为数据处理和分析提供了丰富的功能,但当处理大规模数据时,性能问题往往成为瓶颈。本文将介绍一些在Pandas中进行性能优化的方法与技巧,帮助有效提升数据处理速度,优化代码运行效率。
1.数据类型优化
在Pandas中,不同的数据类型占用的内存和处理速度各不相同。合理选择数据类型不仅能减少内存占用,还能提升处理速度,特别是在大规模数据集上,优化数据类型可以显著提升性能。
1.1 使用category类型替代object类型
Pandas中的category类型适合处理具有有限取值的分类数据,它比object类型占用更少的内存,处理速度也更快。
下面通过将object类型的列转换为category来优化内存使用。
import pandas as pd# 创建一个数据框
df = pd.DataFrame({'城市': ['北京', '上海', '广州', '北京', '上海', '广州'] * 100000,'人口': [2154, 2424, 1500, 2154, 2424, 1500] * 100000
})# 检查转换前的内存占用
print(df.memory_usage(deep=True))# 将城市列转换为category类型
df['城市'] = df['城市'].astype('category')# 检查转换后的内存占用
print(df.memory_usage(deep=True))
在这个例子中,将字符串列转换为category类型可以大幅降低内存使用,尤其在处理有大量重复值的列时。
1.2 减少浮点数精度
如果浮点数的精度对分析结果并不重要,可以通过降低浮点数的精度来减少内存消耗。
# 创建一个包含浮点数的数据框
df = pd.DataFrame({'收入': [50000.56, 60000.78, 70000.89] * 100000
})# 检查转换前的内存使用
print(df.memory_usage(deep=True))# 将float64转换为float32
df['收入'] = df['收入'].astype('float32')# 检查转换后的内存使用
print(df.memory_usage(deep=True))
通过将float64类型转换为float32,可以减少内存的占用,处理速度也会相应提升。
2.向量化操作
Pandas中很多操作都可以通过向量化的方式进行,向量化操作指的是在数据集上一次性应用运算,而不是逐行处理。向量化操作比使用for循环处理数据的效率更高。
可以使用向量化代替for循环:
import numpy as np# 创建一个数据框
df = pd.DataFrame({'A': np.random.rand(1000000),'B': np.random.rand(1000000)
})# 使用for循环逐行相加
df['C_for'] = [a + b for a, b in zip(df['A'], df['B'])]# 使用向量化操作直接相加
df['C_vec'] = df['A'] + df['B']
向量化操作 df['A'] + df['B'] 的效率远高于使用for循环逐行相加,特别是在处理大规模数据时,性能差异会非常明显。
3.避免复制数据
在Pandas中,有些操作会隐式地复制数据,导致内存使用增加,从而影响性能。例如DataFrame的切片操作默认会创建数据的副本,而不是引用。通过使用inplace=True参数或避免不必要的复制操作,可以提升性能。
# 创建一个数据框
df = pd.DataFrame({'A': np.random.rand(1000000),'B': np.random.rand(1000000)
})# 默认情况下drop操作会创建一个新数据框
df_new = df.drop(columns=['B'])# 使用inplace避免复制
df.drop(columns=['B'], inplace=True)
在这个示例中,inplace=True让数据框在原地修改,避免了额外的数据副本创建,节省了内存。
4.使用多线程或并行化处理
在处理大数据集时,利用多线程或并行化处理可以显著提升数据处理的速度。Pandas本身并不支持多线程操作,但可以结合 dask 或 modin 库实现并行计算。
4.1 使用dask进行并行处理
dask 是一个用于并行计算的库,能够有效扩展Pandas的操作能力。它可以处理内存不足以加载的数据,并自动调度计算任务。
import dask.dataframe as dd# 使用dask读取CSV文件
df = dd.read_csv('large_data.csv')# 进行一些基本的操作
df_grouped = df.groupby('列名').agg({'另一列': 'mean'})# 将结果计算并转换为Pandas DataFrame
df_result = df_grouped.compute()
通过 dask,可以在内存中并行处理大规模数据,避免单线程计算带来的性能瓶颈。
4.2 使用modin进行加速
modin 是一个旨在加速Pandas的开源库,它通过并行化技术提高Pandas的性能。
import modin.pandas as pd# 使用modin读取数据
df = pd.read_csv('large_data.csv')# 进行一些基本的分析操作
df_grouped = df.groupby('列名').agg({'另一列': 'mean'})
modin 会自动并行化Pandas的操作,在大数据处理上具有显著的性能提升。
5.批量读取与写入
在处理大型数据集时,一次性读取或写入过多的数据可能会导致内存溢出。通过批量读取和写入数据,可以分散内存压力,避免性能瓶颈。
read_csv() 函数的 chunksize 参数允许我们一次读取一部分数据,而不是一次性将所有数据加载到内存中。
# 使用chunksize分块读取CSV文件
chunks = pd.read_csv('large_data.csv', chunksize=100000)# 合并所有块的数据进行处理
df = pd.concat(chunks)
通过分块读取大文件,内存占用显著降低,同时处理大数据时也更为稳定。
6.合理使用apply()与内置函数
apply()函数是Pandas中常用的函数,用于逐行或逐列应用自定义函数。然而,apply()的性能相对较低,特别是在大规模数据集上,因此优先使用Pandas的内置函数往往能带来显著的性能提升。
# 创建一个数据框
df = pd.DataFrame({'A': np.random.rand(1000000),'B': np.random.rand(1000000)
})# 使用apply逐行求和
df['C_apply'] = df.apply(lambda row: row['A'] + row['B'], axis=1)# 使用向量化的内置操作
df['C_vec'] = df['A'] + df['B']
在这个例子中,使用apply()逐行求和的速度远不如直接使用Pandas的内置向量化运算。因此,尽量避免在大数据集上使用apply(),而应优先选择Pandas的内置函数。
综上所述,本文介绍了在Python Pandas中提升数据处理速度的各种方法,包括数据类型优化、向量化操作、避免数据复制、并行化处理、批量读取与写入、以及使用高效的内置函数。通过合理运用这些技巧,可以在处理大规模数据时显著提升Pandas的性能,从而提高数据处理和分析的效率。无论是数据分析、机器学习前的数据预处理,还是实际业务中的数据处理,这些优化方法都可以带来更高效的工作体验。
相关文章:
快速提升Python Pandas处理速度的秘诀
大家好,Python的Pandas库为数据处理和分析提供了丰富的功能,但当处理大规模数据时,性能问题往往成为瓶颈。本文将介绍一些在Pandas中进行性能优化的方法与技巧,帮助有效提升数据处理速度,优化代码运行效率。 1.数据类…...
在基于线程的环境中运行 MATLAB 函数
MATLAB 和其他工具箱中的数百个函数可以在基于线程的环境中运行。可以使用 backgroundPool 或 parpool("threads") 在基于线程的环境中运行代码。 要在后台运行函数,请使用 parfeval 和 backgroundPool。 具体信息可以参考Choose Between Thread-B…...
黑神话悟空+云技术,游戏新体验!
近期,一款名为黑神话悟空的游戏因其独特的艺术风格和创新的技术实现在玩家中产生了不小的影响。 而云桌面技术作为一种新兴的解决方案,正在改变人们的游戏体验方式,使得高性能游戏可以在更多设备上流畅运行。 那么,黑神话悟空如…...
【Android 13源码分析】WindowContainer窗口层级-3-实例分析
在安卓源码的设计中,将将屏幕分为了37层,不同的窗口将在不同的层级中显示。 对这一块的概念以及相关源码做了详细分析,整理出以下几篇。 【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树 【Android 13源码分析】WindowCon…...
Redis常用操作及springboot整合redis
1. Redis和Mysql的区别 数据模型:二者都是数据库,但是不同的是mysql是进行存储到磁盘当中,而Redis是进行存储到内存中. 数据模型 : mysql的存储的形式是二维表而Redis是通过key-value键值对的形式进行存储数据. 实际的应用的场景: Redis适合于需要快速读写的场景&…...
动态规划day34|背包理论基础(1)(2)、46.携带研究材料(纯粹的01背包)、416. 分割等和子集(01背包的应用)
动态规划day34|背包理论基础(1)(2)、46.携带研究材料、416. 分割等和子集 背包理论基础(1)——二维背包理论基础(2)——一维46.携带研究材料(卡码网 01背包)1. 二维背包2. 一维背包 …...
pytorch优化器
在反向传播计算完所有参数的梯度后,还需要使用优化方法更新网络的权重和参数。例如,随机梯度下降法(SGD)的更新策略如下: weight weight - learning_rate * gradient 手动实现如下: learning_rate 0.01 …...
必备工具,AI生成证件照,再也不用麻烦他人,电子驾驶证等多种证件照一键生成
最近有一个生成证件照的开源项目很火,今天我们来学习一下。之前我生成证件照都是线下去拍照,线上使用也是各种限制,需要付费或看广告,而且效果也不是很理想, 今天要分享的这个 AI 证件照生成工具可以一键可以生成一寸…...
深度解析 MintRich 独特的价格曲线机制玩法
随着 Meme 币赛道的迅速崛起,NFT 市场也迎来了新的变革。作为一个创新的 NFT 发行平台,Mint.Rich 正掀起一场全民参与的 NFT 热潮。其简易的操作界面和独特的价格曲线设计,让任何人都能以极低的门槛发行和交易自己的 NFT,从而参与…...
实时数仓3.0DWD层
实时数仓3.0DWD层 DWD层设计要点:9.1 流量域未经加工的事务事实表9.1.1 主要任务9.1.2 思路9.1.3 图解9.1.4 代码 9.2 流量域独立访客事务事实表9.2.1 主要任务9.2.2 思路分析9.2.3 图解9.2.4 代码 9.3 流量域用户跳出事务事实表9.3.1 主要任务9.3.2 思路分析9.3.3 …...
路径规划 | 基于A*算法的往返式全覆盖路径规划的改进算法(Matlab)
目录 效果一览基本介绍程序设计参考文献 效果一览 基本介绍 基于A*算法的往返式全覆盖路径规划的改进算法 matlab实现代码 往返式全覆盖路径规划,通过建立二维栅格地图,设置障碍物,以及起始点根据定义往返式路径规划的定义的优先级运动规则从…...
QT 串口上位机读卡显示
目录 一. QT创建工程 二. 软件更换图标 三. QT打包 一. QT创建工程 文件新建,选择创建一个桌面QT。 重命名RFID,并选择工程保存路径 RFID.pro QT core gui serialport #串行串口greaterThan(QT_MAJOR_VERSION, 4): QT widgetsTARGET RFID TE…...
Chrome谷歌浏览器登录账号next无反应
文章目录 问题描述 我们的Chrome浏览器在更新之后,会出现登录谷歌账号的时候,当你输入你的谷歌邮箱之后,点击 n e x t next next,也就是下一步的时候,页面没有反应,也就是没有跳转到输入密码的页面。 分析 根据logs里…...
Android相关线程基础
线程基础 进程与线程 进程:可以被看做是程序的实体, 是系统进行资源分配和调度的基本单位. 线程:是操作系统调度的最小单元, 也叫轻量级进程 使用多线程的优点 可以减少程序的响应时间。如果某个操作很耗时, 能够避免陷入长时间的等待, 从而有着更好的交互性. 线程较之进…...
uniapp 如何自定义导航栏并自适应机型
如今的移动设备有各种不同的屏幕形状,如刘海屏、水滴屏等。这些异形屏会影响页面的布局,尤其是导航栏和底部栏的显示。通过获取安全区域信息,可以确保页面内容不会被异形屏的特殊区域遮挡。 在设计页面顶部导航栏时,可以根据 saf…...
Java高级Day43-类加载
117.类加载 静态和动态加载 反射机制是java实现动态语言的关键,也就是通过反射实现类动态加载 静态加载:编译时加载相关的类,如果没有则报错,依赖性太强 动态加载:运行时加载需要的类,如果运行时不用该类…...
【LeetCode 算法笔记】155. 最小栈
目录 问题描述单个栈实现双栈实现不开辟额外空间 问题描述 设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素val推入堆栈。 void pop()…...
面试题 05.01. 插入
目录 一:题目: 二:代码: 三:结果: 一:题目: 给定两个整型数字 N 与 M,以及表示比特位置的 i 与 j(i < j,且从 0 位开始计算)。…...
稠密向量检索、稀疏向量检索、BM25检索三者对比
在当今的信息检索领域,随着人工智能和自然语言处理技术的发展,稠密向量检索和稀疏向量检索成为了两种主要的研究方向。稠密向量检索依托于高维空间中的向量表示,能够捕捉文档的深层语义信息,而稀疏向量检索则侧重于关键词的匹配&a…...
UEFI学习笔记(六):EDK II 模块:Libraries,DriversApplication
UEFI学习笔记(六):EDK II Modules:Libraries,Application&Drivers 一、模块(Modules)的概念1、Library模块2、Application模块3、Driver模块4、Application和Driver的区别 二、EDK II 实现U…...
生成xcframework
打包 XCFramework 的方法 XCFramework 是苹果推出的一种多平台二进制分发格式,可以包含多个架构和平台的代码。打包 XCFramework 通常用于分发库或框架。 使用 Xcode 命令行工具打包 通过 xcodebuild 命令可以打包 XCFramework。确保项目已经配置好需要支持的平台…...
HTML 语义化
目录 HTML 语义化HTML5 新特性HTML 语义化的好处语义化标签的使用场景最佳实践 HTML 语义化 HTML5 新特性 标准答案: 语义化标签: <header>:页头<nav>:导航<main>:主要内容<article>&#x…...
springboot 百货中心供应链管理系统小程序
一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,百货中心供应链管理系统被用户普遍使用,为方…...
rknn优化教程(二)
文章目录 1. 前述2. 三方库的封装2.1 xrepo中的库2.2 xrepo之外的库2.2.1 opencv2.2.2 rknnrt2.2.3 spdlog 3. rknn_engine库 1. 前述 OK,开始写第二篇的内容了。这篇博客主要能写一下: 如何给一些三方库按照xmake方式进行封装,供调用如何按…...
java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别
UnsatisfiedLinkError 在对接硬件设备中,我们会遇到使用 java 调用 dll文件 的情况,此时大概率出现UnsatisfiedLinkError链接错误,原因可能有如下几种 类名错误包名错误方法名参数错误使用 JNI 协议调用,结果 dll 未实现 JNI 协…...
大语言模型如何处理长文本?常用文本分割技术详解
为什么需要文本分割? 引言:为什么需要文本分割?一、基础文本分割方法1. 按段落分割(Paragraph Splitting)2. 按句子分割(Sentence Splitting)二、高级文本分割策略3. 重叠分割(Sliding Window)4. 递归分割(Recursive Splitting)三、生产级工具推荐5. 使用LangChain的…...
土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等
🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...
如何在最短时间内提升打ctf(web)的水平?
刚刚刷完2遍 bugku 的 web 题,前来答题。 每个人对刷题理解是不同,有的人是看了writeup就等于刷了,有的人是收藏了writeup就等于刷了,有的人是跟着writeup做了一遍就等于刷了,还有的人是独立思考做了一遍就等于刷了。…...
从 GreenPlum 到镜舟数据库:杭银消费金融湖仓一体转型实践
作者:吴岐诗,杭银消费金融大数据应用开发工程师 本文整理自杭银消费金融大数据应用开发工程师在StarRocks Summit Asia 2024的分享 引言:融合数据湖与数仓的创新之路 在数字金融时代,数据已成为金融机构的核心竞争力。杭银消费金…...
【学习笔记】erase 删除顺序迭代器后迭代器失效的解决方案
目录 使用 erase 返回值继续迭代使用索引进行遍历 我们知道类似 vector 的顺序迭代器被删除后,迭代器会失效,因为顺序迭代器在内存中是连续存储的,元素删除后,后续元素会前移。 但一些场景中,我们又需要在执行删除操作…...
