快速提升Python Pandas处理速度的秘诀
大家好,Python的Pandas库为数据处理和分析提供了丰富的功能,但当处理大规模数据时,性能问题往往成为瓶颈。本文将介绍一些在Pandas中进行性能优化的方法与技巧,帮助有效提升数据处理速度,优化代码运行效率。
1.数据类型优化
在Pandas中,不同的数据类型占用的内存和处理速度各不相同。合理选择数据类型不仅能减少内存占用,还能提升处理速度,特别是在大规模数据集上,优化数据类型可以显著提升性能。
1.1 使用category类型替代object类型
Pandas中的category类型适合处理具有有限取值的分类数据,它比object类型占用更少的内存,处理速度也更快。
下面通过将object类型的列转换为category来优化内存使用。
import pandas as pd# 创建一个数据框
df = pd.DataFrame({'城市': ['北京', '上海', '广州', '北京', '上海', '广州'] * 100000,'人口': [2154, 2424, 1500, 2154, 2424, 1500] * 100000
})# 检查转换前的内存占用
print(df.memory_usage(deep=True))# 将城市列转换为category类型
df['城市'] = df['城市'].astype('category')# 检查转换后的内存占用
print(df.memory_usage(deep=True))
在这个例子中,将字符串列转换为category类型可以大幅降低内存使用,尤其在处理有大量重复值的列时。
1.2 减少浮点数精度
如果浮点数的精度对分析结果并不重要,可以通过降低浮点数的精度来减少内存消耗。
# 创建一个包含浮点数的数据框
df = pd.DataFrame({'收入': [50000.56, 60000.78, 70000.89] * 100000
})# 检查转换前的内存使用
print(df.memory_usage(deep=True))# 将float64转换为float32
df['收入'] = df['收入'].astype('float32')# 检查转换后的内存使用
print(df.memory_usage(deep=True))
通过将float64类型转换为float32,可以减少内存的占用,处理速度也会相应提升。
2.向量化操作
Pandas中很多操作都可以通过向量化的方式进行,向量化操作指的是在数据集上一次性应用运算,而不是逐行处理。向量化操作比使用for循环处理数据的效率更高。
可以使用向量化代替for循环:
import numpy as np# 创建一个数据框
df = pd.DataFrame({'A': np.random.rand(1000000),'B': np.random.rand(1000000)
})# 使用for循环逐行相加
df['C_for'] = [a + b for a, b in zip(df['A'], df['B'])]# 使用向量化操作直接相加
df['C_vec'] = df['A'] + df['B']
向量化操作 df['A'] + df['B'] 的效率远高于使用for循环逐行相加,特别是在处理大规模数据时,性能差异会非常明显。
3.避免复制数据
在Pandas中,有些操作会隐式地复制数据,导致内存使用增加,从而影响性能。例如DataFrame的切片操作默认会创建数据的副本,而不是引用。通过使用inplace=True参数或避免不必要的复制操作,可以提升性能。
# 创建一个数据框
df = pd.DataFrame({'A': np.random.rand(1000000),'B': np.random.rand(1000000)
})# 默认情况下drop操作会创建一个新数据框
df_new = df.drop(columns=['B'])# 使用inplace避免复制
df.drop(columns=['B'], inplace=True)
在这个示例中,inplace=True让数据框在原地修改,避免了额外的数据副本创建,节省了内存。
4.使用多线程或并行化处理
在处理大数据集时,利用多线程或并行化处理可以显著提升数据处理的速度。Pandas本身并不支持多线程操作,但可以结合 dask 或 modin 库实现并行计算。
4.1 使用dask进行并行处理
dask 是一个用于并行计算的库,能够有效扩展Pandas的操作能力。它可以处理内存不足以加载的数据,并自动调度计算任务。
import dask.dataframe as dd# 使用dask读取CSV文件
df = dd.read_csv('large_data.csv')# 进行一些基本的操作
df_grouped = df.groupby('列名').agg({'另一列': 'mean'})# 将结果计算并转换为Pandas DataFrame
df_result = df_grouped.compute()
通过 dask,可以在内存中并行处理大规模数据,避免单线程计算带来的性能瓶颈。
4.2 使用modin进行加速
modin 是一个旨在加速Pandas的开源库,它通过并行化技术提高Pandas的性能。
import modin.pandas as pd# 使用modin读取数据
df = pd.read_csv('large_data.csv')# 进行一些基本的分析操作
df_grouped = df.groupby('列名').agg({'另一列': 'mean'})
modin 会自动并行化Pandas的操作,在大数据处理上具有显著的性能提升。
5.批量读取与写入
在处理大型数据集时,一次性读取或写入过多的数据可能会导致内存溢出。通过批量读取和写入数据,可以分散内存压力,避免性能瓶颈。
read_csv() 函数的 chunksize 参数允许我们一次读取一部分数据,而不是一次性将所有数据加载到内存中。
# 使用chunksize分块读取CSV文件
chunks = pd.read_csv('large_data.csv', chunksize=100000)# 合并所有块的数据进行处理
df = pd.concat(chunks)
通过分块读取大文件,内存占用显著降低,同时处理大数据时也更为稳定。
6.合理使用apply()与内置函数
apply()函数是Pandas中常用的函数,用于逐行或逐列应用自定义函数。然而,apply()的性能相对较低,特别是在大规模数据集上,因此优先使用Pandas的内置函数往往能带来显著的性能提升。
# 创建一个数据框
df = pd.DataFrame({'A': np.random.rand(1000000),'B': np.random.rand(1000000)
})# 使用apply逐行求和
df['C_apply'] = df.apply(lambda row: row['A'] + row['B'], axis=1)# 使用向量化的内置操作
df['C_vec'] = df['A'] + df['B']
在这个例子中,使用apply()逐行求和的速度远不如直接使用Pandas的内置向量化运算。因此,尽量避免在大数据集上使用apply(),而应优先选择Pandas的内置函数。
综上所述,本文介绍了在Python Pandas中提升数据处理速度的各种方法,包括数据类型优化、向量化操作、避免数据复制、并行化处理、批量读取与写入、以及使用高效的内置函数。通过合理运用这些技巧,可以在处理大规模数据时显著提升Pandas的性能,从而提高数据处理和分析的效率。无论是数据分析、机器学习前的数据预处理,还是实际业务中的数据处理,这些优化方法都可以带来更高效的工作体验。
相关文章:
快速提升Python Pandas处理速度的秘诀
大家好,Python的Pandas库为数据处理和分析提供了丰富的功能,但当处理大规模数据时,性能问题往往成为瓶颈。本文将介绍一些在Pandas中进行性能优化的方法与技巧,帮助有效提升数据处理速度,优化代码运行效率。 1.数据类…...
在基于线程的环境中运行 MATLAB 函数
MATLAB 和其他工具箱中的数百个函数可以在基于线程的环境中运行。可以使用 backgroundPool 或 parpool("threads") 在基于线程的环境中运行代码。 要在后台运行函数,请使用 parfeval 和 backgroundPool。 具体信息可以参考Choose Between Thread-B…...
黑神话悟空+云技术,游戏新体验!
近期,一款名为黑神话悟空的游戏因其独特的艺术风格和创新的技术实现在玩家中产生了不小的影响。 而云桌面技术作为一种新兴的解决方案,正在改变人们的游戏体验方式,使得高性能游戏可以在更多设备上流畅运行。 那么,黑神话悟空如…...
【Android 13源码分析】WindowContainer窗口层级-3-实例分析
在安卓源码的设计中,将将屏幕分为了37层,不同的窗口将在不同的层级中显示。 对这一块的概念以及相关源码做了详细分析,整理出以下几篇。 【Android 13源码分析】WindowContainer窗口层级-1-初识窗口层级树 【Android 13源码分析】WindowCon…...
Redis常用操作及springboot整合redis
1. Redis和Mysql的区别 数据模型:二者都是数据库,但是不同的是mysql是进行存储到磁盘当中,而Redis是进行存储到内存中. 数据模型 : mysql的存储的形式是二维表而Redis是通过key-value键值对的形式进行存储数据. 实际的应用的场景: Redis适合于需要快速读写的场景&…...
动态规划day34|背包理论基础(1)(2)、46.携带研究材料(纯粹的01背包)、416. 分割等和子集(01背包的应用)
动态规划day34|背包理论基础(1)(2)、46.携带研究材料、416. 分割等和子集 背包理论基础(1)——二维背包理论基础(2)——一维46.携带研究材料(卡码网 01背包)1. 二维背包2. 一维背包 …...
pytorch优化器
在反向传播计算完所有参数的梯度后,还需要使用优化方法更新网络的权重和参数。例如,随机梯度下降法(SGD)的更新策略如下: weight weight - learning_rate * gradient 手动实现如下: learning_rate 0.01 …...
必备工具,AI生成证件照,再也不用麻烦他人,电子驾驶证等多种证件照一键生成
最近有一个生成证件照的开源项目很火,今天我们来学习一下。之前我生成证件照都是线下去拍照,线上使用也是各种限制,需要付费或看广告,而且效果也不是很理想, 今天要分享的这个 AI 证件照生成工具可以一键可以生成一寸…...
深度解析 MintRich 独特的价格曲线机制玩法
随着 Meme 币赛道的迅速崛起,NFT 市场也迎来了新的变革。作为一个创新的 NFT 发行平台,Mint.Rich 正掀起一场全民参与的 NFT 热潮。其简易的操作界面和独特的价格曲线设计,让任何人都能以极低的门槛发行和交易自己的 NFT,从而参与…...
实时数仓3.0DWD层
实时数仓3.0DWD层 DWD层设计要点:9.1 流量域未经加工的事务事实表9.1.1 主要任务9.1.2 思路9.1.3 图解9.1.4 代码 9.2 流量域独立访客事务事实表9.2.1 主要任务9.2.2 思路分析9.2.3 图解9.2.4 代码 9.3 流量域用户跳出事务事实表9.3.1 主要任务9.3.2 思路分析9.3.3 …...
路径规划 | 基于A*算法的往返式全覆盖路径规划的改进算法(Matlab)
目录 效果一览基本介绍程序设计参考文献 效果一览 基本介绍 基于A*算法的往返式全覆盖路径规划的改进算法 matlab实现代码 往返式全覆盖路径规划,通过建立二维栅格地图,设置障碍物,以及起始点根据定义往返式路径规划的定义的优先级运动规则从…...
QT 串口上位机读卡显示
目录 一. QT创建工程 二. 软件更换图标 三. QT打包 一. QT创建工程 文件新建,选择创建一个桌面QT。 重命名RFID,并选择工程保存路径 RFID.pro QT core gui serialport #串行串口greaterThan(QT_MAJOR_VERSION, 4): QT widgetsTARGET RFID TE…...
Chrome谷歌浏览器登录账号next无反应
文章目录 问题描述 我们的Chrome浏览器在更新之后,会出现登录谷歌账号的时候,当你输入你的谷歌邮箱之后,点击 n e x t next next,也就是下一步的时候,页面没有反应,也就是没有跳转到输入密码的页面。 分析 根据logs里…...
Android相关线程基础
线程基础 进程与线程 进程:可以被看做是程序的实体, 是系统进行资源分配和调度的基本单位. 线程:是操作系统调度的最小单元, 也叫轻量级进程 使用多线程的优点 可以减少程序的响应时间。如果某个操作很耗时, 能够避免陷入长时间的等待, 从而有着更好的交互性. 线程较之进…...
uniapp 如何自定义导航栏并自适应机型
如今的移动设备有各种不同的屏幕形状,如刘海屏、水滴屏等。这些异形屏会影响页面的布局,尤其是导航栏和底部栏的显示。通过获取安全区域信息,可以确保页面内容不会被异形屏的特殊区域遮挡。 在设计页面顶部导航栏时,可以根据 saf…...
Java高级Day43-类加载
117.类加载 静态和动态加载 反射机制是java实现动态语言的关键,也就是通过反射实现类动态加载 静态加载:编译时加载相关的类,如果没有则报错,依赖性太强 动态加载:运行时加载需要的类,如果运行时不用该类…...
【LeetCode 算法笔记】155. 最小栈
目录 问题描述单个栈实现双栈实现不开辟额外空间 问题描述 设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素val推入堆栈。 void pop()…...
面试题 05.01. 插入
目录 一:题目: 二:代码: 三:结果: 一:题目: 给定两个整型数字 N 与 M,以及表示比特位置的 i 与 j(i < j,且从 0 位开始计算)。…...
稠密向量检索、稀疏向量检索、BM25检索三者对比
在当今的信息检索领域,随着人工智能和自然语言处理技术的发展,稠密向量检索和稀疏向量检索成为了两种主要的研究方向。稠密向量检索依托于高维空间中的向量表示,能够捕捉文档的深层语义信息,而稀疏向量检索则侧重于关键词的匹配&a…...
UEFI学习笔记(六):EDK II 模块:Libraries,DriversApplication
UEFI学习笔记(六):EDK II Modules:Libraries,Application&Drivers 一、模块(Modules)的概念1、Library模块2、Application模块3、Driver模块4、Application和Driver的区别 二、EDK II 实现U…...
【Axure高保真原型】引导弹窗
今天和大家中分享引导弹窗的原型模板,载入页面后,会显示引导弹窗,适用于引导用户使用页面,点击完成后,会显示下一个引导弹窗,直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…...
深度学习在微纳光子学中的应用
深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向: 逆向设计 通过神经网络快速预测微纳结构的光学响应,替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…...
国防科技大学计算机基础课程笔记02信息编码
1.机内码和国标码 国标码就是我们非常熟悉的这个GB2312,但是因为都是16进制,因此这个了16进制的数据既可以翻译成为这个机器码,也可以翻译成为这个国标码,所以这个时候很容易会出现这个歧义的情况; 因此,我们的这个国…...
基于数字孪生的水厂可视化平台建设:架构与实践
分享大纲: 1、数字孪生水厂可视化平台建设背景 2、数字孪生水厂可视化平台建设架构 3、数字孪生水厂可视化平台建设成效 近几年,数字孪生水厂的建设开展的如火如荼。作为提升水厂管理效率、优化资源的调度手段,基于数字孪生的水厂可视化平台的…...
【git】把本地更改提交远程新分支feature_g
创建并切换新分支 git checkout -b feature_g 添加并提交更改 git add . git commit -m “实现图片上传功能” 推送到远程 git push -u origin feature_g...
3403. 从盒子中找出字典序最大的字符串 I
3403. 从盒子中找出字典序最大的字符串 I 题目链接:3403. 从盒子中找出字典序最大的字符串 I 代码如下: class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...
浅谈不同二分算法的查找情况
二分算法原理比较简单,但是实际的算法模板却有很多,这一切都源于二分查找问题中的复杂情况和二分算法的边界处理,以下是博主对一些二分算法查找的情况分析。 需要说明的是,以下二分算法都是基于有序序列为升序有序的情况…...
Fabric V2.5 通用溯源系统——增加图片上传与下载功能
fabric-trace项目在发布一年后,部署量已突破1000次,为支持更多场景,现新增支持图片信息上链,本文对图片上传、下载功能代码进行梳理,包含智能合约、后端、前端部分。 一、智能合约修改 为了增加图片信息上链溯源,需要对底层数据结构进行修改,在此对智能合约中的农产品数…...
《C++ 模板》
目录 函数模板 类模板 非类型模板参数 模板特化 函数模板特化 类模板的特化 模板,就像一个模具,里面可以将不同类型的材料做成一个形状,其分为函数模板和类模板。 函数模板 函数模板可以简化函数重载的代码。格式:templa…...
智能AI电话机器人系统的识别能力现状与发展水平
一、引言 随着人工智能技术的飞速发展,AI电话机器人系统已经从简单的自动应答工具演变为具备复杂交互能力的智能助手。这类系统结合了语音识别、自然语言处理、情感计算和机器学习等多项前沿技术,在客户服务、营销推广、信息查询等领域发挥着越来越重要…...
