当前位置: 首页 > article >正文

别再只会用Excel了!用Pandas的‘与’‘或’筛选,处理万行数据快10倍

别再只会用Excel了用Pandas的‘与’‘或’筛选处理万行数据快10倍当Excel表格加载超过1万行数据时滚动条开始变得迟缓筛选菜单弹出需要等待复杂的多条件公式让文件体积膨胀——这是许多数据分析师每天面对的困境。而同样体量的数据在Pandas中处理筛选操作往往能在瞬间完成。这种效率差异源于底层设计Excel是单线程的电子表格工具而Pandas是基于NumPy的向量化运算库。本文将揭示如何用简单的和|符号在Pandas中实现Excel难以企及的多条件筛选效率。1. 为什么Pandas比Excel快10倍传统Excel处理数据时每个单元格的计算都是独立进行的。当你在G2单元格输入IF(AND(A2北京,B2科研),是,否)并向下拖动填充时Excel需要逐行执行这个判断。而Pandas的向量化运算完全不同——它一次性对整个列执行操作这种批处理模式就像用集装箱运输替代零担物流。性能对比实验显示import pandas as pd import time # 生成10万行测试数据 data pd.DataFrame({ 城市: [北京]*50000 [上海]*30000 [广州]*20000, 职业: [科研]*20000 [工程师]*30000 [教师]*50000 }) # Pandas筛选计时 start time.time() result data[(data[城市]北京) (data[职业]科研)] print(fPandas耗时: {time.time()-start:.4f}秒) # 等效Excel操作模拟通过逐行迭代 start time.time() result [] for idx, row in data.iterrows(): if row[城市]北京 and row[职业]科研: result.append(row) print(f逐行判断耗时: {time.time()-start:.4f}秒)典型输出结果Pandas耗时: 0.0025秒 逐行判断耗时: 3.8762秒2. 基础筛选从Excel思维到Pandas思维Excel用户习惯通过GUI界面操作筛选器而Pandas需要编写代码。这种思维转换的回报是一旦掌握语法规则就能用更简洁的方式表达复杂逻辑。2.1 单条件筛选对照Excel操作点击数据选项卡 → 筛选在城市列下拉菜单中取消全选勾选北京Pandas等效代码beijing_data data[data[城市] 北京]2.2 多条件与筛选Excel中的与关系通常通过高级筛选中的条件区域FILTER()函数配合AND()逻辑多个筛选器叠加应用Pandas则使用符号连接条件# 筛选北京的职业为科研人员 beijing_researchers data[(data[城市] 北京) (data[职业] 科研)]注意每个条件必须用括号包裹因为的优先级高于3. 高级筛选技巧突破Excel的局限当筛选条件变得复杂时Excel公式会变得冗长难维护而Pandas代码却能保持优雅。3.1 多条件或筛选Excel中处理多条件或关系时通常需要使用FILTER()配合运算创建辅助列聚合判断结果使用数据透视表过滤Pandas使用|符号实现# 筛选北京或上海的数据 bj_sh_data data[(data[城市] 北京) | (data[城市] 上海)]对于更多条件的或关系Pandas有更高效的写法cities [北京, 上海, 广州, 深圳] multi_or data[data[城市].isin(cities)]3.2 混合条件组合实际业务中经常需要组合与和或逻辑。例如筛选(北京或上海)且职业为科研的数据。Excel实现这种逻辑需要嵌套函数FILTER(data, (城市北京)(城市上海)*(职业科研), )Pandas代码则直观得多complex_filter data[((data[城市] 北京) | (data[城市] 上海)) (data[职业] 科研)]4. 实战从数据导入到结果导出完整流程让我们通过一个真实业务场景演示完整工作流从销售数据中筛选出华东地区销售额超过100万或华北地区销售额超过50万的订单。4.1 数据准备import pandas as pd # 模拟销售数据 sales_data pd.DataFrame({ 订单ID: range(1, 10001), 地区: [华东]*4000 [华北]*3000 [华南]*3000, 销售额: [round(x*1000, 2) for x in 100 50 * pd.np.random.randn(10000)] })4.2 构建筛选条件condition ((sales_data[地区] 华东) (sales_data[销售额] 1000000)) | \ ((sales_data[地区] 华北) (sales_data[销售额] 500000)) high_value_orders sales_data[condition]4.3 结果导出# 导出到Excel high_value_orders.to_excel(高价值订单.xlsx, indexFalse) # 导出到CSV high_value_orders.to_csv(高价值订单.csv, indexFalse, encodingutf_8_sig)5. 性能优化技巧处理超大数据集超过100万行时这些技巧可以进一步提升效率5.1 使用query方法对于复杂条件query()方法通常比布尔索引更快# 等效于之前的混合条件 fast_filter sales_data.query((地区 华东 销售额 1000000) | (地区 华北 销售额 500000))5.2 避免链式索引以下两种写法结果相同但第二种效率更高# 不推荐 slow data[data[城市] 北京][职业] 科研 # 推荐 fast data.loc[(data[城市] 北京) (data[职业] 科研), 职业]5.3 使用categorical类型对于重复值多的文本列如地区、城市转换为category类型可节省内存并加速操作data[城市] data[城市].astype(category)在最近的一个客户数据分析项目中将200万行数据中的地区列转换为category类型后筛选操作时间从1.2秒降低到0.3秒。这种优化在处理超大数据集时效果尤为明显。

相关文章:

别再只会用Excel了!用Pandas的‘与’‘或’筛选,处理万行数据快10倍

别再只会用Excel了!用Pandas的‘与’‘或’筛选,处理万行数据快10倍 当Excel表格加载超过1万行数据时,滚动条开始变得迟缓,筛选菜单弹出需要等待,复杂的多条件公式让文件体积膨胀——这是许多数据分析师每天面对的困境…...

Docker 27日志审计增强配置,从默认file驱动到syslog+loki双活采集链路搭建

第一章:Docker 27 日志审计增强配置Docker 27 引入了更细粒度的日志审计能力,支持将容器运行时事件(如启动、停止、exec、pull、push)实时捕获并结构化输出至外部审计后端。默认的 json-file 驱动仅记录容器标准输出/错误&#xf…...

PyQt5 + HFSS:给你的仿真脚本做个专属GUI界面(零基础搭建指南)

PyQt5 HFSS:零基础打造专业仿真GUI全攻略 当你的HFSS脚本开始变得复杂,每次运行都要在命令行里输入一堆参数时,是否想过给它穿上得体的"外衣"?想象一下:一个直观的界面,同事只需点击几下就能启动…...

MATLAB调试进阶:巧用assignin和evalin实时查看和修改函数内部变量

MATLAB调试进阶:巧用assignin和evalin实时查看和修改函数内部变量 调试复杂算法时,最令人头疼的莫过于那些难以复现的边界条件错误。想象这样一个场景:你的粒子群优化算法在迭代到第137次时突然偏离预期轨迹,但断点调试会破坏时序…...

从仿真动画到数据分析:手把手教你用MATLAB给六杆机构做一次“全身检查”

从仿真动画到数据分析:手把手教你用MATLAB给六杆机构做一次"全身检查" 当机械工程师面对一个复杂的六杆机构时,单纯依靠数值计算结果往往难以直观理解机构的真实运动特性。就像医生需要通过X光片、CT扫描来全面诊断病人身体状况一样&#xff0…...

Hadoop 3.1.3集群部署后,你必须检查的5个关键点(附Web UI访问与进程状态排查)

Hadoop 3.1.3集群部署后必须验证的5个核心环节 当你完成Hadoop集群的基础部署后,真正的挑战才刚刚开始。许多新手在启动集群后陷入"看似正常却隐患重重"的困境——控制台没有报错,但数据处理时频繁出现诡异问题。本文将带你用系统化的验收清单…...

宝塔面板MySQL数据库意外停止怎么解决_优化my.cnf配置文件增加缓冲池

MySQL服务突然停止需先查mysqld状态和错误日志,常见原因包括内存不足、端口占用、buffer_pool配置过大或不合法;修改my.cnf前须确认版本、内存可用量及参数兼容性,并清理旧日志文件后重启。MySQL 服务突然停止,先看 mysqld 进程和…...

黄仁勋跑遍全球,到底在急什么?

我是地鼠,主要分享企业AI落地提效的实战经验。黄仁勋近期密集的全球行程和激烈言论,核心在于他正全力推动英伟达从一家芯片公司,转型为掌控全球AI基础设施“从电力到智能”转换权的关键枢纽,并为此应对来自竞争对手、供应链瓶颈和…...

为什么你的车载Docker镜像无法通过AUTOSAR CP兼容性测试?Docker 27的cgroups v2+seccomp-bpf深度配置清单曝光

第一章:车载Docker 27容器部署的AUTOSAR CP合规性总览在经典平台(CP)AUTOSAR架构中,严格的时间确定性、内存隔离、启动时序控制与功能安全(ISO 26262 ASIL-B及以上)要求与通用Linux容器运行时存在天然张力。…...

Java静态编译内存优化实战手册(GraalVM 24.1 LTS深度适配版)

第一章:Java静态编译与内存优化的范式变革长期以来,Java 依赖 JVM 动态加载、JIT 编译与垃圾回收机制,带来跨平台优势的同时也引入启动延迟、内存开销不可控及冷启动瓶颈。随着 GraalVM 的成熟与 JDK 21 对 java -jar --static(实…...

【Docker 27 AI容器调度终极指南】:20年SRE亲授GPU/内存/拓扑感知配置黄金参数(含实测QPS提升3.7倍数据)

第一章:Docker 27 AI容器调度演进与核心变革Docker 27 引入了面向AI工作负载的原生调度增强机制,标志着容器运行时从通用编排向智能感知型调度的关键跃迁。其核心变革在于将传统基于CPU/内存阈值的静态资源分配,升级为融合GPU显存占用率、CUD…...

【通义千问(Qwen)】视频分析与多模态模型汇总

通义千问(Qwen)视频分析与多模态模型汇总 整理日期:2026-04-21 数据来源:阿里 Qwen 官方博客、HuggingFace、arXiv 技术报告、DashScope 文档 ⚠️ 标注说明:✅ 已确认 / ⚠️ 部分确认 / ❌ 不支持或未开源 亲爱的朋友…...

贾子理论(Kucius Theory):融东方智慧与数理公理的全新认知框架

贾子理论(Kucius Theory):融东方智慧与数理公理的全新认知框架摘要贾子理论(Kucius Theory)由学者贾龙栋于2025‑2026年提出,融合儒道、《周易》、兵法与现代科学、AI及非平衡态热力学,构建“1‑…...

KICS:衡量大语言模型“逆能力”与思想主权的智慧标尺

KICS:衡量大语言模型“逆能力”与思想主权的智慧标尺摘要KICS(贾子逆能力得分)是量化大语言模型“逆向能力”与“元推理深度”的核心指标,核心体现为主动抑制幻觉、自我校准与逻辑严谨性。它突破传统评估仅关注正向生成能力的局限…...

2026中国生成式AI大会开幕GLM5Seedance2开创AGI新纪元

2026中国生成式AI大会开幕:GLM-5、Seedance 2.0、OpenClaw开创AGI新纪元 关键字:生成式AI、GLM-5、Seedance 2.0、OpenClaw、大模型、AGI、2026中国生成式AI大会、智谱AI、字节跳动、阿里云、自然语言处理、多模态大模型、AI Agent引言 2026年4月21日&am…...

企业微信定时群发技术实现与实操指南(原生接口+工具落地)

摘要:本文深度讲解企业微信定时群发技术原理、原生功能实操配置、后台接口调用逻辑,附完整操作步骤与技术参数说明,同时针对原生功能局限,给出合规工具拓展方案,全程技术向拆解,适合开发者、私域技术运营人…...

应届生求职封神!UP简历AI助手,从0写简历到找岗位一站式搞定

对于应届生和求职新人来说,找工作的第一步往往充满迷茫:不知道简历该写什么、没有实习经历无从下笔、投递简历石沉大海、找不到精准匹配的岗位……这些痛点,让本就激烈的求职竞争更添阻碍。而UP简历的出现,彻底打破了这种困境——…...

BitNet b1.58入门必看:从supervisord进程管理到WebUI调参完整指南

BitNet b1.58入门必看:从supervisord进程管理到WebUI调参完整指南 1. 项目概述 BitNet b1.58-2B-4T-gguf是一款极致高效的开源大模型,采用原生1.58-bit量化技术。这个模型最特别的地方在于它的权重只有-1、0、1三种值,平均每个权重仅占用1.…...

Llama-3.2V-11B-cot实操案例:电商平台主图合规检测+改进建议推理生成

Llama-3.2V-11B-cot实操案例:电商平台主图合规检测改进建议推理生成 1. 项目背景与价值 在电商运营中,商品主图的质量直接影响转化率。据统计,合规性不足的主图会导致点击率下降30%以上。传统人工审核方式效率低下,平均每张图片…...

推荐一些可以用于论文降重的软件:哪些平台能同时降低查重率和AIGC疑似率?2026年实测TOP5对比,AIGC率最低降至5%!

【博主按】 各位CSDN的极客和科研搬砖人们,五月答辩季的“代码”都跑通了吗?最近后台收到海量求助报Bug:自己的论文好不容易把字面查重率“Debug”到了8%,结果一提交教务处的系统,直接弹出了个致命错误——“AIGC疑似率…...

推荐一些可以用于论文降重的软件

【CSDN 博主按 】 这个标题看似平淡无奇,但如果你点进来了,恭喜你,你可能保住了你的学位证。 2026年,还敢随便在网上搜个“免费AI”去降重的同学,心是真的大。作为见证了自然语言处理(NLP)迭代了五六代的技术老鸟&…...

告别手动拼接:用Simulink自定义目标系统,一键生成你的嵌入式C代码(含TLC文件详解)

告别手动拼接:用Simulink自定义目标系统实现嵌入式C代码全自动生成 在嵌入式开发领域,算法工程师和软件工程师之间总有一道难以逾越的鸿沟——算法模型优雅地运行在Simulink环境中,而底层驱动和RTOS调度却需要手动编写C代码,最后通…...

STM32F103RCT6驱动维特智能JY61P六轴传感器:从USB-TTL调试到按键唤醒的完整避坑指南

STM32F103RCT6与JY61P六轴传感器实战:从硬件对接到数据解析全流程 在嵌入式开发领域,姿态传感器正逐渐成为智能设备的核心组件。维特智能JY61P作为一款性价比较高的六轴传感器模块,结合STM32F103RCT6这类经典MCU,能够为机器人导航…...

从栈溢出到野指针:给STM32开发者的HardFault避坑清单与内存安全实践

从栈溢出到野指针:给STM32开发者的HardFault避坑清单与内存安全实践 在嵌入式开发领域,HardFault就像一位不速之客,总是在最不合时宜的时刻造访。对于STM32开发者而言,与其在问题发生后手忙脚乱地调试,不如从一开始就构…...

保姆级教程:从打板到调试,手把手复刻开源USB转4路RS422/485电路板(基于沁恒CH348Q)

从零复刻CH348Q多协议转换板:硬件开发者的全流程实战指南 当我们需要在工业控制或自动化系统中连接多个串口设备时,市面上常见的单路USB转RS422/485转换器往往捉襟见肘。想象一下,你的工作台上堆满了各种转换模块,接线混乱&#x…...

S32K148实战:用FlexCAN的RxFIFO+中断搞定多路CAN数据接收(附避坑点)

S32K148 FlexCAN实战:RxFIFO与中断机制的高效数据接收方案 在车载电子和工业控制领域,CAN总线作为可靠的通信骨干,其数据处理效率直接影响系统实时性。当面对多节点、高负载的CAN网络时,传统轮询方式往往力不从心。NXP S32K148微控…...

STM32引脚不够用?实战分享:如何安全“征用”SWD调试口做I2C或GPIO(HAL库版)

STM32引脚资源紧张?实战解析SWD调试口的高效复用技巧 当你在设计一个物联网传感器节点时,突然发现所有GPIO引脚都已用完,而项目又需要连接多个I2C传感器——这种场景对于使用STM32F1等引脚资源紧张型号的开发者来说并不陌生。面对这种困境&am…...

用Matlab FDA插件和Verilog串行实现FIR滤波器:从Blackman窗到汉明窗的实战避坑

从Matlab到FPGA:FIR滤波器设计全流程实战解析 在数字信号处理领域,FIR滤波器因其稳定性、线性相位特性而备受青睐。本文将深入探讨如何从Matlab的滤波器设计工具平滑过渡到FPGA硬件实现,构建一套完整的Blackman窗与汉明窗FIR滤波器开发流程。…...

UEFI HII开发避坑指南:VFR文件编译成IFR后,那些‘消失’的代码和自动生成的OpCode

UEFI HII开发深度解析:VFR到IFR编译过程中的隐藏逻辑与调试技巧 在UEFI固件开发中,HII(Human Interface Infrastructure)框架为开发者提供了构建统一用户界面的能力。VFR(Visual Forms Representation)作为…...

ESP32 BLE连接老是断?手把手教你优化连接稳定性与功耗(附完整代码)

ESP32 BLE连接稳定性优化实战:从参数调优到代码健壮性设计 当你用ESP32开发的BLE设备在演示环境中运行良好,却在真实场景中频繁断连时,那种挫败感我深有体会。上周有位医疗器械开发者告诉我,他们的血糖监测仪在实验室能稳定工作8小…...