当前位置: 首页 > article >正文

用python解放右手系列(三) Excel自动化-告别复制粘贴的噩梦

Excel 自动化告别复制粘贴的噩梦本文基于 Python 3.9涉及库pandas、openpyxl。阅读时间约 12 分钟。安装依赖pip install pandas openpyxl每月 1 号的酷刑阿明刚用 Python 搞定文件重命名还没高兴两天新的折磨来了。每月 1 号他要从 5 个部门收上来的 Excel 表里汇总数据。这活儿他干了快一年每次都想辞职。这次5 个部门的文件准时出现在邮箱里销售部_1月报表.xlsx 市场部_1月报表.xlsx 技术部_1月报表.xlsx 客服部_1月报表.xlsx 财务部_1月报表.xlsx阿明打开第一个——销售部的。表头长这样日期销售额订单数客户数2024-01-0115000032045“还行挺规范。”打开第二个——市场部的时间推广费用点击量转化率2024/1/150000120003.2%“……列名不一样就算了日期格式还不同”打开第三个——技术部的日期BUG数修复数未修复2024年1月1日23203阿明眼前一黑。日期格式有三种2024-01-01、2024/1/1、2024年1月1日。列名完全不统一有的叫日期有的叫时间。更离谱的是财务部的——合并单元格、空行、备注列里还插着文字说明。阿明以前的做法是打开 5 个文件逐个复制粘贴到一个新 Excel 里手动改格式、调列宽、加汇总公式。一上午过去眼睛花了公式还总报错#REF!。这次……阿明握紧拳头“我要用 Python”他走到老张工位“张哥Excel 能用 Python 操作吗”老张从显示器后面探出头笑了“你知道 Python 读 Excel 比 Excel 自己还快吗”第一步认识pandas——Excel 的电锯“阿明你手动处理 Excel就像用手工锯木头——能锯但累、慢、容易歪。”“pandas就是电锯——不是不会用手工锯是有更好的工具为啥不用”老张打开 VS Code先装库pipinstallpandas openpyxl“pandas是数据处理神器openpyxl是读写.xlsx的引擎。”最简示例读取一个 Excelimportpandasaspd# 读取 Excel 文件dfpd.read_excel(销售部_1月报表.xlsx)# 看看前 5 行print(df.head())# 看看数据形状多少行、多少列print(f\n形状:{df.shape})# (行数, 列数)# 看看列名和数据类型print(f\n列名:{df.columns.tolist()})print(f\n数据类型:\n{df.dtypes})运行结果日期 销售额 订单数 客户数 0 2024-01-01 150000 320 45 1 2024-01-02 180000 380 52 2 2024-01-03 165000 350 48 ... 形状: (31, 4) 列名: [日期, 销售额, 订单数, 客户数] 数据类型: 日期 datetime64[ns] 销售额 int64 订单数 int64 客户数 int64 dtype: object阿明瞪眼“就这么一行代码整个表读进来了”“对。pandas把 Excel 读成一个叫DataFrame的对象——你可以把它想象成超级 Excel 表格能筛选、能计算、能合并而且比 Excel 快得多。”第二步读取多个文件一键合并“现在你有 5 个部门的文件咱们把它们合并到一个表里。”importpandasaspdfrompathlibimportPath# 所有报表文件files[销售部_1月报表.xlsx,市场部_1月报表.xlsx,技术部_1月报表.xlsx,客服部_1月报表.xlsx,财务部_1月报表.xlsx,]# 读取所有文件存到一个列表里dataframes[]forfileinfiles:dfpd.read_excel(file)df[来源]Path(file).stem# 加一列标记来自哪个部门dataframes.append(df)print(f✅ 读取{file}:{df.shape[0]}行)# 合并成一个大数据框mergedpd.concat(dataframes,ignore_indexTrue)print(f\n 合并完成总共{merged.shape[0]}行 ×{merged.shape[1]}列)print(merged.head(10))运行结果✅ 读取 销售部_1月报表.xlsx: 31 行 ✅ 读取 市场部_1月报表.xlsx: 31 行 ✅ 读取 技术部_1月报表.xlsx: 31 行 ✅ 读取 客服部_1月报表.xlsx: 31 行 ✅ 读取 财务部_1月报表.xlsx: 31 行 合并完成总共 155 行 × 6 列阿明倒吸一口凉气“5 个文件就这么……合并完了”“pd.concat就是’把几个表粘在一起’。ignore_indexTrue表示重新排索引不然 5 个表各有自己的 0,1,2,3……会乱。”“df[来源] Path(file).stem这行是干啥的”“给每行数据打标签标记来自哪个部门。这样合并后你还能知道这行数据原来是哪个部的。”第三步数据清洗——让混乱变整齐“合并是合并了但你看这数据能直接用吗”老张指着屏幕——合并后的表日期格式乱七八糟有的列名不统一还有空值。“来咱们做数据清洗——这是数据处理最花时间的环节但代码做比人做快 100 倍。”3.1 统一日期格式# 看看日期列的现状print(merged[日期].head(10))输出0 2024-01-01 1 2024-01-02 2 2024-01-03 3 2024/1/1 4 2024/1/2 5 2024年1月1日 ...“三种格式手动改得改到明年。”“但pandas自带日期解析自动识别各种格式”# 把日期列转成标准格式merged[日期]pd.to_datetime(merged[日期],errorscoerce)# 看看结果print(merged[日期].head(10))输出0 2024-01-01 1 2024-01-02 2 2024-01-03 3 2024-01-01 4 2024-01-02 5 2024-01-01 ...“pd.to_datetime就像个翻译官——你不管说’2024-01-01’还是’2024年1月1日’它都翻译成统一格式。”“errorscoerce表示如果某个值实在转不了比如’待定’就转成空值NaT不会报错中断。”3.2 处理缺失值# 看看有多少空值print(merged.isnull().sum())输出日期 2 销售额 5 订单数 31 ...“有些部门没有’订单数’这一列合并过来就是空的。”“怎么处理看场景”# 方案 1空值填 0适合数值列merged[订单数]merged[订单数].fillna(0)# 方案 2空值填上一行的值适合连续数据merged[销售额]merged[销售额].fillna(methodffill)# 方案 3直接删除有空值的行mergedmerged.dropna()“fillna就是’填空’dropna就是’把有空的行删掉’。”3.3 去重# 检查有没有完全重复的行print(f重复行数:{merged.duplicated().sum()})# 有就删掉mergedmerged.drop_duplicates()第四步数据计算——自动汇总“数据干净了现在做汇总。”“老板是不是要看’各部门销售额总和’、平均值’之类的”阿明点头“对以前我都是手动写 SUM 公式。”“在pandas里一句话搞定”# 按部门分组计算销售额的总和和平均值summarymerged.groupby(来源)[销售额].agg([sum,mean,count])# 重命名列更直观summary.columns[总销售额,平均销售额,记录数]print(summary)运行结果总销售额 平均销售额 记录数 来源 客服部_1月报表 890000 28709.68 31 市场部_1月报表 1200000 38709.68 31 技术部_1月报表 0 0.00 31 ...“groupby(来源)就是’按来源列分组’agg就是’聚合计算’。”“以前你在 Excel 里写 SUMIF、AVERAGEIF现在一句话搞定。”阿明已经说不出话了只是疯狂点头。第五步openpyxl——让输出文件像人做的“数据算完了但直接输出 Excel 太丑了——列宽不对、没边框、表头没颜色。”“pandas负责数据处理openpyxl负责打扮输出文件。”fromopenpyxlimportWorkbookfromopenpyxl.stylesimportFont,PatternFill,Alignment,Border,Sidefromopenpyxl.utils.dataframeimportdataframe_to_rows# 创建新工作簿wbWorkbook()wswb.active ws.title汇总数据# 把 pandas 数据写入工作表forr_idx,rowinenumerate(dataframe_to_rows(merged,indexFalse,headerTrue),1):forc_idx,valueinenumerate(row,1):ws.cell(rowr_idx,columnc_idx,valuevalue)# 美化格式 # 表头样式加粗、蓝底白字header_fontFont(boldTrue,colorFFFFFF)header_fillPatternFill(start_color366092,end_color366092,fill_typesolid)header_alignAlignment(horizontalcenter,verticalcenter)# 边框样式thin_borderBorder(leftSide(stylethin),rightSide(stylethin),topSide(stylethin),bottomSide(stylethin))# 应用表头样式forcellinws[1]:cell.fontheader_font cell.fillheader_fill cell.alignmentheader_align cell.borderthin_border# 自动调整列宽forcolumninws.columns:max_length0column_lettercolumn[0].column_letterforcellincolumn:try:ifcell.value:max_lengthmax(max_length,len(str(cell.value)))except:passadjusted_widthmin(max_length2,50)# 最多 50太宽不好看ws.column_dimensions[column_letter].widthadjusted_width# 所有单元格加边框、居中forrowinws.iter_rows(min_row2):forcellinrow:cell.borderthin_border cell.alignmentAlignment(horizontalcenter,verticalcenter)# 保存wb.save(1月汇总报表_已美化.xlsx)print(✅ 美化后的 Excel 已保存)“这段代码干了啥”“1. 创建新 Excel 文件2. 把pandas处理好的数据写进去3.表头加粗、蓝底白字4.自动调整列宽5.所有单元格加边框、居中6. 保存”“以前你手动调格式要半小时代码 20 行跑完 1 秒。”踩坑提醒Excel 操作的几个大坑老张表情严肃起来“Excel 自动化有几个坑我踩过你别踩。”坑 1合并单元格“pandas读合并单元格时只有第一行有值其他行是空值。”“如果源文件有合并单元格要么让同事别合并推荐要么读完之后用fillna(methodffill)填充。”坑 2日期被读成数字“Excel 内部存日期是数字比如 45292 代表 2024-01-01。pandas通常能自动识别但如果识别失败”# 强制指定日期列dfpd.read_excel(file.xlsx,parse_dates[日期列])坑 3大文件内存爆炸“如果 Excel 有几十万行pandas一次性读进来可能内存不够。”“解决办法分块读取。”# 每次读 10000 行chunk_size10000forchunkinpd.read_excel(大文件.xlsx,chunksizechunk_size):# 处理这一块print(f处理{len(chunk)}行...)坑 4公式不计算“openpyxl写入公式后打开 Excel 时可能不自动计算显示#VALUE!。”“解决办法用data_onlyTrue读取时只读值或者写入时直接写计算结果而不是公式。”一句话总结阿明看着桌面上整整齐齐的1月汇总报表_已美化.xlsx心情复杂。以前这活儿要一上午现在10 分钟——其中 9 分钟是在等老张讲原理代码跑完不到 1 秒。老张拍拍他“手动处理 Excel 就像用手工锯木头pandas就是电锯——不是不会用锯子是有更好的工具为啥不用记住数据清洗占 80% 的时间但代码做比人做快 100 倍。”阿明点头突然想到什么“张哥这报表每个月都要做能不能让它自动发给老板”老张笑了“下篇就教你。”扩展思考老张临走前又补充今天学的是’合并多个 Excel’。实际工作中你可能还会遇到按条件拆分一个大表按部门拆成多个 Sheet 或多个文件数据透视像 Excel 的透视表用pandas.pivot_table()一句话搞定图表嵌入把matplotlib生成的图插到 Excel 里“这些变体核心逻辑都一样读取 → 清洗 → 计算 → 格式化输出。”下集预告下一篇阿明要写周报邮件——每周五下午固定格式、固定收件人、固定内容模板。老张会教他yagmail让 Python 当你的私人秘书定时自动发邮件。记住pandas负责数据处理openpyxl负责打扮输出。数据清洗是重头戏但代码做比人做快 100 倍。你每个月要处理多少个 Excel 文件最让你崩溃的 Excel 操作是什么欢迎在评论区吐槽。

相关文章:

用python解放右手系列(三) Excel自动化-告别复制粘贴的噩梦

Excel 自动化:告别复制粘贴的噩梦本文基于 Python 3.9,涉及库:pandas、openpyxl。阅读时间约 12 分钟。 安装依赖:pip install pandas openpyxl每月 1 号的"酷刑" 阿明刚用 Python 搞定文件重命名,还没高兴两…...

MusePublic Art Studio生成多样性控制:潜在空间探索技术

MusePublic Art Studio生成多样性控制:潜在空间探索技术 说实话,用AI生成艺术图片,最让人头疼的可能不是“画不出来”,而是“画得都一样”。你输入一段描述,比如“一个赛博朋克风格的武士”,模型确实能给你…...

COMSOL 超表面仿真:从入门到“光速”出图!

在系统讲解天线、超表面的物理原理、功能实现机制以及利用有限元法(Finite Element Method, FEM)进行建模与仿真设计的完整流程。通过理论讲授与仿真实践相结合的方式,帮助学员掌握从结构建模、物理场设置、网格划分、参数扫描到仿真后处理与…...

低分辨率图像修复难题的终极解决方案:Upscayl深度技术解析

低分辨率图像修复难题的终极解决方案:Upscayl深度技术解析 【免费下载链接】upscayl 🆙 Upscayl - #1 Free and Open Source AI Image Upscaler for Linux, MacOS and Windows. 项目地址: https://gitcode.com/GitHub_Trending/up/upscayl 面对模…...

《Hermes Agent 代码库安全漏洞分析与解决办法》

Hermes Agent 代码库安全漏洞分析与解决办法 Hermes Agent 作为跨平台自改进型 AI 智能体框架,涉及配置管理、多端通信、工具调用、容器部署等核心环节,以下从配置安全、部署安全、代码执行风险、数据隐私、网络通信、依赖管理、权限控制七大维度&#x…...

计算机毕业设计:Python农产品电商数据采集与价格预估平台 Flask框架 Spark 线性回归 数据分析 可视化 大数据 大模型(建议收藏)✅

1、项目介绍 技术栈 采用 Python 语言开发,基于 Flask 框架搭建后端服务,使用 Spark 技术进行大数据处理,通过 requests 爬虫从惠农网采集农产品数据,运用线性回归预测算法模型进行价格预测,前端结合 Echarts 可视化库…...

Intv_AI_MK11 Node.js 环境集成教程:构建全栈智能应用

Intv_AI_MK11 Node.js 环境集成教程:构建全栈智能应用 1. 开篇:为什么选择Node.js集成AI能力 如果你是一名Node.js开发者,想要给自己的应用添加AI能力,这篇教程就是为你准备的。我们将一步步带你完成从零开始的环境搭建&#xf…...

三分钟快速定位:Windows热键冲突终极解决方案指南

三分钟快速定位:Windows热键冲突终极解决方案指南 【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否曾经按…...

从单兵到军团:2026 多智能体协作的崛起与实战全指南

从单兵到军团:2026 多智能体协作的崛起与实战全指南在前三篇文章中,我们拆解了单个AI Agent的技术内核,并盘点了2026年主流框架的选型策略。但企业级场景的复杂程度,正在以肉眼可见的速度超越单一个体的能力天花板。单个“全能实习…...

Cursor AI免费VIP破解方案:如何绕过试用限制持续使用Pro功能

Cursor AI免费VIP破解方案:如何绕过试用限制持续使用Pro功能 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached yo…...

PD协议中的VDM:从握手到模式切换的实战解析

1. VDM基础:从USB PD到厂商自定义消息 第一次接触USB PD协议中的VDM(Vendor Defined Message)时,我完全被各种缩写搞晕了。后来在实际项目中调试一个支持DisplayPort Alt Mode的扩展坞才发现,VDM简直是USB-C设备的&qu…...

在 Linux 中查询最耗费 CPU 资源的前 10 个进程的常用脚本

方法一:使用 ps 命令(推荐,最通用)#!/bin/bash # 查看CPU占用最高的10个进程 ps aux --sort-%cpu | head -n 11 | tail -n 10或者更详细的版本:#!/bin/bash echo " CPU使用率最高的10个进程 " printf "…...

051.数据库选型:为检测结果存储选择合适的数据库(SQLite/MySQL/PostgreSQL)

从一次线上事故说起 上个月深夜接到报警,部署在厂区的YOLO检测服务突然响应缓慢。登录服务器一看,发现检测结果写入数据库的线程全部卡死,前端页面加载历史记录要十几秒。查日志定位到问题:随着检测图片数量突破百万级,当初为了省事直接用的SQLite文件膨胀到8GB,并发写入…...

零代码经验也能搞定的软著申请:用AI工具30分钟生成合规材料

零代码经验也能搞定的软著申请:用AI工具30分钟生成合规材料 在数字化浪潮席卷各行各业的今天,软件著作权(简称"软著")已成为保护创新成果的重要法律凭证。无论是初创企业的核心产品、高校科研项目的技术输出&#xff0c…...

真的绝了!这套私域运营思路和方法让我效率提升10倍

你有没有发现,很多人做私域,每天花4.5小时在重复劳动上——回消息2小时、写朋友圈1小时、手动拉群0.5小时、跟进客户1小时。一年下来1642.5个小时,折合68天。结果呢?好友从3000删到800,月成交从50单跌到8单&#xff0c…...

Shopee卖家必看:如何用爬虫自动监控竞品评价与价格(Python实战)

Shopee卖家必看:如何用Python爬虫实现竞品评价与价格智能监控 在东南亚电商市场激烈竞争的今天,Shopee卖家们面临着一个共同的挑战:如何快速响应市场变化,及时调整运营策略?传统的人工监控方式不仅效率低下&#xff0…...

Flutter 三方库 serial 的鸿蒙化适配指南—如何在在鸿蒙系统上构建极致、稳定的 Web 串口通信与工业硬软连接实战

在工业数字化、设备物联网化、产线可视化运维的场景里,串口通信依然是最基础、最稳定、最具成本优势的设备连接方式之一。无论是 PLC、仪器仪表、扫码枪、称重模块,还是自定义 MCU 控制板,大量设备仍通过 UART/USB-Serial 与上位系统交换数据…...

C++数据成员指针

class Data1 { public:int a;char b; };int Data1:: * aa &Data1::a; 这行代码定义了一个指向 Data1 类中 int 类型成员变量的指针 aa,并将其初始化为指向成员 a。 int Data1::* 是指向 Data1 类中 int 类型数据成员的指针类型。aa 是指针变量的名字。&Dat…...

OpenGL渲染与几何内核那点事-项目实践理论补充(一-3-(6):从“搬砖”到“无人仓”:一个CAD极客的OpenGL性能压榨史,连AI都看呆了——给图形学新手的VBO/VAO全攻略)

TOC 代码仓库入口: github源码地址。gitee源码地址。 系列文章规划: OpenGL渲染与几何内核那点事-项目实践理论补充(一-1-(8)-番外篇:当你的 CAD 遇上“活”的零件)OpenGL渲染与几何内核那点事-项目实践理论补充(一-2-(1)-当你的CAD想“联…...

Fish-Speech 1.5新手必看:3个参数调出完美语音,告别重复卡顿

Fish-Speech 1.5新手必看:3个参数调出完美语音,告别重复卡顿 1. 为什么你的语音合成总是不自然? 刚接触语音合成的朋友经常会遇到这样的困扰:生成的语音要么机械感十足,要么频繁重复字词,甚至出现莫名其妙…...

【2024 AGI技术成熟度白皮书】:12项核心指标首次量化评估,仅2项达Gartner Hype Cycle峰值前夜

第一章:AGI的技术瓶颈与突破方向 2026奇点智能技术大会(https://ml-summit.org) 当前通用人工智能(AGI)仍受限于认知架构的不完备性、跨域迁移的脆弱性以及因果推理的符号—神经鸿沟。尽管大语言模型在模式覆盖上取得显著进展,其…...

跨时钟域处理方法

目录前言1.1 setup-time 和 hold-time1.2 亚稳态的产生及原因2. 单bit信号跨时钟域处理方法2.1 慢时钟域到快时钟域-打两拍2.2 快时钟域到慢时钟域-脉冲同步前言 1.1 setup-time 和 hold-time 同步时序电路设计中,只在时钟的上升沿或下降沿进行采样。为了正确得到…...

Python的__init_subclass__类装饰器链式调用与元类协作

Python的类装饰器与元类机制一直是其面向对象编程中的高级特性,而__init_subclass__的引入进一步丰富了类层次结构的控制能力。当开发者需要在不显式使用元类的情况下定制子类行为,或实现装饰器链式调用与元类的协作时,这一特性展现出强大的灵…...

G-Helper终极指南:5分钟掌握华硕笔记本性能优化技巧

G-Helper终极指南:5分钟掌握华硕笔记本性能优化技巧 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar…...

【JVM深度解析】第24篇:JVM内存模型(JMM)核心原理

摘要 JMM(Java Memory Model,Java 内存模型)是 Java 并发编程的基础,它定义了线程之间共享变量的可见性、有序性问题,以及如何通过 Happens-Before 规则和内存屏障来解决这些问题。理解 JMM,你才能真正明白…...

Hive Lateral View + posexplode 实战:从数据炸裂到业务洞察

1. 从爆炸到洞察:为什么需要posexplode? 刚接触Hive时,我和大多数人一样先学会了explode函数。它能轻松把数组炸开成多行,处理JSON数据特别顺手。但直到遇到一个用户行为分析的需求,我才发现explode有个致命缺陷——它…...

水性浸涂漆工艺规范:从调配到干燥,讲透五金浸涂所有细节

在水性工业漆的实际应用中,浸涂工艺因其效率高、适合大批量小五金件(如螺栓、垫圈、弹簧、小型电机壳、刹车钳、千斤顶零部件等)而备受青睐。但很多工厂在浸漆时常常遇到气泡、流挂、膜厚不均等问题。本文以敦普水性工业漆的水性浸涂漆为例&a…...

Obsidian Dataview数据索引与查询引擎:构建智能知识库的完整技术方案

Obsidian Dataview数据索引与查询引擎:构建智能知识库的完整技术方案 【免费下载链接】obsidian-dataview A data index and query language over Markdown files, for https://obsidian.md/. 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-dataview …...

把MobileMamba的‘多感受野’模块拆给你看:如何用WTE-Mamba和MK-DeConv给老模型做一次‘微创手术’

MobileMamba模块化改造实战:如何用WTE-Mamba和MK-DeConv升级传统视觉模型 当你在深夜调试一个基于ResNet的图像分类项目时,是否遇到过这样的困境——模型在局部细节识别上表现尚可,但面对需要全局上下文理解的场景时总是力不从心?…...

[RV1109/RV1126实战]-RGA与DRM协同优化:从零构建图像Resize加速引擎

1. 为什么需要RGA与DRM协同优化图像Resize? 在嵌入式视觉开发中,图像缩放(Resize)是最基础也是最耗时的操作之一。我在RV1126平台上实测发现,用OpenCV的resize函数处理一张640x480的RGB图像需要22ms,而同样…...