当前位置: 首页 > article >正文

Python 办公自动化封神篇:PDF+Word 全自动处理,从此告别复制粘贴!

前言每天对着一堆 PDF 合并拆分、Word 改格式、手动做报表重复操作又累又容易错Python 几行代码就能全自动搞定这篇不讲废话、不搞应试全是能直接用在工作 / 学习 / 小项目的干货从读取、创建、批量生成到美化排版一步一行讲明白看完就能自己写自动化工具一、环境一键安装必看第一步处理 PDF 和 Word 需要专用工具库打开 CMD / 终端运行这行命令pip install PyPDF2 python-docx reportlabPyPDF2PDF 读取、合并、加密、拆分神器python-docxWord 创建、编辑、美化、做表格全能库reportlab从零生成全新 PDF做报告专用安装没报错就可以直接开干二、PDF 全自动实战逐行精讲 可直接运行1. 从 PDF 里提取文字复制资料再也不用手打很多 PDF 不能复制、不能编辑用 Python 直接把文字扒出来from PyPDF2 import PdfReader def pdf_get_text(pdf_path): # 打开PDF文件rb代表以二进制只读模式打开 reader PdfReader(pdf_path) # 准备一个空字符串存所有文字 all_text # 遍历PDF每一页 for page in reader.pages: # 提取当前页文字 page_text page.extract_text() # 加到总文字里 all_text page_text \n return all_text # 调用函数把你的PDF文件名填进去 content pdf_get_text(测试文件.pdf) # 打印前500个字看看效果 print(content[:500])代码讲解PdfReader专门用来读 PDF 的工具不用自己解析复杂格式reader.pages获取 PDF 所有页循环就能一页页读page.extract_text()核心提取功能自动把页面文字转成字符串最终返回完整文本可直接保存到 TXT/Word 里2. 多个 PDF 一键合并整理资料神器几十份 PDF 要合并成一个Python 秒级完成from PyPDF2 import PdfReader, PdfWriter def merge_pdf(pdf_files, save_name): # 创建一个空白PDF写入器 writer PdfWriter() # 遍历所有要合并的PDF for file in pdf_files: # 打开单个PDF reader PdfReader(file) # 把每一页加到新PDF里 for page in reader.pages: writer.add_page(page) # 保存最终合并后的文件 with open(save_name, wb) as f: writer.write(f) print(合并完成) # 使用示例把你要合并的文件填进列表 merge_pdf([1.pdf, 2.pdf, 3.pdf], 合并完整版.pdf)代码讲解PdfWriter相当于一个空白 PDF 本子专门用来装内容add_page(page)把其他 PDF 的页 “撕下来” 贴到新本子里最后write保存支持任意数量 PDF 合并3. PDF 加密保护重要文件不被乱看给私密 PDF 设置密码别人打不开只有你能看from PyPDF2 import PdfReader, PdfWriter def pdf_encrypt(input_file, output_file, pwd): reader PdfReader(input_file) writer PdfWriter() # 先把所有页复制过去 for page in reader.pages: writer.add_page(page) # 设置密码加密 writer.encrypt(pwd) # 保存加密文件 with open(output_file, wb) as f: writer.write(f) print(加密成功) # 使用 pdf_encrypt(原文件.pdf, 加密版.pdf, 123456)代码讲解encrypt(密码)一行给 PDF 上锁加密后打开必须输入密码安全性拉满4. 从零生成全新 PDF自动做报告不用 Word、不用编辑器Python 直接生成干净 PDFfrom reportlab.pdfgen import canvas def create_new_pdf(save_path, content): # 创建一张PDF画布 c canvas.Canvas(save_path) # 画标题坐标(100,750)代表从左100、从上750开始写 c.drawString(100, 750, Python自动生成PDF报告) # 画正文内容 c.drawString(100, 720, content) # 保存文件 c.save() print(PDF创建成功) # 使用 create_new_pdf(自动报告.pdf, 这是全自动生成的内容不用手动打字)代码讲解canvas.Canvas创建空白 PDF 页面drawString(x,y,文字)在指定位置写字可扩展加表格、图片、标题样式做成专业报表三、Word 自动化封神操作逐行精讲 美化排版1. 读取 Word 全文快速提取内容不管是报告、论文、简历都能一键读出来from docx import Document def read_word(file_path): # 打开Word文档 doc Document(file_path) full_text # 遍历所有段落 for para in doc.paragraphs: full_text para.text \n return full_text # 使用 text read_word(测试文档.docx) print(text)代码讲解Document打开 Word 的核心对象paragraphsWord 里的所有段落循环就能全部提取自动保留格式结构干净无乱码2. 创建精美 Word标题 正文 列表自动生成带格式的文档不用手动调字体字号from docx import Document from docx.shared import Pt def create_beautiful_word(): # 新建空白Word doc Document() # 添加标题 title doc.add_paragraph() title_run title.add_run(Python自动化办公专业文档) # 设置字号18号、加粗 title_run.font.size Pt(18) title_run.bold True # 添加正文 doc.add_paragraph(这是第一段正文内容格式自动设置完成。) doc.add_paragraph(这是第二段正文内容可无限添加。) # 添加项目列表 doc.add_paragraph(• 功能1PDF全自动处理, styleList Bullet) doc.add_paragraph(• 功能2Word批量生成, styleList Bullet) # 保存文件 doc.save(自动生成文档.docx) print(Word创建成功) create_beautiful_word()代码讲解Pt(18)设置字体大小对应 Word 里的字号bold True文字加粗突出标题List Bullet自动生成项目符号列表格式工整3. 批量生成邀请函 / 通知书最强实用功能一份名单自动生成每个人独立文档1 秒搞定几十份from docx import Document def make_invitation(name): doc Document() # 标题 doc.add_paragraph(f尊敬的 {name} 先生/女士).bold True # 正文 doc.add_paragraph( 诚挚邀请您参加本次活动感谢您一直以来的支持与陪伴期待您的莅临) doc.add_paragraph(\n此致\n敬礼) # 按姓名保存 doc.save(f邀请函_{name}.docx) # 名单列表 name_list [张三, 李四, 王五, 赵六] # 循环批量生成 for name in name_list: make_invitation(name) print(所有邀请函生成完毕)代码讲解循环遍历名单自动替换姓名每份文档独立命名不混乱、不重名可扩展加日期、编号、单位名称做成正式文件4. Word 里自动做表格成绩 / 清单 / 报表不用手动画表格Python 一键生成规整表格from docx import Document def create_word_table(): doc Document() doc.add_paragraph(学生成绩表).bold True # 4行3列表格 table doc.add_table(rows4, cols3) table.style Table Grid # 表头 h_cells table.rows[0].cells h_cells[0].text 姓名 h_cells[1].text 年龄 h_cells[2].text 成绩 # 填入数据 data [[小明, 18, 95], [小红, 18, 98], [小刚, 18, 92]] for i, row_data in enumerate(data, 1): cells table.rows[i].cells cells[0].text row_data[0] cells[1].text row_data[1] cells[2].text row_data[2] doc.save(成绩表.docx) print(表格生成完成) create_word_table()代码讲解add_table(行,列)创建指定大小表格Table Grid自带边框打开就是完整表格循环填数据支持批量导入 Excel 内容四、三大爆款实战项目项目 1PDF 全自动整理工具功能扫描文件夹所有 PDF自动提取文字按关键词分类移动到不同文件夹适用资料整理、论文归档、批量处理项目 2每日自动报告生成器功能读取数据自动生成 Word一键转 PDF适用工作日报、周报、统计报表项目 3批量通知书制作系统功能导入名单自动填充姓名、日期、编号批量导出独立文档适用学校、公司、活动组织五、全文总结看完就能用Python 办公自动化真的简单又暴力PDF提取、合并、加密、新建全部几行搞定Word读取、创建、美化、批量、做表格全能适用不用复杂逻辑复制代码改文件名就能运行每天节省 1~2 小时重复劳动效率直接起飞不用再手动复制粘贴、不用再熬夜做报表Python 就是办公神器

相关文章:

Python 办公自动化封神篇:PDF+Word 全自动处理,从此告别复制粘贴!

前言每天对着一堆 PDF 合并拆分、Word 改格式、手动做报表?重复操作又累又容易错,Python 几行代码就能全自动搞定!这篇不讲废话、不搞应试,全是能直接用在工作 / 学习 / 小项目的干货,从读取、创建、批量生成到美化排版…...

数字后端 | Innovus 中解决 Congestion 的常用方法

前言 Congestion(布线拥塞)是数字后端实现中常见的问题。当局部区域标准单元过密、pin 密度过高或走线方向冲突时,就会出现 Congestion,最终可能导致 DRC 违例增多甚至布线失败。本文介绍在 Innovus 中如何查看和分析 Congestion&…...

Polars 2.0大规模清洗踩坑实录:3类隐性OOM陷阱+4步零拷贝修复法,DBA紧急封存的内部手册

第一章:Polars 2.0大规模清洗踩坑实录:3类隐性OOM陷阱4步零拷贝修复法,DBA紧急封存的内部手册三类隐性OOM陷阱真实复现 在处理12TB电商日志(单文件超80GB Parquet)时,Polars 2.0默认配置下静默触发OOM——非…...

Python程序员最后的护城河:掌握无GIL环境下的内存序建模、seq_cst原子操作与TSO一致性验证(附GCC/Clang内联汇编对照表)

第一章:Python程序员的无GIL并发觉醒:从CPython锁争用到真正并行的范式跃迁Python开发者长期在CPython解释器下与全局解释器锁(GIL)共处——它保障了内存管理的安全,却也悄然扼杀了多核CPU上真正的并行计算能力。当I/O…...

Docker镜像拉取超时?5分钟搞定国内镜像源加速配置(附最新可用镜像列表)

Docker镜像加速全攻略:2024国内镜像源配置与疑难排解 每次在终端输入docker pull后盯着进度条卡住不动,是不是感觉血压都在飙升?作为国内开发者,Docker官方镜像源的访问问题就像一场永远打不完的"拉锯战"。但别急着摔键…...

eNSP启动AR报错码40终极排查指南:从Hyper-V冲突到虚拟网卡修复

1. 遇到eNSP启动AR报错码40怎么办? 最近在折腾eNSP的时候,遇到了AR设备启动报错码40的问题,按照官方帮助手册排查了一圈都没解决。这种系统级的虚拟化冲突确实让人头疼,特别是当你急着做实验的时候。经过反复测试和查阅资料&#…...

双轴卷取分切机程序,PLC和触摸屏使用西门子smart200系列。 前后卷取双轴张力控制计算

双轴卷取分切机程序,PLC和触摸屏使用西门子smart200系列。 前后卷取双轴张力控制计算。 利用变频器模拟量输出控制张力。 卷取版型较好。 内部张力梯度算法理解后可用于恒张力卷取设备。 程序有完整注释,完整的设备图纸,方便理解阅读。 只包含…...

小红书合规引流新姿势:聚光平台落地页卡片制作全流程指南

小红书聚光平台合规引流实战手册:从落地页设计到高效转化全解析 在小红书这个日活超过2亿的内容社区里,企业营销人员和个体创业者最关心的莫过于如何在不触碰平台红线的前提下实现精准引流。聚光平台作为小红书官方推出的商业工具,其落地页卡…...

【信息科学与工程学】【管理科学】第十六篇 利益设计与分配:从静态薪酬到动态激励生态系统的工程化重构

1. 从静态薪酬到动态激励:一场组织动力系统的革命 记得三年前我参与过一家科技公司的薪酬体系改革项目。当时他们的CTO对我说:"我们给工程师的薪水在行业里算高的,但为什么总感觉大家没干劲?"这个问题困扰着无数技术管理…...

Aseprite新手必看:5分钟搞定像素角色基础动画(附完整工程文件)

Aseprite像素动画速成指南:从静态角色到生动动作的5分钟魔法 第一次打开Aseprite时,我被它简洁的界面和强大的功能震撼了——作为一个独立游戏开发者,我需要快速制作角色动画,但又不想陷入复杂的美术流程。经过多次实践&#xff…...

从原理到实战:LRU缓存算法的核心机制与工程实践

1. LRU缓存算法的基础原理 最近最少使用(LRU)算法是每个后端工程师都应该掌握的缓存淘汰策略。我第一次在线上系统使用LRU时,发现它完美解决了我们的缓存击穿问题。简单来说,LRU就像图书馆里整理书籍的管理员——总是把最近被借阅…...

别再只靠瓦片等级了!用Cesium精准控制地图缩放的自定义比例尺方案

突破瓦片等级限制:Cesium动态比例尺的工程实践与业务集成 在三维地理信息系统的开发中,地图缩放控制一直是个既基础又关键的课题。传统依赖预定义瓦片等级的做法,就像用固定档位的变速箱驾驶越野车——虽然简单直接,但面对复杂地形…...

Keploy实战:基于真实流量的API自动化测试与Mock生成

1. Keploy是什么?它能解决什么问题? 第一次听说Keploy时,我也和大多数开发者一样疑惑:这工具到底能干嘛?简单来说,Keploy就像是你团队里的一个"影子测试工程师",它能悄无声息地记录下…...

即插即用模块-Attention篇:SCA简化通道注意力如何重塑轻量级视觉模型

1. 为什么需要简化通道注意力? 在移动端和边缘计算设备上跑视觉模型,就像让一辆小排量汽车拉重货——既要省油又要动力足。传统通道注意力模块(Channel Attention)虽然能提升模型性能,但它的计算开销就像给车子装了个大…...

华为与思科路由协议优先级(AD值)对比:选路逻辑与网络设计启示

1. 路由协议优先级:网络世界的交通规则 想象一下你开车去公司,导航给你规划了三条路线:一条是高速但收费,一条是免费但红绿灯多,还有一条是小路但距离最短。你会怎么选?这个选择过程,和路由器选…...

2026高性价比降AI工具盘点 高效过审适配全场景

一、摘要 据2026年学术服务行业调研数据显示,随着AIGC工具在写作场景的普及,国内各类文档的AI生成占比较上年提升35%,高校、科研机构及企业对AI生成内容的管控标准持续收紧。超过70%的用户曾遇到过降AI效果不稳定、收费偏高、检测不通过售后无…...

2026年高性价比降AI工具:SpeedAI降AIGC率稳过审

2026年AIGC工具已经全面融入各类内容创作场景,降AI率、降AIGC率不再是学术圈的小众需求,更是论文写作、商业文案产出、自媒体内容创作、正式文稿发表等场景的核心刚需。现在市面上降AI工具种类繁多,但真正能做到效果稳定、不改动核心内容、操…...

2025降AI率工具怎么选?7款热门产品实测优缺点

2025年各类降AI率工具质量参差不齐,不少学生、科研工作者都踩过“降不下来AI率、花了钱还耽误事”的坑,怎么选靠谱的降AIGC工具成了大家的普遍需求。本文将从实用维度出发,梳理2025年降Ai率工具测评: 7个爆款降AI率工具的优缺点总…...

批量下载功能解决B站视频资源管理难题:从混乱到有序的高效工作流

批量下载功能解决B站视频资源管理难题:从混乱到有序的高效工作流 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水…...

用Multisim复刻经典:手把手教你搭建一个60秒倒计时器(附74LS161+4511完整仿真文件)

用Multisim复刻经典:手把手教你搭建一个60秒倒计时器(附74LS1614511完整仿真文件) 在电子工程的学习过程中,没有什么比亲手搭建一个实用电路更能加深理解的了。今天,我们将一起用Multisim这款强大的电路仿真软件&#…...

驾驭Aviator:构建高性能Java动态规则引擎的实战指南

1. 为什么选择Aviator构建规则引擎 在电商促销、金融风控等业务场景中,我们经常遇到需要频繁修改业务规则的痛点。传统硬编码的方式每次修改都需要重新发布应用,而Aviator作为轻量级的高性能表达式引擎,能够完美解决这个问题。 我曾在某电商…...

为什么你的API吞吐量卡在8k QPS?Span<T> + MemoryPool<T>组合拳让Kestrel直冲23k QPS(附压测报告)

第一章&#xff1a;为什么你的API吞吐量卡在8k QPS&#xff1f;Span<T> MemoryPool<T>组合拳让Kestrel直冲23k QPS&#xff08;附压测报告&#xff09;当默认 ASP.NET Core Web API 在 Kestrel 上稳定输出 8,000 QPS 时&#xff0c;瓶颈往往不在网络层或 CPU&…...

用MobileNetV2和ONNX.js,5分钟在浏览器里跑通一个照片美学评分模型

浏览器端AI美学评分实战&#xff1a;MobileNetV2与ONNX.js的高效融合方案 当摄影作品成为数字社交的通用语言&#xff0c;如何快速评估一张照片的视觉价值成为刚需。传统人工评分效率低下且主观性强&#xff0c;而基于MobileNetV2与ONNX.js的浏览器端解决方案&#xff0c;让美…...

129. index.yaml 与基于 git 的 Rancher App 仓库中图表显现的优先级

Situation 地理位置 Rancher supports git-based repositories in the Apps feature, enabling deployment of Helm charts into Rancher-managed clusters, from a git repository. An example of such a git repository is provided by the RKE2 cluster template examples …...

128. 如何在 RKE2 或 K3s 集群中更改容器日志级别

Procedure 程序The containerd log level can be set to one of the following values: trace, debug, info, warn, error, fatal or panic. In RKE2 and K3s clusters the log level is not explicitly set by default, and so containerd defaults to info level logging. D…...

抖音批量下载工具架构设计与部署实践

抖音批量下载工具架构设计与部署实践 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音批量下载工具&#x…...

化工巡检机器人

山东奇妙智能科技有限公司专注于化工行业智能巡检机器人的研发与应用&#xff0c;其产品旨在通过自动化、智能化技术替代传统人工巡检&#xff0c;提升化工生产环境的安全性、效率和精准度。该类机器人通常具备防爆设计、多传感器融合、自主导航等功能&#xff0c;适用于易燃易…...

LeetCode 删除无效的括号:python 题解瘸

这个代码的核心功能是&#xff1a;基于输入词的长度动态选择反义词示例&#xff0c;并调用大模型生成反义词&#xff0c;体现了 “动态少样本提示&#xff08;Dynamic Few-Shot Prompting&#xff09;” 与 “上下文长度感知的示例选择” 的能力。 from langchain.prompts imp…...

紧急预警:.NET 9 RC2已移除旧版LowCodeProvider——所有基于.NET 8低代码框架的项目须在2024年11月30日前完成迁移,否则将触发运行时降级熔断

第一章&#xff1a;.NET 9 低代码开发范式演进与熔断机制全景概览.NET 9 将低代码能力深度融入平台原生架构&#xff0c;不再依赖第三方可视化设计器&#xff0c;而是通过源生成器&#xff08;Source Generators&#xff09;、属性驱动的组件注册、以及声明式 UI 模型&#xff…...

解决B站视频离线难题:用bilibili-downloader实现4K高清内容永久保存的实战指南

解决B站视频离线难题&#xff1a;用bilibili-downloader实现4K高清内容永久保存的实战指南 【免费下载链接】bilibili-downloader B站视频下载&#xff0c;支持下载大会员清晰度4K&#xff0c;持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader …...