Python中的PDF文本提取:使用fitz和wxPython库(带进度条)
引言:
处理大量PDF文档的文本提取任务可能是一项繁琐的工作。本文将介绍一个使用Python编写的工具,可通过简单的操作一键提取大量PDF文档中的文本内容,极大地提高工作效率。
import wx
import pathlib
import fitzclass PDFExtractor(wx.Frame):def __init__(self, parent, title):super(PDFExtractor, self).__init__(parent, title=title, size=(400, 200))panel = wx.Panel(self)vbox = wx.BoxSizer(wx.VERTICAL)self.file_picker = wx.FilePickerCtrl(panel, style=wx.FLP_DEFAULT_STYLE | wx.FLP_USE_TEXTCTRL)self.save_picker = wx.DirPickerCtrl(panel, style=wx.DIRP_DEFAULT_STYLE | wx.DIRP_USE_TEXTCTRL)self.extract_button = wx.Button(panel, label="提取")self.extract_button.Bind(wx.EVT_BUTTON, self.on_extract)vbox.Add(wx.StaticText(panel, label="选择PDF文件:"), 0, wx.ALL | wx.EXPAND, 5)vbox.Add(self.file_picker, 0, wx.ALL | wx.EXPAND, 5)vbox.Add(wx.StaticText(panel, label="选择输出路径:"), 0, wx.ALL | wx.EXPAND, 5)vbox.Add(self.save_picker, 0, wx.ALL | wx.EXPAND, 5)vbox.Add(self.extract_button, 0, wx.ALL | wx.CENTER, 5)panel.SetSizer(vbox)def on_extract(self, event):pdf_path = self.file_picker.GetPath()save_path = self.save_picker.GetPath()if pdf_path and save_path:progress_dialog = wx.ProgressDialog("提取进度", "正在提取...", maximum=100, parent=self)try:with fitz.open(pdf_path) as doc:total_pages = len(doc)progress = 0for index, page in enumerate(doc):text = page.get_text()output_file = pathlib.Path(save_path) / f"page_{index + 1}.txt"output_file.write_text(text, encoding="utf-8")progress = int((index + 1) / total_pages * 100)progress_dialog.Update(progress, f"正在提取第 {index + 1} 页 / 共 {total_pages} 页")progress_dialog.Update(100, "提取完成!")wx.MessageBox("提取完成!", "成功", wx.OK | wx.ICON_INFORMATION)except Exception as e:wx.MessageBox(str(e), "错误", wx.OK | wx.ICON_ERROR)finally:progress_dialog.Destroy()else:wx.MessageBox("请选择PDF文件和输出路径!", "错误", wx.OK | wx.ICON_ERROR)def main():app = wx.App()frame = PDFExtractor(None, "PDF提取器")frame.Show()app.MainLoop()if __name__ == '__main__':main()
在这个示例中,我们创建了一个wx.ProgressDialog对象,用于显示提取进度。在提取每一页的文本时,我们使用enumerate函数获取当前页的索引,并根据总页数计算提取进度的百分比。然后,我们使用progress_dialog.Update方法更新进度条的进度和显示的文本。
请注意,由于提取过程可能需要一些时间,所以我们使用进度条对话框来显示进度并阻止用户的交互。在提取完成后,进度条对话框会自动关闭。
其中:
1)文档选择:
self.file_picker = wx.FilePickerCtrl(panel, style=wx.FLP_DEFAULT_STYLE | wx.FLP_USE_TEXTCTRL)
2、文件夹选择:
self.save_picker = wx.DirPickerCtrl(panel, style=wx.DIRP_DEFAULT_STYLE | wx.DIRP_USE_TEXTCTRL)
3、进度显示:
progress = int((index + 1) / total_pages * 100)progress_dialog.Update(progress, f"正在提取第 {index + 1} 页 / 共 {total_pages} 页")progress_dialog.Update(100, "提取完成!")
4、最重要的:获得pdf中的文本:
with fitz.open(pdf_path) as doc:total_pages = len(doc)progress = 0for index, page in enumerate(doc):text = page.get_text()output_file = pathlib.Path(save_path) / f"page_{index + 1}.txt"output_file.write_text(text, encoding="utf-8")
结果如下:



相关文章:
Python中的PDF文本提取:使用fitz和wxPython库(带进度条)
引言: 处理大量PDF文档的文本提取任务可能是一项繁琐的工作。本文将介绍一个使用Python编写的工具,可通过简单的操作一键提取大量PDF文档中的文本内容,极大地提高工作效率。 import wx import pathlib import fitzclass PDFExtractor(wx.Fr…...
mysql 将字段值+1或自增
一、解决方式: SET var 1; UPDATE jes_menu_info SET MENU_SORT (var : var 1) WHERE ss_idACC; 二、解读用户变量,在客户端链接到数据库实例整个过程中用户变量都是有效的。 MySQL中用户变量不用事前申明,在用的时候直接用“变量名”使…...
组合总和——力扣39
文章目录 题目描述回溯 题目描述 回溯 class Solution { public:vector<vector<int>> res;vector<int> seq; void dfs(vector<int>& nums, int pos, int target){if(target0){res.emplace_back(seq);return;}if(posnums.size()){return;}//直接跳过…...
PostgreSQL Patroni_exporter 监控 patroni高可用工具
Patroni是Cybertec公司基于python语言开发的,可用于使用流复制来创建,管理,维护和监视高可用性PostgreSQL集群设置的工具。 目前,PatroniEtcd 是最为推荐的PostgreSQL数据库高可用方案之一。 PostgreSQL有postgres_exporter监控采…...
C语言多级指针
#include "stdio.h" #include <stdlib.h>int main() {int a 10;//*p int a int *pint* p &a;int** q &p;//int** q int *(*q) int *(q) a//int**q int*(*q) int*(&a) int*&a aint*** k &q;//分析:首先k是个变量&…...
IDEA项目实践——创建Java项目以及创建Maven项目案例、使用数据库连接池创建项目简介
系列文章目录 IDEA上面书写wordcount的Scala文件具体操作 IDEA创建项目的操作步骤以及在虚拟机里面创建Scala的项目简单介绍 目录 系列文章目录 前言 一 准备工作 1.1 安装Maven 1.1.1 Maven安装配置步骤 1.1.2 解压相关的软件包 1.1.3 Maven 配置环境变量 1.1.4 配…...
ArraySetter
简介 用来展示属性类型为数组的 setter 展示 配置示例 "setter": {"componentName": "ArraySetter","props": {"itemSetter": {"componentName": "ObjectSetter","props": {"c…...
Python如何解决Amazon亚马逊“图文验证码”识别(6)
前言 本文是该专栏的第55篇,后面会持续分享python爬虫干货知识,记得关注。 在本专栏前面,笔者有详细介绍多种登录验证码识别方法,感兴趣的同学可往前翻阅。而本文,笔者将单独详细介绍亚马逊Amazon的图文识别验证码的解决方法。 如上图所示,访问或请求频次达到一定程度之…...
plsql连接oracle出现TTC错误
这个错误莫名其妙,搜不到直接关联的解决方案。用了下面解决乱码的方式倒是解决了。 ORA-03137: TTC protocol internal error : [%s] [%s] [%s] [%s] [%s] [%s] [%s] [%s] 按照如下链接解决: PL/SQL Developer中文乱码解决方案_Bug君坤坤的博客-CSDN博…...
4-golang爬虫下载的代码
golang爬虫下载的代码: 下载程序的借鉴内容: 这个是关于gbk,utf8等相互转换的包 github.com/axgle/mahonia" 一、标准下载代码 package downloaderimport ("log""net/http""io""github.com/axgle/…...
Eureka增加账号密码认证登录
一、业务背景 注册中心Eureka在微服务开发中经常使用到,用来管理发布的微服务,供前端或者外部调用。但是如果放到生产环境,我们直接通过URL访问的话,这显然是不安全的。 所以需要给注册中心加上登录认证。 通过账号和密码认证进行…...
Practice5|58. 最后一个单词的长度、66. 加一
58. 最后一个单词的长度 1.题目: 给你一个字符串 s,由若干单词组成,单词前后用一些空格字符隔开。返回字符串中 最后一个 单词的长度。 单词 是指仅由字母组成、不包含任何空格字符的最大子字符串。 示例 1: 输入:…...
Practice4|14. 最长公共前缀、2. 两数相加
14. 最长公共前缀 1.题目: 编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 ""。 示例 1: 输入:strs ["flower","flow","flight"] 输出…...
第28天-Kubernetes架构,集群部署,Ingress,项目部署,Dashboard
1.K8S集群部署 1.1.k8s快速入门 1.1.1.简介 Kubernetes简称k8s,是用于自动部署,扩展和管理容器化应用程序的开源系统。 中文官网:https://kubernetes.io/zh/中文社区:https://www.kubernetes.org.cn/官方文档:https…...
剑指OfferII-58.左旋转字符串
剑指OfferII-58.左旋转字符串 目录 剑指OfferII-58.左旋转字符串题目描述解法一:字符数组解法二:原地反转 题目描述 字符串的左旋转操作是把字符串前面的若干个字符转移到字符串的尾部。 请定义一个函数实现字符串左旋转操作的功能。 比如,…...
C语言每日一题:14《数据结构》复制带随机指针的链表
题目一: 题目链接: 思路一: 找相对位置暴力求解的方法: 1.复制一个新的链表出来遍历老的节点给新的节点赋值,random这个时候不去值。 2.两个链表同时遍历,遍历老链表的时候去寻找相对位置,在遍…...
MySql008——检索数据:过滤数据(WHERE子句的使用)
前提:使用《MySql006——检索数据:基础select语句》中创建的products表 一、实际需求 数据库表一般包含大量的数据,但是很少需要检索表中所有行。通常只会根据特定条件提取表数据的子集。只检索所需数据需要指定搜索条件(search …...
vue2-v-show和v-if有什么区别,使用场景分别是什么?
1、v-show和v-if的共同点 在vue中,v-if和v-show的作用效果是相同的(不含v-else),都能控制元素在页面是否显示,在用法上也相同。 当表达式为true的时候,都会占据页面的位置 当表达式为false的时候ÿ…...
常用的排序算法简介:冒泡、选择、插入、归并、快速
常用的排序算法包括冒泡排序、选择排序、插入排序、归并排序和快速排序。以下是它们的简单介绍: 1. 冒泡排序(Bubble Sort): 冒泡排序是一种经典的基于交换的排序算法。它重复地比较相邻的元素,如果顺序错误&#…...
Golang之路---04 项目管理——编码规范
本文根据个人编码习惯以及网络上的一些文章,整理了一些大家能用上的编码规范,可能是一些主流方案,但不代表官方。 1. 文件命名 由于 Windows平台文件名不区分大小写,所以文件名应一律使用小写 不同单词之间用下划线分词…...
OpenClaw数据标注:Qwen3.5-9B-AWQ-4bit辅助图像分类打标
OpenClaw数据标注:Qwen3.5-9B-AWQ-4bit辅助图像分类打标 1. 为什么需要AI辅助数据标注 作为一个经常需要准备训练数据的开发者,我深知手动标注图像的痛苦。去年做一个垃圾分类项目时,我曾连续三天对着几千张垃圾图片手动打标,不…...
大型机械作业险碰高压线?这款智能警示球及时预警保安全
去年12月,湖北武汉蔡甸区发生一起揪心的电力外破事故:一辆水泥泵车作业时,臂架不慎触碰110千伏输电导线,引发线路跳闸、导线断股,周边大面积停电,涉事司机被依法处罚,一场疏忽酿成严重损失。当前…...
从‘拉风箱’到‘指哪打哪’:VCM音圈马达如何重塑了我们的手机拍照体验?
从‘拉风箱’到‘指哪打哪’:VCM音圈马达如何重塑了我们的手机拍照体验? 还记得十年前用手机拍运动场景的崩溃体验吗?按下快门后镜头反复伸缩发出"咔咔"声,像老式风箱般迟钝,等对焦完成时孩子早已跑出画面。…...
Arcgis新手必看:如何用线矢量快速提取tif栅格值并绘制专业剖面线图
ArcGIS线矢量提取栅格值实战:从数据到专业剖面图的完整指南 当你第一次面对需要分析地形起伏、温度梯度或任何连续空间数据的变化趋势时,剖面线图无疑是直观展示这些信息的利器。作为ArcGIS平台的核心分析功能之一,线矢量提取栅格值并绘制剖面…...
Modbus调试工具《二》 Master仿真器实战技巧解析
1. ModbusMaster仿真器核心功能解析 第一次打开ModbusMaster仿真器时,很多新手会被界面上的各种按钮和选项搞得晕头转向。其实这个工具的设计逻辑非常清晰,主要分为四大功能模块:连接配置、数据采集、寄存器操作和辅助工具。我刚开始用的时候…...
从Remix到Ganache:一次智能合约部署的完整“后台日志”解读
从Remix到Ganache:智能合约部署的"后台日志"深度解析 当你第一次成功部署智能合约时,看到Ganache和Remix控制台输出的那一大串信息,是不是感觉像在看天书?那些Block Hash、Gas Used、txIndex究竟在说什么?这…...
解锁毕业论文新姿势:书匠策AI,你的学术写作超级助手!
在学术的浩瀚海洋中,毕业论文无疑是每位学子扬帆远航前必须跨越的一道重要关卡。它不仅是对你多年学习成果的总结,更是通往未来学术或职业道路的一块重要敲门砖。然而,面对堆积如山的资料、错综复杂的逻辑结构,以及那令人头疼的格…...
SAP-MM 采购申请审批策略:从特征定义到策略配置的实战指南
1. SAP-MM采购申请审批策略入门指南 第一次接触SAP-MM模块的采购申请审批配置时,我被那些专业术语绕得头晕。但真正理解后才发现,这套审批机制就像公司里的请假流程——不同级别、不同类型的请假需要不同领导审批。采购申请也是如此,金额大小…...
创想三维“闯入”漫展,3D打印赋能Cosplay创作
4月4日,中西部文化巡展漫展现场,天猫“无畏契约主题电竞活动”的电竞装备体验区内,两台创想三维3D打印机——SPARKX i7 Combo和Creality K2 Combo正在高速运转,层层堆叠的PLA耗材逐渐勾勒出精致的Cosplay道具轮廓。周围有许多人围…...
k8s与docker compose的思考
1.稍微复杂2.ip会漂移,各种端口转发性能有所损失。3.占用一定的资源4.master需要高可用5.更适合web无状态docker-compose则比较简单,搭建本地环境就一个配置文件的事情,简直是本地test环境神器。...
