Python办公自动化之PDF(二)
Python操作PDF二
- 1、PyMuPDF简介
- 2、
1、PyMuPDF简介
PyMuPDF(也称Fitz)开源,提供了一整套用于处理PDF文件的综合工具。使用PyMuPDF,用户可以高效地执行打开PDF、提取文本、图像和表格、操作旋转和裁剪等页面属性、创建新PDF文档以及将PDF页面转换为图像等任务
从命名形式中可以看出,PyMuPDF是MuPDF的Python接口形式。MuPDF是一个轻量级的PDF、XPS和电子书查看器
MuPDF中的渲染器专为高质量抗锯齿图形量身定制,它以精确到像素的几分之一内的度量和间距呈现文本,以在屏幕上再现打印页面的外观时获得最高保真度
PyMuPDF支持以下多种功能:
- 文档阅读:支持打开和阅读多种文档(如PDF等),并访问其中的任何内容
- 文本提取:支持从PDF文档中提取文本,包括文本内容、字体和布局信息
- 图像提取:支持从PDF文档中提取各种格式的图像(如PNG、JPEG、JPG等)
- 表格提取:支持从PDF文档中提取表格
- PDF操作:PDF编辑、PDF拆分合并、加密解密和页面管理等
另外,PyMuPDF在提取文本的性能方面可以说是完爆其他库,PyMuPDF比PyPDF2、PDFPlumber、PDFMiner等快至少10倍

官方文档:https://pymupdf.readthedocs.io/en/latest/installation.html
其他官方文档参考:https://products.documentprocessing.com/zh/parser/python/pymupdf/
安装:
pip install PyMuPDF
2、
未完待续…
参考文章:https://blog.csdn.net/weixin_49892805/article/details/129211981
相关文章:
Python办公自动化之PDF(二)
Python操作PDF二 1、PyMuPDF简介2、 1、PyMuPDF简介 PyMuPDF(也称Fitz)开源,提供了一整套用于处理PDF文件的综合工具。使用PyMuPDF,用户可以高效地执行打开PDF、提取文本、图像和表格、操作旋转和裁剪等页面属性、创建新PDF文档以…...
登录失败重试次数安全设计方案
1、登录失败重试次数设计方案 1、无论是账号还是密码错误,统一提示:用户名或密码错误,账号剩余登录次数N! 2、同一账号连续登录失败5次,锁定该账号5分钟,5分钟后可以再重试登录。 开发设计 keyÿ…...
Django——模板
Django——模板 Django 提供一种动态生成 HTML 页面 —— 模板 1、模板语言 模板语言(DTL): 变量 , 注释 , 标签 , 过滤器 , 模板继承 1、变量 <body> <!-- 这个是前端中的注释 --> {# 这种是Django中模板语言的…...
角蜥优化算法 (Horned Lizard Optimization Algorithm ,HLOA)求解无人机路径优化
一、无人机路径规划模型介绍 无人机三维路径规划是指在三维空间中为无人机规划一条合理的飞行路径,使其能够安全、高效地完成任务。路径规划是无人机自主飞行的关键技术之一,它可以通过算法和模型来确定无人机的航迹,以避开障碍物、优化飞行时间和节省能量消耗。 二、算法介…...
Windows下 OracleXE_21 数据库的下载与安装
Oracle 数据库的下载与安装 数据库安装包下载数据库安装访问数据库进行测试Navicat连接数据库 1. 数据库安装包的下载 1.1 下载地址 Oracle Database Express Edition | Oracle 中国 1.2 点击“下载 Oracle Database XE”按钮,进去到下载页面(选择对…...
新手如何快速上手学习单片机?
读者朋友能容我,不使博文负真心 新开专栏,期待与诸君共享精彩 个人主页:17_Kevin-CSDN博客 专栏:《单片机》 学习单片机是一个有趣且有挑战性的过程。单片机是一种微控制器,广泛应用于各种电子设备和嵌入式系统中。在这…...
grpc的验证器
简介 在使用grpc库时候 ,很多时候我们需要对反序列化的参数进行校验,代码中有很多参数校验的代码,如果手动实现,会非常繁琐,对于grpc来说,在定义proto的时候使用直接定义参数的限制规则是一种更合理、更优雅的方式,插…...
无法找到concrt140.dll怎么办?concrt140.dll丢失的5种解决方法
在我们使用计算机的时候,偶尔会遭遇一些技术问题,其中一个比较常见的问题就是出现了"丢失concrt140.dll文件"的提示。当我们的电脑告诉我们缺少了concrt140.dll文件时,常常是因为某些程序无法找到这个文件而导致了程序的运行异常。…...
Elasticsearch 分享
一、Elasticsearch 基础介绍 ElasticSearch 是分布式实时搜索、实时分析、实时存储引擎,简称(ES), 成立于2012年,是一家来自荷兰的、开源的大数据搜索、分析服务提供商,为企业提供实时搜索、数据分析服务,…...
cpu masks的初始化
在内核中,有几个位图变量是用作标识cpu数量和状态的,它们分别是: 变量名称用途循环所使用的宏cpu_possible_mask系统中有多少个可以运行的cpu核for_each_possible_cpucpu_present_mask系统中有多少个可处于运行状态的cpu核for_each_present_…...
【软件测试面试】银行项目测试面试题+答案(二)
目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 面试题࿱…...
视频极速切割无损工具免费版,亲测好用!
问题描述 最近想兼职做自媒体,最初想法是想把视频资源下载到本地,本地做一些剪辑和图文配音发布到自媒体app上,但是要把视频(腾讯视频qlv转mp4看我上一篇文章,也是免费版)切割成一小段的片段用手机剪太费劲了,网上好多…...
LightDB ecpg 支持 exec sql execute ... end-exec【24.1】【oracle 兼容】
LightDB 从24.1 版本开始支持 oracle pro*c 中执行匿名块的语法(之前可以通过do 语句执行匿名块): EXEC SQL EXECUTEanonymous block END-EXEC;因为匿名块不是SQL标准的一部分,所以此用法也不存在于SQL标准中。 示例 #include …...
菜品检测,基于YOLOV8
菜品检测,基于YOLOV8NANO,训练得到模型PT,然后转换成ONNX,OPENCV的DNN调用,支持C/PYTHON/ANDROID开发菜品检测,基于YOLOV8,能检测五种菜品,水豆腐、豆腐干、空心菜、豆芽菜、茄子...
前端面试练习24.3.5
webpack相关 项目使用webpack流程 进入一个初始化好的vue项目下载安装webpack相关依赖包/插件 npm install --save-dev webpack webpack-cli webpack-dev-server安装一些相关的loader,比如vue-loader,babel-loader,css-loader等创建webpack.config.js文…...
vim 编辑器
vim 编辑器是什么用途? vim 是一种强大而灵活的文本编辑器,广泛用于开发和系统管理任务。它可以在命令行界面中使用,并提供许多高级编辑功能和快捷键,使用户能够高效地编辑文本文件。 vim 编辑器适用于哪些语言? vim 编…...
docker安装MongoDB脚本
使用docker安装MongoDB只需要按以下步骤执行即可: 一、docker 运行 注意修改默认端口,防止被攻击: docker run -d --name mongo --restartalways -p 25066:28317 -v /usr/local/mongDb/configdb:/data/configdb -v /usr/local/mongDb/db:…...
资料下载-嵌入式 Linux 入门
学习的第一步是去下载资料。 1. 有哪些资料 所有资料分 4 类: ① 开发板配套资料(原理图、虚拟机的映像文件、烧写工具等),放在百度网盘 ② 录制视频过程中编写的文档、源码、图片,放在 GIT 仓库 ③ u-boot、linux 内核、buildroot 等比较大…...
错误票据 刷题笔记
开数组 读入数据 记录最小值和最大值 每次读入x; 让a[x]; 从最小值开始 向上扫 当扫到a[x]0时候为断号 扫到a[x]>1为重号; 该题的小技巧 未知长度的数据的读入方式 1.首先在头文件敲上 #include<sstream> #include<string> #include<…...
十堰网站建设公司华想科技具有10年的网站制作经验
2018年已经结束了。 华翔科技收到了很多客户的咨询,他们都有一个共同的问题:建一个网站需要多少钱? 但是,我们都会问:您有什么具体需求吗? 大多数人的答案是否定的,他们只是想打听一下价格。 十…...
【CANNBot学习周】4.13~4.16入门课程来袭
经历了上一期“CANNBot发布:畅享算子开发新体验”,相信你对解锁智能化昇腾CANN算子开发已经跃跃欲试。 CANNBot学习周入门课程来袭,包含4门从易到难的实操课程,带你从 0 到 1 掌握核心技能!课程覆盖Ascend C、PyPTO和…...
STM32CubeMX RTC万年历功能缺失的F103日期保存方案优化
1. STM32F103 RTC日期丢失问题解析 第一次用STM32F103做带RTC功能的产品时,我就被这个坑绊倒了。明明接了纽扣电池,断电后时间能正常走,但日期总会莫名其妙重置到初始值。后来查资料才发现,这是STM32CubeMX生成代码时的"祖传…...
Vue大屏自适应终极指南:v-scale-screen组件高效实战方案
Vue大屏自适应终极指南:v-scale-screen组件高效实战方案 【免费下载链接】v-scale-screen Vue large screen adaptive component vue大屏自适应组件 项目地址: https://gitcode.com/gh_mirrors/vs/v-scale-screen 在现代企业级数据可视化项目中,大…...
MinIO初始化报错`Invalid endPoint`全解析:从URL规范到调试技巧
1. 为什么你的MinIO客户端总是报Invalid endPoint错误? 最近在帮团队排查MinIO集成问题时,发现超过60%的初始化错误都源于endPoint配置不当。很多开发者习惯性复制浏览器地址栏的URL直接粘贴到代码里,结果运行时却收到冰冷的Invalid endPoint…...
RS485 RE、DE
在RS485通信中,RE 和 DE 是两个关键的控制引脚,用于管理收发器的数据流向,是实现半双工通信的核心。 引脚定义与功能引脚名称全称功能描述典型电平逻辑REReceive Enable(接收使能)控制接收器的使能与否。低电平有效&am…...
从图片伪装到权限获取:实战演示文件上传漏洞与蚁剑联动
1. 文件上传漏洞的本质与危害 文件上传功能几乎是每个网站都会具备的基础模块,从用户头像更换到文档提交都离不开它。但很多开发者在实现这个功能时,往往只做了最基础的前端校验,这就给攻击者留下了可乘之机。我见过太多案例,一个…...
Qwen2.5-14B-Instruct应用场景:像素剧本圣殿为播客联盟定制系列剧剧本生成系统
Qwen2.5-14B-Instruct应用场景:像素剧本圣殿为播客联盟定制系列剧剧本生成系统 1. 项目背景与价值 像素剧本圣殿(Pixel Script Temple)是一款基于Qwen2.5-14B-Instruct大模型深度优化的专业剧本创作工具。这款工具专为播客联盟的系列剧创作…...
别再折腾PPT了!用VSCode + Marp插件,5分钟搞定一份高颜值Markdown幻灯片
用VSCode和Marp打造极简主义幻灯片:开发者首选的高效演示方案 在技术分享、教学演示或项目汇报的场景中,我们常常陷入一个两难困境:既希望保持内容的专业性和技术感,又不想在幻灯片设计上耗费过多时间。传统PPT软件虽然功能强大&a…...
【AI原生UX设计反直觉真相】:为什么“更智能”反而导致用户流失率上升47%?——基于127个A/B测试的归因分析
第一章:AI原生UX设计的认知范式重构 2026奇点智能技术大会(https://ml-summit.org) 传统UX设计以“用户任务流”为中心,预设界面状态与交互路径;而AI原生UX要求设计者将系统视为具备意图推演、上下文感知与协同进化的认知协作者。这种转变不…...
软件竞争管理中的差异化策略
在当今高度数字化的商业环境中,软件行业的竞争日益激烈。企业若想在市场中脱颖而出,差异化策略成为关键。通过独特的价值主张和创新的产品设计,软件公司能够有效区分自身与竞争对手,吸引目标用户并建立长期竞争优势。本文将探讨软…...
