Python 查找PDF中的指定文本并高亮显示
在处理大量PDF文档时,有时我们需要快速找到特定的文本信息。本文将提供以下三个Python示例来帮助你在PDF文件中快速查找并高亮指定的文本。
- 查找并高亮PDF中所有的指定文本
- 查找并高亮PDF某个区域内的指定文本
- 使用正则表达式搜索指定文本并高亮
本文将用到国产第三方库 - Spire.PDF for Python,该库提供 PdfPageBase.FindText() 方法可用于查找PDF中的特定文本,然后再使用 PdfTextFind.ApplyHighLight() 方法为匹配到的文本设置指定的高亮颜色以突出显示。
在运行接下来提供的示例代码之前,先通过pip安装Spire.PDF for Python库:
pip install Spire.PDF
Python 查找并高亮PDF中所有的指定文本
步骤:
- 加载PDF文档
- 遍历其中的页面
- 查找所有指定的文本
- 遍历所有查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import *
from spire.pdf.common import*# 加载PDF文档
pdf = PdfDocument()
pdf.LoadFromFile("南极洲.pdf")# 遍历PDF中所有页面
for i in range(pdf.Pages.Count):page = pdf.Pages.get_Item(i)# 查找所有指定文本result = page.FindText("南极", TextFindParameter.IgnoreCase)# 高亮匹配的文本for text in result.Finds:text.ApplyHighLight(Color.get_Lime())# 保存结果文件
pdf.SaveToFile("查找高亮PDF文本.pdf")
pdf.Close()
输出:

Python 查找并高亮PDF某个区域内的指定文本
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个矩形区域
- 查找矩形区域内的指定文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import *
from spire.pdf.common import*# 加载PDF文档
pdf = PdfDocument()
pdf.LoadFromFile("南极洲.pdf")# 获取第一页
pdfPageBase = pdf.Pages.get_Item(0)# 自定义一个矩形区域
rctg = RectangleF(0.0, 0.0, pdfPageBase.ActualSize.Width, 100.0)# 查找指定区域内所有的指定文本
findCollection = pdfPageBase.FindText(rctg,"南极",TextFindParameter.IgnoreCase)# 高亮匹配的文本
for find in findCollection.Finds:find.ApplyHighLight(Color.get_Magenta())# 保存结果文件
pdf.SaveToFile("查找高亮指定区域中的文本.pdf")
pdf.Close()
输出:

通过正则表达式查找文本并高亮:
步骤:
- 加载PDF文档
- 获取指定的PDF页面
- 指定一个正则表达式 (以下示例为匹配整数或小数)
- 使用正则表达式查找匹配的文本
- 遍历查找到的文本并设置高亮颜色
- 保存文档并关闭
代码:
from spire.pdf import *
from spire.pdf.common import*# 加载PDF文档
pdf = PdfDocument()
pdf.LoadFromFile("南极洲.pdf")# 指定匹配整数或者小数的正则表达式
regex = r'[0-9]+.{0,1}[0-9]{0,2}'# 获取第一页
page = pdf.Pages.get_Item(0)# 使用正则表达式查找匹配的文本
result = page.FindText(regex, TextFindParameter.Regex)# 高亮匹配的文本
for text in result.Finds:text.ApplyHighLight(Color.get_Cyan())# 保存结果文件
pdf.SaveToFile("正则匹配.pdf")
输出:

以上为三种使用Python在PDF文档中搜索指定内容并设置文本高亮的方法。使用时可根据实际的需求或个人偏好选择最适合的解决方案。Spire.PDF for Python库还提供了其他的操作、处理PDF文档的接口,教程可从此处获取。
相关文章:
Python 查找PDF中的指定文本并高亮显示
在处理大量PDF文档时,有时我们需要快速找到特定的文本信息。本文将提供以下三个Python示例来帮助你在PDF文件中快速查找并高亮指定的文本。 查找并高亮PDF中所有的指定文本查找并高亮PDF某个区域内的指定文本使用正则表达式搜索指定文本并高亮 本文将用到国产第三方…...
岩土工程渗流问题之有限单元法:理论、模块化编程实现、开源程序应用
有限单元法在岩土工程问题中应用非常广泛,很多商业软件如Plaxis/Abaqus/Comsol等都采用有限单元解法。尽管各类商业软件使用方便,但其使用对用户来说往往是一个“黑箱子”。相比而言,开源的有限元程序计算方法透明、计算过程可控,…...
解决 :nvrtc: error: invalid value for --gpu-architecture (-arch)
核心:在显卡安装的cuda版本适配的pytorch中,更换pytorch的版本 刚遇到这个错误时,在网上搜索了一下,感谢博主1和博主2的解决方法带给我的启发。 标题服务器cuda是11.3版本,配置其他环境“御用”的pytorch安装语句 co…...
Rust教程:How to Rust-从开始之前到Hello World
本文为第0篇 专栏简介 本专栏是优质Rust技术专栏,推荐精通一门技术栈的蟹友,不建议基础的同学(无基础学Rust也是牛人[手动捂脸]) 感谢Rust圣经开源社区的同学,为后来者提供了非常优秀的Rust学习资源 本文使用&…...
浅谈人工智能
☕️各位观众老爷好,路过点个免费的赞再走呗!❤️❤️(*•̀ᴗ•́*)و 前言 随着2024年的到来,人工智能领域正迎来前所未有的变革和发展。随着计算能力的增强、大数据的积累以及机器学习算法的进步, AI的定义和本质 人工智能…...
OpenFeign服务接口调用
OpenFeign服务接口调用 1、OpenFeign简介 Feign是一个声明性web服务客户端。它使编写web服务客户端变得更容易。使用Feign创建一个接口并对其进行注释。它具有可插入的注释支持,包括Feign注释和JAX-RS注释。Feign还支持可插拔编码器和解码器。Spring Cloud添加…...
SQLiteC/C++接口详细介绍之sqlite3类(五)
快速跳转文章列表:SQLite—系列文章目录 上一篇:SQLiteC/C接口详细介绍之sqlite3类(四) 下一篇:SQLiteC/C接口详细介绍之sqlite3类(六)(未发表) 14.sqlite3_busy_handle…...
Linux 之二:CentOS7 的 IP 常用命令和配置及 xshell 基本使用方法
1. 进入虚拟机 点击右键---进入终端--输入 ip adrr 或 ifconfig 查看ip地址 下面输入命令 ifconfig(注意:不是 ipconfig ) 或 ip addr 来查看当前系统 IP 查看到IP 后,比如:上面是 192.168.184.137 1.1 IP 常用命令…...
24-Java策略模式 ( Strategy Pattern )
Java策略模式 摘要实现范例 策略模式的重心不是如何实现算法,而是如何组织、调用这些算法,从而让程序结构更加灵活,具有更好的维护性和扩展性。 策略模式属于行为型模式 摘要 1. 意图 针对一组算法,将每一个算法封装到具有共…...
突破编程_C++_C++11新特性(模板的改进与细节)
1 模板右尖括号的改进 在 C11 之前,模板的解析和实例化过程中,右尖括号 > 的处理有时会导致一些意外的结果,特别是在嵌套模板或模板模板参数中。这是因为 C 编译器通常会试图“查看前方”来确定何时结束模板参数的列表,这有时…...
云原生消息流系统 Apache RocketMQ 在腾讯云的大规模生产实践
导语 随着云计算技术的日益成熟,云原生应用已逐渐成为企业数字化转型的核心驱动力。在这一大背景下,高效、稳定、可扩展的消息流系统显得尤为重要。腾讯云高级开发工程师李伟先生,凭借其深厚的技术功底和丰富的实战经验,为我们带…...
Node.js的事件驱动模型(非阻塞I/O)
Node.js的事件驱动模型是它能高效处理并发的关键。这个模型允许Node.js在单个线程上运行,同时通过非阻塞I/O操作来处理成千上万的并发连接。下面是对Node.js事件驱动模型的详细解释: 事件循环(Event Loop) 事件循环是Node.js事件…...
java过滤器Filter相关知识点汇总
1.Filter概述 Servlet Filter又称Servlet过滤器,它是在Servlet2.3规范中定义的,能够对Servlet容器传给Web资源的request对象和response对象执行检查和修改。 Filter不是Servlet,不能直接访问,其本身也不能生成request对象和resp…...
旅游景区公共广播 园区广播 公路服务区广播
旅游景区公共广播 园区广播 公路服务区广播 旅游景区公共广播 旅游景区公共广播(又称背景音乐)简称BGM,它的主要作用是掩盖噪声并创造一种轻松和谐的气氛,是一种创造轻松愉快环境气氛的音乐。掩盖环境噪声,创造与旅游景区相适应的气氛&#…...
Elastic Stack--09--ElasticsearchRestTemplate
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 spring-data-elasticsearch提供的APIQueryBuildersElasticsearchRestTemplate 方法ElasticsearchRestTemplate ---操作索引 ElasticsearchRestTemplate ---文档操作…...
论坛管理系统|基于Spring Boot+ Mysql+Java+B/S架构的论坛管理系统设计与实现(可运行源码+数据库+设计文档+部署说明+视频演示)
推荐阅读100套最新项目 最新ssmjava项目文档视频演示可运行源码分享 最新jspjava项目文档视频演示可运行源码分享 最新Spring Boot项目文档视频演示可运行源码分享 目录 目录 前台功能效果图 管理员功能登录前台功能效果图 用户功能模块 系统功能设计 数据库E-R图设计 l…...
2022 Task 2 Max Sum of 2 integers sharing first and last digits
Task 2 There is an array A consisting of N integers. What’s the maximum sum of two integers from A that share their first and last digits? For example, 1007 and 167 share their first(1) and last(7) digits, whereas 2002 and 55 do not. Write a function: …...
【分布式websocket】聊天系统消息加密如何做
前言 先介绍一下对称加密算法,在介绍一下加密流程,然后是介绍一下查询加密消息的策略。然后结合现有技术架构然后去选型。 决定采用客户端解密。简而言之就是采用对称服务端加密。然后将加密内容存储到消息表的content字段。然后客户拉取content字段 然…...
网络建设与运维培训介绍和能力介绍
1.开过的发票 3.培训获奖的证书 4合同签署 5.实训设备...
3 种方法限制 K8s Pod 磁盘容量使用
容器在运行期间会产生临时文件、日志。如果没有任何配额机制,则某些容器可能很快将磁盘写满,影响宿主机内核和所有应用。 容器的临时存储,例如 emptyDir,位于目录/var/lib/kubelet/pods 下: /var/lib/kubelet/pods/ …...
心理医生哪家强?真实就诊指南+案例分享
行业痛点分析当前长沙心理诊疗领域面临多重技术挑战。数据显示,长沙市精神障碍患病率约为17.5%,其中焦虑、抑郁类障碍占比达62%,但实际就诊率不足30%。测试显示,三甲医院心理科平均排队时间超过45天,单次就诊时长不足1…...
鸿蒙中 免密身份认证:Online Authentication Kit
本文同步发表于微信公众号,微信搜索 程语新视界 即可关注,每个工作日都有文章更新 在应用开发中,身份认证是一个核心功能。传统的密码登录方式存在记忆成本高、安全性风险大等问题。鸿蒙系统提供了Online Authentication Kit(在线…...
SOA和微服务比较详解
SOA 与微服务架构深度比较 面向服务架构(SOA)和微服务架构(Microservices)都是将系统拆分为可独立部署的服务单元的设计风格,但它们在粒度、通信方式、数据管理、治理、适用场景等方面存在本质差异。系统分析师需要根据业务需求、团队能力和技术栈选择适合的架构。 一、定…...
BililiveRecorder工具箱深度解析:专业级FLV直播录制文件修复解决方案
BililiveRecorder工具箱深度解析:专业级FLV直播录制文件修复解决方案 【免费下载链接】BililiveRecorder 录播姬 | mikufans 生放送录制 项目地址: https://gitcode.com/gh_mirrors/bi/BililiveRecorder BililiveRecorder工具箱提供了一套完整的直播录制文件…...
WorkshopDL:跨平台工具实现Steam创意工坊资源获取的技术方案
WorkshopDL:跨平台工具实现Steam创意工坊资源获取的技术方案 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 在多平台游戏生态中,玩家常面临创意内容获取…...
comsol三元锂离子电池模型 NCA111三元锂离子电池21700 电化学-热耦合模型 老化...
comsol三元锂离子电池模型 NCA111三元锂离子电池21700 电化学-热耦合模型 老化模型 容量衰减模型 参数已经设置好 自己更改参数即可进行使用学习 可进行多倍率充放电仿真 有对应参考文献 A17打开COMSOL看到电池仿真模型时,老玩家都知道参数调教才是灵魂。今天咱们来…...
JeecgBoot密码修改实战:如何绕过加密盐直接更新数据库密码
JeecgBoot密码安全机制解析与实战密码更新方案 在JeecgBoot框架的实际开发中,密码安全机制是保障系统安全的第一道防线。许多开发者在使用过程中会遇到需要批量修改用户密码的场景,但直接操作数据库往往会导致密码失效。这背后是框架采用的加密盐算法在发…...
别再只问原理了!用Spring Cloud Gateway + Redis手把手搭建分布式令牌桶限流(附完整配置)
实战指南:Spring Cloud Gateway与Redis构建分布式令牌桶限流系统 微服务架构下,流量管控如同城市交通信号灯——没有合理的红绿灯设计,再宽阔的道路也会陷入瘫痪。最近在帮一家跨境电商平台重构网关层时,我们仅用Spring Cloud Gat…...
如何利用APOC插件提升Neo4J的数据处理能力?实战配置指南
如何利用APOC插件释放Neo4J的隐藏潜能?高阶实战手册 当你已经熟练使用Cypher进行常规图数据查询时,是否遇到过这些瓶颈?需要批量处理百万级节点关系却找不到高效方法;想实现复杂图算法但原生函数库不支持;数据导入导出…...
Qwen3-ASR-0.6B真实效果:直播间弹幕语音→实时字幕滚动+敏感词过滤联动
Qwen3-ASR-0.6B真实效果:直播间弹幕语音→实时字幕滚动敏感词过滤联动 1. 开篇:直播间语音转文字的痛点 做直播的朋友都知道,实时字幕是个让人又爱又恨的功能。爱的是它能提升观众体验,让不方便开声音的人也能看懂内容ÿ…...
