Python PDF解析利器:pdfplumber | AI应用开发
Python PDF解析利器:pdfplumber全面指南
1. 简介与安装
1.1 pdfplumber概述
pdfplumber是一个Python库,专门用于从PDF文件中提取文本、表格和其他信息。相比其他PDF处理库,pdfplumber提供了更直观的API和更精确的文本定位能力。
主要特点:
- 精确提取文本(包括位置、字体等信息)
- 高效提取表格数据
- 支持页面级和文档级的操作
- 可视化调试功能
1.2 安装方法
pip install pdfplumber
1.3 基础使用示例
import pdfplumberwith pdfplumber.open("example.pdf") as pdf:first_page = pdf.pages[0]print(first_page.extract_text())
代码解释:
pdfplumber.open()打开PDF文件pdf.pages获取所有页面的列表extract_text()提取页面文本内容
2. 文本提取功能
2.1 基本文本提取
with pdfplumber.open("report.pdf") as pdf:for page in pdf.pages:print(page.extract_text())
应用场景:合同文本分析、报告内容提取等
2.2 带格式的文本提取
with pdfplumber.open("formatted.pdf") as pdf:page = pdf.pages[0]words = page.extract_words()for word in words:print(f"文本: {word['text']}, 位置: {word['x0'], word['top']}, 字体: {word['fontname']}")
输出示例:
文本: 标题, 位置: (72.0, 84.0), 字体: Helvetica-Bold
文本: 内容, 位置: (72.0, 96.0), 字体: Helvetica
2.3 按区域提取文本
with pdfplumber.open("document.pdf") as pdf:page = pdf.pages[0]# 定义区域(x0, top, x1, bottom)area = (50, 100, 400, 300) cropped = page.crop(area)print(cropped.extract_text())
应用场景:提取发票中的特定信息、扫描件中的关键数据等
3. 表格提取功能
3.1 简单表格提取
with pdfplumber.open("data.pdf") as pdf:page = pdf.pages[0]table = page.extract_table()for row in table:print(row)
输出示例:
['姓名', '年龄', '职业']
['张三', '28', '工程师']
['李四', '32', '设计师']
3.2 复杂表格处理
with pdfplumber.open("complex_table.pdf") as pdf:page = pdf.pages[0]# 自定义表格设置table_settings = {"vertical_strategy": "text", "horizontal_strategy": "text","intersection_y_tolerance": 10}table = page.extract_table(table_settings)
参数说明:
vertical_strategy:垂直分割策略horizontal_strategy:水平分割策略intersection_y_tolerance:行合并容差
3.3 多页表格处理
with pdfplumber.open("multi_page_table.pdf") as pdf:full_table = []for page in pdf.pages:table = page.extract_table()if table:# 跳过表头(假设第一页已经有表头)if page.page_number > 1:table = table[1:]full_table.extend(table)for row in full_table:print(row)
应用场景:财务报表分析、数据报表汇总等
4. 高级功能
4.1 可视化调试
with pdfplumber.open("debug.pdf") as pdf:page = pdf.pages[0]im = page.to_image()im.debug_tablefinder().show()
功能说明:
to_image()将页面转为图像debug_tablefinder()高亮显示检测到的表格show()显示图像(需要安装Pillow)
4.2 提取图形元素
with pdfplumber.open("drawing.pdf") as pdf:page = pdf.pages[0]lines = page.linescurves = page.curvesrects = page.rectsprint(f"找到 {len(lines)} 条直线")print(f"找到 {len(curves)} 条曲线")print(f"找到 {len(rects)} 个矩形")
应用场景:工程图纸分析、设计文档处理等
4.3 自定义提取策略
def custom_extract_method(page):# 获取所有字符对象chars = page.chars# 按y坐标分组(行)lines = {}for char in chars:line_key = round(char["top"])if line_key not in lines:lines[line_key] = []lines[line_key].append(char)# 按x坐标排序并拼接文本result = []for y in sorted(lines.keys()):line_chars = sorted(lines[y], key=lambda c: c["x0"])line_text = "".join([c["text"] for c in line_chars])result.append(line_text)return "\n".join(result)with pdfplumber.open("custom.pdf") as pdf:page = pdf.pages[0]print(custom_extract_method(page))
应用场景:处理特殊格式的PDF文档
5. 性能优化技巧
5.1 按需加载页面
with pdfplumber.open("large.pdf") as pdf:# 只处理前5页for page in pdf.pages[:5]:process(page.extract_text())
5.2 并行处理
from concurrent.futures import ThreadPoolExecutordef process_page(page):return page.extract_text()with pdfplumber.open("big_file.pdf") as pdf:with ThreadPoolExecutor(max_workers=4) as executor:results = list(executor.map(process_page, pdf.pages))
5.3 缓存处理结果
import pickledef extract_and_cache(pdf_path, cache_path):try:with open(cache_path, "rb") as f:return pickle.load(f)except FileNotFoundError:with pdfplumber.open(pdf_path) as pdf:data = [page.extract_text() for page in pdf.pages]with open(cache_path, "wb") as f:pickle.dump(data, f)return datatext_data = extract_and_cache("report.pdf", "report_cache.pkl")
6. 实际应用案例
6.1 发票信息提取系统
def extract_invoice_info(pdf_path):invoice_data = {"invoice_no": None,"date": None,"total": None}with pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:text = page.extract_text()lines = text.split("\n")for line in lines:if "发票号码" in line:invoice_data["invoice_no"] = line.split(":")[1].strip()elif "日期" in line:invoice_data["date"] = line.split(":")[1].strip()elif "合计" in line:invoice_data["total"] = line.split()[-1]return invoice_data
6.2 学术论文分析
def analyze_paper(pdf_path):sections = {"abstract": "","introduction": "","conclusion": ""}with pdfplumber.open(pdf_path) as pdf:current_section = Nonefor page in pdf.pages:text = page.extract_text()for line in text.split("\n"):line = line.strip()if line.lower() == "abstract":current_section = "abstract"elif line.lower().startswith("1. introduction"):current_section = "introduction"elif line.lower().startswith("conclusion"):current_section = "conclusion"elif current_section:sections[current_section] += line + "\n"return sections
6.3 财务报表转换
import csvdef convert_pdf_to_csv(pdf_path, csv_path):with pdfplumber.open(pdf_path) as pdf:with open(csv_path, "w", newline="") as f:writer = csv.writer(f)for page in pdf.pages:table = page.extract_table()if table:writer.writerows(table)
7. 常见问题与解决方案
7.1 中文乱码问题
with pdfplumber.open("chinese.pdf") as pdf:page = pdf.pages[0]# 确保系统安装了中文字体text = page.extract_text()print(text.encode("utf-8").decode("utf-8"))
解决方案:
- 确保系统安装了正确的字体
- 检查Python环境编码设置
- 使用支持中文的PDF解析器参数
7.2 表格识别不准确
table_settings = {"vertical_strategy": "lines","horizontal_strategy": "lines","explicit_vertical_lines": page.lines,"explicit_horizontal_lines": page.lines,"intersection_x_tolerance": 15,"intersection_y_tolerance": 15
}
table = page.extract_table(table_settings)
调整策略:
- 尝试不同的分割策略
- 调整容差参数
- 使用可视化调试工具
7.3 大文件处理内存不足
# 逐页处理并立即释放内存
with pdfplumber.open("huge.pdf") as pdf:for i, page in enumerate(pdf.pages):process(page.extract_text())# 手动释放页面资源pdf.release_resources()if i % 10 == 0:print(f"已处理 {i+1} 页")
8. 总结与最佳实践
8.1 pdfplumber核心优势
- 精确的文本定位:保留文本在页面中的位置信息
- 强大的表格提取:处理复杂表格结构能力突出
- 丰富的元数据:提供字体、大小等格式信息
- 可视化调试:直观验证解析结果
- 灵活的API:支持自定义提取逻辑
8.2 适用场景推荐
-
优先选择pdfplumber:
- 需要精确文本位置信息的应用
- 复杂PDF表格数据提取
- 需要分析PDF格式和排版的场景
-
考虑其他方案:
- 仅需简单文本提取(可考虑PyPDF2)
- 需要编辑PDF(考虑PyMuPDF)
- 超大PDF文件处理(考虑分页处理)
8.3 最佳实践建议
-
预处理PDF文件:
# 使用Ghostscript优化PDF import subprocess subprocess.run(["gs", "-sDEVICE=pdfwrite", "-dNOPAUSE", "-dBATCH", "-dSAFER", "-sOutputFile=optimized.pdf", "original.pdf"]) -
组合使用多种工具:
# 结合PyMuPDF获取更精确的文本位置 import fitz doc = fitz.open("combined.pdf") -
建立错误处理机制:
def safe_extract(pdf_path):try:with pdfplumber.open(pdf_path) as pdf:return pdf.pages[0].extract_text()except Exception as e:print(f"处理{pdf_path}时出错: {str(e)}")return None -
性能监控:
import time start = time.time() # pdf处理操作 print(f"处理耗时: {time.time()-start:.2f}秒")
pdfplumber是Python生态中最强大的PDF解析库之一,特别适合需要精确提取文本和表格数据的应用场景。通过合理使用其丰富的功能和灵活的API,可以解决大多数PDF处理需求。对于特殊需求,结合其他PDF处理工具和自定义逻辑,能够构建出高效可靠的PDF处理流程。
相关文章:
Python PDF解析利器:pdfplumber | AI应用开发
Python PDF解析利器:pdfplumber全面指南 1. 简介与安装 1.1 pdfplumber概述 pdfplumber是一个Python库,专门用于从PDF文件中提取文本、表格和其他信息。相比其他PDF处理库,pdfplumber提供了更直观的API和更精确的文本定位能力。 主要特点…...
大模型架构记录13【hr agent】
一 Function calling 函数调用 from dotenv import load_dotenv, find_dotenvload_dotenv(find_dotenv())from openai import OpenAI import jsonclient OpenAI()# Example dummy function hard coded to return the same weather # In production, this could be your back…...
conda 清除 tarballs 减少磁盘占用 、 conda rename 重命名环境、conda create -n qwen --clone 当前环境
🥇 版权: 本文由【墨理学AI】原创首发、各位读者大大、敬请查阅、感谢三连 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️ 文章目录 conda clean --tarballsconda rename 重命名环境conda create -n qwen --clone …...
Java基础-24-继承-认识继承-权限修饰符-继承的特点
在Java中,继承是面向对象编程(OOP)的一个重要特性。通过继承,一个类可以复用另一个类的属性和方法,从而实现代码的重用性和扩展性。以下是关于继承的一些关键点,包括权限修饰符和继承的特点。 1. 继承的基本…...
Bootstrap 表格:高效布局与动态交互的实践指南
Bootstrap 表格:高效布局与动态交互的实践指南 引言 Bootstrap 是一个流行的前端框架,它为开发者提供了丰富的组件和工具,使得构建响应式、美观且功能丰富的网页变得更加简单。表格是网页中常见的元素,用于展示数据。Bootstrap 提供了强大的表格组件,可以帮助开发者轻松…...
pycharm相对路径引用方法
用于打字不方便,以下直接手写放图,直观理解...
新能源智慧灯杆的智能照明系统如何实现节能?
叁仟新能源智慧灯杆的智能照明系统可通过以下多种方式实现节能: 智能调光控制 光传感器技术:在灯杆上安装光传感器,实时监测周围环境的光照强度。当环境光线充足时,如白天或有其他强光源时,智能照明系统会自动降低路…...
Jenkins教程(自动化部署)
Jenkins教程(自动化部署) 1. Jenkins是什么? Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,广泛用于项目开发,具有自动化构建、测试和部署等功能。Jenkins用Java语言编写,可在Tomcat等流行的servlet容器中运行&…...
行业智能体大爆发,分布式智能云有解
Manus的一夜爆红,在全球范围内引爆关于AI智能体的讨论。 与过去一般的AI助手不同,智能体(AI Agent)并非只是被动响应,而是主动感知、决策并执行的应用。Gartner预测,到2028年,15%的日常工作决策…...
日语Learn,英语再认识(5)
This is a dedicated function — it exists solely to solve this case. This is a dedicated function. It’s a dedicated method for solving this case. 其他备选词(但没dedicated精准): special → 含糊,有时只是“特别”…...
【区块链安全 | 第十四篇】类型之值类型(一)
文章目录 值类型布尔值整数运算符取模运算指数运算 定点数地址(Address)类型转换地址的成员balance 和 transfersendcall,delegatecall 和 staticcallcode 和 codehash 合约类型(Contract Types)固定大小字节数组&…...
音视频入门基础:MPEG2-TS专题(25)——通过FFmpeg命令使用UDP发送TS流
一、通过FFmpeg命令使用UDP发送TS流 通过以下FFmpeg命令可以将一个mp4文件转换为ts封装,并基于UDP发送(推流): ffmpeg.exe -re -i input.mp4 -vcodec copy -acodec copy -f mpegts udp://127.0.0.1:1234 其中: “in…...
Error in torch with streamlit
报错信息: This is the error which is a conflict between torch and streamlit: Examining the path of torch.classes raised: Tried to instantiate class path.path’, but it does not exist! Ensure that it is registered via torch::class Steps to reproduce: py…...
网络基础知识介绍
目录 一、计算机网络背景与发展 1.1 计算机网络的背景 编辑1.2 计算机网络的发展历程 二、网络协议 2.1 认识网络协议 2.3 协议分层 2.4 OSI七层模型 2.5 TCP/IP 五层(或四层)模型 三、网络传输基本流程 3.1 网络传输流…...
MIPS-32架构(寄存器堆,指令系统,运算器)
文章目录 0 Preview:寄存器32通用0 $zero1 $at2—3 \$v0-$v14—7 \$a0-$a38—15 \$t0-$t716—23 \$s0-$s724—25 \$t8-$t926—27 \$k0-$k128 $gp29 $sp30 $fp 指令系统运算存储器 0 Preview: MIPS架构有32位版本和64位版本,本文介绍32位版本 寄存器 正如笔者曾说…...
zip和tar.gz
本文来源: 在压缩文件格式选择上,zip和tar.gz有本质差异,主要体现在以下五个方面: 一、压缩机制不同 tar.gz是"两步走"方案:先用tar工具将多个文件/目录打包为单个未压缩的归档文件(保留权限…...
【什么是机器学习——多项式逼近】
什么是机器学习——多项式逼近 机器学习可以分成三大类别,监督学习、非监督学习、强化学习。三大类别背后的数学原理不同。监督学习使用了数学分析中的函数逼近方法和概率统计中的极大似然方法;非监督学习使用聚类和EM算法;强化学习使用马尔可夫决策过程的想法。 机器学习的…...
C++中的搜索算法实现
C中的搜索算法实现 在编程中,搜索算法是解决各种问题的基础工具之一。C作为一种功能强大的编程语言,提供了多种实现搜索算法的方式。本文将详细介绍两种常见的搜索算法:线性搜索和二分搜索,并通过代码示例展示它们的实现。 一、…...
(二十三)Dart 中的 Mixins 使用教程
Dart 中的 Mixins 使用教程 Mixins 简介 Mixins 是 Dart 中一种强大的特性,中文意思是“混入”,它允许在类中混入其他功能,从而实现类似多继承的功能。与传统的继承不同,Mixins 提供了一种更加灵活的方式来组合类的功能…...
《午夜地铁的幽灵AP》
点击下面图片带您领略全新的嵌入式学习路线 🔥爆款热榜 88万阅读 1.6万收藏 文章目录 **第一章:末班车的二进制月光****第二章:ESP32的赛博墓志铭****第三章:都市传说与CRC校验****第四章:数字孪生的献祭仪式****终章…...
创作领域“<em >彩</em><em>票</em><em>导</em><em>师</em><em>带</em><em>玩</em><em>群
天光揉碎最后一块夜斑,露珠压弯草叶的脆响惊醒了沉睡的巷子。青灰雾霭中,老墙上的爬山虎在打哈欠,卷曲的藤须滴落隔夜的月光。sFsTU...
Spring Cloud Gateway中GatewayFilter Factories(网关过滤工厂)的详细介绍
文章目录 1、网关过滤工厂介绍2、 GatewayFilter 过滤器的基本配置3、 Spring Cloud Gateway 内置 GatewayFilter Factories3.1、AddRequestHeader GatewayFilter3.2、AddResponseHeader GatewayFilter3.3、AddRequestParameter GatewayFilter3.4、RewritePath GatewayFilter3.…...
微服务架构:构建可持续演进的微服务架构的原则与实践指南
引言:微服务的价值锚点 某物流公司微服务化后,订单履约周期从2小时缩短至15分钟,但技术债务却以每年200%的速度增长。这个案例揭示了一个关键认知:微服务架构的成败不在于技术实现,而在于是否建立有效的演进机制。…...
C++的四种类型转换
文章目录 const_cast:去掉常量类型的类型转换static_cast:提供编译器认为安全的类型转换(在编译阶段完成类型转换)reinterpret:类似c风格的强制类型转化dynamic_cast:主要用在继承结构里,可以支持RTTI类型识别的上下转换dynamic_cast<>…...
Python Cookbook-4.15 字典的一键多值
任务 需要一个字典,能够将每个键映射到多个值上。 解决方案 正常情况下,字典是一对一映射的,但要实现一对多映射也不难,换句话说,即一个键对应多个值。你有两个可选方案,但具体要看你怎么看待键的多个对…...
《Python实战进阶》No37: 强化学习入门加餐版3 之 Q-Learning算法可视化升级
连续第4篇文章写Q-Learning算法及可视化 Q-Learning强化学习算法在迷宫寻路中的应用 引言 强化学习是机器学习的一个重要分支,其核心理念是通过与环境的交互来学习最优策略。在上三篇文章中,《Python实战进阶》No37: 强化学习入门:Q-Learn…...
1.两数之和(Java)
1. 题目描述 LeetCode 1. 两数之和(Two Sum) 给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那两个整数,并返回它们的索引。 示例 1: 输入:nums [2,7,11,15], target 9 …...
漏洞挖掘---灵当CRM客户管理系统getOrderList SQL注入漏洞
一、灵当CRM 灵当CRM是上海灵当信息科技有限公司旗下产品,适用于中小型企业。它功能丰富,涵盖销售、服务、财务等管理功能,具有性价比高、简洁易用、可定制、部署灵活等特点,能助力企业提升经营效益和客户满意度。 二、FOFA-Sear…...
Java高频面试之集合-20
hello啊,各位观众姥爷们!!!本baby今天来报道了!哈哈哈哈哈嗝🐶 面试官:讲讲 HashSet 的底层实现? HashSet 是 Java 集合框架中用于存储唯一元素的高效数据结构,其底层实…...
sort命令:排序
sort:默认首位排序 参数: -n:按整个数字排序 -r:降序 -u:去重 [rootrobin ~]# sort -n aa.txt #按数字排序(正序) [rootrobin ~]# sort -nr aa.txt #降序 [rootrobin ~]# sort -…...
