【Python】常用的pdf提取库介绍对比
提取PDF内容的Python库有多种选择,每个库都有其独特的优缺点。以下是一些常用的库以及它们的优缺点和示例代码:
- pdfplumber
- PyMuPDF (fitz)
- PyPDF2
- PDFMiner
- Camelot
1. pdfplumber
优点:
- 易于使用,提供简单直观的API。
- 能提取文本、表格和图像。
- 提供对文本进行后处理的工具,如文字搜索、行识别等。
- 支持多页PDF文件。
缺点:
- 对于复杂的PDF文件,提取效果可能不如其他库。
- 速度相对较慢。
示例代码:
假设我们有一个PDF文件 example.pdf,内容包括文本和表格。
import pdfplumber
import pandas as pdpdf_path = 'example.pdf'
data = []with pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:text = page.extract_text()if text:print(f"Page {page.page_number}:")print(text)# Extract tablestables = page.extract_tables()for table in tables:df = pd.DataFrame(table[1:], columns=table[0])data.append(df)print(df)# Combine all tables into a single DataFrame
if data:all_tables = pd.concat(data)print("All extracted tables:")print(all_tables)
2. PyMuPDF (fitz)
优点:
- 性能高,速度快。
- 支持文本、图像、注释等多种元素的提取。
- 提供PDF文档的修改和操作功能,如添加文本、图像、注释等。
缺点:
- 文档和示例较少。
- 对于新手来说,可能有点复杂。
示例代码:
import fitz # PyMuPDFpdf_path = 'example.pdf'
document = fitz.open(pdf_path)for page_num in range(document.page_count):page = document.load_page(page_num)text = page.get_text()print(f"Page {page_num + 1}:")print(text)# Extract imagesfor img in page.get_images():xref = img[0]base_image = document.extract_image(xref)image_bytes = base_image["image"]with open(f"image_{page_num + 1}_{xref}.png", "wb") as image_file:image_file.write(image_bytes)print(f"Extracted image from page {page_num + 1}, image reference {xref}")
3. PyPDF2
优点:
- 易于合并、拆分、旋转PDF文件。
- 轻量级,依赖少。
- 支持加密和解密PDF文件。
缺点:
- 对于文本提取和处理的支持较弱。
- 不支持图像提取。
示例代码:
import PyPDF2pdf_path = 'example.pdf'
with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfFileReader(file)for page_num in range(reader.numPages):page = reader.getPage(page_num)text = page.extract_text()print(f"Page {page_num + 1}:")print(text)# Example: Merging two PDFs
merger = PyPDF2.PdfFileMerger()
merger.append('example1.pdf')
merger.append('example2.pdf')
merger.write('merged.pdf')
merger.close()# Example: Splitting a PDF
input_pdf = PyPDF2.PdfFileReader('example.pdf')
output_pdf = PyPDF2.PdfFileWriter()
for page_num in range(input_pdf.numPages // 2):output_pdf.addPage(input_pdf.getPage(page_num))
with open('split.pdf', 'wb') as output_file:output_pdf.write(output_file)
4. PDFMiner
优点:
- 非常强大的文本提取功能。
- 支持复杂的PDF结构。
- 提供详细的PDF文档解析功能。
缺点:
- 相对复杂,不易上手。
- 速度较慢。
示例代码:
from pdfminer.high_level import extract_text
from pdfminer.high_level import extract_text_to_fp
import iopdf_path = 'example.pdf'# Extract text to a string
text = extract_text(pdf_path)
print(text)# Extract text to a file-like object
output_string = io.StringIO()
with open(pdf_path, 'rb') as file:extract_text_to_fp(file, output_string)
print(output_string.getvalue())
5. Camelot
优点:
- 专门用于从PDF文件中提取表格。
- 提供了流模式和Lattice模式,处理不同类型的表格。
- 生成的表格可以方便地转换为pandas DataFrame。
缺点:
- 只适用于表格提取,不支持其他类型的PDF内容提取。
- 依赖于第三方工具(如Ghostscript)。
示例代码:
import camelotpdf_path = 'example.pdf'
tables = camelot.read_pdf(pdf_path, flavor='stream') # Use 'stream' for stream mode, 'lattice' for lattice modefor table in tables:print(f"Table on page {table.page}:")print(table.df) # DataFrame of the extracted table# Save tables to a CSV file
for i, table in enumerate(tables):table.to_csv(f'table_{i}.csv')
总结
- pdfplumber 是一个易于使用的库,适用于一般的PDF文本和表格提取,特别适合处理表格。
- PyMuPDF (fitz) 性能强大且速度快,适合需要高效处理的场景,特别是需要处理图像和注释的PDF文档。
- PyPDF2 适用于PDF文件的合并、拆分和旋转,但文本提取功能较弱,更适合处理PDF文档的结构而不是内容。
- PDFMiner 提供了最强大的文本提取功能,适合处理复杂PDF结构,但相对复杂且慢,适合需要详细解析PDF内容的场景。
- Camelot 专用于表格提取,适合处理PDF中的表格数据,特别是在需要将表格数据转换为结构化数据时。
选择合适的库取决于具体需求和PDF文档的复杂性。如果只是需要提取文本和表格,pdfplumber 和 Camelot 是不错的选择。如果需要高性能处理或处理图像和注释,可以考虑 PyMuPDF (fitz)。如果需要处理复杂的PDF结构,PDFMiner 是最强大的工具。而 PyPDF2 适合处理PDF文件的结构操作,如合并和拆分。
相关文章:
【Python】常用的pdf提取库介绍对比
提取PDF内容的Python库有多种选择,每个库都有其独特的优缺点。以下是一些常用的库以及它们的优缺点和示例代码: pdfplumberPyMuPDF (fitz)PyPDF2PDFMinerCamelot 1. pdfplumber 优点: 易于使用,提供简单直观的API。能提取文本…...
sbatch提交并行作业 运行python程序 指定输入参数从1到100
#!/bin/bash #SBATCH --job-namemy_python_job #SBATCH --outputmy_python_job_%j.out #SBATCH --errormy_python_job_%j.err #SBATCH --ntasks100# 载入所需模块 # module load python/3.8.5# 执行Python脚本并传递任务ID作为参数 for i in {1..100}; dosrun python my_script…...
OD C卷 - 中庸行者
中庸行者 (200) 给一个m*n的整数矩阵作为地图,矩阵数值为地形的高度,选择图中任意一点作为起点,向左右上下四个方向移动: 只能上坡、下坡,不能走相同高度的点;不允许连续上坡 或者连…...
最新CSS3横向菜单的实现
横向菜单 原始代码: <nav class"list1"><ul><li><a href"#">Shirts</a></li><li><a href"#">Pants</a></li><li><a href"#">Dresses</a>…...
(2024,LlamaGen,Llama,自回归下一token预测,模型扩展)自回归模型优于扩散:Llama 用于可扩展图像生成
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation 目录 0. 摘要 1. 引言 2. 自回归模型在图像生成中的应用 2.1 概述 2.2 图像 tokenizer 2.3 自回归模型生成图像 2.4 规模扩展 2.5 服务 3. 实验 5. 结论 0. 摘要 我们介绍 LlamaGen&…...
重新安装操作系统的软件都有哪些?
重新安装操作系统关键步骤 重新安装操作系统通常涉及到几个关键步骤:创建可启动媒体、备份现有数据、安装操作系统、以及系统初始化和配置。以下是一些常用工具和软件,它们可以帮助你完成这些步骤: 创建可启动媒体 Rufus:用于W…...
深圳水务展|2025深圳国际水务科技博览会
2025深圳国际水务科技博览会 展会主题: 新质生产力赋能水务产业高质量发展 展会时间:2025年7月24-26日 展会地点:深圳会展中心(福田) 主办单位: 广东省水利学会 深圳市水务学会 协办单位: 中国水利…...
OpenAI not returning a result?
题意:OpenAI 没有返回结果吗? 问题背景: Im trying to use the OpenAI beta but I cant seem to get a result. Im accessing the API via an NPM package (openai-api - npm). I have that setup and working but when I make a request th…...
[Windows]_[初级]_[GetVersionEx获取系统版本错误的原因]
场景 开发WTL/ATL/Win32程序时, 有时候需要获取系统版本号,以便判断用户在使用软件时的系统。在某一天突然发现获取的系统版本号是错的, 一直是版本号6.2.x,什么情况? 说明 如果软件没有针对Win8.1或Win10以上的系统做兼容处理,返回的是Wi…...
2024,Java开发在中国市场还有发展前景吗?
随着2024年的到来,Java作为一种经典而强大的编程语言,依然在中国的软件开发市场中扮演着重要角色。然而,许多人对Java的未来发展前景持有不同的看法。让我们来探讨一下当前情况和未来的走向。 Java程序员真的过剩了吗? 2023年, 各…...
gcc: string.c_str gcc-8.5的一个问题
https://en.cppreference.com/w/cpp/string/basic_string/c_str https://sourceforge.net/p/cppcheck/wiki/ListOfChecks/ common mistakes when using string::c_str()string的这个成员是返回c类型的一个字符数组指针。但是这个指针所对应的地址有赖于string对象的生命周期。所…...
一道笔试题 - 无重复字符的最长子串
老生常谈的一道题,常见并 文章目录 描述预期结果Java代码 描述 给定一个字符串 s ,请你找出其中不含有重复字符的最长子串的长度。 预期结果 Java代码 import java.util.HashSet; import java.util.Set;public class Demo2 {public static void main(S…...
C#反射的NullReferenceException
背景 xml文件中有些元素的属性被删除,导致文件无法被读取(C#)。 调试之后发现,因为属性被删除,读进来会保持默认值null,在后续的反射中如果用这个null给字符串属性赋值,会抛异常。 另外发现前面…...
100道C/C++面试题
1. static的作用2. 引用与指针的区别3. .h头文件中的ifndef/define/endif 的作用4 #include<file.h>与#include"file.h"的区别?5 描述实时系统的基本特性6 全局变量和局部变量在内存中是否有区别?如果有,是什么区别?7 什么是平衡二叉树?8 堆栈溢…...
Python(模块)
模块编写完成就可以被其他模块进行调用并使用被调用模块的功能。 import导入方式的语法结构: import模块名称【as别名】 from……import导入方式的语法结构: from模块名称,import变量/函数/类/*(*是通配符) impor…...
【八股文】Java基础篇
1. 和 equals的区别是什么? 判断两个变量或者实例是否都指向同一内存空间的值(不仅值相同,地址也要相同)equals是判断两个变量执行的内存空间的值是否相同(值相同,地址可以不同),所…...
python rsa如何安装
Python中的一些模块是用一个包管理器来发布的,RSA模块就是,所以首先需要安装setup tools工具。 1、下载文件:ez_setup.py 2、安装: sudo python ez_setup.py 3、下载RSA安装包:rsa-3.1.1-py2.7.egg 4、安装RSA&…...
P10289 [GESP样题 八级] 小杨的旅游
Description 给定一棵 n n n 个点的树,每条边权值均为 1 1 1,树上有 k k k 个关键点,关键点们在 0 0 0 的时间内相互可达, q q q 次询问,求 s → t s\to t s→t 的最短路。 Analysis 考虑暴力建图,…...
网络编程 ----------- 4、组播与广播
1、广播 broadcast 广播是指向同一个网络中所有的主机传输数据只有传输层协议为 UDP协议时,才支持广播 TCP是端对端,广播是一对多 ,所以无法符合其要求。 1)广播地址 广播地址的计算: 子网掩码…...
最短路径算法:Bellman-Ford算法
引言 在图论中,Bellman-Ford算法是一种用于计算单源最短路径的算法。与Dijkstra算法不同,Bellman-Ford算法可以处理带有负权边的图,并且可以检测图中是否存在负权环。本文将详细介绍Bellman-Ford算法的定义、步骤及其实现。 Bellman-Ford算…...
炉石传说自动对战助手:5分钟上手,彻底解放双手的终极指南
炉石传说自动对战助手:5分钟上手,彻底解放双手的终极指南 【免费下载链接】Hearthstone-Script Hearthstone script(炉石传说脚本) 项目地址: https://gitcode.com/gh_mirrors/he/Hearthstone-Script 还在为每天重复的炉石…...
【DeepSeek架构评审功能深度解密】:20年架构师亲授3大避坑指南与5步落地 checklist
更多请点击: https://kaifayun.com 第一章:DeepSeek架构评审功能全景概览 DeepSeek架构评审功能是一套面向大模型系统设计与工程落地的自动化分析框架,聚焦于模型结构合理性、计算图优化潜力、内存访问模式、算子兼容性及部署约束等多维度评…...
告别元素变动导致的报错:探索自动化测试脚本的 AI“自愈”能力
前言:一个所有测试人都经历过的噩梦 周三晚上十一点,CI/CD流水线再次亮起红灯。 你打开日志,满屏的NoSuchElementException扑面而来。仔细一看——前端团队在昨天的版本中重构了登录页面的DOM结构,原本的#login-btn变成了#signin-button-v2,30个测试用例因此全军覆没。 …...
WTF Auto Layout? 实战:10个常见约束冲突案例解析与解决方案
WTF Auto Layout? 实战:10个常见约束冲突案例解析与解决方案 【免费下载链接】wtfautolayout The source code for Why The Failure, Auto Layout? 项目地址: https://gitcode.com/gh_mirrors/wt/wtfautolayout 在iOS开发中,Auto Layout是构建灵…...
Arcmap实操:如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例
Arcmap实操:如何用‘渔网’给你的地图做一次‘CT扫描’——以韶关市路网密度可视化为例 想象一下,医生通过CT扫描将人体内部结构分层呈现,而GIS中的"渔网"工具同样能对城市路网进行"切片式"分析。这种空间离散化技术&…...
基于STM32WL与LoRaWAN的远程空气质量监测系统全栈开发实践
1. 项目概述:构建一个远程空气质量监测系统最近在做一个挺有意思的玩意儿:一个能自己找地方待着、靠太阳能供电,然后把周围空气数据悄无声息传回来的远程监测终端。核心想法很简单,就是想知道某个犄角旮旯,比如工厂周边…...
观察Taotoken在多模型聚合调用下的路由与失败重试效果
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 观察Taotoken在多模型聚合调用下的路由与失败重试效果 在构建依赖大模型能力的应用时,服务的稳定性是开发者关注的核心…...
告别RaiDrive广告!用开源rclone+Alist,免费把阿里云盘/百度网盘变成电脑本地硬盘
开源方案实战:用rcloneAlist打造无广告的云盘本地化体验 每次打开RaiDrive时弹出的广告窗口是否让您感到困扰?商业软件的收费模式是否让您犹豫不决?今天,我们将彻底解决这些问题。通过开源工具Alist和rclone的组合,您不…...
5分钟搞定Android Studio中文界面:终极免费汉化完整指南
5分钟搞定Android Studio中文界面:终极免费汉化完整指南 【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本) 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePack 还在为Androi…...
Arduino新手避坑指南:用DHT11温湿度传感器做个简易气象站(附完整代码)
Arduino实战:DHT11温湿度传感器避坑指南与气象站搭建第一次接触Arduino和传感器的新手们,是否经常遇到数据读取失败、数值异常或者硬件连接不稳定的问题?本文将带你从零开始,避开那些教科书上不会告诉你的坑,完成一个稳…...
