【Python】常用的pdf提取库介绍对比
提取PDF内容的Python库有多种选择,每个库都有其独特的优缺点。以下是一些常用的库以及它们的优缺点和示例代码:
- pdfplumber
- PyMuPDF (fitz)
- PyPDF2
- PDFMiner
- Camelot
1. pdfplumber
优点:
- 易于使用,提供简单直观的API。
- 能提取文本、表格和图像。
- 提供对文本进行后处理的工具,如文字搜索、行识别等。
- 支持多页PDF文件。
缺点:
- 对于复杂的PDF文件,提取效果可能不如其他库。
- 速度相对较慢。
示例代码:
假设我们有一个PDF文件 example.pdf
,内容包括文本和表格。
import pdfplumber
import pandas as pdpdf_path = 'example.pdf'
data = []with pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:text = page.extract_text()if text:print(f"Page {page.page_number}:")print(text)# Extract tablestables = page.extract_tables()for table in tables:df = pd.DataFrame(table[1:], columns=table[0])data.append(df)print(df)# Combine all tables into a single DataFrame
if data:all_tables = pd.concat(data)print("All extracted tables:")print(all_tables)
2. PyMuPDF (fitz)
优点:
- 性能高,速度快。
- 支持文本、图像、注释等多种元素的提取。
- 提供PDF文档的修改和操作功能,如添加文本、图像、注释等。
缺点:
- 文档和示例较少。
- 对于新手来说,可能有点复杂。
示例代码:
import fitz # PyMuPDFpdf_path = 'example.pdf'
document = fitz.open(pdf_path)for page_num in range(document.page_count):page = document.load_page(page_num)text = page.get_text()print(f"Page {page_num + 1}:")print(text)# Extract imagesfor img in page.get_images():xref = img[0]base_image = document.extract_image(xref)image_bytes = base_image["image"]with open(f"image_{page_num + 1}_{xref}.png", "wb") as image_file:image_file.write(image_bytes)print(f"Extracted image from page {page_num + 1}, image reference {xref}")
3. PyPDF2
优点:
- 易于合并、拆分、旋转PDF文件。
- 轻量级,依赖少。
- 支持加密和解密PDF文件。
缺点:
- 对于文本提取和处理的支持较弱。
- 不支持图像提取。
示例代码:
import PyPDF2pdf_path = 'example.pdf'
with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfFileReader(file)for page_num in range(reader.numPages):page = reader.getPage(page_num)text = page.extract_text()print(f"Page {page_num + 1}:")print(text)# Example: Merging two PDFs
merger = PyPDF2.PdfFileMerger()
merger.append('example1.pdf')
merger.append('example2.pdf')
merger.write('merged.pdf')
merger.close()# Example: Splitting a PDF
input_pdf = PyPDF2.PdfFileReader('example.pdf')
output_pdf = PyPDF2.PdfFileWriter()
for page_num in range(input_pdf.numPages // 2):output_pdf.addPage(input_pdf.getPage(page_num))
with open('split.pdf', 'wb') as output_file:output_pdf.write(output_file)
4. PDFMiner
优点:
- 非常强大的文本提取功能。
- 支持复杂的PDF结构。
- 提供详细的PDF文档解析功能。
缺点:
- 相对复杂,不易上手。
- 速度较慢。
示例代码:
from pdfminer.high_level import extract_text
from pdfminer.high_level import extract_text_to_fp
import iopdf_path = 'example.pdf'# Extract text to a string
text = extract_text(pdf_path)
print(text)# Extract text to a file-like object
output_string = io.StringIO()
with open(pdf_path, 'rb') as file:extract_text_to_fp(file, output_string)
print(output_string.getvalue())
5. Camelot
优点:
- 专门用于从PDF文件中提取表格。
- 提供了流模式和Lattice模式,处理不同类型的表格。
- 生成的表格可以方便地转换为pandas DataFrame。
缺点:
- 只适用于表格提取,不支持其他类型的PDF内容提取。
- 依赖于第三方工具(如Ghostscript)。
示例代码:
import camelotpdf_path = 'example.pdf'
tables = camelot.read_pdf(pdf_path, flavor='stream') # Use 'stream' for stream mode, 'lattice' for lattice modefor table in tables:print(f"Table on page {table.page}:")print(table.df) # DataFrame of the extracted table# Save tables to a CSV file
for i, table in enumerate(tables):table.to_csv(f'table_{i}.csv')
总结
- pdfplumber 是一个易于使用的库,适用于一般的PDF文本和表格提取,特别适合处理表格。
- PyMuPDF (fitz) 性能强大且速度快,适合需要高效处理的场景,特别是需要处理图像和注释的PDF文档。
- PyPDF2 适用于PDF文件的合并、拆分和旋转,但文本提取功能较弱,更适合处理PDF文档的结构而不是内容。
- PDFMiner 提供了最强大的文本提取功能,适合处理复杂PDF结构,但相对复杂且慢,适合需要详细解析PDF内容的场景。
- Camelot 专用于表格提取,适合处理PDF中的表格数据,特别是在需要将表格数据转换为结构化数据时。
选择合适的库取决于具体需求和PDF文档的复杂性。如果只是需要提取文本和表格,pdfplumber
和 Camelot
是不错的选择。如果需要高性能处理或处理图像和注释,可以考虑 PyMuPDF (fitz)
。如果需要处理复杂的PDF结构,PDFMiner
是最强大的工具。而 PyPDF2
适合处理PDF文件的结构操作,如合并和拆分。
相关文章:

【Python】常用的pdf提取库介绍对比
提取PDF内容的Python库有多种选择,每个库都有其独特的优缺点。以下是一些常用的库以及它们的优缺点和示例代码: pdfplumberPyMuPDF (fitz)PyPDF2PDFMinerCamelot 1. pdfplumber 优点: 易于使用,提供简单直观的API。能提取文本…...

sbatch提交并行作业 运行python程序 指定输入参数从1到100
#!/bin/bash #SBATCH --job-namemy_python_job #SBATCH --outputmy_python_job_%j.out #SBATCH --errormy_python_job_%j.err #SBATCH --ntasks100# 载入所需模块 # module load python/3.8.5# 执行Python脚本并传递任务ID作为参数 for i in {1..100}; dosrun python my_script…...

OD C卷 - 中庸行者
中庸行者 (200) 给一个m*n的整数矩阵作为地图,矩阵数值为地形的高度,选择图中任意一点作为起点,向左右上下四个方向移动: 只能上坡、下坡,不能走相同高度的点;不允许连续上坡 或者连…...

最新CSS3横向菜单的实现
横向菜单 原始代码: <nav class"list1"><ul><li><a href"#">Shirts</a></li><li><a href"#">Pants</a></li><li><a href"#">Dresses</a>…...

(2024,LlamaGen,Llama,自回归下一token预测,模型扩展)自回归模型优于扩散:Llama 用于可扩展图像生成
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation 目录 0. 摘要 1. 引言 2. 自回归模型在图像生成中的应用 2.1 概述 2.2 图像 tokenizer 2.3 自回归模型生成图像 2.4 规模扩展 2.5 服务 3. 实验 5. 结论 0. 摘要 我们介绍 LlamaGen&…...

重新安装操作系统的软件都有哪些?
重新安装操作系统关键步骤 重新安装操作系统通常涉及到几个关键步骤:创建可启动媒体、备份现有数据、安装操作系统、以及系统初始化和配置。以下是一些常用工具和软件,它们可以帮助你完成这些步骤: 创建可启动媒体 Rufus:用于W…...

深圳水务展|2025深圳国际水务科技博览会
2025深圳国际水务科技博览会 展会主题: 新质生产力赋能水务产业高质量发展 展会时间:2025年7月24-26日 展会地点:深圳会展中心(福田) 主办单位: 广东省水利学会 深圳市水务学会 协办单位: 中国水利…...

OpenAI not returning a result?
题意:OpenAI 没有返回结果吗? 问题背景: Im trying to use the OpenAI beta but I cant seem to get a result. Im accessing the API via an NPM package (openai-api - npm). I have that setup and working but when I make a request th…...

[Windows]_[初级]_[GetVersionEx获取系统版本错误的原因]
场景 开发WTL/ATL/Win32程序时, 有时候需要获取系统版本号,以便判断用户在使用软件时的系统。在某一天突然发现获取的系统版本号是错的, 一直是版本号6.2.x,什么情况? 说明 如果软件没有针对Win8.1或Win10以上的系统做兼容处理,返回的是Wi…...

2024,Java开发在中国市场还有发展前景吗?
随着2024年的到来,Java作为一种经典而强大的编程语言,依然在中国的软件开发市场中扮演着重要角色。然而,许多人对Java的未来发展前景持有不同的看法。让我们来探讨一下当前情况和未来的走向。 Java程序员真的过剩了吗? 2023年, 各…...

gcc: string.c_str gcc-8.5的一个问题
https://en.cppreference.com/w/cpp/string/basic_string/c_str https://sourceforge.net/p/cppcheck/wiki/ListOfChecks/ common mistakes when using string::c_str()string的这个成员是返回c类型的一个字符数组指针。但是这个指针所对应的地址有赖于string对象的生命周期。所…...

一道笔试题 - 无重复字符的最长子串
老生常谈的一道题,常见并 文章目录 描述预期结果Java代码 描述 给定一个字符串 s ,请你找出其中不含有重复字符的最长子串的长度。 预期结果 Java代码 import java.util.HashSet; import java.util.Set;public class Demo2 {public static void main(S…...

C#反射的NullReferenceException
背景 xml文件中有些元素的属性被删除,导致文件无法被读取(C#)。 调试之后发现,因为属性被删除,读进来会保持默认值null,在后续的反射中如果用这个null给字符串属性赋值,会抛异常。 另外发现前面…...

100道C/C++面试题
1. static的作用2. 引用与指针的区别3. .h头文件中的ifndef/define/endif 的作用4 #include<file.h>与#include"file.h"的区别?5 描述实时系统的基本特性6 全局变量和局部变量在内存中是否有区别?如果有,是什么区别?7 什么是平衡二叉树?8 堆栈溢…...

Python(模块)
模块编写完成就可以被其他模块进行调用并使用被调用模块的功能。 import导入方式的语法结构: import模块名称【as别名】 from……import导入方式的语法结构: from模块名称,import变量/函数/类/*(*是通配符) impor…...

【八股文】Java基础篇
1. 和 equals的区别是什么? 判断两个变量或者实例是否都指向同一内存空间的值(不仅值相同,地址也要相同)equals是判断两个变量执行的内存空间的值是否相同(值相同,地址可以不同),所…...

python rsa如何安装
Python中的一些模块是用一个包管理器来发布的,RSA模块就是,所以首先需要安装setup tools工具。 1、下载文件:ez_setup.py 2、安装: sudo python ez_setup.py 3、下载RSA安装包:rsa-3.1.1-py2.7.egg 4、安装RSA&…...

P10289 [GESP样题 八级] 小杨的旅游
Description 给定一棵 n n n 个点的树,每条边权值均为 1 1 1,树上有 k k k 个关键点,关键点们在 0 0 0 的时间内相互可达, q q q 次询问,求 s → t s\to t s→t 的最短路。 Analysis 考虑暴力建图,…...

网络编程 ----------- 4、组播与广播
1、广播 broadcast 广播是指向同一个网络中所有的主机传输数据只有传输层协议为 UDP协议时,才支持广播 TCP是端对端,广播是一对多 ,所以无法符合其要求。 1)广播地址 广播地址的计算: 子网掩码…...

最短路径算法:Bellman-Ford算法
引言 在图论中,Bellman-Ford算法是一种用于计算单源最短路径的算法。与Dijkstra算法不同,Bellman-Ford算法可以处理带有负权边的图,并且可以检测图中是否存在负权环。本文将详细介绍Bellman-Ford算法的定义、步骤及其实现。 Bellman-Ford算…...

爬虫:xpath模块及昵图网实例
xpath模块 from lxml import etreestr1 """ <div><ul><li class"item-0"><a href"link1.html">first item</a></li><li class"item-1"><a href"link2.html">second…...

高级java每日一道面试题-2024年8月03日-web篇-forward和redirect有什么区别?
如果有遗漏,评论区告诉我进行补充 面试官: forward和redirect有什么区别? 我回答: 在Java Web开发中,forward和redirect是Servlet容器提供的两种用于页面跳转的技术。它们的主要区别在于客户端感知的方式、URL地址的变化、请求对象的共享等方面。下面详细介绍两…...

如何让你的网站拥有更好的体验
在HTML中,属性是用于提供关于HTML元素的额外信息。接下来我们将讲解13个可以让用户拥有更好体验的HTML属性。 Accept 属性 我们可以在<input>元素(仅适用于文件类型)中使用accept属性来指定服务器可以接受的文件类型。 <input ty…...

opencascade AIS_TypeFilter AIS_XRTrackedDevice源码学习
opencascade AIS_TypeFilter 前言 通过它们的类型选择交互对象。该过滤器会对本地上下文中的每个交互对象提出问题, 以确定它是否具有非空的所有者,并且如果是,则检查它是否是所需类型。 如果对象在每种情况下都返回 true,则保留…...

使用Spring AOP监控指定方法执行时间
文章目录 一、加入pom依赖二、切面类和注解三、执行方法 一、加入pom依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-aop</artifactId></dependency>二、切面类和注解 import java.lang.…...

最新CSS3纵向菜单的实现
纵向菜单 通过下面例子,你会知道把列表转换成菜单的关键技术 a中的#是URL的占位符可以点击,真正用途中写实际URL <nav class"list1"><ul><li><a href"#">Alternative</a></li><li><…...

GooLeNet模型搭建
一、model import torch from torch import nn from torchsummary import summaryclass Inception(nn.Module):def __init__(self, in_channels, c1, c2 , c3 , c4):super(Inception, self).__init__()self.ReLU nn.ReLU()#路线1:1x1卷积self.p1_1 nn.Conv2d(in_channels i…...

使用ThreadLocal来存取单线程内的数据
一.什么是ThreadLocal? ThreadLocal,即线程本地变量。如果你创建了一个 ThreadLocal变量,那么访问这个变量的每个线程都会有这个变量的一个本地拷贝,多个线程操作这个变量的时候,实际是在操作自己本地内存里面的变量&…...

elasticsearch教程
1. 单点部署(rpm): #提前关闭firewalld,否则无法组建集群 #1. 下载ES rpm包 ]# https://www.elastic.co/cn/downloads #2. 安装es ]# rpm -ivh elasticsearch-7.17.5-x86_64.rpm #3. 调整内核参数(太低的话es会启动报错) echo "vm.max_map_count655360 fs.file-max 655…...

Arrays、Lambda表达式、Collection集合
1. Arrays 1.1 操作数组的工具类 方法名说明public static String toString(数组)把数组拼接成一个字符串public static int binarySearch(数组,查找的元素)二分查找法查找元素public static int[] copyOf(原数组,新数组长度)拷贝数组public static int[] copyOfRange(原数组…...