当前位置：首页 > news >正文

使用PDFMiner.six解析PDF数据

news 2026/5/24 19:20:07

PDF（可移植文档格式）文件是由Adobe创建的一种灵活的文件格式，它允许文档在不同的软件、硬件和操作系统中一致地显示。每个PDF文件都包含对固定布局文档的全面描述，包括文本、字体、图形和其他必要的显示元素。pdf通常用于文档共享，因为它们能够保持原始格式。然而，以编程方式解析和解释PDF内容可能是一项挑战。这些困难包括pdf的复杂结构、不同的文本编码、复杂的布局、压缩的内容和嵌入的字体等问题。

我们最近评估了几个流行的Python PDF库，如PyPDF/PyPDF2, PDFMiner.six, PyMuPDF, PDFplumber2,等。有些库适合提取文本，有些适合提取图像，有些速度很快，等等。在本文中，我们将重点介绍如何开始使用PDFMiner.six。最新信息请随时关注官方网站。

在这里插入图片描述

环境准备

安装依赖包：

pip install pdfminer.six
pip install 'pdfminer.six[image]'

示例PDF文件可以在这里找到，当然你也可以自己准备。让我们看看如何使用这些api：

从PDF中提取文本
从PDF中提取图像
迭代PDF中的所有对象
从PDF中提取TableOfContent （ToC）

抽取文本

通过高级API可用于从PDF中提取文本。

from pdfminer.high_level import extract_text
from os import pathpath = path.abspath(path.dirname(__file__))
print(path)pdf_file = path + '/sample01.pdf'
text = extract_text(pdf_file)
print(text)

抽取每一页

from io import StringIOfrom pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.utils import open_filenamefrom os import pathpath = path.abspath(path.dirname(__file__))
print(path)def iter_text_per_page(pdf_file, password='', page_numbers=None, maxpages=0,caching=True, codec='utf-8', laparams=None):if laparams is None:laparams = LAParams()with open_filename(pdf_file, "rb") as fp:rsrcmgr = PDFResourceManager(caching=caching)idx = 1for page in PDFPage.get_pages(fp,page_numbers,maxpages=maxpages,password=password,caching=caching,):with StringIO() as output_string:device = TextConverter(rsrcmgr, output_string, codec=codec,laparams=laparams)interpreter = PDFPageInterpreter(rsrcmgr, device)interpreter.process_page(page)yield idx, output_string.getvalue()idx += 1def main():pdf_file = path + '/sample02.pdf'for count, page_text in iter_text_per_page(pdf_file):print(f'page# {count}:\n{page_text}')print()if __name__ == "__main__":main()

输出内容截取如下：

page# 1:产品主要功能包括数据采集、数据治理以及数据产品应用。企业典型应用场景利用 AI 算法实现业务分类、聚类、回归预测以及时间序列预测等。在销售领域基于历史数据实现销售预测，基于用户特征数据对客户分类实现精准营销；在采购领域利用历史数据预测采购价格，基于多维度指标实现供应商综合评价模型等。page# 2:
各类政策法规进行整理和归纳，帮助用户更加方便快捷地获取所需的政策信息。。。。

抽取图像

提取图像的最简单方法是调用命令行工具pdf2txt.py。它是在安装PDFMiner时安装的，并且位于Python可执行文件的相同位置。使用的操作系统。可执行文件’查找Python二进制文件的位置。

下面是示例用法：

usage: pdf2txt.py [-h] [--version] [--debug] [--disable-caching] [--page-numbers PAGE_NUMBERS [PAGE_NUMBERS ...]][--pagenos PAGENOS] [--maxpages MAXPAGES] [--password PASSWORD] [--rotation ROTATION] [--no-laparams][--detect-vertical] [--line-overlap LINE_OVERLAP] [--char-margin CHAR_MARGIN] [--word-margin WORD_MARGIN][--line-margin LINE_MARGIN] [--boxes-flow BOXES_FLOW] [--all-texts] [--outfile OUTFILE][--output_type OUTPUT_TYPE] [--codec CODEC] [--output-dir OUTPUT_DIR] [--layoutmode LAYOUTMODE][--scale SCALE] [--strip-control]files [files ...]To extract all text from pdf:
pdf2txt.py --all-texts ../samples/manual.pdfTo extract all images from pdf:
pdf2txt.py --output-dir images ../sample03.pdf

如果希望将其集成到应用程序中，只需从pdf2txt.py复制源代码即可.

获取页数

from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from pdfminer.pdftypes import resolve1pdf_file = '../samples/brocher1.pdf'with open(pdf_file, 'rb') as f:parser = PDFParser(f)doc = PDFDocument(parser)parser.set_document(doc)pages = resolve1(doc.catalog['Pages'])pages_count = pages.get('Count', 0)print(pages_count)

抽取表格数据

pdfminer抽取表格的输出看起来比PyPDF2好得多，我们可以很容易地使用regex或split()提取所需的数据。但是在现实世界中，PDF文档包含很多噪声，id可以是不同的格式等等。我无法想象一个算法会考虑所有的事情。为了简化和加快我们的工作，我建议将PDF文件转换为HTML格式：

from io import StringIO
from pdfminer.high_level import extract_text_to_fp
from pdfminer.layout import LAParamsoutput = StringIO()
with open('example.pdf', 'rb') as pdf_file:extract_text_to_fp(pdf_file, output, laparams=LAParams(), output_type='html', codec=None)
with open('example.html', 'a') as html_file:html_file.write(output.getvalue())

然后再利用html标签处理库抽取文本，这种方法准确率应该能得到保障。

使用PDFMiner.six解析PDF数据

PDF（可移植文档格式）文件是由Adobe创建的一种灵活的文件格式，它允许文档在不同的软件、硬件和操作系统中一致地显示。每个PDF文件都包含对固定布局文档的全面描述，包括文本、字体、图形和其他必要的显示元素。pdf通常用于文档共享…...

编程日记 2025/3/2 0:00:29

本地svn

参考补充：https://blog.csdn.net/hhl_work/article/details/107832414 先在D:\coding_cangku下新建空文件夹，例：code1【类似gitee线上仓库】点击进入code1，右键选择TortoiseSVN，再下一级菜单下点击Create repository …...

编程日记 2025/3/1 23:51:19

金融支付行业技术侧重点

1. 合规问题第三方支付系统的平稳运营，严格遵循《非银行支付机构监督管理条例》的各项条款是基础与前提，其中第十八条的规定堪称重中之重，是支付机构必须牢牢把握的关键准则。第十八条明确指出，非银行支付机构需构建起必要且独…...

编程日记 2025/3/1 23:50:17

axios几种请求类型的格式

Axios 是一个基于 Promise 的 HTTP 客户端，广泛用于浏览器和 Node.js 中发送 HTTP 请求。它支持多种请求格式，包括 GET、POST、PUT、DELETE 等。也叫RESTful 目录一、axios几种请求类型的格式 1、get请求 2、post请求 3、put请求 4、delete请求二…...

编程日记 2025/3/1 23:47:13

二、IDE集成DeepSeek保姆级教学(使用篇)

各位看官老爷好，如果还没有安装DeepSeek请查阅前一篇一、IDE集成DeepSeek保姆级教学(安装篇) 一、DeepSeek在CodeGPT中使用教学 1.1、Edit Code 编辑代码选中代码片段 —> 右键 —> CodeGPT —> Edit Code, 输入自然语言可编辑代码，点击S…...

编程日记 2025/3/1 23:45:10

通过理解 sk_buff 深入掌握 Linux 内核自定义协议族的开发实现

要开发 Linux 内核中的自定义协议族（如私有传输层或网络层协议），需基于 sk_buff 的结构和操作，结合内核网络栈的扩展机制。以下是实现这一目标的分步指南： 1. 协议族开发的核心步骤 (1) 注册自定义协议族定义协议号在 <linux/if_ether.h> 或自定义头文件中分配唯…...

编程日记 2025/3/1 23:42:06

Qt 系统自带颜色如下： enum GlobalColor {color0,color1,black,white,darkGray,gray,lightGray,red,green,blue,cyan,magenta,yellow,darkRed,darkGreen,darkBlue,darkCyan,darkMagenta,darkYellow,transparent};对应颜色如下： color0: 这是自定义颜色…...

编程日记 2025/3/1 23:33:57

Linux的文件与目录管理

rm -rf / 列出目录内容和属性命令：ls 格式：ls 选项文件名例： ls -a 打印工作路径命令：pwd 切换工作目录命令：cd 格式：cd 相对路径或者绝对路径查看文件类型命令：file 格式…...

编程日记 2025/3/1 23:32:56

常用的 pip 命令

pip 是 Python 的包管理工具，可用于安装、卸载、更新和管理 Python 包。以下是一些常用的 pip 命令： 1. 安装包安装最新版本的包 pip install package_namepackage_name 是你要安装的 Python 包的名称，例如 pip install requests 可以安装…...

编程日记 2025/3/1 23:28:52

Vue 项目中配置代理的必要性与实现指南

Vue 项目中配置代理的必要性与实现指南在 Vue 前端项目的开发过程中，前端与后端地址通常不同，可能引发跨域问题。为了在开发环境下顺畅地请求后端接口，常常会通过配置**代理（proxy）**来解决问题。这篇文章将详细解析…...

编程日记 2025/3/1 23:26:48

【QT】QLinearGradient 线性渐变类简单使用教程

目录 0.简介 1）qtDesigner中 2）实际执行 1.功能详述 3.举一反三的样式 0.简介 QLinearGradient 是 Qt 框架中的一个类，用于定义线性渐变效果（通过样式表设置）。它可以用来填充形状、背景或其他图形元素&#xff0…...

编程日记 2025/3/1 23:25:46

编程题 - 汽水瓶【JavaScript/Node.js解法】

‌“学如逆水行舟，不进则退。”‌ ——《增广贤文》目录汽水瓶题目：解答分析：js代码解答 -ACM模式：代码通过：题解分析：简洁思路代码： 汽水瓶题目： 某商店规定：三个空…...

编程日记 2025/3/1 23:18:38

从 0 到 1：使用 Docker 部署个人博客系统

引言在当今数字化时代，拥有一个个人博客来记录自己的学习、生活和见解是一件非常有意义的事情。然而，传统的博客部署方式往往涉及复杂的环境配置和依赖管理，容易让人望而却步。而 Docker 的出现，为我们提供了一种简单、高效的解…...

编程日记 2025/3/1 23:11:30

Python - Python操作Redis

安装Redis可参考 Redis-入门简介-CSDN博客在Python中接入Redis数据库通常使用redis-py这个库一、安装Redis 首先，需要安装redis-py库。通过pip来安装 pip install redis 二、连接Redis Redis连接操作import redisdef redis_connect():try:redisClient redi…...

编程日记 2025/3/1 23:08:27

Solidity 开发环境

Solidity 开发环境 Solidity编辑器：Solidity编辑器是⼀种专⻔⽤于编写和编辑Solidity代码的编辑器。常⽤的Solidity编辑器包括 Visual Studio Code、Atom和Sublime Text。以太坊开发环境：以太坊开发环境（Ethereum Development Environment&a…...

编程日记 2025/3/1 23:07:26

js基础案例

1.弹出警告框，显示Hello JS 2.在页面输出内容（内容在body标签里面） 3.在控制台输出内容 4.js代码是自上而下执行 5.将js代码编写到标签的onclick属性中，当点击时，js代码才会执行 6.将js写到超链接的href属性中&#xf…...

编程日记 2025/3/1 23:00:18

Unity TMPro显示中文字体

TMP默认的字体只能显示英语，那么怎么显示中文呢 1、找到支持中文的字体文件在c盘搜索Fonts文件夹有很多支持中文的字体文件我这里选择雅黑 PS.双击打开发现里面有粗体细体普通三个版本，也可以只导入一个版本进去 2、将其拖入到unity Assets里面 3…...

编程日记 2025/3/1 22:59:16

2025 GDC开发者先锋大会“人形机器人的开源之路”分论坛 | 圆桌会议：《开放协作：开源生态如何解锁人形机器人与具身智能的未来》（上篇）

在GDC全球开发者先锋大会期间，2月23日，由GDC组委会指导、国家地方共建人形机器人创新中心（以下简称“国地中心”）承办的“人形机器人的开源之路”主题论坛在上海西岸艺术中心成功举办。在人工智能与机器人技术飞速发展的今天&…...

编程日记 2025/3/1 22:56:14

MySQL 数据库安全配置最佳实践

文章目录 MySQL 数据库安全配置最佳实践账户与权限管理账户最小化原则权限最小化配置密码策略强化认证与访问控制禁用匿名账户启用安全认证网络安全防护访问源限制禁用远程root访问启用SSL加密日志审计与监控全量审计配置二进制日志管理服务端安全加固关键参数配置文件权限…...

编程日记 2025/3/1 22:55:12

网络安全红队工具

目录红队及发展趋势基本概念发展趋势防守阶段备战阶段临战阶段实战阶段战后整顿如果错过互联网,与你擦肩而过的不仅仅是机会,而是整整一个时代。红队及发展趋势基本概念红队一般指实战攻防的防守方。红队主要复盘总结现有防护系统的不足之处，为…...

编程日记 2025/3/1 22:54:11

在多地域部署服务中体验Taotoken路由能力对API延迟的优化

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在多地域部署服务中体验Taotoken路由能力对API延迟的优化 1. 场景与挑战在构建面向全球用户的服务时，一个常见的架构…...

编程新知 2026/5/24 19:02:03

机器学习能耗评估工具对比：芯片传感器与估算模型实战解析

1. 项目概述与背景在AI模型规模日益膨胀、训练成本水涨船高的今天，我们除了关注模型的准确率和F1值，是否也该关心一下它“吃”了多少电？这不仅仅是电费账单的问题，更关乎我们能否在追求技术前沿的同时，践行环境责任。作…...

编程新知 2026/5/24 16:53:11

DeepSeek多租户访问控制配置实战（含Kubernetes Admission Controller集成方案）

更多请点击： https://kaifayun.com 第一章：DeepSeek多租户访问控制配置实战（含Kubernetes Admission Controller集成方案） DeepSeek平台通过精细化的RBAC策略与动态准入控制实现企业级多租户隔离。其核心依赖于自定义Kubernetes …...

编程新知 2026/5/24 16:23:50

OpenMemories-Tweak终极指南：3步解锁索尼相机全部隐藏功能

OpenMemories-Tweak终极指南：3步解锁索尼相机全部隐藏功能【免费下载链接】OpenMemories-Tweak Unlock your Sony cameras settings 项目地址: https://gitcode.com/gh_mirrors/op/OpenMemories-Tweak OpenMemories-Tweak是一款专为索尼相机用户设计的开源工…...

编程新知 2026/5/24 15:18:34

Flut Renamer：免费跨平台批量文件重命名工具的完整使用指南

Flut Renamer：免费跨平台批量文件重命名工具的完整使用指南【免费下载链接】renamer Flut Renamer - A bulk file renamer written in flutter (dart). Available on Linux, Windows, Android, iOS and macOS. 项目地址: https://gitcode.com/gh_mirrors/ren/ren…...

编程新知 2026/5/24 14:50:36

人机协同决策：AI如何通过认知冲突提升专家判断力

1. 人机协同决策的认知悖论：当“不如你”的AI成为你的最佳搭档在医疗诊断室里，一位经验丰富的放射科医生正在审阅一张肺部CT影像。他的初步判断是良性结节，但屏幕角落弹出的AI辅助诊断系统却给出了“疑似恶性”的提示，置信度显示为…...

编程新知 2026/5/24 14:44:12

为内部工具快速添加 AI 能力，Taotoken 分钟级接入实践

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为内部工具快速添加 AI 能力，Taotoken 分钟级接入实践当你需要为一个现有的内部数据分析或报告生成工具添加智能摘要或…...

编程新知 2026/5/24 12:46:45

终极解决方案：3步恢复Calibre-Web豆瓣元数据获取功能

终极解决方案：3步恢复Calibre-Web豆瓣元数据获取功能【免费下载链接】calibre-web-douban-api 新版calibre-web已经移除douban-api了，添加一个豆瓣api实现项目地址: https://gitcode.com/gh_mirrors/ca/calibre-web-douban-api 还在为Calibre-W…...

编程新知 2026/5/24 12:40:29

在Node.js服务中集成Taotoken实现统一的大模型API调用

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Node.js服务中集成Taotoken实现统一的大模型API调用对于需要在产品中集成AI能力的中小团队而言，直接管理多个大模型…...

编程新知 2026/5/24 11:32:57

3步完成API密钥配置：彻底解决Zotero-GPT插件“密钥未配置“错误

3步完成API密钥配置：彻底解决Zotero-GPT插件"密钥未配置"错误【免费下载链接】zotero-gpt GPT Meet Zotero. 项目地址: https://gitcode.com/gh_mirrors/zo/zotero-gpt Zotero-GPT是一款革命性的开源插件，它将GPT的智能能力无缝集成到…...

编程新知 2026/5/24 10:37:25

使用PDFMiner.six解析PDF数据

环境准备

抽取文本

抽取每一页

抽取图像

获取页数

抽取表格数据

相关文章：

使用PDFMiner.six解析PDF数据

本地svn

金融支付行业技术侧重点

axios几种请求类型的格式

二、IDE集成DeepSeek保姆级教学(使用篇)

通过理解 sk_buff 深入掌握 Linux 内核自定义协议族的开发实现

Qt 自带颜色属性

Linux的文件与目录管理

常用的 pip 命令

Vue 项目中配置代理的必要性与实现指南

【QT】QLinearGradient 线性渐变类简单使用教程

编程题 - 汽水瓶【JavaScript/Node.js解法】

从 0 到 1：使用 Docker 部署个人博客系统

Python - Python操作Redis

Solidity 开发环境

js基础案例

Unity TMPro显示中文字体

2025 GDC开发者先锋大会“人形机器人的开源之路”分论坛 | 圆桌会议：《开放协作：开源生态如何解锁人形机器人与具身智能的未来》（上篇）

MySQL 数据库安全配置最佳实践

网络安全红队工具

在多地域部署服务中体验Taotoken路由能力对API延迟的优化

机器学习能耗评估工具对比：芯片传感器与估算模型实战解析

DeepSeek多租户访问控制配置实战（含Kubernetes Admission Controller集成方案）

OpenMemories-Tweak终极指南：3步解锁索尼相机全部隐藏功能

Flut Renamer：免费跨平台批量文件重命名工具的完整使用指南

人机协同决策：AI如何通过认知冲突提升专家判断力

为内部工具快速添加 AI 能力，Taotoken 分钟级接入实践

终极解决方案：3步恢复Calibre-Web豆瓣元数据获取功能

在Node.js服务中集成Taotoken实现统一的大模型API调用

3步完成API密钥配置：彻底解决Zotero-GPT插件“密钥未配置“错误