当前位置：首页 > article >正文

【学习记录】如何使用 Python 提取 PDF 文件中的内容

article 2026/5/22 11:56:32

如何使用 Python 提取 PDF 文件中的内容

在文档自动化处理、数据提取和信息分析等任务中，从 PDF 文件中提取文本是一项常见需求。PDF 文件通常分为两种类型：基于文本的 PDF 和 包含扫描图像的 PDF。

本文将介绍如何使用 Python 分别提取这两种类型的 PDF 内容，并提供完整的代码示例和实用技巧。

一、提取基于文本的 PDF 内容

1. 使用 `PyPDF2` 提取纯文本

PyPDF2 是一个轻量级但功能强大的库，适合用于读取和提取标准文本型 PDF 中的内容。

安装

pip install PyPDF2

示例代码

import PyPDF2def extract_text_from_pdf(pdf_path):with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfReader(file)text = ""for page in reader.pages:text += page.extract_text()return text# 使用示例
pdf_path = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

⚠️ 注意：对于格式复杂或字体嵌入的 PDF，某些页面可能无法正确提取文本。

2. 使用 `pdfplumber` 提取表格和布局复杂的文本

如果你需要提取含有表格、列布局或精确坐标信息的 PDF，pdfplumber 是更合适的选择。

安装

pip install pdfplumber

示例代码

import pdfplumberdef extract_text_from_pdf(pdf_path):with pdfplumber.open(pdf_path) as pdf:text = ""for page in pdf.pages:text += page.extract_text()return text# 使用示例
pdf_path = 'example.pdf'
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

✅ 特点：支持表格识别、文字坐标定位等功能。

二、提取扫描图像型 PDF 内容（OCR）

对于由扫描图片组成的 PDF 文件，必须借助 光学字符识别（OCR）技术 来提取其中的文字。

1. 安装依赖项

你需要安装 Tesseract OCR 引擎以及对应的 Python 封装库。

Windows：

下载并安装 Tesseract OCR
添加 Tesseract 到系统环境变量（例如路径为 C:\Program Files\Tesseract-OCR\tesseract.exe）
安装 Python 库：

pip install pytesseract pillow pdf2image

安装 Poppler（用于将 PDF 转换为图像）：
- 可以从 GitHub - poppler-windows 下载并解压，同样添加到系统 PATH。

Linux / macOS：

sudo apt install tesseract-ocr libpoppler-cpp-dev  # Ubuntu/Debian
brew install tesseract poppler                    # macOS (Homebrew)
pip install pytesseract pillow pdf2image

2. 示例代码：结合 `pdf2image` + `pytesseract` 提取扫描 PDF 内容

from pdf2image import convert_from_path
import pytesseract
from PIL import Imagedef extract_text_from_scanned_pdf(pdf_path):# 将 PDF 转换为图像列表images = convert_from_path(pdf_path)extracted_text = ""for image in images:# 对每张图片执行 OCRtext = pytesseract.image_to_string(image)extracted_text += text + "\n"return extracted_text# 使用示例
pdf_path = 'scanned_example.pdf'
text = extract_text_from_scanned_pdf(pdf_path)
print(text)

✅ 说明：该方法会逐页将 PDF 转换为图像，再通过 OCR 提取文字，适用于高质量扫描件。

三、总结与建议

PDF 类型	推荐库	特点
纯文本型 PDF	`PyPDF2` 或 `pdfplumber`	快速、高效，适合标准 PDF 文档
扫描图像型 PDF	`pdf2image` + `pytesseract`	支持 OCR，适合图像型 PDF，但速度较慢

✅ 建议：

优先判断 PDF 类型：可以尝试用 PyPDF2 提取看看是否有返回内容，若为空则可能是扫描图像。
提高 OCR 准确率：可先对图像进行预处理（如灰度化、二值化），再传给 pytesseract。
多语言支持：Tesseract 支持多种语言包，可通过 -l 参数指定语言，如 pytesseract.image_to_string(img, lang='chi_sim') 提取中文。

四、扩展功能推荐

功能	工具	描述
表格识别	`camelot` 或 `tabula-py`	专门用于提取 PDF 中表格数据
PDF 加密破解	`pikepdf`	可用于打开加密 PDF 文件（需密码）
PDF 合并与拆分	`PyPDF2` / `pypdf`	拆分、合并、旋转 PDF 页面
PDF 注释提取	`pdfminer.six`	提供底层解析能力，适合高级用途

🔚 结语

无论是处理普通的文本型 PDF 还是扫描图像型 PDF，Python 都提供了丰富的第三方库来帮助我们实现高效的文本提取。掌握这些工具不仅能提升办公效率，还能为数据分析、文档管理、信息自动化等场景打下坚实基础。

📌 如果你正在从事数据工程、自动化脚本开发或文档处理相关的工作，熟练使用这些库将大大增强你的生产力。同时，也可以根据实际需求，结合日志记录、GUI 界面、批量处理等功能进行二次开发。

💬 欢迎留言交流你在项目中使用这些技术的经验，或者你遇到的相关问题，我们一起探讨 Python 文档处理的最佳实践！

【学习记录】如何使用 Python 提取 PDF 文件中的内容

如何使用 Python 提取 PDF 文件中的内容在文档自动化处理、数据提取和信息分析等任务中，从 PDF 文件中提取文本是一项常见需求。PDF 文件通常分为两种类型：基于文本的 PDF 和包含扫描图像的 PDF。本文将介绍如何使用 Python 分别提取这两种类型的 P…...

编程日记 2026/4/28 7:20:15

Spark 之 DataFrame 开发

foreachPartition val data = spark.sparkContext.parallelize(1 to 100)// 使用 foreachPartition 批量处理分区 data.foreachPartition {partitionIterator =...

编程日记 2026/5/17 7:05:28

嵌入式学习笔记 - freeRTOS xTaskResumeAll( )函数解析

第一部分移除挂起等待列表中的任务 while( listLIST_IS_EMPTY( &xPendingReadyList ) pdFALSE )//循环寻找直到为空，把全部任务扫描一遍 { pxTCB ( TCB_t * ) listGET_OWNER_OF_HEAD_ENTRY( ( &xPendingR…...

编程日记 2026/5/20 11:10:06

机器学习KNN算法全解析：从原理到实战

大家好！今天我们来聊聊机器学习中的"懒人算法"——KNN（K-Nearest Neighbors，K近邻）算法。这个算法就像个"墙头草"，它不学习模型参数，而是直接根据邻居的"投票"来做决策&…...

编程日记 2026/5/18 20:18:31

【QT】自定义QWidget标题栏，可拖拽（拖拽时窗体变为normal大小），可最小/大化、关闭（图文详情）

目录 0.背景 1.详细实现思路简介 .h文件 .cpp文件 0.背景 Qt Linux；项目遇到问题，解决后特此记录项目需要，个性化的标题栏（是个widget），在传统的三个按钮（最大化、最小化、关闭&#xf…...

编程日记 2026/5/20 9:51:21

FPGA定点和浮点数学运算-实例对比

在创建 RTL 示例时，经常使用 VHDL 2008 附带的 VHDL 包。它提供了出色的功能，可以高效地处理定点数，当然，它们也是可综合的。该包的一些优点包括： 有符号和无符号（后缀和后缀）定点向量。轻松将定…...

编程日记 2026/5/20 17:16:35

MySQL Binlog 数据恢复全指南

MySQL Binlog 数据恢复全指南一、Binlog 核心概念 1. 什么是 Binlog？ Binlog（二进制日志）是 MySQL 记录所有修改数据的 SQL 语句的日志文件，采用二进制格式存储。它是 MySQL 最重要的日志之一，具有三大核心功能&am…...

编程日记 2026/3/5 4:54:30

python版若依框架开发：后端开发规范

python版若依框架开发从0起步，扬帆起航。 python版若依部署代码生成指南，迅速落地CURD！项目结构解析前端开发规范后端开发规范文章目录 python版若依框架开发1.启动命令2.配置⽂件3.上传配置1.启动命令本项⽬⾃定义了两个启动命令 pyhton app.py --env=devpython app.p…...

编程日记 2026/4/15 11:24:33

Linux编程：2、进程基础知识

一、进程基本概念 1、进程与程序的区别程序：静态的可执行文件（如电脑中的vs2022安装程序）。进程：程序的动态执行过程（如启动后的vs2022实例），是操作系统分配资源的单位（如 CPU 时…...

编程日记 2026/5/17 22:00:41

时序数据库IoTDB与EdgeX Foundry集成适配服务介绍

一、背景介绍 ‌EdgeX Foundry‌：由Linux基金会运维的开放源码边缘计算软件框架，自2017年开源后广泛应用于全球各行业场景。VMware自2018年起在中国社区推广EdgeX技术，拓展生态，并持续贡献代码。‌IoTDB‌：由Apache基…...

编程日记 2026/5/22 1:03:53

多线程的创建与常见使用方法一、多线程创建方式 1. 继承Thread类 class MyThread extends Thread {Overridepublic void run() {// 线程执行逻辑System.out.println(Thread.currentThread().getName() " is running");} }// 使用 MyThread thread new …...

编程日记 2026/2/20 21:08:14

ES6——数组扩展之Set数组

在ES6（ECMAScript 2015）中，JavaScript的Set对象提供了一种存储任何值唯一性的方式，类似于数组但又不需要索引访问。这对于需要确保元素唯一性的场景非常有用。Set对象本身并不直接提供数组那样的方法来操作数据（例如ma…...

编程日记 2026/4/11 5:20:21

Cursor Rules 使用

前言最近在使用 Cursor 进行编程辅助时，发现 AI 生成的代码风格和当前的代码风格大相径庭。而且有时它会输出很奇怪的代码，总是不符合预期。遂引出本篇，介绍一下 Rules ，它就可以做一些规范约束之类的事情。什么是 Cursor R…...

编程日记 2026/5/21 15:07:44

服务器数据恢复—服务器raid5阵列崩溃如何恢复数据？

服务器数据恢复环境&故障： 某品牌型号为X3850服务器上有一组由14块数据盘和1块热备盘组建的raid5磁盘阵列。服务器在正常使用过程中突然崩溃，管理员查看raid5阵列故障情况的时发现磁盘阵列中有2块硬盘掉线，但是热备盘没有启用。服务器数…...

编程日记 2026/5/19 22:07:28

Go语言堆内存管理

Go堆内存管理 1. Go内存模型层级结构 Golang内存管理模型与TCMalloc的设计极其相似。基本轮廓和概念也几乎相同，只是一些规则和流程存在差异。 2. Go内存管理的基本概念 Go内存管理的许多概念在TCMalloc中已经有了，含义是相同的，只是名字有…...

编程日记 2026/5/19 3:17:06

【DAY41】简单CNN

内容来自浙大疏锦行python打卡训练营浙大疏锦行知识点： 数据增强卷积神经网络定义的写法batch归一化：调整一个批次的分布，常用与图像数据特征图：只有卷积操作输出的才叫特征图调度器：直接修改基础学习率卷积操作常…...

编程日记 2026/5/18 9:19:50

Rust 学习笔记：使用自定义命令扩展 Cargo

Rust 学习笔记：使用自定义命令扩展 Cargo Rust 学习笔记：使用自定义命令扩展 Cargo Rust 学习笔记：使用自定义命令扩展 Cargo Cargo 支持通过 $PATH 中的 cargo-something 形式的二进制文件拓展子命令，而无需修改 Cargo 本身。 …...

编程日记 2026/3/17 9:05:58

LeetCode 08.06 面试题汉诺塔（Java）

经典递归解决汉诺塔问题：清晰的三步移动策略问题描述在汉诺塔问题中，有 3 根柱子和 N 个大小不同的盘子，盘子初始按升序堆叠在第一根柱子上（最小的在顶部）。目标是将所有盘子移动到第三根柱子上，并满足…...

编程日记 2026/3/16 9:34:48

使用MinIO搭建自己的分布式文件存储

目录引言： 一.什么是 MinIO ？ 二.MinIO 的安装与部署： 三.Spring Cloud 集成 MinIO： 1.前提准备： （1）安装依赖： （2）配置MinIO连接： &…...

编程日记 2026/5/18 23:38:25

单元测试与QTestLib框架使用

一.单元测试的意义在软件开发中，单元测试是指对软件中最小可测试单元（通常是函数、类的方法）进行隔离的、可重复的验证。进行单元测试具有以下重要意义： 1.提升代码质量与可靠性： 早期错误检测： 在开发…...

编程日记 2026/5/21 12:58:33

java面试场景题:QPS 短链系统怎么设计

以下是对文章的润色版本： 这道场景设计题，初看似乎业务简单，实则覆盖的知识点极为丰富： 高并发与高性能分布式 ID 生成机制；Redis Bloom Filter——高并发、低内存损耗的过滤组件知识；分库、分表海量数据存…...

编程日记 2026/4/4 7:37:47

java面试场景提题:

以下是润色后的文章，结构更清晰，语言更流畅，同时保留了技术细节： 应对百倍QPS增长的系统设计策略整体架构设计思路面对突发性百倍QPS增长，系统设计需从硬件、架构、代码、数据四个维度协同优化： 硬件层…...

编程日记 2026/3/16 3:51:58

K7 系列各种PCIE IP核的对比

上面三个IP 有什么区别，什么时候用呢？ 7 series Integrated Block for PCIE AXI Memory Mapped to PCI Express DMA subsystem for PCI Express 特点这是 Kintex-7 内置的硬核 PCIe 模块。部分事务层也集成在里面，使用标准的PCIE 基本没…...

编程日记 2026/5/19 21:42:31

natapp 内网穿透失败

连不上网络错误调试排查详解 - NATAPP-内网穿透基于ngrok的国内高速内网映射工具如何将DNS服务器修改为114.114.114.114_百度知道连不上/错误信息等问题解决汇总 - NATAPP-内网穿透基于ngrok的国内高速内网映射工具 nslookup auth.natapp.cnping auth.natapp.cn...

编程日记 2026/5/15 9:35:36

深入解析CI/CD开发流程

引言：主播最近实习的时候发现部门里面使用的是CI/CD这样的集成开发部署，但是自己不是太了解什么意思，所以就自己查了一下ci/cd相关的资料，整理分享了一下一、CI/CD CI/CD是持续集成和持续交付部署的缩写，旨在简化并…...

编程日记 2026/5/15 9:35:54

Docke启动Ktransformers部署Qwen3MOE模型实战与性能测试

docker运行Ktransformers部署Qwen3MOE模型实战及性能测试最开始拉取ktransformers:v0.3.1-AVX512版本，发现无论如何都启动不了大模型，后来发现是cpu不支持avx512指令集。由于本地cpu不支持amx指令集，因此下载avx2版本镜像： …...

编程日记 2026/5/18 18:10:31

应用分享 | 精准生成和时序控制！AWG在确定性三量子比特纠缠光子源中的应用

在量子技术飞速发展的今天，实现高效稳定的量子态操控是推动量子计算、量子通信等领域迈向实用化的关键。任意波形发生器（AWG）作为精准信号控制的核心设备，在量子实验中发挥着不可或缺的作用。丹麦哥本哈根大学的研究团队基于单个量…...

编程日记 2026/5/15 9:33:44

相机--相机标定实操

教程 camera_calibration移动画面示例 usb_cam使用介绍和下载标定流程单目相机标定我使用的是USB相机，所以直接使用ros的usb_cam功能包驱动相机闭关获取实时图像，然后用ros的camera_calibration标定相机。 1,下载usb_cam和camera_calibration: …...

编程日记 2026/5/21 21:04:16

深入理解汇编语言中的顺序与分支结构

本文将结合Visual Studio环境配置、顺序结构编程和分支结构实现，全面解析汇编语言中的核心编程概念。通过实际案例演示无符号/有符号数处理、分段函数实现和逻辑表达式短路计算等关键技术。一、汇编环境配置回顾（Win32MASM） 在Visual Studi…...

编程日记 2026/3/16 8:43:22

DAY43 复习日

浙大疏锦行-CSDN博客 kaggle找到一个图像数据集，用cnn网络进行训练并且用grad-cam做可视化进阶：把项目拆分成多个文件 src/config.py: 用于存放项目配置，例如文件路径、学习率、批次大小等。 # src/config.py# Paths DATA_DIR "data…...

编程日记 2026/5/18 10:22:57

一、提取基于文本的 PDF 内容

1. 使用 PyPDF2 提取纯文本

安装

示例代码

2. 使用 pdfplumber 提取表格和布局复杂的文本

安装

示例代码

二、提取扫描图像型 PDF 内容（OCR）

1. 安装依赖项

Windows：

Linux / macOS：

2. 示例代码：结合 pdf2image + pytesseract 提取扫描 PDF 内容

三、总结与建议

✅ 建议：

四、扩展功能推荐

🔚 结语

相关文章：

1. 使用 `PyPDF2` 提取纯文本

2. 使用 `pdfplumber` 提取表格和布局复杂的文本

2. 示例代码：结合 `pdf2image` + `pytesseract` 提取扫描 PDF 内容