当前位置：首页 > news >正文

深入解析 iText 7：从 PDF 文档中提取文本和图像

news 2026/4/27 23:47:26

在现代开发中，PDF 文件的操作是不可避免的一部分。无论是生成报告、解析文档，还是从文件中提取信息，我们常常需要处理 PDF 文件。iText 是一个非常强大的库，广泛应用于 PDF 文件的创建、修改和解析。自 iText 7 发布以来，它的架构、性能和功能有了巨大的提升。本文将深入介绍 iText 7 的使用，特别是如何利用它从 PDF 文档中提取文本和图像，帮助开发者高效地进行 PDF 文件的处理。

iText 7 简介

iText 7 是 iText 库的最新版本，相比于其前身 iText 5，它不仅提供了更多强大的功能，还改进了 API 设计，并引入了模块化结构，使开发者可以根据需要选择所需的功能模块。iText 7 支持更多的 PDF 操作，例如生成 PDF/A、PDF/UA（无障碍 PDF）、数字签名、表单处理等，并且在性能、图形渲染等方面得到了显著优化。

作为一个开源项目，iText 7 采用 AGPL 许可证，如果用于商业项目，则需要购买商业许可证。今天，我们将重点介绍 iText 7 中如何提取 PDF 文件中的文本内容和嵌入的图像。

为什么选择 iText 7？

模块化设计：iText 7 将功能模块化，开发者可以根据项目需要选择不同的模块，避免不必要的依赖。
强大的文本和图像处理：iText 7 提供了丰富的 API，能够轻松提取文本、图像和其他 PDF 内容。
性能优化：iText 7 在内存管理和多线程支持上做了优化，可以高效处理大型 PDF 文档。
现代化的 API：iText 7 使用更为现代化的设计，提供了更强的扩展性和灵活性。

使用 iText 7 提取 PDF 中的文本和图像

在 iText 7 中，提取 PDF 文档的内容（包括文本和图像）是一个常见的操作。通过结合 PdfTextExtractor 类和 PdfCanvasProcessor 类，开发者可以很方便地提取 PDF 页面的文本和图像。

核心 API 介绍

PdfReader：用于读取 PDF 文件。
PdfDocument：表示一个 PDF 文档，提供对文档内容的访问。
PdfTextExtractor：用于从 PDF 页面中提取文本。
PdfCanvasProcessor：用于处理 PDF 页面中的图像、文本或其他元素。
ImageRenderInfo：包含关于图像的详细信息，可以获取图像的字节数据。
IEventListener：事件监听器，用于在 PDF 页面中处理各种事件，特别是图像渲染事件。

示例代码

以下示例展示了如何使用 iText 7 提取 PDF 文档中的文本和图像，并将图像保存为文件。

import com.itextpdf.kernel.pdf.PdfDocument;
import com.itextpdf.kernel.pdf.PdfReader;
import com.itextpdf.kernel.pdf.canvas.parser.EventType;
import com.itextpdf.kernel.pdf.canvas.parser.PdfCanvasProcessor;
import com.itextpdf.kernel.pdf.canvas.parser.PdfTextExtractor;
import com.itextpdf.kernel.pdf.canvas.parser.data.IEventData;
import com.itextpdf.kernel.pdf.canvas.parser.data.ImageRenderInfo;
import com.itextpdf.kernel.pdf.canvas.parser.listener.IEventListener;
import com.itextpdf.kernel.pdf.canvas.parser.listener.ITextExtractionStrategy;
import com.itextpdf.kernel.pdf.canvas.parser.listener.SimpleTextExtractionStrategy;
import com.itextpdf.kernel.pdf.xobject.PdfImageXObject;import java.io.FileOutputStream;
import java.io.IOException;
import java.util.Set;public class IText7Example {private static void readTextAndImage(String filePath) {try {// 使用 iText 7 的 PdfReader 打开 PDF 文件PdfDocument pdfDoc = new PdfDocument(new PdfReader(filePath));// 获取 PDF 页数int numberOfPages = pdfDoc.getNumberOfPages();// 遍历每一页，提取文本for (int i = 1; i <= numberOfPages; i++) {// 创建文本提取策略ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();// 提取当前页面的文本String pageContent = PdfTextExtractor.getTextFromPage(pdfDoc.getPage(i), strategy);// 输出当前页的内容System.out.println("Page " + i + " Content: \n" + pageContent + "\n");// 使用 PdfCanvasProcessor 处理页面内容，提取图像PdfCanvasProcessor processor = new PdfCanvasProcessor(new ImageExtractionListener(i));processor.processPageContent(pdfDoc.getPage(i));}// 关闭 PDF 文档pdfDoc.close();} catch (IOException e) {e.printStackTrace();}}// 定义一个监听器，用于提取图像static class ImageExtractionListener implements IEventListener {private final int pageNum;public ImageExtractionListener(int pageNum) {this.pageNum = pageNum;}@Overridepublic void eventOccurred(IEventData eventData, EventType eventType) {if (eventType == EventType.RENDER_IMAGE) {// 获取图像数据ImageRenderInfo renderInfo = (ImageRenderInfo) eventData;PdfImageXObject imgObj = renderInfo.getImage();try {// 提取图像并保存为文件byte[] imgBytes = imgObj.getImageBytes();String imageFilePath = "image_" + System.currentTimeMillis() + ".png";try (FileOutputStream fos = new FileOutputStream(imageFilePath)) {fos.write(imgBytes);System.out.println("Page " + pageNum + " Image saved: " + imageFilePath);}} catch (IOException e) {e.printStackTrace();}}}@Overridepublic Set<EventType> getSupportedEvents() {return Set.of(EventType.RENDER_IMAGE);}}public static void main(String[] args) {// 输入 PDF 文件路径String inputPdfPath = "/path/to/your/pdf-file.pdf"; // 替换为实际路径readTextAndImage(inputPdfPath);}
}

代码解析

PdfDocument 和 PdfReader：
我们使用 PdfReader 打开一个现有的 PDF 文件，并通过 PdfDocument 对象获取文件内容。通过 pdfDoc.getNumberOfPages() 获取 PDF 文件的总页数，方便后续遍历每一页。
文本提取：
PdfTextExtractor.getTextFromPage() 方法用于从 PDF 页面中提取文本。SimpleTextExtractionStrategy 是默认的文本提取策略，它会保留页面上的文本内容并去除图像和其他非文本元素。
图像提取：
PdfCanvasProcessor 被用来遍历 PDF 页面内容并触发图像提取事件。在 ImageExtractionListener 中，我们监听 EventType.RENDER_IMAGE 事件，该事件会在页面渲染图像时触发。图像通过 ImageRenderInfo 提供，可以通过 imgObj.getImageBytes() 获取图像的字节数据并保存为文件。
文件保存：
提取的图像字节通过 FileOutputStream 保存为 .png 格式文件。每次提取图像时，都会保存为一个新文件，并打印出文件路径。

小结

通过上述示例，我们了解了如何使用 iText 7 提取 PDF 文件中的文本和图像。iText 7 提供了强大且灵活的 API，能够轻松处理各种 PDF 操作。通过事件监听和页面处理，我们可以轻松提取 PDF 中的图像数据，并根据需要进行进一步的处理。iText 7 的模块化设计和现代化的 API 使其成为处理 PDF 文件的理想选择，适用于各种业务场景。

在实际开发中，你可以根据自己的需求灵活运用 iText 7 提供的功能，处理各种复杂的 PDF 文件。无论是生成 PDF 文件、提取数据，还是处理图像和表单，iText 7 都能够提供强大的支持，帮助你轻松完成各种任务。

深入解析 iText 7：从 PDF 文档中提取文本和图像

iText 7 简介

为什么选择 iText 7？

使用 iText 7 提取 PDF 中的文本和图像

核心 API 介绍

示例代码

代码解析

小结

相关文章：

深入解析 iText 7：从 PDF 文档中提取文本和图像

Rust编程语言入门教程（六）变量与可变性

事务--实操演示

PHP是如何并行异步处理HTTP请求的？

【Spring详解一】Spring整体架构和环境搭建

在 Vue 3 中使用 Lottie 动画：实现一个加载动画

深度解析：使用 Headless 模式 ChromeDriver 进行无界面浏览器操作

MySQL 主从复制原理及其工作过程

计算机网络抄手运输层

字符串函数和结构题内存对齐

【嵌入式Linux应用开发基础】特殊进程

深度学习pytorch之19种优化算法（optimizer）解析

rust笔记5-derive属性2

DeepSeek、微信、硅基流动、纳米搜索、秘塔搜索……十种不同方法实现DeepSeek使用自由

介绍cherrypick

HTTP、HTTPS区别可靠性及POST为什么比GET安全的探讨

从零到一：Spring Boot 与 RocketMQ 的完美集成指南

AIGC：开启内容创作新纪元，我们如何看待它的影响与前景？

10分钟上手DeepSeek开发：SpringBoot + Vue2快速构建AI对话系统

mac安装Pyspark并连接Mysql

Sqlserver 学习笔记

告别龟速传输：手把手教你用赛普拉斯FX3芯片搞定FPGA与USB3.0高速数据采集

WPS-Zotero插件完整指南：3步实现跨平台文献管理革命

Django项目上线前必做：用SimpleUI配置专业后台，并解决生产环境静态文件404的坑

电子健康记录：医疗数据的标准化与隐私保护

AUTOSAR CANTP配置避坑指南：从状态机到流控参数实战解析

YOLOv11涨点改进| CVPR 2026 | 独家创新首发、卷积改进篇| 引入 AFFN 自相关前馈网络模块，通过频域与空间域的双域融合增强，助力多种目标检测、图像分割、图像分类、图像修复任务涨点

避坑指南：解决ORB-SLAM2+D435i稠密建图中的‘核心转储’等常见编译与运行错误

重新定义华硕笔记本控制体验：G-Helper的极简设计哲学

从贝叶斯网络到因子图：用大白话图解视觉SLAM后端优化的数学之美