当前位置：首页 > news >正文

Python批处理PDF文件，PDF附件轻松批量提取

news 2026/5/23 2:44:49

PDF附件是指在PDF文档中嵌入的其他文件，如图像、表格、音频、视频或其他文档。这些附件可以与PDF文档一起存储、传输和共享，为文档提供了更丰富的内容和更多的功能。通过添加附件，我们可以将相关文件和信息捆绑在一起，使其更易于管理和共享。此外，PDF附件还可以用于在文档中引用外部资源，提供更全面的参考资料和支持材料。然而，处理大量的PDF附件可能会很繁琐且费时费力。通过利用Python程序，我们可以轻松地批量处理这些附件，极大地提高工作效率。本文将介绍如何通过Python轻松批量提取并保存PDF附件、插入附件到PDF文档中以及删除PDF文件中的附件。

文章目录

- 使用Python批量提取PDF附件
- 使用Python轻松插入附件到PDF
- 使用Python批量删除PDF附件

本文所介绍的方法需要用到Spire.PDF for Python，可从官网下载或通过PyPI安装：

pip install Spire.PDF

使用Python批量提取PDF附件

提取PDF文档中的附件主要用到的是PdfDocument.Attachments属性和 PdfAttachment.Data.Save() 方法。PdfDocument.Attachments属性可以获取一个PDF文档中的所有附件并返回一个附件集合，而PdfAttachment.Data.Save()方法则可以将指定附件保存到指定文件夹。详细操作步骤如下：

指定输入文件夹和输出文件夹的路径。
获取输入文件夹中以".pdf"结尾的PDF文件列表。

pdfFiles = [f for f in os.listdir(inputFolder) if f.endswith(".pdf")]

遍历每个PDF文件。
创建PdfDocument类的对象，并使用PdfDocument.LoadFromFile()再入PDF文件。

document = PdfDocument()
document.LoadFromFile(filePath)

获取PDF文件的附件列表。

attachments = document.Attachments

判断附件列表是否为空，如果有附件，则构建储存附件的文件夹。
遍历附件列表，获取附件对象，并将附件保存到指定路径。

attachment = attachments.get_Item(i)
attachmentPath = os.path.join(outputFolderPath, attachment.FileName)
attachment.Data.Save(attachmentPath)

关闭PDF文件。

完整代码示例：

import os
from spire.pdf import *
from spire.pdf.common import *# 指定输入文件夹和输出文件夹的路径
inputFolder = "文档/PDF"
outputFolder = "文档/附件"# 获取输入文件夹中以".pdf"结尾的PDF文件列表
pdfFiles = [f for f in os.listdir(inputFolder) if f.endswith(".pdf")]# 遍历每个PDF文件
for fileName in pdfFiles:# 构建PDF文件的完整路径filePath = os.path.join(inputFolder, fileName)# 创建PdfDocument对象并加载PDF文件document = PdfDocument()document.LoadFromFile(filePath)# 获取PDF文件的附件列表attachments = document.Attachments# 如果附件存在if attachments:# 获取PDF文件名（不包含扩展名）fileNameWithoutExt = os.path.splitext(fileName)[0]# 构建输出文件夹路径outputFolderPath = os.path.join(outputFolder, fileNameWithoutExt)# 创建输出文件夹os.makedirs(outputFolderPath, exist_ok=True)# 遍历附件列表for i in range(attachments.Count):# 获取附件对象attachment = attachments.get_Item(i)# 构建附件保存路径attachmentPath = os.path.join(outputFolderPath, attachment.FileName)# 保存附件到指定路径attachment.Data.Save(attachmentPath)# 关闭PDF文档document.Close()

用于提取附件的PDF文件：
Python提取PDF附件

提取结果：
Python提取PDF附件

使用Python轻松插入附件到PDF

通过创建PdfAttachment类的实例即可创建PDF附件，并对附件相关信息进行设置，如描述和修改日期。在创建好附件后，使用PdfDocument.Attachments.Add()方法即可将附件添加到PDF文件中。附件还可以与PDF注释结合，实现从页面上跳转到指定附件。一下步骤是添加附件的简单示例：

创建PdfDocument类的对象并再入PDF文档。

document = PdfDocument()
document.LoadFromFile(pdfPath)

创建PdfAttachment类的对象，并设置附件描述和修改日期。

attachment = PdfAttachment(attachmentPath)
attachment.Description = "参会人员名单"
attachment.ModificationDate = DateTime.get_Now()

将附件添加到PDF文件中。

document.Attachments.Add(attachment)

保存并关闭PDF文件。

document.SaveToFile("output/添加附件.pdf")
document.Close()

完整代码示例：

from spire.pdf import *
from spire.pdf.common import *# 定义PDF文件路径和附件路径
pdfPath = "文档/示例5.pdf"
attachmentPath = "示例/名单.txt"# 创建PdfDocument对象并加载PDF文件
document = PdfDocument()
document.LoadFromFile(pdfPath)# 创建PdfAttachment对象
attachment = PdfAttachment(attachmentPath)# 设置附件的描述信息和修改日期
attachment.Description = "参会人员名单"
attachment.ModificationDate = DateTime.get_Now()# 将附件添加到PDF文档中
document.Attachments.Add(attachment)# 保存PDF文档到指定路径
document.SaveToFile("output/添加附件.pdf")# 关闭PDF文档
document.Close()

添加效果：
Python添加附件到PDF

使用Python批量删除PDF附件

删除PDF文件中的附件则比较简单，直接使用PdfDocument.Attachments属性获取一个PDF文件中的附件，然后再删除指定的附件或所有附件即可。一下是操作步骤：

创建PdfDocument类的对象并再入PDF文档。

document = PdfDocument()
document.LoadFromFile(pdfPath)

获取PDF文件中的附件集合。

document.Attachments

删除指定附件。

attachments.RemoveAt(0)

或删除所有附件。

attachments.Clear()

保存并关闭PDF文件。

document.SaveToFile("output/删除附件.pdf")
document.Close()

完整代码示例：

from spire.pdf import *
from spire.pdf.common import *# 定义PDF文件路径
pdfPath = "文档/示例5.pdf"# 创建PdfDocument对象并加载PDF文件
document = PdfDocument()
document.LoadFromFile(pdfPath)# 获取PDF文件的附件集合
attachments = document.Attachments# 删除指定附件
attachments.RemoveAt(0)# 删除所有附件
attachments.Clear()# 保存并关闭PDF文件
document.SaveToFile("output/删除附件.pdf")
document.Close()

以上是关于如何利用Python在PDF文件中添加、提取及删除附件的方法介绍。Spire.PDF for Python还支持许多其他功能，请前往Spire.PDF for Python教程了解更多。

Python批处理PDF文件，PDF附件轻松批量提取

文章目录

使用Python批量提取PDF附件

使用Python轻松插入附件到PDF

使用Python批量删除PDF附件

相关文章：

Python批处理PDF文件，PDF附件轻松批量提取

Python可迭代对象排序：深入排序算法与定制排序

基于matlab的图像去噪算法设计与实现

NFTScan 正式上线 Starknet NFTScan 浏览器和 NFT API 数据服务

2023年亚太杯APMCM数学建模大赛A题水果采摘机器人的图像识别

mysql which is not in SELECT list； this is incompatible with DISTINCT解决方案

linux /proc 文件系统

java开发之个微群聊自动添加好友

Git .gitignore 忽略文件不生效解决方法

【Java】16. HashMap

KMP基础架构

递归实现选择排序.

Node.js【文件系统模块、路径模块、连接 MySQL、nodemon、操作 MySQL】(三)-全面详解（学习总结---从入门到深化）

公司的销售经理面临哪些压力和挑战？

【Linux系统编程】如何创建进程（什么是fork函数？进程创建的原理是什么？）

【opencv】计算机视觉基础知识

Node——Node.js简介

小型洗衣机什么牌子好又便宜？性价比迷你洗衣机推荐

INFINI Easysearch 与华为鲲鹏完成产品兼容互认证

将linux服务器设置成 proxy.SOCKS5 服务器

C++继承与组合设计

【YOLO全系列架构演进史】2 YOLOv8：解耦头、Anchor-free与多任务统一框架

【ChatGPT】锂电卷绕机深度拆解、信息图、爆炸图、C++代码框架

iOS自动化测试真机连接失败的五大根因与工程化解决方案

水葫芦生长周期生长阶段早晚期检测数据集VOC+YOLO格式1029张3类别

曼德勃罗集的 Three.js 实现

2026年京东云OpenClaw/Hermes Agent配置Token Plan详细搭建教程

智能网盘直链解析工具：免会员下载加速的全新解决方案

KMS智能激活工具：三步永久激活Windows和Office系统完整指南

3个妙招突破百度网盘限速：baidu-wangpan-parse终极解析指南