当前位置: 首页 > news >正文

PDF与PDF/A的区别及如何使用Python实现它们之间的相互转换

目录

概述

PDF/A 是什么?与 PDF 有何不同?

用于实现 PDF 与 PDF/A 相互转换的 Python 库

Python 实现 PDF 转 PDF/A

将 PDF 转换为 PDF/A-1a

将 PDF 转换为 PDF/A-1b

将 PDF 转换为 PDF/A-2a

将 PDF 转换为 PDF/A-2b

将 PDF 转换为 PDF/A-3a

将 PDF 转换为 PDF/A-3b

Python 实现 PDF/A 转 PDF

Python 判断 PDF 是否是 PDF/A格式


概述

本文将详细介绍 PDF 与 PDF/A 的区别,并提供在 Python 中实现 PDF 与 PDF/A 相互转换的具体方法。同时,还将探讨如何在 Python 中判断 PDF文档是否是 PDF/A 格式并获取其具体的合规级别。

  • PDF/A 是什么?与 PDF 有何不同?
  • 用于实现PDF 与 PDF/A相互转换的 Python 库
  • Python 实现 PDF 转 PDF/A
  • Python 实现 PDF/A 转 PDF
  • Python 判断 PDF 是否是 PDF/A格式

PDF/A 是什么?与 PDF 有何不同?

PDF/A 是一种专为电子文档的长期存档和保存设计的 PDF 格式。与常规 PDF 不同,PDF/A 对某些功能进行了限制,确保文档不依赖外部资源,即使在未来的技术环境中也能被完整再现。这种格式的主要特点包括:

  1. 禁止外部内容依赖
    PDF/A 不允许链接外部资源,如字体、音频、视频或加密数据。这确保了文档的所有内容完全嵌入文件内部,避免因外部资源丢失或变化而导致内容显示异常。
  2. 嵌入必要信息
    文档所需的字体、颜色配置文件等都会被嵌入文件中,从而确保无论在任何设备或软件中打开,都能准确呈现原始内容。

简而言之,PDF/A 是一种确保文档内容完整性的标准,特别适合用于长期保存和存档。常规 PDF 则更适合日常的共享、打印或编辑,但在内容长期保存和兼容性方面可能存在不确定性。

用于实现 PDF 与 PDF/A 相互转换的 Python 库

在Python中,可以使用 Spire.PDF for Python 库来实现 PDF 和 PDF/A 格式之间的转换。该库提供了丰富的功能,可在 Python 应用中创建、读取、编辑和转换 PDF 文档。

安装方法

在使用前,需要通过以下命令安装 Spire.PDF for Python:

pip install Spire.Pdf

Python 实现 PDF 转 PDF/A

将 PDF 转换为 PDF/A只需要以下两个步骤:

  1. 打开 PDF 文档:使用 PdfStandardsConverter 类打开需要转换的 PDF 文件。
  2. 转换为所需的 PDF/A 格式:选择 PdfStandardsConverter 类的适当方法,将文档转换为特定的 PDF/A 格式。

实现代码

以下是将 PDF 文档转换为不同 PDF/A 格式的实现代码。

将 PDF 转换为 PDF/A-1a

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")# 转换为 PDF/A-1a
converter.ToPdfA1A("PdfA1a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-1b

from spire.pdf.common import *
from spire.pdf import *converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-1b
converter.ToPdfA1B("PdfA1b.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-2a

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2a
converter.ToPdfA2A("PdfA2a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-2b

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-2b
converter.ToPdfA2B("PdfA2b.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-3a

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3a
converter.ToPdfA3A("PdfA3a.pdf")
converter.Dispose()

将 PDF 转换为 PDF/A-3b

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文件
converter = PdfStandardsConverter("测试.pdf")
# 转换为 PDF/A-3b
converter.ToPdfA3B("PdfA3b.pdf")
converter.Dispose()

转换后的 PDF/A 文档均可在 Adobe Acrobat 中成功通过PDF/A规范验证,如下图所示:

Python PDF转PDF/A

Python 实现 PDF/A 转 PDF

虽然 PDF/A 是存档的理想格式,但有时还是需要将文档还原为常规 PDF,以便进行编辑、添加交互元素或加密等操作。

以下是将 PDF/A 转换为常规 PDF的实现代码:

from spire.pdf.common import *
from spire.pdf import *# 加载 PDF/A 文档
pdf = PdfDocument("PdfA1A.pdf")# 创建常规 PDF 文档
new_pdf = PdfNewDocument()
new_pdf.CompressionLevel = PdfCompressionLevel.none# 遍历 PDF/A 的每一页
for i in range(pdf.Pages.Count):page = pdf.Pages.get_Item(i)size = page.Size# 添加空白页面new_page = new_pdf.Pages.Add(size, PdfMargins(0.0))# 将原始页面内容复制到新页面page.CreateTemplate().Draw(new_page, 0.0, 0.0)# 保存为常规 PDF
new_pdf.SaveToFile("常规PDF.pdf")
new_pdf.Close(True)

Python 判断 PDF 是否是 PDF/A格式

Spire.PDF 提供了 PdfDocument.Conformance 属性,用于判断 PDF 文档是否是 PDF/A 格式,此外还支持获取其具体的合规级别。如果该属性返回的是none,表示该PDF文档是常规PDF,如果返回具体级别,如Pdf_A1A,表明该PDF是PDF/A-1a格式。

以下是判断PDF是否是PDF/A格式并获取其具体级别的实现代码:

from spire.pdf.common import *
from spire.pdf import *# 打开 PDF 文档
pdf = PdfDocument("ToPdfA1A.pdf")# 获取文档的 PDF/A级别
conformance_level = pdf.Conformance
print(conformance_level.name)
pdf.Close()

Python 判断PDF是否是PDF/A格式

以上就是关于PDF与PDF/A之间的区别,以及如何使用Python实现它们之间的相互转换的全部内容。感谢阅读!

相关文章:

PDF与PDF/A的区别及如何使用Python实现它们之间的相互转换

目录 概述 PDF/A 是什么?与 PDF 有何不同? 用于实现 PDF 与 PDF/A 相互转换的 Python 库 Python 实现 PDF 转 PDF/A 将 PDF 转换为 PDF/A-1a 将 PDF 转换为 PDF/A-1b 将 PDF 转换为 PDF/A-2a 将 PDF 转换为 PDF/A-2b 将 PDF 转换为 PDF/A-3a 将…...

【Linux课程学习】: 进程地址空间,小故事理解虚拟地址,野指针

🎁个人主页:我们的五年 🔍系列专栏:Linux课程学习 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 Linux学习笔记: https://blog.csdn.net/…...

解决el-select数据量过大的3种方法

在准备上线的后台管理系统中,我们发现有两个下拉框(select),其选项数据量超过 1 万条,而在测试环境中这些数据量只有几百条。这导致在页面加载时,浏览器性能出现瓶颈,页面卡顿甚至崩溃。 想了一…...

速盾:高防cdn预热指定url就只刷新这个吗?

高防CDN预热是指在网站上线或更新之前,将网站内容缓存到CDN节点服务器上,以提高用户访问网站的速度和稳定性。通常,预热可以通过指定URL来进行,而不是刷新整个网站。 预热指定URL的好处是可以选择性地进行缓存刷新,而…...

aarch64-linux-gnu-g++在windous不能用

aarch64-linux-gnu-g 是针对 ARM 64 位架构(aarch64)的交叉编译器,它通常用于在一个平台(例如 x86 的 Linux 系统)上为另一个平台(例如 ARM 设备)编译代码。aarch64-linux-gnu-g 是 Linux 环境下…...

01_Node.js入门 (黑马)

01_Node.js入门 知识点自测 从 index.js 出发&#xff0c;访问到 student/data.json 的相对路径如何写? A&#xff1a;../public/teacher/data.json B&#xff1a;./public/student/data.json C&#xff1a;../student/data.json <details><summary>答案</sum…...

记一次搞校园网的经历

接教室的校园网&#xff0c;到另一个屋子玩电脑&#xff0c;隔墙想放大一下AP的信号&#xff0c;发现死活不行 这是现状 由于校园网认证的存在&#xff0c;无法用桥接&#xff0c;桥接需要路由器有IP&#xff0c;而这个IP无法用未刷机的路由器来打开校园网页面认证 解决 将一…...

沃德云商协系统微信小程序PHP+Uniapp

“多组织”的云服务平台&#xff0c;打造总商会、总协会、总校友会、工商联等多组织无障碍沟通合作平台&#xff0c;让各大分会、各大分校友会、分组织实现轻松管理&#xff0c;线上宣传展示、商机挖掘、会员管理、会员服务、跨界交流等, 借助沃德云商协平台系统&#xff0c;让…...

Leecode刷题C语言之可以被进一步捕获的棋子数

执行结果:通过 执行用时和内存消耗如下&#xff1a; 代码如下&#xff1a; int numRookCaptures(char** board, int boardSize, int* boardColSize) {int cnt 0, st 0, ed 0;int dx[4] {0, 1, 0, -1};int dy[4] {1, 0, -1, 0};for (int i 0; i < 8; i) {for (int j…...

【算法】数组中,求K个最大值

已知&#xff1a;数组 [8, 9, 15, 20, 3, 5, 7, 2, 6]&#xff0c;求第8个最大值是哪个值&#xff1f; function quickSort(arr, targetIndex, start) {if (arr.length < 1) return arr[0];let left [];let right [];const mid Math.floor(arr.length / 2);const midNum…...

Postman自定义脚本Pre-request-script以及Test

这两个都是我们进行自定义script脚本的地方&#xff0c;分别是在请求执行的前后运行。 我们举两个可能经常运用到的场景。 (一)请求A先执行&#xff0c;请求B使用请求A响应结果作为参数。如果我们不用自定义脚本&#xff0c;可能得先执行请求A&#xff0c;然后手动复制响应结果…...

Lua中实现HTTP请求的User-Agent自定义

User-Agent&#xff08;用户代理&#xff09;是HTTP请求头的一部分&#xff0c;用于描述发出请求的客户端的信息&#xff0c;包括浏览器类型、版本和操作系统等。自定义User-Agent对于开发者来说是一个重要的功能&#xff0c;它可以帮助服务器识别请求来源&#xff0c;也可以模…...

工业节能水泵如何节能?

在现代工业生产中&#xff0c;水泵作为一种重要的流体输送设备&#xff0c;广泛应用于各个领域。无论是在制造业、化工、能源&#xff0c;还是在污水处理、灌溉等行业&#xff0c;水泵在保证生产流程顺畅的同时&#xff0c;也消耗了大量的能源。 一、工业水泵系统的能耗现状 …...

第四篇:k8s 理解Service工作原理

什么是service&#xff1f; Service是将运行在一组 Pods 上的应用程序公开为网络服务的抽象方法。 简单来说K8s提供了service对象来访问pod。我们在《k8s网络模型与集群通信》中也说过k8s集群中的每一个Pod&#xff08;最小调度单位&#xff09;都有自己的IP地址&#xff0c;都…...

P3131 [USACO16JAN] Subsequences Summing to Sevens S

题目描述 Farmer Johns NN cows are standing in a row, as they have a tendency to do from time to time. Each cow is labeled with a distinct integer ID number so FJ can tell them apart. FJ would like to take a photo of a contiguous group of cows but, due to a…...

大数据技术Kafka详解 ② | Kafka基础与架构介绍

目录 1、kafka的基本介绍 2、kafka的好处 3、分布式发布与订阅系统 4、kafka的主要应用场景 4.1、指标分析 4.2、日志聚合解决方法 4.3、流式处理 5、kafka架构 6、kafka主要组件 6.1、producer(生产者) 6.2、topic(主题) 6.3、partition(分区) 6.4、consumer(消费…...

【CKA】Kubernetes(k8s)认证之CKA考题讲解

CKA考题讲解 0.考试101 0.1 kubectl命令⾃动补全 在 bash 中设置当前 shell 的⾃动补全&#xff0c;要先安装 bash-completion 包。 echo "source <(kubectl completion bash)" >> ~/.bashrc还可以在补全时为 kubectl 使⽤⼀个速记别名&#xff1a; al…...

android WebRtc 无法推流以及拉流有视频无声音问题

最近在开发使用WebRtc进行视频通话和语音通话&#xff0c;我使用的设备是MTK的手机&#xff0c;期间后台的技术人员几乎没法提供任何帮助&#xff0c;只有接口和测试的web端&#xff0c;有遇到不能推流。推流成功网页端有画面有声音&#xff0c;但是安卓端有画面&#xff0c;没…...

【5G】Spectrum 频谱

频谱是移动运营商的关键资产&#xff0c;可用的频谱是定义移动网络容量和覆盖范围的重要因素。本章讨论了5G的不同频谱选项、它们的特性以及5G早期部署阶段的预期频谱。5G是首个旨在利用大约400 MHz到90 GHz之间所有频段的移动无线系统。5G还设计用于在许可、共享和非许可频谱带…...

Flink学习连载文章11--双流Join

双流 Join 和两个流合并是不一样的 两个流合并&#xff1a;两个流变为 1 个流 union connect 双流 join: 两个流 join&#xff0c;其实这两个流还是原来的&#xff0c;只是满足条件的数据会变为一个新的流。 可以结合 sql 语句中的 union 和 join 的区别。 在离线 Hive 中&…...

PHP和Node.js哪个更爽?

先说结论&#xff0c;rust完胜。 php&#xff1a;laravel&#xff0c;swoole&#xff0c;webman&#xff0c;最开始在苏宁的时候写了几年php&#xff0c;当时觉得php真的是世界上最好的语言&#xff0c;因为当初活在舒适圈里&#xff0c;不愿意跳出来&#xff0c;就好比当初活在…...

AI Agent与Agentic AI:原理、应用、挑战与未来展望

文章目录 一、引言二、AI Agent与Agentic AI的兴起2.1 技术契机与生态成熟2.2 Agent的定义与特征2.3 Agent的发展历程 三、AI Agent的核心技术栈解密3.1 感知模块代码示例&#xff1a;使用Python和OpenCV进行图像识别 3.2 认知与决策模块代码示例&#xff1a;使用OpenAI GPT-3进…...

CentOS下的分布式内存计算Spark环境部署

一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架&#xff0c;相比 MapReduce 具有以下核心优势&#xff1a; 内存计算&#xff1a;数据可常驻内存&#xff0c;迭代计算性能提升 10-100 倍&#xff08;文档段落&#xff1a;3-79…...

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解 前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

学习STC51单片机31(芯片为STC89C52RCRC)OLED显示屏1

每日一言 生活的美好&#xff0c;总是藏在那些你咬牙坚持的日子里。 硬件&#xff1a;OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写&#xff0c;"1306" 是产品编号。 驱动 OLED 屏幕的 IIC 总线数据传输格式 示意图 …...

ip子接口配置及删除

配置永久生效的子接口&#xff0c;2个IP 都可以登录你这一台服务器。重启不失效。 永久的 [应用] vi /etc/sysconfig/network-scripts/ifcfg-eth0修改文件内内容 TYPE"Ethernet" BOOTPROTO"none" NAME"eth0" DEVICE"eth0" ONBOOT&q…...

重启Eureka集群中的节点,对已经注册的服务有什么影响

先看答案&#xff0c;如果正确地操作&#xff0c;重启Eureka集群中的节点&#xff0c;对已经注册的服务影响非常小&#xff0c;甚至可以做到无感知。 但如果操作不当&#xff0c;可能会引发短暂的服务发现问题。 下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

基于PHP的连锁酒店管理系统

有需要请加文章底部Q哦 可远程调试 基于PHP的连锁酒店管理系统 一 介绍 连锁酒店管理系统基于原生PHP开发&#xff0c;数据库mysql&#xff0c;前端bootstrap。系统角色分为用户和管理员。 技术栈 phpmysqlbootstrapphpstudyvscode 二 功能 用户 1 注册/登录/注销 2 个人中…...

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的 第一部分&#xff1a; 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...

【前端异常】JavaScript错误处理:分析 Uncaught (in promise) error

在前端开发中&#xff0c;JavaScript 异常是不可避免的。随着现代前端应用越来越多地使用异步操作&#xff08;如 Promise、async/await 等&#xff09;&#xff0c;开发者常常会遇到 Uncaught (in promise) error 错误。这个错误是由于未正确处理 Promise 的拒绝&#xff08;r…...