当前位置：首页 > news >正文

Python实现PDF转换文件格式

news 2026/5/21 14:05:35

最近工作中经常遇到收到其他人提供的pdf文档，想要编辑修改下或者复制部分内容比较困难，想通过现有的pdf工具软件转换文档格式，基本都要充钱，为了免费实现pdf转换工具，网上查了下相关技术方案，整理了下代码，测试真实有效，分享下。

第一步，安装相关第三方库

pip install PyMuPDF -i https://mirrors.aliyun.com/pypi/simple
pip install pdf2docx -i https://mirrors.aliyun.com/pypi/simple

第二步，编写代码

pdfConverter.py:

import datetime
import os
# fitz就是pip install PyMuPDF
import fitz
# pdf2docx 也是封装 fitz 模块为基础开发的
from pdf2docx import Converter'''
pdf 转换工具包
pdf 转成 word
pdf 转成 图片
pdf 转成 html
'''def pdf2word(file_path):'''@方法名称: pdf转word@中文注释: pdf转word@入参:@param file_path str pdf文件路径@出参:@返回状态:@return 0 失败或异常@return 1 成功@返回错误码@返回错误信息@param doc_file str word文件名@作    者: PandaCode辉@创建时间: 2023-10-16@使用范例: pdf2word('test.pdf')'''try:if (not type(file_path) is str):return [0, "111111", "pdf文件路径参数类型错误,不为字符串", [None]]# 开始时间startTime = datetime.datetime.now()# 提取文件名，去除文件后缀file_name = file_path.split('.')[0]print(file_name)# word文件名doc_file = f'{file_name}.docx'print(doc_file)p2w = Converter(file_path)'''convert(doc_file,start,end)函数中doc_file：转化完成后文件名start：转化开始页面end：转化结束页面注意点：①若不给start，end参数则默认转化全篇②对于不连续的页面，也可写作convert(doc_file , pages = [2,4,6])'''p2w.convert(doc_file, start=0, end=None)p2w.close()endTime = datetime.datetime.now()  # 结束时间print('pdf转word耗时： %s 秒' % (endTime - startTime).seconds)print("pdf转word成功")# 返回容器return [1, '000000', 'pdf转word成功', [doc_file]]except Exception as e:p2w.close()print("pdf转word异常," + str(e))return [0, '999999', "pdf转word异常," + str(e), [None]]def pdf2image(file_path, image_path):'''@方法名称: pdf转图片@中文注释: pdf转图片@入参:@param file_path str pdf文件路径@param image_path str 输出图片路径@出参:@返回状态:@return 0 失败或异常@return 1 成功@返回错误码@返回错误信息@param image_path str 输出图片路径@作    者: PandaCode辉@创建时间: 2023-10-16@使用范例: pdf2image('test.pdf', './images')'''try:if (not type(file_path) is str):return [0, "111111", "pdf文件路径参数类型错误,不为字符串", [None]]if (not type(image_path) is str):return [0, "111112", "输出图片路径参数类型错误,不为字符串", [None]]# 开始时间startTime = datetime.datetime.now()print("pdfPath=" + file_path)# 提取文件名，去除文件后缀file_name = file_path.split('.')[0]print(file_name)print("imagePath=" + imagePath)# 打开pdf文档pdfDoc = fitz.open(file_path)# 判断存放图片的文件夹是否存在if not os.path.exists(image_path):# 若图片文件夹不存在就创建os.makedirs(image_path)# Document.page_count	页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print('=======%s========' % (pg + 1))'''页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像，并搜索文本字符串。对于PDF文档，可以使用更多的方法向页面添加文本或图像。'''page = pdfDoc[pg]rotate = int(0)# 每个尺寸的缩放系数为1.3，这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置，默认图片大小为：792X612, dpi=96zoom_x = 1.33333333  # (1.33333333-->1056x816)   (2-->1584x1224)zoom_y = 1.33333333mat = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)'''pix是一个Pixmap对象，它（在本例中）包含页面的RGB图像，可用于多种用途。方法Page.get_pixmap()提供了许多用于控制图像的变体：分辨率、颜色空间（例如，生成灰度图像或具有减色方案的图像）、透明度、旋转、镜像、移位、剪切等。        例如：创建RGBA图像（即，包含alpha通道），指定pix=page.get_pixmap（alpha=True）。        Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度（每个像素）和跨距（一个水平图像行的字节数）。属性示例表示表示图像数据的矩形字节区域（Python字节对象）。        还可以使用page.get_svg_image()创建页面的矢量图像。'''pix = page.get_pixmap(matrix=mat, alpha=False)# 将图片写入指定的文件夹内pix.save(image_path + '/' + file_name + '_%s.png' % (pg + 1))endTime = datetime.datetime.now()  # 结束时间print('pdf转图片耗时： %s 秒' % (endTime - startTime).seconds)print("pdf转图片成功")# 返回容器return [1, '000000', '"pdf转图片成功', [image_path]]except Exception as e:print("pdf转图片异常," + str(e))return [0, '999999', "pdf转图片异常," + str(e), [None]]def pdf2html(file_path):'''@方法名称: pdf转html@中文注释: pdf转html@入参:@param file_path str pdf文件路径@出参:@返回状态:@return 0 失败或异常@return 1 成功@返回错误码@返回错误信息@param out_file str html文件名@作    者: PandaCode辉@创建时间: 2023-10-16@使用范例: pdf2html('test.pdf')'''try:if (not type(file_path) is str):return [0, "111111", "pdf文件路径参数类型错误,不为字符串", [None]]# 开始时间startTime = datetime.datetime.now()print("pdfPath=" + pdfPath)# 打开pdf文档pdfDoc = fitz.open(pdfPath)# 提取文件名，去除文件后缀file_name = pdfPath.split('.')[0]print(file_name)out_file = f'{file_name}.html'print(out_file)# 打开文件，首次创建写入fo = open(out_file, "w+", encoding="utf-8")# Document.page_count	页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print('=======%s========' % (pg + 1))'''页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量（SVG）图像，可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像，并搜索文本字符串。对于PDF文档，可以使用更多的方法向页面添加文本或图像。'''page = pdfDoc[pg]'''提取文本和图像 page.get_text(opt) 我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息：对opt使用以下字符串之一以获取不同的格式："text"：（默认）带换行符的纯文本。无格式、无文字位置详细信息、无图像"blocks"：生成文本块（段落）的列表"words"：生成单词列表（不包含空格的字符串）"html"：创建页面的完整视觉版本，包括任何图像。这可以通过internet浏览器显示"dict" / "json"：与HTML相同的信息级别，但作为Python字典或resp.JSON字符串。"rawdict" / "rawjson"："dict" / "json"的超级集合。它还提供诸如XML之类的字符详细信息。"xhtml"：文本信息级别与文本版本相同，但包含图像。"xml"：不包含图像，但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释'''# html 格式保存原PDF文本和图片样式还行# text = page.get_text('html')# xhtml 格式保存原PDF文本和图片样式更好text = page.get_text('xhtml')# 写入文件fo.write(text)# 关闭文件fo.close()endTime = datetime.datetime.now()  # 结束时间print('pdf转html耗时： %s 秒' % (endTime - startTime).seconds)print("pdf转html成功")# 返回容器return [1, '000000', '"pdf转html成功', [out_file]]except Exception as e:# 关闭文件fo.close()print("pdf转html异常," + str(e))return [0, '999999', "pdf转html异常," + str(e), [None]]if __name__ == "__main__":# PDF地址pdfPath = 'test.pdf'# 1，pdf转wordpdf2word(pdfPath)# 储存图片的目录imagePath = './images'# 2，pdf转图片pdf2image(pdfPath, imagePath)# 3，pdf转htmlpdf2html(pdfPath)

第三步，运行查看效果

Python实现PDF转换文件格式

最近工作中经常遇到收到其他人提供的pdf文档，想要编辑修改下或者复制部分内容比较困难，想通过现有的pdf工具软件转换文档格式，基本都要充钱，为了免费实现pdf转换工具，网上查了下相关技术方案，整理了下代码&…...

编程日记 2023/10/18 3:15:50

【Ceph Cluster】完全删除Ceph集群

注意：在执行这些步骤之前，请确保你已经备份了所有重要的数据，并且你明白这些步骤将永久删除 Ceph 集群。停止 Ceph 服务： systemctl stop ceph.target卸载 Ceph 包：卸载 Ceph 相关的软件包，使用你的 Linux…...

编程日记 2023/10/18 3:12:46

4.Vue-Vue调用第三方接口

题记用vue调用第三方接口，以下是全部代码和操作流程。寻找第三方接口网站推荐：免费API - 提供免费接口调用平台 (aa1.cn) 下面的代码以下图中的接口为例安装axios模块在终端输入以下命令： npm install axios 调用第三方接口代码调…...

编程日记 2023/10/18 3:10:44

大语言模型在推荐系统的实践应用

本文从应用视角出发，尝试把大语言模型中的一些长处放在推荐系统中。 01 背景和问题传统的推荐模型网络参数效果较小(不包括embedding参数)，训练和推理的时间、空间开销较小，也能充分利用用户-物品的协同信号。但是它的缺陷是只能利用数据…...

编程日记 2023/10/18 3:09:41

第三章交换技术及应用

目录 3.1 port-vlan技术 3.1.1 VLAN概述 3.1.2 VLAN划分方法——Port-VLAN 3.1.3 Port-VLAN工作原理 3.1.3 Port-VLAN配置 3.2 port-vlan仿真演示 3.2.1 实验背景 3.2.2 实验目的 3.2.3 实验设备 3.2.4 实验步骤思维导图 3.3 tag-vlan技术 3.3.1 问题分析 3.3.2 T…...

编程日记 2023/10/18 3:08:40

地震勘探原理部分问题解答

1、二维/三维（陆地/海洋）地震勘探，炮点（激发点）和检波点（接收点）的排布位置如何？画图作答？ （1）陆地地震勘探二维陆地地震野外采集：震…...

编程日记 2023/10/18 3:06:38

两个步骤轻松搞定批量合并视频

你是否曾经有过批量合并视频的需求，但是却苦于不知道如何下手？今天，我将为你介绍一个简单易行的方法，只需两个步骤，让你轻松实现批量合并视频。第一步：下载并打开固乔智剪软件首先，你需要下载…...

编程日记 2023/10/18 3:05:37

VR虚拟现实在室内设计仿真教学中的应用演示

1. 虚拟实景漫游：利用VR技术，学生可以通过戴上VR头盔来进入一个虚拟的室内环境中，感受真实的空间氛围。他们可以自由移动和观察，感受室内设计的效果。这样的体验可以增强学生的想象力和空间感知能力，提高他们的设计水平…...

编程日记 2023/10/18 3:04:37

Python操作串口通信

Python操作串口通信注意Linux下先要修改串口的权限： sudo chmod 777 /dev/ttyUSB0 以下是python代码： # codingutf-8 # 包：pyserial，pymysql # 权限：sudo chmod 777 /dev/ttyUSB0 import serial # import pymysql …...

编程日记 2023/10/18 3:02:35

图详解第四篇：单源最短路径--Dijkstra算法

文章目录 1. 最短路径问题2. 单源最短路径--Dijkstra算法算法思想图解如何存储路径及其权值代码实现调式观察打印最短路径Dijkstra算法的缺陷 3. 源码 1. 最短路径问题最短路径问题： 从带权有向图（求最短路径通常是有向图）G中的某一顶点出发…...

编程日记 2023/10/18 3:00:34

CRMEB多商户商城系统阿里云集群部署教程

注意: 1.所有服务创建时地域一定要选择一致,这里我用的是杭州K区 2.文件/图片上传一定要用类似oss的云文件服务, 本文不做演示一、创建容器镜像服务，容器镜像服务(aliyun.com) ,个人版本就可以先创建一个命名空间然后创建一个镜像仓库查看并记录镜像公网地址…...

编程日记 2023/10/18 2:59:33

Java第三方登录封装工具类

Java中可以使用第三方登录来简化用户登录流程，常见的第三方登录如QQ、微信、微博等。下面是一个Java封装第三方登录的工具类： import java.io.IOException; import java.util.HashMap; import java.util.Map;import org.apache.http.client.ClientProto…...

编程日记 2023/10/18 2:57:31

1、介绍 2、hackBar插件安装教程： Hackbar插件安装-CSDN博客 3、解题 php://filter/readconvert.base64-encode/resource要读取的文件 ?filephp://filter/readconvert.base64-encode/resourceflag.php Base64 在线编码解码 | Base64 加密解密 - Base64.us 结束...

编程日记 2023/10/18 2:56:30

德国人工智能公司【Kodex AI】完成160万欧元融资

来源：猛兽财经作者：猛兽财经猛兽财经获悉，总部位于德国柏林的人工智能公司【Kodex AI】今日宣布已完成160万欧元融资。本轮融资由Signals VC领投，Techstars、德意志银行等天使投资者参与，其中包括:most AI首席执行官…...

编程日记 2023/10/18 2:55:29

LeetCode 2 两数相加

题目描述链接：https://leetcode.cn/problems/add-two-numbers/?envTypefeatured-list&envId2ckc81c?envTypefeatured-list&envId2ckc81c 难度：中等给你两个非空的链表，表示两个非负的整数。它们每位数字都是按照逆序的方式…...

编程日记 2023/10/18 2:54:28

springboot项目启动失败，不打印报错详细信息(启动打印日记问题)

1：出现这种我问题一般都是日记的问题，查看控制台启动打印的第一句，为什么启动失败，需要用那个日记 2：如果使用的是log4j或者logback与slf4j都是默认在依赖web自带的如下 <dependency><groupId>org.springf…...

编程日记 2023/10/18 2:53:28

MyBatis (where、set、foreach)标签

where标签在上一节SQL 语句中加入了一个条件“11”，如果没有加入这个条件，那么可能就会变成下面这样一条错误的语句。 SELECT id,name,url,age,country FROM website AND name LIKE CONCAT(%,#{name},%)显然以上语句会出现 SQL 语法异常，但…...

编程日记 2023/10/18 2:52:27

flutter开发之安装dart

1、在MacOS系统中打开终端，进入到官网Get the Dart SDK | Dart brew tap dart-lang/dartbrew install dart 注意：若显示没有brew，请先执行第二步骤，如下： 2、打开homebrew的官网Homebrew — The Missing Package Man…...

编程日记 2023/10/18 2:51:26

向量召回：深入评估离线体系，探索优质召回方法

向量召回：深入评估离线体系，探索优质召回方法 1.简介近年来，基于向量进行召回的做法在搜索和推荐领域都得到了比较广泛的应用，并且在学术界发表的论文中，基于向量的 dense retrieve 的方法也在不少数据集上都战胜了 sparse retrieve，吸引了越来越多的关注。在内网的不…...

编程日记 2023/10/18 2:50:25

播放器缓存队列bug解决方案

背景我在开发一个播放器的缓存队列时，遇到一个bug,导致包和帧无法被下一个模块读取找了半天，原来是队列中的包和帧数据要进行内容的刷新暂存包数据和帧数据不能直接放入队列 //入队，包进队列 int AVPacketQueue::Push(AVPacket *val,i…...

编程日记 2023/10/18 2:49:23

LuaJIT反编译终极解决方案：LJD工具深度解析与实战指南

LuaJIT反编译终极解决方案：LJD工具深度解析与实战指南【免费下载链接】luajit-decompiler https://gitlab.com/znixian/luajit-decompiler 项目地址: https://gitcode.com/gh_mirrors/lu/luajit-decompiler 你是否曾面对LuaJIT编译后的字节码文件束手无策&a…...

编程新知 2026/5/21 14:00:04

Onekey Steam清单下载工具：快速获取游戏清单的完整指南

Onekey Steam清单下载工具：快速获取游戏清单的完整指南【免费下载链接】Onekey Onekey Steam Depot Manifest Downloader 项目地址: https://gitcode.com/gh_mirrors/one/Onekey Onekey是一款专业的开源Steam Depot清单下载工具，能够直接连接Ste…...

编程新知 2026/5/21 12:18:22

CANN/asc-devkit SIMT fmodf函数

fmodf 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.com/cann…...

编程新知 2026/5/21 9:55:58

告别复杂命令：3步搞定M3U8视频下载的终极指南

告别复杂命令：3步搞定M3U8视频下载的终极指南【免费下载链接】N_m3u8DL-CLI-SimpleG N_m3u8DL-CLIs simple GUI 项目地址: https://gitcode.com/gh_mirrors/nm3/N_m3u8DL-CLI-SimpleG 你是否曾经遇到过这样的困扰？在网上找到了心仪的视频教程或精…...

编程新知 2026/5/21 9:32:39

告别B站界面混乱：3步找回经典小电视播放器

告别B站界面混乱：3步找回经典小电视播放器【免费下载链接】Bilibili-Old 恢复旧版Bilibili页面，为了那些念旧的人。项目地址: https://gitcode.com/gh_mirrors/bi/Bilibili-Old 你是否对B站新版界面感到无所适从？那些复杂的推荐算法…...

编程新知 2026/5/21 9:30:39

从PubMed到VOSviewer：手把手教你用MeSH词表做更精准的医学文献关键词共现分析

从PubMed到VOSviewer：解锁MeSH词表在医学文献分析中的精准力量医学研究者常面临海量文献的筛选难题——如何从数万篇论文中快速识别核心研究方向？传统的关键词共现分析往往被"aged"、"female"等高频但低区分度的词汇干扰&#xff0…...

编程新知 2026/5/21 8:24:37

DeepSeek v3.2.1核心模块异常日志分析（生产环境未公开的5个堆栈陷阱）

更多请点击： https://kaifayun.com 第一章：DeepSeek v3.2.1核心模块异常日志分析（生产环境未公开的5个堆栈陷阱） 在高并发场景下，DeepSeek v3.2.1 的 model-router 与 kv-cache-sync 模块频繁触发非预期 panic&#x…...

编程新知 2026/5/21 6:53:49

别再硬编码了！ABAP Text Elements 三分钟搞定报表字段中文显示（附图标添加技巧）

ABAP文本元素实战：告别硬编码的报表开发艺术每次看到报表界面上那些冷冰冰的字段名——MATNR、WERKS、VBELN——你是不是也感到一丝尴尬？业务用户可不懂这些技术缩写，他们需要的是直观的"物料编号"、"工厂"和"销售…...

编程新知 2026/5/21 6:08:55

6G通信中的HMA天线技术：原理、优势与应用

1. HMA天线技术概述在6G通信和大规模MIMO系统的发展背景下，Huygens Metasurface Antennas（HMA）技术正逐渐成为无线通信领域的研究热点。作为一名长期从事天线系统设计的工程师，我见证了从传统相控阵到现代超表面天线的技术演进历程…...

编程新知 2026/5/21 5:27:26

安防摄像头ISP不够用？聊聊MIPI CSI离线模式（Offline Pipeline）与RAW数据缓存的那些事

安防摄像头ISP资源紧张？深度解析MIPI CSI离线模式与RAW数据缓存技术在智能安防和车载视觉系统快速发展的今天，多摄像头协同工作已成为行业标配。无论是商场监控中的360度无死角覆盖，还是汽车环视系统中的多路影像同步处理，都对图…...

编程新知 2026/5/21 5:15:16

Python实现PDF转换文件格式

相关文章：

Python实现PDF转换文件格式

【Ceph Cluster】完全删除Ceph集群

4.Vue-Vue调用第三方接口

大语言模型在推荐系统的实践应用

第三章交换技术及应用

地震勘探原理部分问题解答

两个步骤轻松搞定批量合并视频

VR虚拟现实在室内设计仿真教学中的应用演示

Python操作串口通信

图详解第四篇：单源最短路径--Dijkstra算法

CRMEB多商户商城系统阿里云集群部署教程

Java第三方登录封装工具类

BUUCTF学习(四): 文件包含tips

德国人工智能公司【Kodex AI】完成160万欧元融资

LeetCode 2 两数相加

springboot项目启动失败，不打印报错详细信息(启动打印日记问题)

MyBatis (where、set、foreach)标签

flutter开发之安装dart

向量召回：深入评估离线体系，探索优质召回方法

播放器缓存队列bug解决方案

LuaJIT反编译终极解决方案：LJD工具深度解析与实战指南

Onekey Steam清单下载工具：快速获取游戏清单的完整指南

CANN/asc-devkit SIMT fmodf函数

告别复杂命令：3步搞定M3U8视频下载的终极指南

告别B站界面混乱：3步找回经典小电视播放器

从PubMed到VOSviewer：手把手教你用MeSH词表做更精准的医学文献关键词共现分析

DeepSeek v3.2.1核心模块异常日志分析（生产环境未公开的5个堆栈陷阱）

别再硬编码了！ABAP Text Elements 三分钟搞定报表字段中文显示（附图标添加技巧）

6G通信中的HMA天线技术：原理、优势与应用

安防摄像头ISP不够用？聊聊MIPI CSI离线模式（Offline Pipeline）与RAW数据缓存的那些事