当前位置: 首页 > news >正文

Python实现PDF转换文件格式

最近工作中经常遇到收到其他人提供的pdf文档,想要编辑修改下或者复制部分内容比较困难,想通过现有的pdf工具软件转换文档格式,基本都要充钱,为了免费实现pdf转换工具,网上查了下相关技术方案,整理了下代码,测试真实有效,分享下。

第一步,安装相关第三方库

pip install PyMuPDF -i https://mirrors.aliyun.com/pypi/simple
pip install pdf2docx -i https://mirrors.aliyun.com/pypi/simple

第二步,编写代码

pdfConverter.py:

import datetime
import os
# fitz就是pip install PyMuPDF
import fitz
# pdf2docx 也是封装 fitz 模块为基础开发的
from pdf2docx import Converter'''
pdf 转换工具包
pdf 转成 word
pdf 转成 图片
pdf 转成 html
'''def pdf2word(file_path):'''@方法名称: pdf转word@中文注释: pdf转word@入参:@param file_path str pdf文件路径@出参:@返回状态:@return 0 失败或异常@return 1 成功@返回错误码@返回错误信息@param doc_file str word文件名@作    者: PandaCode辉@创建时间: 2023-10-16@使用范例: pdf2word('test.pdf')'''try:if (not type(file_path) is str):return [0, "111111", "pdf文件路径参数类型错误,不为字符串", [None]]# 开始时间startTime = datetime.datetime.now()# 提取文件名,去除文件后缀file_name = file_path.split('.')[0]print(file_name)# word文件名doc_file = f'{file_name}.docx'print(doc_file)p2w = Converter(file_path)'''convert(doc_file,start,end)函数中doc_file:转化完成后文件名start:转化开始页面end:转化结束页面注意点:①若不给start,end参数则默认转化全篇②对于不连续的页面,也可写作convert(doc_file , pages = [2,4,6])'''p2w.convert(doc_file, start=0, end=None)p2w.close()endTime = datetime.datetime.now()  # 结束时间print('pdf转word耗时: %s 秒' % (endTime - startTime).seconds)print("pdf转word成功")# 返回容器return [1, '000000', 'pdf转word成功', [doc_file]]except Exception as e:p2w.close()print("pdf转word异常," + str(e))return [0, '999999', "pdf转word异常," + str(e), [None]]def pdf2image(file_path, image_path):'''@方法名称: pdf转图片@中文注释: pdf转图片@入参:@param file_path str pdf文件路径@param image_path str 输出图片路径@出参:@返回状态:@return 0 失败或异常@return 1 成功@返回错误码@返回错误信息@param image_path str 输出图片路径@作    者: PandaCode辉@创建时间: 2023-10-16@使用范例: pdf2image('test.pdf', './images')'''try:if (not type(file_path) is str):return [0, "111111", "pdf文件路径参数类型错误,不为字符串", [None]]if (not type(image_path) is str):return [0, "111112", "输出图片路径参数类型错误,不为字符串", [None]]# 开始时间startTime = datetime.datetime.now()print("pdfPath=" + file_path)# 提取文件名,去除文件后缀file_name = file_path.split('.')[0]print(file_name)print("imagePath=" + imagePath)# 打开pdf文档pdfDoc = fitz.open(file_path)# 判断存放图片的文件夹是否存在if not os.path.exists(image_path):# 若图片文件夹不存在就创建os.makedirs(image_path)# Document.page_count	页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print('=======%s========' % (pg + 1))'''页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像,并搜索文本字符串。对于PDF文档,可以使用更多的方法向页面添加文本或图像。'''page = pdfDoc[pg]rotate = int(0)# 每个尺寸的缩放系数为1.3,这将为我们生成分辨率提高2.6的图像。# 此处若是不做设置,默认图片大小为:792X612, dpi=96zoom_x = 1.33333333  # (1.33333333-->1056x816)   (2-->1584x1224)zoom_y = 1.33333333mat = fitz.Matrix(zoom_x, zoom_y).prerotate(rotate)'''pix是一个Pixmap对象,它(在本例中)包含页面的RGB图像,可用于多种用途。方法Page.get_pixmap()提供了许多用于控制图像的变体:分辨率、颜色空间(例如,生成灰度图像或具有减色方案的图像)、透明度、旋转、镜像、移位、剪切等。        例如:创建RGBA图像(即,包含alpha通道),指定pix=page.get_pixmap(alpha=True)。        Pixmap包含以下引用的许多方法和属性。其中包括整数宽度、高度(每个像素)和跨距(一个水平图像行的字节数)。属性示例表示表示图像数据的矩形字节区域(Python字节对象)。        还可以使用page.get_svg_image()创建页面的矢量图像。'''pix = page.get_pixmap(matrix=mat, alpha=False)# 将图片写入指定的文件夹内pix.save(image_path + '/' + file_name + '_%s.png' % (pg + 1))endTime = datetime.datetime.now()  # 结束时间print('pdf转图片耗时: %s 秒' % (endTime - startTime).seconds)print("pdf转图片成功")# 返回容器return [1, '000000', '"pdf转图片成功', [image_path]]except Exception as e:print("pdf转图片异常," + str(e))return [0, '999999', "pdf转图片异常," + str(e), [None]]def pdf2html(file_path):'''@方法名称: pdf转html@中文注释: pdf转html@入参:@param file_path str pdf文件路径@出参:@返回状态:@return 0 失败或异常@return 1 成功@返回错误码@返回错误信息@param out_file str html文件名@作    者: PandaCode辉@创建时间: 2023-10-16@使用范例: pdf2html('test.pdf')'''try:if (not type(file_path) is str):return [0, "111111", "pdf文件路径参数类型错误,不为字符串", [None]]# 开始时间startTime = datetime.datetime.now()print("pdfPath=" + pdfPath)# 打开pdf文档pdfDoc = fitz.open(pdfPath)# 提取文件名,去除文件后缀file_name = pdfPath.split('.')[0]print(file_name)out_file = f'{file_name}.html'print(out_file)# 打开文件,首次创建写入fo = open(out_file, "w+", encoding="utf-8")# Document.page_count	页数 (int)# 循环页数for pg in range(pdfDoc.page_count):print('=======%s========' % (pg + 1))'''页面(Page)处理是MuPDF功能的核心。您可以将页面呈现为光栅或矢量(SVG)图像,可以选择缩放、旋转、移动或剪切页面。您可以提取多种格式的页面文本和图像,并搜索文本字符串。对于PDF文档,可以使用更多的方法向页面添加文本或图像。'''page = pdfDoc[pg]'''提取文本和图像 page.get_text(opt) 我们还可以以多种不同的形式和细节级别提取页面的所有文本、图像和其他信息:对opt使用以下字符串之一以获取不同的格式:"text":(默认)带换行符的纯文本。无格式、无文字位置详细信息、无图像"blocks":生成文本块(段落)的列表"words":生成单词列表(不包含空格的字符串)"html":创建页面的完整视觉版本,包括任何图像。这可以通过internet浏览器显示"dict" / "json":与HTML相同的信息级别,但作为Python字典或resp.JSON字符串。"rawdict" / "rawjson":"dict" / "json"的超级集合。它还提供诸如XML之类的字符详细信息。"xhtml":文本信息级别与文本版本相同,但包含图像。"xml":不包含图像,但包含每个文本字符的完整位置和字体信息。使用XML模块进行解释'''# html 格式保存原PDF文本和图片样式还行# text = page.get_text('html')# xhtml 格式保存原PDF文本和图片样式更好text = page.get_text('xhtml')# 写入文件fo.write(text)# 关闭文件fo.close()endTime = datetime.datetime.now()  # 结束时间print('pdf转html耗时: %s 秒' % (endTime - startTime).seconds)print("pdf转html成功")# 返回容器return [1, '000000', '"pdf转html成功', [out_file]]except Exception as e:# 关闭文件fo.close()print("pdf转html异常," + str(e))return [0, '999999', "pdf转html异常," + str(e), [None]]if __name__ == "__main__":# PDF地址pdfPath = 'test.pdf'# 1,pdf转wordpdf2word(pdfPath)# 储存图片的目录imagePath = './images'# 2,pdf转图片pdf2image(pdfPath, imagePath)# 3,pdf转htmlpdf2html(pdfPath)

第三步,运行查看效果

相关文章:

Python实现PDF转换文件格式

最近工作中经常遇到收到其他人提供的pdf文档,想要编辑修改下或者复制部分内容比较困难,想通过现有的pdf工具软件转换文档格式,基本都要充钱,为了免费实现pdf转换工具,网上查了下相关技术方案,整理了下代码&…...

【Ceph Cluster】完全删除Ceph集群

注意:在执行这些步骤之前,请确保你已经备份了所有重要的数据,并且你明白这些步骤将永久删除 Ceph 集群。 停止 Ceph 服务: systemctl stop ceph.target卸载 Ceph 包:卸载 Ceph 相关的软件包,使用你的 Linux…...

4.Vue-Vue调用第三方接口

题记 用vue调用第三方接口,以下是全部代码和操作流程。 寻找第三方接口网站 推荐:免费API - 提供免费接口调用平台 (aa1.cn) 下面的代码以下图中的接口为例 安装axios模块 在终端输入以下命令: npm install axios 调用第三方接口代码 调…...

大语言模型在推荐系统的实践应用

本文从应用视角出发,尝试把大语言模型中的一些长处放在推荐系统中。 01 背景和问题 传统的推荐模型网络参数效果较小(不包括embedding参数),训练和推理的时间、空间开销较小,也能充分利用用户-物品的协同信号。但是它的缺陷是只能利用数据…...

第三章 交换技术及应用

目录 3.1 port-vlan技术 3.1.1 VLAN概述 3.1.2 VLAN划分方法——Port-VLAN 3.1.3 Port-VLAN工作原理 3.1.3 Port-VLAN配置 3.2 port-vlan仿真演示 3.2.1 实验背景 3.2.2 实验目的 3.2.3 实验设备 3.2.4 实验步骤思维导图 3.3 tag-vlan技术 3.3.1 问题分析 3.3.2 T…...

地震勘探原理部分问题解答

1、二维/三维(陆地/海洋)地震勘探,炮点(激发点)和检波点(接收点)的排布位置如何?画图作答? (1)陆地地震勘探 二维陆地地震野外采集:震…...

两个步骤轻松搞定批量合并视频

你是否曾经有过批量合并视频的需求,但是却苦于不知道如何下手?今天,我将为你介绍一个简单易行的方法,只需两个步骤,让你轻松实现批量合并视频。 第一步:下载并打开固乔智剪软件 首先,你需要下载…...

VR虚拟现实在室内设计仿真教学中的应用演示

1. 虚拟实景漫游:利用VR技术,学生可以通过戴上VR头盔来进入一个虚拟的室内环境中,感受真实的空间氛围。他们可以自由移动和观察,感受室内设计的效果。这样的体验可以增强学生的想象力和空间感知能力,提高他们的设计水平…...

Python操作串口通信

Python操作串口通信 注意Linux下先要修改串口的权限: sudo chmod 777 /dev/ttyUSB0 以下是python代码: # codingutf-8 # 包:pyserial,pymysql # 权限:sudo chmod 777 /dev/ttyUSB0 import serial # import pymysql …...

图详解第四篇:单源最短路径--Dijkstra算法

文章目录 1. 最短路径问题2. 单源最短路径--Dijkstra算法算法思想图解如何存储路径及其权值代码实现调式观察打印最短路径Dijkstra算法的缺陷 3. 源码 1. 最短路径问题 最短路径问题: 从带权有向图(求最短路径通常是有向图)G中的某一顶点出发…...

CRMEB多商户商城系统阿里云集群部署教程

注意: 1.所有服务创建时地域一定要选择一致,这里我用的是杭州K区 2.文件/图片上传一定要用类似oss的云文件服务, 本文不做演示 一、 创建容器镜像服务,容器镜像服务(aliyun.com) ,个人版本就可以 先创建一个命名空间 然后创建一个镜像仓库 查看并记录镜像公网地址…...

Java第三方登录封装工具类

Java中可以使用第三方登录来简化用户登录流程,常见的第三方登录如QQ、微信、微博等。下面是一个Java封装第三方登录的工具类: import java.io.IOException; import java.util.HashMap; import java.util.Map;import org.apache.http.client.ClientProto…...

BUUCTF学习(四): 文件包含tips

1、介绍 2、hackBar插件安装 教程: Hackbar插件安装-CSDN博客 3、解题 php://filter/readconvert.base64-encode/resource要读取的文件 ?filephp://filter/readconvert.base64-encode/resourceflag.php Base64 在线编码解码 | Base64 加密解密 - Base64.us 结束...

德国人工智能公司【Kodex AI】完成160万欧元融资

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,总部位于德国柏林的人工智能公司【Kodex AI】今日宣布已完成160万欧元融资。 本轮融资由Signals VC领投,Techstars、德意志银行等天使投资者参与,其中包括:most AI首席执行官…...

LeetCode 2 两数相加

题目描述 链接:https://leetcode.cn/problems/add-two-numbers/?envTypefeatured-list&envId2ckc81c?envTypefeatured-list&envId2ckc81c 难度:中等 给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式…...

springboot项目启动失败,不打印报错详细信息(启动打印日记问题)

1&#xff1a;出现这种我问题一般都是日记的问题&#xff0c;查看控制台启动打印的第一句&#xff0c;为什么启动失败&#xff0c;需要用那个日记 2&#xff1a;如果使用的是log4j或者logback与slf4j都是默认在依赖web自带的如下 <dependency><groupId>org.springf…...

MyBatis (where、set、foreach)标签

where标签 在上一节SQL 语句中加入了一个条件“11”&#xff0c;如果没有加入这个条件&#xff0c;那么可能就会变成下面这样一条错误的语句。 SELECT id,name,url,age,country FROM website AND name LIKE CONCAT(%,#{name},%)显然以上语句会出现 SQL 语法异常&#xff0c;但…...

flutter开发之安装dart

1、在MacOS系统中打开终端&#xff0c;进入到官网Get the Dart SDK | Dart brew tap dart-lang/dartbrew install dart 注意&#xff1a;若显示没有brew&#xff0c;请先执行第二步骤&#xff0c;如下&#xff1a; 2、打开homebrew的官网Homebrew — The Missing Package Man…...

向量召回:深入评估离线体系,探索优质召回方法

向量召回:深入评估离线体系,探索优质召回方法 1.简介 近年来,基于向量进行召回的做法在搜索和推荐领域都得到了比较广泛的应用,并且在学术界发表的论文中,基于向量的 dense retrieve 的方法也在不少数据集上都战胜了 sparse retrieve,吸引了越来越多的关注。在内网的不…...

播放器缓存队列bug解决方案

背景 我在开发一个播放器的缓存队列时&#xff0c;遇到一个bug,导致包和帧无法被下一个模块读取 找了半天&#xff0c;原来是队列中的包和帧数据要进行内容的刷新暂存 包数据和帧数据不能直接放入队列 //入队&#xff0c;包进队列 int AVPacketQueue::Push(AVPacket *val,i…...

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

缘由根据当天日期输出明天的日期(需对闰年做判定)。日期类型结构体如下&#xff1a; struct data{ int year; int month; int day;};-编程语言-CSDN问答 struct mdata{ int year; int month; int day; }mdata; int 天数(int year, int month) {switch (month){case 1: case 3:…...

R语言AI模型部署方案:精准离线运行详解

R语言AI模型部署方案:精准离线运行详解 一、项目概述 本文将构建一个完整的R语言AI部署解决方案,实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点: 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

关于nvm与node.js

1 安装nvm 安装过程中手动修改 nvm的安装路径&#xff0c; 以及修改 通过nvm安装node后正在使用的node的存放目录【这句话可能难以理解&#xff0c;但接着往下看你就了然了】 2 修改nvm中settings.txt文件配置 nvm安装成功后&#xff0c;通常在该文件中会出现以下配置&…...

DAY 47

三、通道注意力 3.1 通道注意力的定义 # 新增&#xff1a;通道注意力模块&#xff08;SE模块&#xff09; class ChannelAttention(nn.Module):"""通道注意力模块(Squeeze-and-Excitation)"""def __init__(self, in_channels, reduction_rat…...

智能在线客服平台:数字化时代企业连接用户的 AI 中枢

随着互联网技术的飞速发展&#xff0c;消费者期望能够随时随地与企业进行交流。在线客服平台作为连接企业与客户的重要桥梁&#xff0c;不仅优化了客户体验&#xff0c;还提升了企业的服务效率和市场竞争力。本文将探讨在线客服平台的重要性、技术进展、实际应用&#xff0c;并…...

2021-03-15 iview一些问题

1.iview 在使用tree组件时&#xff0c;发现没有set类的方法&#xff0c;只有get&#xff0c;那么要改变tree值&#xff0c;只能遍历treeData&#xff0c;递归修改treeData的checked&#xff0c;发现无法更改&#xff0c;原因在于check模式下&#xff0c;子元素的勾选状态跟父节…...

C# SqlSugar:依赖注入与仓储模式实践

C# SqlSugar&#xff1a;依赖注入与仓储模式实践 在 C# 的应用开发中&#xff0c;数据库操作是必不可少的环节。为了让数据访问层更加简洁、高效且易于维护&#xff0c;许多开发者会选择成熟的 ORM&#xff08;对象关系映射&#xff09;框架&#xff0c;SqlSugar 就是其中备受…...

【JavaSE】绘图与事件入门学习笔记

-Java绘图坐标体系 坐标体系-介绍 坐标原点位于左上角&#xff0c;以像素为单位。 在Java坐标系中,第一个是x坐标,表示当前位置为水平方向&#xff0c;距离坐标原点x个像素;第二个是y坐标&#xff0c;表示当前位置为垂直方向&#xff0c;距离坐标原点y个像素。 坐标体系-像素 …...

深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南

&#x1f680; C extern 关键字深度解析&#xff1a;跨文件编程的终极指南 &#x1f4c5; 更新时间&#xff1a;2025年6月5日 &#x1f3f7;️ 标签&#xff1a;C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言&#x1f525;一、extern 是什么&#xff1f;&…...

Mobile ALOHA全身模仿学习

一、题目 Mobile ALOHA&#xff1a;通过低成本全身远程操作学习双手移动操作 传统模仿学习&#xff08;Imitation Learning&#xff09;缺点&#xff1a;聚焦与桌面操作&#xff0c;缺乏通用任务所需的移动性和灵活性 本论文优点&#xff1a;&#xff08;1&#xff09;在ALOHA…...