当前位置: 首页 > news >正文

python pdf转word或excel

python pdf转word或excel

直接上源码

main

import gradio as gr
import pdf2docx as p2d
import Pdf2Excel as p2e
import utils.id.IdUtil as idUtildef convert_pdf_to(pdf_file, pdf_pwd, pdf_to_type):if pdf_to_type == "docx":# Convert PDF to DOCXcv = p2d.Converter(pdf_file, password=pdf_pwd)tmp_file = f"./output_{idUtil.IdUtil.getUUid()}.docx"cv.convert(tmp_file)cv.close()return tmp_fileelse:# Convert PDF to Excelcv = p2e.Converter(pdf_file, password=pdf_pwd)tmp_file = f"./output_{idUtil.IdUtil.getUUid()}.xlsx"cv.convert(tmp_file)return tmp_fileif __name__ == '__main__':with gr.Blocks() as b:gr.Markdown("PDF to ")with gr.Row():with gr.Column():pdf_file = gr.File(label="PDF文件", file_types=[".pdf"], file_count="single")pdf_pwd = gr.Text(label="密码,非必填")pdf_to_type = gr.Radio(["docx", "excel"], label="输出格式", value="docx")convert_btn = gr.Button("转换")out_file = gr.File(label="输出文件")convert_btn.click(convert_pdf_to, inputs=[pdf_file, pdf_pwd, pdf_to_type], outputs=[out_file],trigger_mode="once")b.launch(share=True)

Pdf2Excel

import tabula
import pandas as pdclass Converter:def __init__(self, pdf_file: str, password: str = None,):self.pdf_file = pdf_fileself.password = passworddef convert(self, out_file: str):excel_file = out_file if out_file.lower().endswith(".xlsx") else f"{out_file}.xlsx"# 读取PDF文件中的所有表格tables = tabula.read_pdf(self.pdf_file, password=self.password, pages='all', multiple_tables=True)# 创建一个Excel写入器writer = pd.ExcelWriter(excel_file)# 将每个表格合并到一个数据框中merged_table = pd.concat(tables, ignore_index=True)# 将合并的表格写入Excel文件中的一个工作表merged_table.to_excel(writer, sheet_name='All Tables', index=False)# 保存Excel文件writer.close()return f"./{excel_file}"

IdUtil

import time
import uuidclass IdUtil:# 获取一个UUid@staticmethoddef getUUid(only: bool = False, notHandler: bool = False) -> str:id = str(uuid.uuid1()) if only else str(uuid.uuid4()) + str(time.time()).split(".")[0]if notHandler:return idelse:return "".join(id.split("-"))

相关文章:

python pdf转word或excel

python pdf转word或excel 直接上源码 main import gradio as gr import pdf2docx as p2d import Pdf2Excel as p2e import utils.id.IdUtil as idUtildef convert_pdf_to(pdf_file, pdf_pwd, pdf_to_type):if pdf_to_type "docx":# Convert PDF to DOCXcv p2d.C…...

GNU链接器(LD):位置计数器(.)功能及实例解析

0 参考资料 GNU-LD-v2.30-中文手册.pdf GNU linker.pdf1 前言 一个完整的编译工具链应该包含以下4个部分: (1)编译器 (2)汇编器 (3)链接器 (4)lib库 在GNU工具链中&…...

学习记录:js算法(四十三):翻转二叉树

文章目录 翻转二叉树我的思路网上思路递归栈 总结 翻转二叉树 给你一棵二叉树的根节点 root ,翻转这棵二叉树,并返回其根节点 图一: 图二: 示例 1:(如图一) 输入:root [4,2,7,1…...

关于 SQL 的 JOIN 操作

关于 SQL 的 JOIN 操作 在关系型数据库中,数据通常分布在多个表中。为了进行有效的数据检索,我们需要从不同的表中组合数据,这时就需要使用 JOIN 操作。本文将深入探讨 SQL 中不同类型的 JOIN 及其用法,以帮助你在数据库查询中更…...

聊聊AUTOSAR:基于Vector MICROSAR的TC8测试开发方案

技术背景 车载以太网技术作为汽车智能化和网联化的重要组成部分,正逐步成为现代汽车网络架构的核心,已广泛应用于汽车诊断(如OBD)、ECU软件更新、智能座舱系统、高清摄像头环视泊车系统等多个领域。 在这个过程中,ET…...

ES6中迭代器与生成器知识浅析

ES5及以下版本对JS几种集合,要存取数据一般需要用循环语句来遍历,就要初始化一个或多个变量来记录每一次循环在数据集合中的位置或数据值。这里容易出现超出边界问题,造成程序出错。另外,对于多次循环也需要跟踪理清各个变量关系及…...

unix中的vfork函数

一、前言 本文介绍unix中的vfork函数,vfork函数功能和fork函数类似,也是用于创建新的进程,只不过调用vfork函数创建的子进程将共享父进程的进程空间,且只有当子进程调用exec()或者exit()函数后,父进程才会继续运行。 …...

Android 用线程池实现一个简单的任务队列(Kotlin)

关于线程池,Kotlin和java的使用方式一样 在Android中,很多人喜欢用Handler的postDelayed() 去实现延时任务. 要使用postDelayed(),去实现延时任务队列,就不可避免要使用递归. 但是这样做,代码的简洁性,和书写的简易,就远不如使用线程池. 使用线程池的简单程度: private val…...

遨游信息技术的浩瀚宇宙:探索MySQL的深邃奥秘

遨游信息技术的浩瀚宇宙:探索MySQL的深邃奥秘 在信息技术的浩瀚宇宙中,MySQL犹如一颗璀璨的星辰,以其稳定、高效、灵活的特性,照亮了无数开发者与数据管理者的前行之路。作为关系型数据库管理系统的佼佼者,MySQL不仅承…...

【Bug解决】Nacos启动成功,但却无法访问(提示:无法访问此网站,192.168.10.88的响应时间过长)

项目场景: 在虚拟机上通过Docker创建Nacos容器,已经创建成功,查看Nacos启动日志也是成功。但通过端口号加8848/nacos(如:http://IP:8848/nacos)无法访问到Nacos管理页面。 愿意分析一: 先检查好…...

【AI创作组】工程方向的硕士研究生学习Matlab的路径

1. MATLAB软件概述 1.1 MATLAB发展历程 MATLAB自20世纪70年代诞生以来,已经经历了多次重要的版本更新和功能扩展。 初始版本:MATLAB的前身只是一个简单的交互式矩阵计算器,由Cleve B. Moler博士在1970年代初期开发,目的是为了方便学生和研究人员使用线性代数软件包LINPAC…...

Mac使用Nginx设置代理,并禁用自带Apache

Mac自带Apache服务,并占用80端口,如果需要使用Nginx,需要禁用Apache并自己安装Nginx 一、禁用自带Apache 1.关闭Apache sudo apachectl -k stop 如果出现如下报错:httpd: Could not reliably determine the server’s fully q…...

AlmaLinux 安裝JDK8

在 AlmaLinux 上安装 JDK 8 可以通过包管理器 dnf 来完成。AlmaLinux 是基于 RHEL 的一个开源发行版,因此其包管理系统和 RHEL 类似。以下是详细的步骤来安装 OpenJDK 8 1. 更新系统包列表 sudo dnf update -y 2. 安装 OpenJDK 8 使用 dnf 安装 OpenJDK 8。你可…...

Set 和 Map 的模拟实现

1、引言 在数据结构与算法的学习与实践中,关联容器(associative containers)是不可忽视的重要工具。作为高效管理数据的一类容器,C 标准库中的 set 和 map 在现代软件开发中扮演着关键角色。这两个容器通过平衡二叉搜索树&#x…...

深度学习自编码器 - 预测稀疏分解(PSD)篇

序言 在数据科学与机器学习的广阔领域中,深度学习作为一股不可忽视的力量,正引领着技术革新的浪潮。其中,自编码器( Autoencoder \text{Autoencoder} Autoencoder)作为一种特殊的神经网络结构,以其独特的自…...

如何检测出来这个ip是共享ip不安全

检测一个IP是否为共享IP以及其安全性可以通过以下几种方法和工具来进行分析。共享IP通常是指多个用户共享一个IP地址,常见于公共代理服务器、VPN服务或数据中心IP。如果你想评估一个IP是否为共享IP以及其安全性,以下方法和工具可以帮助你进行检测和分析。…...

TMStarget学习——T1 Segmentation数据处理及解bug

最新学习季公俊老师的神器 TMStarget 的第一个模块基于结构像的靶区计算T1 segmentation。下面上步骤: (1)在github 上下载 TMStarget https://github.com/jigongjun/Neuroimaging-and-Neuromodulation (2)按照要求下载依赖工具软件AFQ、vistasoft、SPM12 &#…...

锁策略, cas 和 synchronized 优化过程

1.1 常見的鎖策略 預測鎖衝突概率 樂觀鎖:加鎖的時候,假設出現鎖衝突的概率不大。圍繞加鎖做的工作會更少。 悲觀鎖:加鎖的時候,假設鎖出現衝突的概率很大。圍繞加鎖做的工作會更多。 synchronized “自適應” 初始是樂觀的。鎖…...

【HTML5】html5开篇基础(2)

1.❤️❤️前言~🥳🎉🎉🎉 Hello, Hello~ 亲爱的朋友们👋👋,这里是E绵绵呀✍️✍️。 如果你喜欢这篇文章,请别吝啬你的点赞❤️❤️和收藏📖📖。如果你对我的…...

大数据新视界 --大数据大厂之 Reactjs 在大数据应用开发中的优势与实践

💖💖💖亲爱的朋友们,热烈欢迎你们来到 青云交的博客!能与你们在此邂逅,我满心欢喜,深感无比荣幸。在这个瞬息万变的时代,我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而 我的…...

基于RL78 MCU的低功耗声音采集系统设计与实现详解

1. 项目概述:一个基于RL78的低功耗声音采集系统最近在整理一个老项目的技术文档,正好翻出来一个挺有意思的案例:一个基于瑞萨RL78系列MCU的低功耗声音采集与显示系统。这个项目的核心目标很明确,就是实现一个能够长时间、稳定地采…...

氨基酸表活洁面慕斯科普

一、什么是洁面慕斯洁面慕斯是一种预发泡型的洁面产品,和传统膏状、洗面奶不同,它从泵头挤出来就是细腻绵密的泡沫,不需要消费者手动打泡,使用起来更加方便快捷。从成分体系来看,洁面慕斯本质还是表面活性剂清洁产品&a…...

拯救者工具箱终极指南:3大场景化解决方案提升笔记本使用体验

拯救者工具箱终极指南:3大场景化解决方案提升笔记本使用体验 【免费下载链接】LenovoLegionToolkit Lightweight Lenovo Vantage and Hotkeys replacement for Lenovo Legion laptops. 项目地址: https://gitcode.com/gh_mirrors/le/LenovoLegionToolkit 联想…...

HNU 计算机系统 bomblab:从GDB断点到链表重构的逆向实战

1. 逆向工程实战:从零开始拆解二进制炸弹 第一次接触bomblab时,我盯着终端里那个名为"bomb"的可执行文件发呆了十分钟。这个看似普通的Linux程序就像个黑盒子,里面藏着六个需要密码才能解除的"炸弹"。作为计算机系统课程…...

HarmonyOS ArkWeb 系列之用户一复制,我就知道——剪贴板事件监听实战

文章目录 剪贴板事件有哪几个ArkTS 侧配置H5 侧的事件监听实现流程图:copy 事件拦截修改三种事件的使用场景对比一个实用的"只允许粘贴纯文本"方案踩坑记录写在最后 上一篇讲了怎么用代码主动读写剪贴板。但有时候需求不是主动操作,而是监听—…...

一小时搞懂Python函数:原理+实践

目录 🙄什么是Python函数(了解函数的概念) 🤔为什么需要它?(背景和痛点) 😮函数的分类(函数有哪些?) 内置函数 标准库函数 第三方库函数 定…...

网络安全有哪些岗位?如何成为一名优秀的网络安全工程师?

网络安全有哪些岗位?如何成为一名优秀的网络安全工程师? 网络安全是什么? 首先说一下什么是网络安全?其中,网络安全工程师工作内容具体有哪些? 网络安全 确保网络系统的硬件、软件及其系统中的数据受到保护…...

别再死记公式了!用HFSS和Matlab FDTD两种方法,手把手教你仿真微带线阻抗(附工程文件)

微带线阻抗仿真实战:HFSS与Matlab FDTD双路径深度解析 微带线作为高频电路设计中最常见的传输线结构之一,其特性阻抗的准确计算直接关系到信号完整性和系统性能。许多工程师在学习初期都会遇到一个共同困惑:为什么教科书公式计算结果与仿真或…...

别再手动写代码了!用Coze工作流的Code节点,让AI帮你搞定Python/JS脚本(附IDE调试技巧)

解放双手:用Coze工作流Code节点实现智能编码全攻略 在代码的世界里,我们常常陷入重复劳动的泥潭——那些格式固定的API调用、千篇一律的数据处理、周而复始的脚本编写。有没有一种方式,能让我们从这些机械性编码中解脱出来,把创造…...

Matlab求解微分代数方程:从核心概念到工程实践

1. 项目概述:从“混合系统”到“微分代数方程”在工程仿真、电路设计、多体动力学这些领域里摸爬滚打久了,你一定会遇到一类让人又爱又恨的模型。它们看起来像是一组微分方程,描述了系统状态随时间的变化,但同时又夹杂着一堆代数约…...