当前位置: 首页 > article >正文

两个还算好用的ppt转word和PDF转word的python脚本

PPT转word:

import re
from pptx import Presentation
from docx import Document
from docx.shared import Inches
from io import BytesIO
from PIL import Imagedef clean_text(text):# 使用正则表达式删除控制字符和NULL字节return re.sub(r'[\x00-\x1F\x7F]', '', text)def ppt_to_word(ppt_file, word_file):prs = Presentation(ppt_file)doc = Document()for slide in prs.slides:for shape in slide.shapes:if shape.has_text_frame:text = shape.text_frame.textcleaned_text = clean_text(text)  # 清理文本中的无效字符doc.add_paragraph(cleaned_text)# shape.shape_type==13 表示图片if shape.shape_type == 13:image = shape.image# 使用图片原始的 blob 数据构建 BytesIOimage_stream = BytesIO(image.blob)# 插入图片到Word文档doc.add_paragraph().add_run().add_picture(image_stream, width=Inches(3))doc.save(word_file)print(f"转换完成,文件保存为 {word_file}")# 示例
ppt_to_word("PPTs/Fixed Asset.pptx", "Documents/fixed asset.docx")

PDF转word:

import sys
import PyPDF2
from docx import Documentdef extract_text_from_pdf(pdf_path):"""从 PDF 文件中提取文本内容:param pdf_path: PDF 文件的路径:return: 提取的文本,字符串类型"""text = ""with open(pdf_path, 'rb') as file:reader = PyPDF2.PdfReader(file)# 遍历每一页,并提取文字for page in reader.pages:page_text = page.extract_text()if page_text:text += page_text + "\n"return textdef write_text_to_docx(text, docx_path):"""将文本写入到 Word 文档中:param text: 需要写入的文本内容:param docx_path: 输出 docx 文件的路径"""document = Document()document.add_paragraph(text)document.save(docx_path)if __name__ == '__main__':if len(sys.argv) < 2:print("用法: python extract_pdf_text.py 输入文件.pdf [输出文件.docx]")sys.exit(1)pdf_path = sys.argv[1]# 如果传入了输出文件名则使用,否则默认 "output.docx"output_path = sys.argv[2] if len(sys.argv) > 2 else "output.docx"try:print("正在提取 PDF 文本...")text = extract_text_from_pdf(pdf_path)print("正在写入到 Word 文档...")write_text_to_docx(text, output_path)print(f"转换成功!输出文档为:{output_path}")except Exception as e:print("转换失败:", e)

相关文章:

两个还算好用的ppt转word和PDF转word的python脚本

PPT转word&#xff1a; import re from pptx import Presentation from docx import Document from docx.shared import Inches from io import BytesIO from PIL import Imagedef clean_text(text):# 使用正则表达式删除控制字符和NULL字节return re.sub(r[\x00-\x1F\x7F], ,…...

opencascade 源码学习 XmlDrivers-XmlDrivers

OpenCASCADE 中的 XmlDrivers 是用于处理 XML 格式的 CAD 数据持久化模块&#xff0c;属于 OCAF&#xff08;Open CASCADE Application Framework&#xff09; 的一部分。它允许将 OCAF 文档&#xff08;包含 CAD 数据、属性、关系等&#xff09;序列化为 XML 文件&#xff0c;…...

Java-模块二-1

print和println print 和 println 是两种常用的输出方法&#xff0c;主要用于在控制台上打印信息。它们的行为因编程语言而异&#xff0c;但通常具有以下特点&#xff1a; Java中的print和println System.out.print()&#xff1a;此方法用于打印输出内容到控制台&#xff0c;…...

k8s--集群内的pod调用集群外的服务

关于如何让同一个局域网内的Kubernetes服务的Pod访问同一局域网中的电脑上的服务。 可能的解决方案包括使用ClusterIP、NodePort、Headless Service、HostNetwork、ExternalIPs&#xff0c;或者直接使用Pod网络。每种方法都有不同的适用场景&#xff0c;需要逐一分析。 例如&…...

AI比人脑更强,因为被植入思维模型【20】卡尼曼双系统理论

定义 卡尼曼双系统理论思维模型是由诺贝尔经济学奖得主丹尼尔卡尼曼提出的&#xff0c;该理论认为人类的思维系统可以分为两个相互关联但又具有不同特点的子系统&#xff0c;即系统1&#xff08;快思考&#xff09;和系统2&#xff08;慢思考&#xff09;。系统1是基于直觉、经…...

ccfcsp3302相似度计算

//相似度计算 #include<iostream> #include<set>//不重复 #include<string> using namespace std; int main() {int n, m;cin >> n >> m;set<string>str1;set<string>str2;for(int i0;i<n;i){string s;cin>>s;for(int j0;…...

jEasyUI 创建 RSS 阅读器

jEasyUI 创建 RSS 阅读器 引言 随着互联网的快速发展&#xff0c;信息量呈爆炸式增长。为了方便用户快速获取所需信息&#xff0c;RSS 阅读器应运而生。jEasyUI 是一款流行的前端框架&#xff0c;具有丰富的组件和便捷的开发体验。本文将介绍如何使用 jEasyUI 创建一个功能齐…...

DeepSeek和Kimi在Neo4j中的表现

以下是2个最近爆火的人工智能工具&#xff0c; DeepSeek:DeepSeek Kimi: Kimi - 会推理解析&#xff0c;能深度思考的AI助手 1、提示词&#xff1a; 你能帮我生成一个知识图谱吗&#xff0c;等一下我会给你一篇文章&#xff0c;帮我从内容中提取关键要素&#xff0c;然后以N…...

【Java】TCP网络编程:从可靠传输到Socket实战

活动发起人小虚竹 想对你说&#xff1a; 这是一个以写作博客为目的的创作活动&#xff0c;旨在鼓励大学生博主们挖掘自己的创作潜能&#xff0c;展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴&#xff0c;那么&#xff0c;快来参加吧&#xff01…...

windows 平台编译openssl

文章目录 准备环境安装perl安装NASM获取源码 源码编译配置编译 准备环境 安装perl 下载Perl 5.40.0.1 Portable zip strawberryperl 解压后设置系统环境变量 测试安装是否成功 perl --versionThis is perl 5, version 40, subversion 0 (v5.40.0) built for MSWin32-x64-m…...

剑指小米特斯拉:秦L EV上市11.98万起

3月23日&#xff0c;比亚迪王朝网推出全新中级纯电轿车秦L EV&#xff0c;价格区间为11.98万-13.98万元&#xff0c;瞬间火爆市场。 依托e平台3.0 Evo技术赋能&#xff0c;秦L EV以“国潮设计、智能座舱、越级空间、高效安全、高阶智驾”五大核心优势&#xff0c;直击年轻用户痛…...

避雷 :C语言中 scanf() 函数的错误❌使用!!!

1. 返回值说明 scanf函数会返回成功匹配并赋值的输入项个数&#xff0c;而不是返回输入的数据。 可以通过检查返回值数量来确认输入是否成功。若返回值与预期不符&#xff0c;就表明输入存在问题。 #include <stdio.h>int main() {int num;if (scanf("%d", …...

Godot读取json配置文件

概述 在Godot 4.3中读取JSON配置文件&#xff0c;可以通过以下步骤实现&#xff1a; 步骤说明 读取文件内容&#xff1a;使用FileAccess类打开并读取JSON文件。 解析JSON数据&#xff1a;使用JSON类解析读取到的文本内容。 错误处理&#xff1a;处理文件不存在或JSON格式错…...

Hadoop 3.x中的zookeeper和JournalNode的作用

在Hadoop 3.x版本中,ZooKeeper 和 JournalNode 的作用有所变化和增强,尤其是在HDFS高可用性(HA)架构和其他Hadoop组件的协作方面。下面是它们在Hadoop 3.x中的具体作用: ZooKeeper 继续在Hadoop 3.x中为集群提供协调服务,尤其是在HDFS的高可用性和YARN资源管理器的管理中…...

蓝桥杯高频考点——并查集(心血之作)

并查集 TA Can Do What & why learningwhatwhy 原理和结构路径压缩例题讲解题解solution 1&#xff08;50分&#xff09;solution 2&#xff08;100分&#xff09; 按秩(树高)合并按大小合并 TA Can Do What & why learning 从字面意思上来理解就是&#xff0c;合并&a…...

基于概率图模型的蛋白质功能预测

标题:基于概率图模型的蛋白质功能预测 内容:1.摘要 蛋白质功能预测在生物学研究中具有重要意义&#xff0c;能够帮助理解生命过程和疾病机制。本研究的目的是利用概率图模型进行蛋白质功能预测。方法上&#xff0c;收集了大量已知功能的蛋白质数据构建数据集&#xff0c;运用贝…...

Flutter 学习之旅 之 flutter 使用 connectivity_plus 进行网路状态监听(断网/网络恢复事件监听)

Flutter 学习之旅 之 flutter 使用 connectivity_plus 进行网路状态监听&#xff08;断网/网络恢复事件监听&#xff09; 目录 Flutter 学习之旅 之 flutter 使用 connectivity_plus 进行网路状态监听&#xff08;断网/网络恢复事件监听&#xff09; 一、简单介绍 二、conne…...

Redisson 分布式锁原理

加锁原理 # 如果锁不存在 if (redis.call(exists, KEYS[1]) 0) then# hash结构,锁名称为key,线程唯一标识为itemKey&#xff0c;itemValue为一个计数器。支持相同客户端线程可重入,每次加锁计数器1.redis.call(hincrby, KEYS[1], ARGV[2], 1);# 设置过期时间redis.call(pexpi…...

高频SQL50题 第四天 | 1251. 平均售价、620. 有趣的电影、1075. 项目员工 I、1633. 各赛事的用户注册率

知识点导览&#xff1a;日期大小比较&#xff1b;ifnull(字段&#xff0c;默认值)函数&#xff1b;取余操作&#xff1b;字符串比较like&#xff1b;逆序desc 1251. 平均售价 题目链接&#xff1a;https://leetcode.cn/problems/average-selling-price/description/?envTypest…...

【STM32】SPI通信外设硬件SPI读写W25Q64

SPI通信协议和W25Q64存储器芯片解读笔记&#xff1a; 【STM32】SPI通信协议&W25Q64Flash存储器芯片&#xff08;学习笔记&#xff09;-CSDN博客 SPI通信外设 SPI外设简介 STM32内部集成了硬件SPI收发电路&#xff0c;可以由硬件自动执行时钟生成、数据收发等功能&…...

风暴潮、潮汐潮流模拟:ROMS模型如何精准预测海洋现象?

海洋数值模拟的崛起与 ROMS 的关键角色 &#x1f30a;在海洋科学的浪潮中&#xff0c;海洋数值模拟正以迅猛之势崛起&#xff0c;成为科研与实际应用领域不可或缺的利器。ROMS&#xff08;Regional Ocean Modeling System&#xff09;作为其中的佼佼者&#xff0c;凭借其高效、…...

Spring JDBC Template与事务管理:基于XML与注解的实战指南

摘要 本文深入解析Spring JDBC Template与事务管理的核心技术&#xff0c;结合XML配置与注解方式两种主流方案&#xff0c;通过转账案例完整演示数据库操作与事务管理的最佳实践。文章涵盖JDBC Template的核心用法、事务配置语法、常见问题及性能优化建议&#xff0c;帮助开发…...

【Keil5-开发技巧】

Keil5-开发技巧 ■ Keil5利用AStyle插件格式化代码第一步:下载AStyle插件第二步:添加AStyle插件第三步:AStyle插件介绍■ 一键转UTF-8编码■ Keil5利用AStyle插件格式化代码 第一步:下载AStyle插件 AStyle下载 第二步:添加AStyle插件 解压后 astyle-3.6.7-x64 在重命…...

Uniapp:基于 Vue.js 的高效跨平台开发框架

Uniapp 介绍 Uniapp&#xff08;全称&#xff1a;Universal Application&#xff09;是一款基于 Vue.js 的跨平台开发框架&#xff0c;由 DCloud 公司开发和维护。它允许开发者使用一套代码同时构建运行在多个平台&#xff08;如 iOS、Android、Web、小程序、快应用等&#xf…...

form 表单内容序列化成一个字符串

html <form id"form1" action"http://localhost:8080/xxx" method"post"> <p >关键字1&#xff1a; <input type "text" name"keyword1" /></p> <p >关键字2&#xff1a; <input t…...

电脑上不了网普通用户排除方法

1&#xff1a;首先通过电脑的运行/CMD/ipconfig /all 命令查看电脑的ip地址是否正常如图&#xff1a; 2&#xff1a;在命令行中运行&#xff1a;ping 127.0.0.1 如图则正常&#xff0c;否则要重新安装网卡驱动 程序。 3&#xff1a;用ping命令&#xff0c;ping一下同网段的电…...

【C#】WinForm自定义控件及窗体

前言 WinForm&#xff08;Windows Forms&#xff09;是Microsoft.NET框架中的技术&#xff0c;用于开发Windows桌面应用程序。它提供了一套丰富的控件和组件。通过拖放控件、编写事件处理程序等方式快速构建用户界面。 通过属性窗口定制这些控件的外观和行为。 通过数据绑定&am…...

基于虚拟知识图谱的语义化决策引擎

在数字化转型浪潮中&#xff0c;企业数据资产的价值释放面临两大挑战&#xff1a;海量异构数据的整合困局与业务-技术语义鸿沟。本文解析飞速创软灵燕智能体平台的创新解决方案——通过构建业务语义驱动的虚拟知识图谱系统&#xff0c;实现企业数据的智能认知与决策赋能。 一、…...

七天免登录 为什么不能用seesion,客户端的http请求自动携带cookei的机制(比较重要)涉及HTTP规范

如果是七天免登录,和session肯定没关系,因为session不能持久化,主要是客户端一旦关闭,seesion就失效了/// 所以必须是能持久化的&#xff0c;这就清晰了&#xff0c;要莫在的服务器保存&#xff0c;要摸在客户端设置 cook机制 1. 使用Cookie实现七天免登录 前端&#xff08;登…...

HarmonyOS:@AnimatableExtend 装饰器自学指南

在最近的项目开发中&#xff0c;我遇到了需要实现复杂动画效果的需求。在探索解决方案的过程中&#xff0c;我发现了 AnimatableExtend 装饰器&#xff0c;它为实现动画效果提供了一种非常灵活且强大的方式。然而&#xff0c;在学习这个装饰器的过程中&#xff0c;我发现相关的…...