当前位置: 首页 > article >正文

用DeepSeek生成批量删除处理 PDF第一页工具

安装依赖库

在运行程序之前,请确保安装所需的库:

pip install pymupdf python-docx

Python 程序代码 

import os
import fitz  # PyMuPDF
from docx import Documentdef delete_pdf_first_page(input_path, output_path):"""删除 PDF 文件的第一页并保存:param input_path: 输入的 PDF 文件路径:param output_path: 输出的 PDF 文件路径"""# 打开 PDF 文件pdf_document = fitz.open(input_path)# 删除第一页pdf_document.delete_page(0)# 保存修改后的 PDFpdf_document.save(output_path)pdf_document.close()print(f"已处理并保存: {output_path}")def delete_word_first_page(input_path, output_path):"""删除 Word 文件的第一页内容并保存:param input_path: 输入的 Word 文件路径:param output_path: 输出的 Word 文件路径"""# 打开 Word 文件doc = Document(input_path)# 获取第一页的内容范围# 假设第一页的内容在前 500 个字符内(可以根据实际情况调整)first_page_content = doc.paragraphs[:10]  # 取前 10 段作为第一页内容# 删除第一页的内容for paragraph in first_page_content:p = paragraph._elementp.getparent().remove(p)# 保存修改后的 Word 文件doc.save(output_path)print(f"已处理并保存: {output_path}")def batch_process_files(folder_path, output_folder):"""批量处理文件夹中的 PDF 和 Word 文件:param folder_path: 输入文件夹路径:param output_folder: 输出文件夹路径"""# 确保输出文件夹存在if not os.path.exists(output_folder):os.makedirs(output_folder)# 遍历文件夹中的文件for filename in os.listdir(folder_path):file_path = os.path.join(folder_path, filename)output_path = os.path.join(output_folder, filename)try:# 处理 PDF 文件if filename.lower().endswith('.pdf'):print(f"正在处理 PDF 文件: {filename}")delete_pdf_first_page(file_path, output_path)# 处理 Word 文件elif filename.lower().endswith('.docx'):print(f"正在处理 Word 文件: {filename}")delete_word_first_page(file_path, output_path)else:print(f"跳过不支持的文件: {filename}")except Exception as e:print(f"处理文件 {filename} 时出错: {e}")if __name__ == "__main__":# 输入文件夹路径(包含 PDF 和 Word 文件)input_folder = "F:\\python\\pdf"  # 替换为你的输入文件夹路径# 输出文件夹路径output_folder = "F:\\python\\firstpage"  # 替换为你的输出文件夹路径# 批量处理文件batch_process_files(input_folder, output_folder)

程序说明

  1. PDF 文件处理

    • 使用 PyMuPDF 打开 PDF 文件,删除第一页并保存。

    • 注意:PyMuPDF 的 delete_page 方法直接删除指定页面。

  2. Word 文件处理

    • 使用 python-docx 打开 Word 文件,删除第一段内容(模拟删除第一页)。

    • 注意:python-docx 不支持直接删除页面,因此通过删除第一段内容来实现。

  3. 批量处理

    • 程序会遍历指定文件夹中的所有文件,自动识别 PDF 和 Word 文件并处理。

 清华大学DeepSeek整套学习资料(持续更新)链接:https://pan.quark.cn/s/24136c2b13e8

相关文章:

用DeepSeek生成批量删除处理 PDF第一页工具

安装依赖库 在运行程序之前,请确保安装所需的库: pip install pymupdf python-docx Python 程序代码 import os import fitz # PyMuPDF from docx import Documentdef delete_pdf_first_page(input_path, output_path):"""删除 PDF…...

关于高精度力扣66

class Solution { public: vector<int> plusOne(vector<int>& d) { if(d.back()<9){ d[d.size()-1]; return d; } else{ string temp; for(int i0;i<d.size();i){ temptempto_string(d[i]); } int astoi(temp);//这里会报错是因为超过int表示的范围了 a…...

03.03 QT

1.在注册登录的练习里面&#xff0c;追加一个QListwidget 项目列表 要求:点击注册之后&#xff0c;将账号显示到 1istwidget上面去 以及&#xff0c;在listwidget中双击某个账号的时候&#xff0c;将该账号删除 Widget.h: #ifndef WIDGET_H #define WIDGET_H#include <QWi…...

华为云 | 快速搭建DeepSeek推理系统

DeepSeek&#xff08;深度求索&#xff09;作为一款国产AI大模型&#xff0c;凭借其高性能、低成本和多模态融合能力&#xff0c;在人工智能领域崛起&#xff0c;并在多个行业中展现出广泛的应用潜力。 如上所示&#xff0c;在华为云解决方案实践中&#xff0c;华为云提供的快速…...

BUUCTF [BJDCTF2020]EasySearch1

写一篇文章来学习一下 ssi 注入 以及 dirmap 工具的使用 看到这两个框框没什么想法&#xff0c;边探索边扫下目录吧。显示前端报错&#xff0c;先禁用了js&#xff0c;然后又尝试抓了下包&#xff0c;没有发现什么&#xff0c;只好看看扫出来的目录了&#xff0c;最终扫出来了…...

探秘基带算法:从原理到5G时代的通信变革【五】CORDIC算法

文章目录 2.4 CORDIC算法2.4.1 CORDIC算法的基本原理2.4.2 方法论与分类体系旋转模式矢量模式线性模式 2.4.3 **CORDIC 算法中的误差来源****角度逼近误差的分析****缩放效应误差的分析****精度需求与迭代次数的关系****常见应用场景下的迭代次数建议****总结** 2.4.4优缺点分析…...

FPGA学习篇——Verilog学习2

1 系统函数 Verilog 语言中预先定义了一些任务和函数&#xff0c;用于完成一些特殊的功能&#xff0c;它们被称为系统任务和系统函数&#xff0c;这些函数大多数都是只能在 Testbench 仿真中使用的&#xff0c;使我们更方便的进行验证。 1.1 时间预编译指令及延时 时间精度&a…...

51单片机编程学习笔记——74HC245八路三态输出双向收发器

大纲 组成电源引脚和地引脚使能输入端DIR&#xff08;T/R&#xff09;引脚A端和B端 工作原理数据传输方向控制使能控制 在单片机系统里&#xff0c;单片机的 I/O 口驱动能力往往有限。当需要连接较多外部设备或者负载较大时&#xff0c;就可能出现信号传输不稳定的问题。74HC24…...

C++:类和对象(下篇)

1. 再谈构造函数 1.1 构造函数体赋值 在创建对象时&#xff0c;编译器通过调用构造函数&#xff0c;给对象中各个成员变量一个合适的初始值。 class Date { public:Date(int year, int month, int day){_year year;_month month;_day day;} private:int _year;int _mont…...

Full GC 排查

在 Java 中&#xff0c;Full GC&#xff08;完全垃圾回收&#xff09;会对整个堆&#xff08;包括年轻代和老年代&#xff0c;甚至可能包括永久代/元空间&#xff09;进行垃圾回收&#xff0c;通常会导致较长的停顿&#xff08;STW&#xff0c;Stop-The-World&#xff09;。如果…...

DeepSeek集成到VScode工具,让编程更高效

DeepSeek与VScode的强强联合&#xff0c;为编程效率树立了新标杆。 DeepSeek&#xff0c;一款卓越的代码搜索引擎&#xff0c;以其精准的索引和高速的检索能力&#xff0c;助力开发者在浩瀚的代码海洋中迅速定位关键信息。 集成至VScode后&#xff0c;开发者无需离开熟悉的编辑…...

PPT 小黑第38套

对应大猫40 幻灯片母板-最后一页-重命名为奇数页 奇偶页-点中标题-形状格式-形状填充-青色 最后一页页码左对齐 更换幻灯片背景&#xff1a;设计-设置背景格式-图片填充 【开始】-段落居中&#xff0c;对齐文本-中部对齐&#xff0c;排列-对齐-底端&#xff0c;-再水平居中…...

[Web 安全] PHP 反序列化漏洞 —— PHP 魔术方法

关注这个专栏的其他相关笔记&#xff1a;[Web 安全] 反序列化漏洞 - 学习笔记-CSDN博客 PHP 魔术方法 - 简介 - PHP 魔术方法 - 简单教程&#xff0c;简单编程PHP 中&#xff0c;以两个下划线 ( __ ) 开头方法称之为 「 魔术方法 」 这些 「 魔术方法 」 在 [PHP](/l/yufei/php…...

一、图形图像的基本概念

文章目录 一、分辨率概念二、图形图像的区别三、位图和矢量图的区别 一、分辨率概念 图形显示计数中的分辨率概念有三种&#xff0c;即屏幕分辨率、显示分辨率和显卡分辨率。它们既有区别又有着密切的联系&#xff0c;对图形显示的处理有极大的影响。 1.屏幕分辨率 显示器分辨…...

基于Matlab的多目标粒子群优化

在复杂系统的设计、决策与优化问题中&#xff0c;常常需要同时兼顾多个相互冲突的目标&#xff0c;多目标粒子群优化&#xff08;MOPSO&#xff09;算法应运而生&#xff0c;作为群体智能优化算法家族中的重要成员&#xff0c;它为解决此类棘手难题提供了高效且富有创新性的解决…...

20250303-代码笔记-class CVRPTester

文章目录 前言一、class CVRPTester:__init__(self,env_params,model_params, tester_params)1.1函数解析1.2函数分析1.2.1加载预训练模型 1.2函数代码 二、class CVRPTester:run(self)函数解析函数代码 三、class CVRPTester:_test_one_batch(self, batch_size)函数解析函数代…...

C++学习之C++初识、C++对C语言增强、对C语言扩展

一.C初识 1.C简介 2.第一个C程序 //#include <iostream> //iostream 相当于 C语言下的 stdio.h i - input 输入 o -output 输出 //using namespace std; //using 使用 namespace 命名空间 std 标准 &#xff0c;理解为打开一个房间&#xff0c;房间里有我们所需…...

依赖注入与控制反转什么关系

依赖注入属于控制反转&#xff08;Inversion of Control&#xff0c;IoC&#xff09;设计模式的一种具体实现方式。以下是具体解释&#xff1a; 控制反转 控制反转是一种设计思想&#xff0c;它将对象之间的依赖关系的控制权从对象内部转移到了外部的容器或框架中。在传统的编…...

关于虚拟环境中遇到的bug

conda和cmd介绍 介绍 Conda 概述&#xff1a; Conda是一个开源包管理系统和环境管理系统&#xff0c;尤其适用于Python和R语言的开发环境。它允许用户创建独立的虚拟环境&#xff0c;方便地管理依赖包和软件版本。 特点&#xff1a; 环境管理&#xff1a;可以创建、导入、导…...

【网络安全 | 渗透测试】GraphQL精讲一:基础知识

未经许可,不得转载, 文章目录 GraphQL 定义GraphQL 工作原理GraphQL 模式GraphQL 查询GraphQL 变更(Mutations)查询(Queries)和变更(Mutations)的组成部分字段(Fields)参数(Arguments)变量别名(Aliases)片段(Fragments)订阅(Subscriptions)自省(Introspecti…...

01_NLP基础之文本处理的基本方法

自然语言处理入门 自然语言处理&#xff08;Natural Language Processing, 简称NLP&#xff09;是计算机科学与语言学中关注于计算机与人类语言间转换的领域&#xff0c;主要目标是让机器能够理解和生成自然语言&#xff0c;这样人们可以通过语言与计算机进行更自然的互动。 …...

Oracle 导出所有表索引的创建语句

在Oracle数据库中&#xff0c;导出所有表的索引创建语句通常涉及到使用数据字典视图来查询索引的定义&#xff0c;然后生成对应的SQL语句。你可以通过查询DBA_INDEXES或USER_INDEXES视图&#xff08;取决于你的权限和需求&#xff09;来获取这些信息。 使用DBA_INDEXES视图 如…...

什么是JTAG、SWD?

一、什么是JTAG&#xff1f; JTAG&#xff08;Joint Test Action Group&#xff0c;联合测试行动小组&#xff09;是一种国际标准测试协议&#xff0c;常用于芯片内部测试及对系统进行调试、编程等操作。以下从其起源、工作原理、接口标准、应用场景等方面详细介绍&#xff1a…...

物理竞赛中的线性代数

线性代数 1 行列式 1.1 n n n 阶行列式 定义 1.1.1&#xff1a;称以下的式子为一个 n n n 阶行列式&#xff1a; ∣ A ∣ ∣ a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ∣ \begin{vmatrix}\mathbf A\end{vmatrix} \begin{vmatrix} a_{11…...

如何在Apple不再支持的MacOS上安装Homebrew

手头有一台2012年产的Macbook Pro&#xff0c;系统版本停留在了10.15.7&#xff08;2020年9月24日发布的&#xff09;。MacOS 11及后续的版本都无法安装到这台老旧的电脑上。想通过pkg安装Homebrew&#xff0c;发现Homebrew releases里最新的pkg安装包不支持MacOS 10.15.7&…...

深入探索DeepSeek开源之旅:开源Week全程解析

摘要 在农历新年刚刚结束之际&#xff0c;DeepSeek以卓越的开源精神&#xff0c;连续六天举办了开源Week活动。这一系列活动不仅展示了DeepSeek在技术领域的活跃度和影响力&#xff0c;还彰显了其对开源社区的贡献。通过这次活动&#xff0c;DeepSeek吸引了众多开发者和技术爱好…...

无人机遥控器无线传输技术解析!

一、主流无线传输方式 无线电遥控系统&#xff08;2.4GHz/5.8GHz频段&#xff09; 频段特性&#xff1a;2.4GHz频段穿透力强、覆盖距离远&#xff08;可达2公里以上&#xff09;&#xff0c;适合控制信号传输&#xff1b;5.8GHz频段带宽更高&#xff0c;适用于高清视频流&…...

微调训练方法概述:Fine-tuning、Prompt-tuning、P-tuning 及其他高效技术

在深度学习和自然语言处理&#xff08;NLP&#xff09;领域&#xff0c;预训练模型&#xff08;如 GPT、BERT 等&#xff09;已经成为许多任务的基石。然而&#xff0c;尽管这些模型在预训练阶段学习了大量的通用知识&#xff0c;它们通常仍然需要根据特定任务进行微调&#xf…...

在笔记本电脑上用DeepSeek搭建个人知识库

最近DeepSeek爆火&#xff0c;试用DeepSeek的企业和个人越来越多。最常见的应用场景就是知识库和知识问答。所以本人也试用了一下&#xff0c;在笔记本电脑上部署DeepSeek并使用开源工具搭建一套知识库&#xff0c;实现完全在本地环境下使用本地文档搭建个人知识库。操作过程共…...

Java面试第七山!《MySQL索引》

一、索引的本质与作用 索引是帮助MySQL高效获取数据的数据结构&#xff0c;类似于书籍的目录。它通过减少磁盘I/O次数&#xff08;即减少数据扫描量&#xff09;来加速查询&#xff0c;尤其在百万级数据场景下&#xff0c;索引可将查询效率提升数十倍。 核心作用&#xff1a;…...