当前位置: 首页 > news >正文

python:PyPDF2 从PDF文件中提取目录

我发现 pypdf  和 pypdf2 的作者是同一人:Mathieu Fenniak 

pip install pypdf2 ;

  pypdf2-3.0.1-py3-none-any.whl (232 kB)

编写 pdf_read_dir.py  如下

# -*- coding: utf-8 -*-
""" pypdf2==3.0.1 从PDF中提取目录 """
import os
import sys
from PyPDF2 import PdfReader#每个书签的索引格式
#{'/Title': '书签名', '/Page': '指向的目标页数', '/Type': '类型'}# 查找指定的字符出现次数
def find_char(str1, char):cs = 0for c in str1:if c == char:cs += 1return csdirectory_str = ''
def bookmark_listhandler(list):global directory_strfor message in list:if isinstance(message, dict):title = message['/Title'].strip()if title.startswith("Chapter"): directory_str += '\n' + title + '\n'elif title[0:2] in ("序章","前言") or title.startswith("序"):directory_str += '\n' + title + '\n'elif title.startswith("第") and title.split()[0][-1] =="章":directory_str += '\n' + title + '\n'elif title.startswith("第") and title.split()[0][-1] =="节":directory_str += '  ' + title + '\n'elif title.startswith("第"):directory_str += '\n' + title + '\n'elif title[0] in ('一','二','三','四','五','六','七','八','九','十'):directory_str += '    ' + title + '\n'elif title[0] in "1234567890":cs = find_char(title, '.')directory_str += '  '*cs + title + '\n'else:directory_str += '        ' + title + '\n'else:bookmark_listhandler(message)# main()
if len(sys.argv) ==2:file1 = sys.argv[1]
else:print('usage: python pdf_read_dir.py file.pdf')sys.exit(1)if not os.path.exists(file1):print(f"{file1} is not exists.")sys.exit(2)    fn,ext = os.path.splitext(file1)
if ext.lower() != '.pdf':print("Please specify a valid pdf file")sys.exit(3)with open(file1, 'rb') as f1:pdf = PdfReader(f1)# 检索文档中存在的文本大纲,返回的对象是一个嵌套的列表bookmark_listhandler(pdf.outline)if len(directory_str) >0:fname = fn.split('\\')[-1]file2 = fn + '.txt'with open(file2, 'w', encoding='utf-8') as fp:fp.write(fname +'\n')fp.write(directory_str)
else:print("it no directory.")

运行 python pdf_read_dir.py your_ebook.pdf

生成  your_ebook.txt 

由于算法优劣原因,生成的结果正确性始终比不过 java : pdfbox 读取 PDF文件内书签

相关文章:

python:PyPDF2 从PDF文件中提取目录

我发现 pypdf 和 pypdf2 的作者是同一人:Mathieu Fenniak pip install pypdf2 ; pypdf2-3.0.1-py3-none-any.whl (232 kB) 编写 pdf_read_dir.py 如下 # -*- coding: utf-8 -*- """ pypdf23.0.1 从PDF中提取目录 """ import os…...

Java 2:运算符、表达式和语句

2.1 运算符与表达式 Java提供了丰富的运算符,如算术运算符、关系运算符、逻辑运算符、位运算符等。Java语言中的绝大多数运算符和C语言相同,基本语句如条件分支语句,循环语句等,也和C语言类似。 2.1.1算术运算符与算术表达式 1…...

批量提取word文件中文本框内容的三种方法

一、问题的提出 在日常的办公中,有时需要提取多个word文件中的文字框的内容。有时,文字框的数量比较多,而且处于文档的不同位置,手工提取比较耗时耗力,同时也可能会产生遗漏。 我们也可以通过VBA和Python来解决这个问…...

Leecode之合并两个有序链表

一.题目及剖析 https://leetcode.cn/problems/merge-two-sorted-lists/description/ 二.思路引入 用指针遍历两个链表并实时比较,较小的元素进行尾插,然后较小元素的指针接着向后遍历 三.代码引入 /*** Definition for singly-linked list.* struct ListNode {* int va…...

陶建国教授谈中西方文化的差异与交融

龙年到来,这个春节里,“龙”字的英文翻译引发关注,冲上了热搜,网友发现,“龙”不再翻译为“dragon”,而是龙字的谐音“loong”。原来,在西方人的眼里,龙是凶猛的怪兽,具有…...

Ps:画笔选项

画笔选项 Brush Options提供了对画笔(圆形笔刷)基本属性的控制,比如大小、硬度、间距、角度和圆度等。 Photoshop 中的快速选择工具、污点修复画笔工具、修复画笔工具、颜色替换工具、背景橡皮擦工具等的工具选项栏上提供了这种圆形笔刷选项。…...

嵌入式——Flash(W25Q64)

目录 一、初识W25Q64 1. 基本认识 2. 引脚介绍 ​编辑 二、W25Q64特性 1. SPI模式 2. 双输出SPI方式 三、状态寄存器 1. BUSY位 2. WEL位 3. BP2、BP1、 BP0位 4. TB位 5. 保留位 6. SRP位 四、常用操作指令 1. 写使能指令(06h) 2. 写禁…...

stm32:pwm output模块,记录一下我是用smt32,输出pwm波的记录--(实现--重要)

我是实现了输出pwm波,频率固定,占空比可以不断调整的方法,将PA0接到示波器上,可以看到是一个标准的PWM波,如图下面示波器图。 1,首先是ioc的配置 我刚开始设置的分频的倍数是7199,使得分频的太大了,示波器显示不了,最后修改为71就可以,我之前设置读取pwm也是一样的…...

phpstrom创建thinkphp项目

安装php和composer 参考 安装phpstrom 创建项目 查看thinkphp版本 https://packagist.org/packages/topthink/think 打开所在项目编辑配置 即可调试运行...

【Linux】线程同步

线程同步 一、条件变量1. 同步概念2. 条件变量概念3. 条件变量接口(1)pthread_cond_init()(2)pthread_cond_destroy()(3)pthread_cond_wait()(4)pthread_cond_signal()(5…...

如何在多头自注意力机制的交叉学习中引入对于物理、生理、心理世界客观规律的对照验证...

要在多头自注意力机制的交叉学习中引入对于物理世界客观规律的对照验证,可以考虑以下方法: 1、引入物理模型 首先,建立一个物理模型,该模型能够描述物理世界中的客观规律。这个模型可以是已知的科学理论,也可以是通过实…...

智慧公厕:让智慧城市的公共厕所焕发“智慧活力”

智慧城市的建设已经进入了一个新的阶段,不仅仅是智慧交通、智慧环保,如今甚至连公厕都开始迎来智慧化时代。智慧公厕作为智慧城市的神经末梢,正在通过信息化、数字化和智慧化的方式,实现全方位的精细化管理。本文以智慧公厕源头专…...

vue导出word文档(图文示例)

第076个 查看专栏目录: VUE 本文章目录 示例说明示例效果图导出的文件效果截图示例源代码参数说明:重要提示:API 参考网址 示例说明 在Vue中导出Word文档,可以使用第三方库file-saver和html-docx-js。首先需要安装这两个库: npm …...

【C Primer Plus第六版 学习笔记】 第十七章 高级数据表示

有基础&#xff0c;进阶用&#xff0c;个人查漏补缺 链表&#xff1a;假设要编写一个程序&#xff0c;让用户输入一年内看过的所有电影&#xff0c;要储存每部影片的片名和评级。 #include <stdio.h> #include <stdlib.h> /* 提供malloc()的原型 */ #include <s…...

租用一个服务器需要多少钱?2024阿里云新版报价

2024年最新阿里云服务器租用费用优惠价格表&#xff0c;轻量2核2G3M带宽轻量服务器一年61元&#xff0c;折合5元1个月&#xff0c;新老用户同享99元一年服务器&#xff0c;2核4G5M服务器ECS优惠价199元一年&#xff0c;2核4G4M轻量服务器165元一年&#xff0c;2核4G服务器30元3…...

python-产品篇-游戏-成语填填乐

文章目录 准备代码效果 准备 无需其他文件&#xff0c;复制即用 代码 import random list["春暖花开","十字路口","千军万马","白手起家","张灯结彩","风和日丽","万里长城","人来人往",&…...

数据库数据加密的 4 种常见思路的对比

应用层加解密方案数据库前置处理方案磁盘存取环节&#xff1a;透明数据加密DB 后置处理 最近由于工作需要&#xff0c;我对欧洲的通用数据保护条例做了调研和学习&#xff0c;其中有非常重要的一点&#xff0c;也是常识性的一条&#xff0c;就是需要对用户的个人隐私数据做好加…...

HCIA-HarmonyOS设备开发认证V2.0-IOT硬件子系统-PWM

目录 一、PWM 概述二、PWM 模块相关API三、接口调用实例四、PWM HDF驱动开发4.1、开发步骤(待续...) 坚持就有收获 一、PWM 概述 PWM&#xff08;Pulse Width Modulation&#xff09;又叫脉冲宽度调制&#xff0c;它是通过对一系列脉冲的宽度进行调制&#xff0c;等效出所需要…...

001kafka源码项目gradle报错UnsupportedClassVersionError-kafka-报错-大数据学习

1 报错提示 java.lang.UnsupportedClassVersionError: org/eclipse/jgit/lib/AnyObjectId has been compiled by a more recent version of the Java Runtime (class file version 55.0), this version of the Java Runtime only recognizes class file versions up to 52.0 如…...

单片机学习笔记---直流电机驱动(PWM)

直流电机介绍 直流电机是一种将电能转换为机械能的装置。一般的直流电机有两个电极&#xff0c;当电极正接时&#xff0c;电机正转&#xff0c;当电极反接时&#xff0c;电机反转 直流电机主要由永磁体&#xff08;定子&#xff09;、线圈&#xff08;转子&#xff09;和换向器…...

CentOS7系统维护终止后YUM源失效的解决方案

1. CentOS7维护终止带来的YUM源危机 去年夏天我给客户部署的CentOS7服务器突然无法安装新软件&#xff0c;屏幕上不断弹出"无法解析主机"的错误。这才意识到官方已经停止维护&#xff0c;默认的YUM源就像突然关门的超市&#xff0c;所有货架都空了。对于仍在使用Cent…...

Claude模型选型指南:Opus/Sonnet/Haiku三大系列在真实项目中的性能价格对比

Claude模型选型实战&#xff1a;Opus/Sonnet/Haiku三大系列性能与成本深度评测 1. 企业级AI选型的核心考量 在构建商业AI解决方案时&#xff0c;技术决策者往往面临模型选型的复杂权衡。Anthropic推出的Opus、Sonnet和Haiku三大系列&#xff0c;分别针对不同规模和应用场景的…...

QChart实战:从零构建动态数据波形图(含完整代码与注释)

1. 环境准备与基础配置 在开始构建动态波形图之前&#xff0c;我们需要先搭建好开发环境。这里假设你已经安装了Qt Creator&#xff0c;我推荐使用5.15或更高版本&#xff0c;因为这个版本对QChart的支持最完善。如果你还没安装&#xff0c;可以直接去Qt官网下载开源版本。 首…...

网络工程师的日常:一次搞定eNSP中MSTP+VRRP的‘坑’与优化技巧

eNSP实战&#xff1a;MSTPVRRP组网中的典型故障排查与性能调优 凌晨两点&#xff0c;当我在eNSP模拟器中第三次看到"VRRP state transition to Backup"的日志时&#xff0c;咖啡杯已经见底。这个典型的双核心企业网架构本该在半小时内完成配置&#xff0c;却因为MSTP…...

HiveSQL实战:巧用前后函数(lag/lead)解析用户行为序列

1. 窗口函数与用户行为分析的完美结合 做数据分析的朋友们应该都遇到过这样的场景&#xff1a;老板让你分析用户从浏览商品到最终下单的平均时间间隔&#xff0c;或者找出那些在关键页面停留时间过长的流失用户。这类问题本质上都是在分析用户行为序列&#xff0c;而HiveSQL中的…...

MySQL数据同步神器Canal实战:从配置到Java客户端开发全流程

MySQL数据同步神器Canal实战&#xff1a;从配置到Java客户端开发全流程 在数据驱动的时代&#xff0c;实时数据同步已成为现代应用架构的核心需求。想象一下电商平台的库存实时更新、金融系统的交易流水同步、物流系统的状态追踪——这些场景都离不开高效可靠的数据同步机制。…...

P1061 Jam 的计数法【洛谷算法习题】

P1061 Jam 的计数法 网页链接 P1061 Jam 的计数法 题目描述 Jam 是个喜欢标新立异的科学怪人。他不使用阿拉伯数字计数&#xff0c;而是使用小写英文字母计数&#xff0c;他觉得这样做&#xff0c;会使世界更加丰富多彩。 在他的计数法中&#xff0c;每个数字的位数都是相…...

SAP Basis实战:Client创建与数据迁移的完整流程与避坑指南

1. 理解SAP Client的基本概念 在SAP系统中&#xff0c;Client&#xff08;客户端&#xff09;是一个非常重要的概念。简单来说&#xff0c;它就像是系统中的一个独立工作空间&#xff0c;每个Client都有自己的配置和数据。想象一下&#xff0c;一家大型企业有多个子公司&#x…...

避坑指南:用Dify搭建AI Agent时,Docker镜像拉取失败和Postman接口调试的那些坑

避坑指南&#xff1a;用Dify搭建AI Agent时的高频问题解决方案 当你第一次尝试用Dify搭建AI Agent时&#xff0c;可能会遇到各种意想不到的"坑"。从Docker镜像拉取失败到Postman接口调试报错&#xff0c;每一步都可能让新手开发者抓狂。本文将聚焦这些实操中的真实痛…...

Vue3 + Vite + SuperMap iClient3D 避坑指南:从零搭建三维GIS项目(附常见报错解决方案)

Vue3 Vite SuperMap iClient3D 三维GIS开发实战&#xff1a;从环境搭建到避坑指南 三维地理信息系统&#xff08;3D GIS&#xff09;开发正成为智慧城市、数字孪生等领域的核心技术栈。本文将带你从零开始&#xff0c;基于Vue3和Vite构建工具&#xff0c;整合SuperMap iClien…...