使用正则表达式提取PDF文件页数的实现方案
文章目录
- 背景介绍
- 实现原理
- 代码实现
- 1. 基础函数结构
- 2. 页数提取逻辑
- 3. 使用示例
- 正则表达式解析
- 优点与局限性
- 优点
- 局限性
- 错误处理建议
- 性能优化建议
- 最佳实践建议
- 总结
- 参考资源
背景介绍
在Web应用开发中,我们经常需要获取上传PDF文件的页数信息。虽然可以使用pdf.js等第三方库,但这些库通常比较重量级。本文将介绍一种使用正则表达式直接解析PDF文件内容来获取页数的轻量级方案。
实现原理
PDF文件虽然是二进制格式,但其内部结构是基于文本的。PDF文件中通常包含类似 /N 10 或 /Count 10 这样的标记来记录总页数。我们可以通过正则表达式来匹配这些标记并提取页数信息。
代码实现
1. 基础函数结构
typescript
const getPdfPageCount = (file: File): Promise<number> => {
return new Promise((resolve, reject) => {
const reader = new FileReader();
reader.onload = (e) => {
// 解析逻辑
};
reader.onerror = () => reject(new Error("读取文件失败"));
reader.readAsText(file);
});
};
2. 页数提取逻辑
typescript
reader.onload = (e) => {
try {
const content = e.target?.result as string;
// 方法1: 匹配 /N 格式
const matches = content.match(/\/N\s+(\d+)/);
if (matches && matches[1]) {
const pageCount = parseInt(matches[1], 10);
if (pageCount > 0) {
return resolve(pageCount);
}
}
// 方法2: 匹配 /Count 格式
const countMatches = content.match(/\/Count\s+(\d+)/);
if (countMatches && countMatches[1]) {
const pageCount = parseInt(countMatches[1], 10);
if (pageCount > 0) {
return resolve(pageCount);
}
}
reject(new Error("无法获取PDF页数"));
} catch (error) {
reject(error);
}
};
3. 使用示例
typescript
const beforeUpload = async (file) => {
try {
const pageCount = await getPdfPageCount(file);
console.log("PDF页数:", pageCount);
} catch (error) {
console.error("获取页数失败:", error);
}
};
正则表达式解析
-
/\/N\s+(\d+)//N: 匹配字面值"/N"\s+: 匹配一个或多个空白字符(\d+): 捕获组,匹配一个或多个数字
-
/\/Count\s+(\d+)//Count: 匹配字面值"/Count"\s+: 匹配一个或多个空白字符(\d+): 捕获组,匹配一个或多个数字
优点与局限性
优点
- 实现简单,代码量少
- 无需引入额外依赖
- 性能较好,只需读取文件文本内容
- 适用于大多数标准PDF文件
局限性
- 可能无法处理某些特殊格式的PDF文件
- 对于加密或受保护的PDF文件可能无效
- 依赖PDF文件内部结构的一致性
错误处理建议
- 添加超时处理
typescript
const timeoutPromise = new Promise((, reject) => {
setTimeout(() => reject(new Error("获取页数超时")), 5000);
});
try {
const pageCount = await Promise.race([getPdfPageCount(file), timeoutPromise]);
} catch (error) {
// 处理错误
}
- 优雅降级
typescript
try {
const pageCount = await getPdfPageCount(file);
// 使用页数
} catch (error) {
console.warn("无法获取页数,继续上传流程");
// 继续处理
}
性能优化建议
- 限制读取大小
typescript
const content = e.target?.result as string;
const maxLength = Math.min(content.length, 5000); // 只读取前5000个字符
const partialContent = content.slice(0, maxLength);
- 缓存结果
typescript
const pageCountCache = new Map();
const getCachedPageCount = async (file: File) => {
const fileId = file.name + file.size; // 简单的文件标识
if (pageCountCache.has(fileId)) {
return pageCountCache.get(fileId);
}
const pageCount = await getPdfPageCount(file);
pageCountCache.set(fileId, pageCount);
return pageCount;
};
最佳实践建议
- 总是提供友好的错误提示
- 实现优雅降级,确保核心功能可用
- 添加适当的日志记录
- 考虑添加重试机制
- 注意内存使用,避免处理过大的文件
总结
使用正则表达式提取PDF页数是一种轻量级的解决方案,适用于大多数常见场景。虽然有一定局限性,但通过合理的错误处理和降级策略,可以在实际应用中很好地工作。对于要求更高的场景,可以考虑结合使用pdf.js等专业库。
参考资源
- PDF文件格式规范
- JavaScript FileReader API文档
- 正则表达式教程
- PDF.js项目文档
相关文章:
使用正则表达式提取PDF文件页数的实现方案
文章目录 背景介绍实现原理代码实现1. 基础函数结构2. 页数提取逻辑3. 使用示例 正则表达式解析优点与局限性优点局限性 错误处理建议性能优化建议最佳实践建议总结参考资源 背景介绍 在Web应用开发中,我们经常需要获取上传PDF文件的页数信息。虽然可以使用pdf.js等第三方库,但…...
Android实现RecyclerView边缘渐变效果
Android实现RecyclerView边缘渐变效果 1.前言: 是指在RecyclerView中实现淡入淡出效果的边缘效果。通过这种效果,可以使RecyclerView的边缘在滚动时逐渐淡出或淡入,以提升用户体验。 2.Recyclerview属性: 2.1、requiresFading…...
springboot443旅游管理系统(论文+源码)_kaic
摘 要 如今社会上各行各业,都喜欢用自己行业的专属软件工作,互联网发展到这个时候,人们已经发现离不开了互联网。新技术的产生,往往能解决一些老技术的弊端问题。因为传统旅游管理系统信息管理难度大,容错率低&#…...
利用git上传项目到GitHub
GitHub是基于git实现的代码托管。git是目前最好用的版本控制系统了,非常受欢迎,比之svn更好。 GitHub可以免费使用,并且快速稳定。 利用GitHub,你可以将项目存档,与其他人分享交流,并让其他开发者帮助你一…...
Rust之抽空学习系列(四)—— 编程通用概念(下)
Rust之抽空学习系列(四)—— 编程通用概念(下) 1、函数 函数用来对功能逻辑进行封装,能够增强复用、提高代码的可读 以下是函数的主要组成部分: 名称参数返回类型函数体 1.1、函数名称 在Rust中&…...
K-Means 聚类:数据挖掘的瑞士军刀
引言 在数据科学领域,聚类算法是一种非常重要的无监督学习方法,它能够帮助我们发现数据中的自然分组或模式。其中,K-Means 聚类算法因其简单高效而成为最常用的聚类算法之一。无论是市场细分、社交网络分析,还是图像分割等领域&a…...
项目练习:若依-前端项目的目录结构介绍
文章目录 一、目录截图二、目录讲解 一、目录截图 二、目录讲解 1、首先,我们可以看到,这个VUE项目,只有一个App.vue,所以,它是一个单页面系统。 这个App.vue是根组件,root组件。 2、public目录 在Vue 3.…...
知网研学 | 知网文献(CAJ+PDF)批量下载
知网文献(CAJPDF)批量下载 一、知网研学安装二、插件及脚本安装三、CAJ批量下载四、脚本下载及PDF批量下载浏览器取消拦截窗口 一、知网研学安装 批量下载知网文件,格式为es6文件,需使用知网研学软件打开,故需先安装该…...
设计模式期末复习
一、设计模式的概念以及分类 二、设计模式的主题和意图 三、面向对象程序设计原则,记住名字,还要理解它的使用场景以及如何用? 四、松耦合、紧耦合、强关联、弱关联、静态复用、动态复用的概念,还有静态委派,动态委…...
CentOS7源码编译安装nginx+php+mysql
1.安装nginx 安装依赖 yum -y install gcc gcc-c wget automake autoconf libtool libxml2-devel libxslt-devel perl-devel perl-ExtUtils-Embed pcre-devel openssl openssl-devel 创建一个不能登录的nginx运行用户 groupadd www-data useradd -s /sbin/nologin -g www-d…...
linux CentOS系统上卸载docker
一、停止Docker服务 首先,需要停止Docker服务。使用systemctl命令来停止Docker服务: bash复制代码sudo systemctl stop docker二、卸载Docker软件包 接下来,使用CentOS的包管理器yum来卸载Docker软件包。根据安装的Docker版本和组件&#…...
css中相对定位的应用场景
元素位置微调 文本与图标组合微调:在网页设计中,经常会有文本和图标的组合,比如一个带有搜索图标的搜索框。可以使用相对定位来微调图标在搜索框内的位置。例如,有以下HTML结构: <input type"text" class…...
Android 获取屏幕物理尺寸
注:编译 sdk 需要使用 30 因为引入了 WindowMetrics、uild.VERSION_CODES.R 新 sdk 才存在的类和属性 某些场景处理 view ,对 view 显示的位置要求比较精确,通常我们使用context.getResources().getDisplayMetrics().widthPixels 获取到的宽、…...
C缺陷与陷阱 — 8 编译与链接
目录 1 程序的编译过程 2 动态链接的优缺点 2.1 动态链接的优点 2.2 动态链接的缺点 2.3 只使用动态链接 3 函数库链接的5个特殊秘密 4 警惕Interpositioning 5 产生链接器报告文件 1 程序的编译过程 程序的编译过程是将源代码转换成计算机可以执行的机器代码的过程。…...
知识分享第三十天-力扣343.(整数拆分)
343 整数拆分 给定一个正整数 n,将其拆分为至少两个正整数的和,并使这些整数的乘积最大化。 返回你可以获得的最大乘积。 示例 1: 输入: 2 输出: 1 解释: 2 1 1, 1 1 1。 示例 2: 输入: 10 输出: 36 解释: 10 3 3 4, 3 3 4 36。 说明: 你可…...
Springboot 整合DL4J 打造智能写作助手(文本生成)
项目准备 环境要求: Java 1.8或以上 Maven 或 Gradle(用于项目管理) Spring Boot框架 DL4J库(DeepLearning4J) 创建 Spring Boot 项目 使用 Spring Initializr 来生成一个新的 Spring Boot 项目。选择合适的依赖,例如…...
SPL06 基于stm32F103 HAL库驱动(软件模拟IIC)
talk is cheap, show you my code SPL06.c #include "SPL06.h"//*************全局变量*************// Factor_List* b_list; //存储过采样率对应的系数KP,KT COEF_ValueStruct Coefficient { 0 }; //存储校准系数…...
【C#】List求并集、交集、差集
值类型List List<int> intList1 new List<int>() { 1, 2, 3 };List<int> intList2 new List<int>() { 3, 4, 5 };var result intList1.Union(intList2);Console.WriteLine($"并 {string.Join(,,result)}");result intList1.Intersect(in…...
YOLOv8目标检测——详细记录使用ONNX Runtime进行推理部署C++/Python实现
概述 在之前博客中有介绍YOLOv8从环境安装到训练的完整过程,本节主要介绍ONNX Runtime的原理以及使用其进行推理加速,使用Python、C两种编程语言来实现。 https://blog.csdn.net/MariLN/article/details/143924548?spm1001.2014.3001.5501 1. ONNX Ru…...
mfc140u.dll是什么文件?如何解决mfc140u.dll丢失的相关问题
遇到“mfc140u.dll文件丢失”的错误通常影响应用程序的运行,这个问题主要出现在使用Microsoft Visual C环境开发的软件中。mfc140u.dll是一个重要的系统文件,如果它丢失或损坏,会导致相关程序无法启动。本文将简要介绍几种快速有效的方法来恢…...
S2-Pro在Windows系统的一键部署与简易客户端开发
S2-Pro在Windows系统的一键部署与简易客户端开发 1. 引言 如果你是一名Windows用户,想要快速体验S2-Pro的强大能力,但又不想折腾复杂的命令行操作,这篇文章就是为你准备的。我们将从零开始,带你完成两个关键步骤: 在…...
CRI-O系统配置终极指南:从systemd服务到内核参数调优
CRI-O系统配置终极指南:从systemd服务到内核参数调优 【免费下载链接】cri-o Open Container Initiative-based implementation of Kubernetes Container Runtime Interface 项目地址: https://gitcode.com/gh_mirrors/cr/cri-o CRI-O是Kubernetes容器运行时…...
基于博途1200PLC+HMI的六层三部电梯控制系统仿真程序
基于博途1200PLCHMI六层三部电梯控制系统仿真 程序: 1、任务:PLC.人机界面控制三部电梯集群运行 2、系统说明: 系统设有上呼、下呼、内呼、手动开关门、光幕、检修、故障、满载、等模拟模式控制, 系统共享厅外召唤信号,…...
Windows系统优化神器:Winhance中文版全面使用指南
Windows系统优化神器:Winhance中文版全面使用指南 【免费下载链接】Winhance-zh_CN A Chinese version of Winhance. C# application designed to optimize and customize your Windows experience. 项目地址: https://gitcode.com/gh_mirrors/wi/Winhance-zh_CN …...
ADNS3080光学传感器驱动开发与聚焦校准实战
1. ADNS3080光学运动传感器底层驱动技术解析ADNS3080是Avago(现Broadcom)推出的一款高精度、低功耗CMOS光学运动传感器,专为机械鼠标、轨迹球及工业位移检测等场景设计。其核心优势在于集成化程度高——片内集成了LED驱动电路、图像采集阵列&…...
【Agents】自定义子代理进阶:后台执行
基础篇:【Agents】Claude Code 多 Agent 入门:从一问一答到并行协作实践篇1:【Agents】Claude Code 自定义子代理:内置的不够用,就自己造实践篇2:【Agents】自定义子代理进阶:沙盒隔离 上一篇用 isolation: worktre…...
PCF8574驱动库深度解析:I²C扩展IO、中断与编码器集成
1. 项目概述PCF8574 是一款经典的 IC 总线数字 I/O 扩展芯片,由 NXP(原 Philips)设计,广泛应用于资源受限的嵌入式系统中。其核心价值在于仅需两根信号线(SDA/SCL)即可扩展 8 路可编程双向数字 I/O…...
实时行情系统设计:从协议选择到高可用架构,再到数据源选型
一、核心问题及解决方案(按踩坑频率排序) 问题 1:误删他人持有锁——最基础也最易犯的漏洞 成因:释放锁时未做身份校验,直接执行 DEL 命令删除键。典型场景:服务 A 持有锁后,业务逻辑耗时超过锁…...
新手零压力入门,快马ai带你三步搞定nodejs环境配置
最近在帮几个朋友入门Node.js时,发现很多新手卡在了环境配置这一步。作为一个过来人,我完全理解那种面对命令行手足无措的感觉。好在现在有了InsCode(快马)平台,可以快速生成一个专为Node.js新手设计的入门项目模板,把抽象的配置过…...
Adafruit ST7735/ST7789 TFT驱动库详解:SPI接口与GFX分层架构
1. 项目概述 Adafruit ST7735 和 ST7789 库是一个面向嵌入式平台(尤其是 Arduino 生态)的轻量级图形驱动库,专为基于 Sitronix ST7735、ST7789 及 ST7796S 显示控制器的彩色 TFT 液晶模组设计。该库并非仅适配单一型号,而是通过统…...
