当前位置：首页 > news >正文

PyMuPDF 操作手册 - 05 PDF的OCR识别等

news 2026/5/18 10:57:42

文章目录

六、PyMuPDF的OCR识别
- 6.1 使用 Tesseract进行OCR
- 6.2 使用MuPDF进行OCR
- 6.3 使用 Python 包easyocr进行OCR识别
- 6.4 使用 Python ocrmypdf包进行OCR识别
- 6.5 将图像批量OCR并转换为PDF
七、PDF附加、嵌入、批注等
- 7.1 附加文件
- 7.2 嵌入文件
- 7.3 从文档中获取所有批注

六、PyMuPDF的OCR识别

https://github.com/pymupdf/PyMuPDF-Utilities/tree/master/OCR
在这里插入图片描述

使用 PyMuPDF 和 OCR 的演示脚本
从 1.18.0 版本开始，MuPDF 支持动态调用 Tesseract OCR 来解释页面或图像上的文本。从其版本 1.19.0 开始，PyMuPDF 已开始支持此接口。

6.1 使用 Tesseract进行OCR

此演示脚本读取包含无法解释的字符的文档文本。这些字符被编码为 MuPDF。在每次遇到与此字符的文本跨度时，都会通过 Python 调用 Tesseract OCR 进行解释。脚本和 Tesseract 安装之间没有其他/直接连接。chr(65533)subprocess

脚本的方法是这样的

将页面的文本解压缩到 via .dictget_text(“dict”, flags=0)[“blocks”]
遍历字典并检查 span 文本是否包含 .chr(65533)
在这种情况下，请创建跨度的 bbox 的像素图，并调用 Tesseract 来对此图像进行 OCR。
打印新旧文本以进行视觉比较。

每个此类 OCR 操作的平均持续时间约为 0.65 秒（Windows 10,64 位，

PyMuPDF 操作手册 - 05 PDF的OCR识别等

文章目录六、PyMuPDF的OCR识别6.1 使用 Tesseract进行OCR6.2 使用MuPDF进行OCR6.3 使用 Python 包easyocr进行OCR识别6.4 使用 Python ocrmypdf包进行OCR识别6.5 将图像批量OCR并转换为PDF七、PDF附加、嵌入、批注等7.1 附加文件7.2 嵌入文件7.3 从文档中获取所有批注六、PyMu…...

编程日记 2024/6/21 23:41:29

Vue与TypeScript的配合：如何在Vue项目中使用TypeScript，利用静态类型提高代码的可维护性

环境搭建：在你的 Vue 项目中使用 TypeScript，使你的代码具有静态类型检查、IDE 的类型提示等有益的功能。以下是搭建 Vue 和 TypeScript 的开发环境的步骤：创建一个项目使用 Vue CLI 创建一个新的Vue项目是最简单的方法： vue create my-project 在出现的提示中，选择…...

编程日记 2024/6/21 23:39:27

华为仓颉语言介绍

文章目录 1.简介2.初识仓颉语言3.基本概念3.1标识符3.2程序结构3.3变量3.4表达式3.4.1if 表达式3.4.2while语句3.4.3do-while表达式3.4.4 for-in 表达式3.4.5 where条件3.4.6 break和continue 3.5 函数 1.简介随着万物互联以及智能时代的到来，软件的形态将发生巨大…...

编程日记 2024/6/21 23:37:25

《昇思 25 天学习打卡营第 3 天 | 张量 Tensor 》

《昇思 25 天学习打卡营第 3 天 | 张量 Tensor 》活动地址：https://xihe.mindspore.cn/events/mindspore-training-camp 签名：Sam9029 感觉像是在学习高数一样张量 Tensor 张量是一种特殊的数据结构，与数组和矩阵非常相似。张量&#xf…...

编程日记 2024/6/21 23:36:24

free命令——显示系统内存使用情况

free命令的功能是显示系统内存使用情况，包含物理内存和交换内存的总量、使用量和空闲量。语法格式：free [选项] 常用选项及含义选项含义-b以字节B为单位显示内存和交换内存的容量使用情况-k以KB为单位显示内存和交换内存的容量使用情况-m以MB为单位…...

编程日记 2024/6/21 23:33:21

麒麟移动运行环境(KMRE)——国内首个开源的商用移固融合“Android生态兼容环境”正式开源

近日，由麒麟软件研发的KMRE（Kylin Mobile Runtime Environment，麒麟移动运行环境）在openKylin（开放麒麟）社区正式发布，为Linux桌面操作系统产品提供了高效的Android运行环境解决方案。这也是国内…...

编程日记 2024/6/21 23:32:20

print(“{}{}“.format())

print("{}{}".format()) 是 Python 中用于格式化字符串并将其输出到控制台的一种方法。format 方法允许你在字符串中插入变量或表达式的值，并以指定的格式显示它们。基本语法 print("format_string".format(value1, value2, ...))format_str…...

编程日记 2024/6/21 23:31:19

2-12 基于CV模型卡尔曼滤波、CT模型卡尔曼滤波、IMM模型滤波的目标跟踪

基于CV模型卡尔曼滤波、CT模型卡尔曼滤波、IMM模型滤波的目标跟踪。输出跟踪轨迹及其误差。程序已调通，可直接运行。 2-12 CV模型卡尔曼滤波 CT模型卡尔曼滤波 - 小红书 (xiaohongshu.com)...

编程日记 2024/6/21 23:29:17

序列1bp插入有什么影响

1bp插入突变（1个碱基插入）在基因序列中通常会引起以下几种影响： 移码突变（Frameshift Mutation）： 插入的一个碱基会改变插入点之后所有的密码子，导致读取框的移动。这种变化通常会引起整个蛋白质…...

编程日记 2024/6/21 23:28:16

CVPR 2024盛况空前，上海科技大学夺得最佳学生论文奖，惊艳全场

CVPR 2024盛况空前！上海科技大学夺得最佳学生论文奖，惊艳全场！ 会议之眼快讯 2024 年 CVPR （Computer Vision and Pattern Recogntion Conference) 即国际计算机视觉与模式识别会议，于6月17日至21日正在美国西雅图召…...

编程日记 2024/6/21 23:25:13

HTTP 状态码详解及使用场景

目录 1xx 信息性状态码2xx 成功状态码3xx 重定向状态码4xx 客户端错误状态码5xx 服务器错误状态码 HTTP思维导图连接：https://note.youdao.com/s/A7QHimm0 1xx 信息性状态码 100 Continue：表示客户端应继续发送请求的其余部分。使用场景：客…...

编程日记 2024/6/21 23:23:11

【Windows】配置Flutter开发环境

一、下载 flutter sdk 点此跳至下载官网下载好flutter sdk，并解压到自定义的位置。二、配置环境变量此电脑 --> 右键选择属性 --> 点击高级系统设置 --> 会弹出系统属性的窗口，点击环境变量按钮 1.配置加速镜像地址 PUB_HOSTED_…...

编程日记 2024/6/21 23:22:10

云渲染与传统渲染器的较量与融合

随着云计算技术的突破性进展，云渲染技术应运而生，为传统渲染器带来了前所未有的挑战与机遇。云渲染，以其在计算资源、可扩展性、协作便利性等方面的显著优势，正在重新定义渲染行业的标准。云渲染与传统渲染器之间的核心差异&#…...

编程日记 2024/6/21 23:19:06

比较新旧两数组列表，新增或删除数据库记录（ai生成）

两数组比较元素相同则不处理,缺少则删除数据库记录,多余则新增数据库记录。为了解决这个问题，我们需要定义两个数组array1和array2，它们包含数据库中的记录。然后，我们可以遍历这两个数组，并对数据库执行相应的操作。以下是一个…...

编程日记 2024/6/21 23:18:06

Java基础 - 练习（五）根据今天日期获取一周内的日期(基姆拉尔森公式)

基姆拉尔森计算公式用于计算一周内的日期。比如给你年月日，从而计算今天是星期几。基姆拉尔森公式 Week (d2*m3*(m1)/5yy/4-y/100y/4001) mod 7， 3<m<14Week的取值范围是0 ~ 6，其中0代表星期日，1 ~ 6分别代表星期一到星期…...

编程日记 2024/6/21 23:17:04

HTML5 新元素

HTML5 新元素 HTML5是最新版本的HTML，引入了许多新元素和功能，以更好地满足现代网页设计的需要。这些新元素不仅增强了网页的表现力，还提高了代码的可读性和可维护性。本文将详细介绍HTML5中的新元素，包括它们的功能和用法。 1.…...

编程日记 2024/6/21 23:13:00

虹软ArcSoft—真正离线免费的人脸识别SDK

虹软ArcSoft—真正离线免费的人脸识别SDK 高级功能收费还是很好滴人证核验功能是C/C的SDK，需要封装为C#，然后暴露为Restful API使用...

编程日记 2024/6/21 23:11:59

[环境配置]vscode通过ssh连接autodl进行项目开发

警告：如果使用VSCode直接执行或开终端执行训练程序，请在调试完成后最后通过screen/tmux工具开守护进程，确保程序不受SSH连接中断影响程序执行！ 官方文档：请戳 AutoDL使用方法： 在进行操作前您需要提前安装…...

编程日记 2024/6/21 23:09:57

2024中国宁波-东南亚职业教育产教协同发展校企对接会举办

2024年6月16日，由东南亚教育部长组织技术教育发展中心（SEAMEO TED）、联合国教科文组织国际农村教育研究与培训中心（UNESCO INRULED）、中国教育国际交流协会（CEAIE）三方主办的“2024中国宁波-东南…...

编程日记 2024/6/21 23:08:56

Web前端、后端与建站：全方位解析四大基石、五大挑战、六大技术与七大策略

Web前端、后端与建站：全方位解析四大基石、五大挑战、六大技术与七大策略在当今数字化时代，Web前端、后端以及建站技术已经成为构建现代网站和应用不可或缺的关键要素。本文将从四个方面探讨Web前端与后端的基础，从五个方面分析建站过程中的…...

编程日记 2024/6/21 23:07:55

一文读懂大模型Agent工作流：小白也能学会的AI新玩法（收藏版）

本文深入解析了AI Agent和Agent工作流的核心概念，阐述了AI代理如何通过工作流实现复杂任务的自动化。文章详细介绍了AI Agent的组成部分，包括推理、工具和记忆，并解释了Agent工作流的组成要素和不同模式。此外，还探讨了Agent工作流…...

编程新知 2026/5/18 10:48:21

Umi-OCR：完全免费开源的离线OCR神器，3分钟快速上手文字识别

Umi-OCR：完全免费开源的离线OCR神器，3分钟快速上手文字识别【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维…...

编程新知 2026/5/17 11:03:50

3步轻松掌握：163MusicLyrics歌词下载完全指南

3步轻松掌握：163MusicLyrics歌词下载完全指南【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为找不到高质量的LRC歌词而烦恼吗？163MusicLyri…...

编程新知 2026/5/17 10:48:58

终极免费离线OCR解决方案：Umi-OCR完整使用指南

终极免费离线OCR解决方案：Umi-OCR完整使用指南【免费下载链接】Umi-OCR OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。 …...

编程新知 2026/5/17 10:46:45

OpenCore Legacy Patcher终极指南：5步让老旧Mac完美运行最新macOS系统

OpenCore Legacy Patcher终极指南：5步让老旧Mac完美运行最新macOS系统【免费下载链接】OpenCore-Legacy-Patcher Experience macOS just like before 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher OpenCore Legacy Patcher是…...

编程新知 2026/5/17 10:14:10

Forge模组开发效率提升：Gradle插件自动化构建与热部署实践

1. 项目概述：一个为Forge模组开发者准备的“瑞士军刀”如果你是一名Minecraft Forge模组的开发者，或者你正打算踏入这个充满创造力的领域，那么你大概率经历过这样的场景：为了测试一个简单的功能改动，你需要反复地执行g…...

编程新知 2026/5/18 9:20:16

AI驱动的Web可访问性审查：LLM如何成为你的自动化无障碍专家

1. 项目概述：一个为AI智能体而生，却意外照亮了所有人的可访问性审查工具最近在折腾AI智能体（AI Agent）的开发，一个老问题又浮上水面：怎么确保我造出来的这个“数字员工”，能真正服务好所有人&…...

编程新知 2026/5/18 7:53:24

【仿真学习框架】HoloMotion 从入门到精通：全身人形控制 Foundation Model 完全指南

HoloMotion 从入门到精通：全身人形控制 Foundation Model 完全指南目标读者：具身智能研究者、人形机器人开发者、RL/机器人学习工程师目录第1章 HoloMotion 全景概览 1.1 什么是 HoloMotion 1.2 技术定位："小脑"基座模型 1.3 4-Any 愿景与路线图 1.4 核心能力矩…...

编程新知 2026/5/18 7:15:34

详解C++作用域与生命周期

Pascal之父Nicklaus Wirth曾经提出一个公式，展示出了程序的本质：程序算法数据结构。后人又给出一个公式与之遥相呼应：软件程序文档。这两个公式可以简洁明了的为我们展示程序和软件的组成。程序的运行过程可以理解为算法对数据的加工过程&…...

编程新知 2026/5/17 5:00:17

【限时解密】ElevenLabs未文档化的/v1/text-to-speech/{voice_id}/with-timing接口：获取逐词时间戳+音素级对齐数据（仅剩3个Beta白名单通道）

更多请点击： https://intelliparadigm.com 第一章：ElevenLabs英文语音生成的核心能力与技术定位 ElevenLabs 是当前业界领先的 AI 语音合成平台，其英文语音生成能力建立在自研的端到端神经声学模型（如 ElevenMultilingualV2&…...

编程新知 2026/5/18 8:25:04

文章目录

六、PyMuPDF的OCR识别

6.1 使用 Tesseract进行OCR

相关文章：