如何在服务器端对PDF和图像进行OCR处理
介绍
今天我想和大家分享一个我在研究技术资料时发现的很好玩的东西——Tesseract。这不仅仅是一个普通的库,而是一个用C语言编写的OCR神器,能够识别一大堆不同国家的语言。我一直在寻找能够处理各种文档的工具,而Tesseract就像是给了我一把万能钥匙。
有时候我们手头会有一堆扫描的文件或者图片,里面有很多有用的信息,但是它们就是静静地躺在那里,不能复制粘贴,也不能搜索。这让我特别头疼。直到我发现了Tesseract,这个问题才迎刃而解。它不仅能够识别英文,还能搞定中文、日文、韩文等等,简直是多语言文档的救星。
我在这里不是要给大家上技术课,而是想分享一个我觉得特别有意思的案例。这个案例展示了如何用Tesseract和其他几个开源工具,在服务器上把PDF文件和图片里的文字给“抠”出来。这个过程我觉得既神奇又实用,我觉得你们可能会感兴趣。
接下来,我会一步步地带你们了解这个过程。我们将会用到Ghostscript、Tesseract和PDFtk这三个工具,搭建起一个完整的OCR流水线。
我相信,这个案例也可以给你带来一些关于开发上新的思路和实用的小技巧。
那么,我们就不多废话了,一起来探索OCR的奥秘吧!
前提条件
如标题所示,是在服务器端对 PDF 进行 OCR 处理,所以我们我们需要一台 Linux 服务器,我的环境是 Ubuntu,建议与我的环境一致,避免运行的过程中出错。
如果你没有服务器,那可以跟着我的步骤 ,创建一台属于自己的Linux服务器,
我将会以 雨云 为例,带大家创建一台自己的云服务器,尝试本篇文章的内容。
注册链接: https://www.rainyun.com/NTEzMTM1_?s=blog
创建云服务器
以下内容只是参考,具体按照自己的需求选择配置即可。
点击“云产品”→“云服务器”→“立即购买”。
建议选择距离您较近的区域,以降低延迟。
选择配置。
选择Ubuntu 22.04版本,并看自己需求是否勾选预装Docker。
点击“立即购买”,并完成后续购买流程。 购买完成后,等待服务器部署完毕,进入管理面板,找到远程连接信息。
使用PowerShell进行远程连接:输入ssh root@你的服务器IP
(例如ssh root@154.9.227.239
),首次连接需输入yes
,然后回车即可登录。
到这里,我们的服务器就创建完毕,并且能够远程SSH访问了。
教程开始
第一步:安装 Ghostscript、Tesseract 和 PDFtk
OCR既能处理PDF文件(PDF文件里有时也包含图片),也能直接处理图片。处理PDF文件会多一些步骤,如果你只处理图片,可以跳过这些步骤。
我们需要三个工具:
Ghostscript
: 能把PDF转换成图片,也能把图片转换成PDF的工具。Tesseract
: OCR引擎,能把图片里的文字识别出来。PDFtk
: 这个工具比较小巧,主要用来把PDF文件拆分成单页,或者把单页重新组合成一个完整的PDF。
在Ubuntu系统上,安装这三个工具非常简单,只需要在终端输入以下命令:
sudo apt update
sudo apt install pdftk ghostscript tesseract-ocr x11-utils
安装完成后,可以用which
命令检查一下是否安装成功:
which pdftk
# /usr/bin/pdftk
which gs
# /usr/bin/gs
which tesseract
# /usr/bin/tesseract
接下来,我们就可以开始提取文字了!
第二步:将 PDF 转换为图片并运行 Tesseract
如果你没有PDF文件,可以下载我这个示例PDF文件先练练手,如果你有自己的PDF文件,可以替换后面内容中的文件名。
curl -L "https://paste.c-net.org/MckennaBuzzing" -o "OCR-sample-paper.pdf"
如果你的文件是PDF,首先需要把它转换成图片。我们可以用 Ghostscript 来完成这个任务:
mkdir output # 创建一个文件夹存放生成的图片
gs -o output/%05d.png -sDEVICE=png16m -r300 -dPDFFitPage=true OCR-sample-paper.pdf
这段命令有点长,但别怕!我会解释这些参数:
-o output/%05d.png
表示把图片保存到output
文件夹,%05d
会自动给图片编号;-sDEVICE=png16m
指定图片格式为PNG;-r300
设置图片分辨率;-dPDFFitPage=true
确保图片大小合适。
运行后会输出一下信息,Ghostscript 将单独输出 PDF 中的每个页面:
完成后,你可以用ls output
命令查看生成的图片。
此时看到 output
目录下有14张图片,如果你的环境中有Nodejs环境,可以使用以下命令,将当前路径设置为静态资源目录,我们来看看,这些 png 图片是什么:
npx http-server
运行好后浏览器打开网址,我这里是: http://you_server_ip:8080 并进入output目录
我点击打开 00003.png
,发现是一张图片,图片并不能够复制文字。
接下来,我们用Tesseract把图片转换成可复制文字的PDF:
for png in $(ls output); do tesseract -l eng \-c preserve_interword_spaces=0 \output/$png \output/$(echo $png | sed -e "s/\.png//g") \pdf
done
这段命令有点复杂,但核心就是用Tesseract识别图片里的文字,并生成PDF文件。-l eng
表示使用英语语言模型,如果你需要识别其他语言,需要安装对应的语言包。
Tesseract会逐页处理图片,完成后,你可以在output
文件夹里看到生成的PDF文件。
继续列出 output
目录下的内容,会看到多了同名的 PDF 文件。
我们继续浏览器查看这些文件,还是打开00003.pdf
:
发现这次就可以任意复制了,并且识别正确率还是很高的。
小提示: Ubuntu系统默认只安装了英语语言包,如果你需要识别其他语言,需要安装对应的语言包,例如
sudo apt install tesseract-ocr-all
安装所有语言包。安装好后浏览器打开 https://tesseract-ocr.github.io/tessdoc/Data-Files-in-different-versions.html 这个网址,可以找到对应的 LangCode ,如果你需要识别中文,那么
-l
参数后面将eng
修改为chi_sim
即可。
第三步:把单页PDF合并成一个
如果你处理的是PDF文件,现在需要把第二步生成的单页PDF文件合并成一个完整的PDF文件。我们可以用 **PDFtk **来完成这个任务:
pdftk output/*.pdf cat output joined.pdf
这段命令很简单,就是把output
文件夹里的所有PDF文件合并成一个名为joined.pdf
的文件。
最后,我们用 Ghostscript 调整一下PDF文件的格式,让它看起来更漂亮:
gs -sDEVICE=pdfwrite -sPAPERSIZE=letter -dFIXEDMEDIA -dPDFFitPage -o final.pdf joined.pdf
这段命令主要用来调整PDF的尺寸和格式。-sPAPERSIZE=letter
表示使用Letter纸张大小,你可以根据需要修改。
现在,你已经成功地完成了OCR!如果实际应用到开发中,你可以使用这一系列工具,自动化完成,并且使用pdftotext final.pdf
命令把PDF文件转换成文本文件,可以开发一个知识库的全文检索,将原本内容为图片扫描件的PDF提取文字。
相关链接
雨云 - 新一代云服务提供商: https://www.rainyun.com/NTEzMTM1_?s=blog
我的博客:https://blog.ivwv.site
相关文章:

如何在服务器端对PDF和图像进行OCR处理
介绍 今天我想和大家分享一个我在研究技术资料时发现的很好玩的东西——Tesseract。这不仅仅是一个普通的库,而是一个用C语言编写的OCR神器,能够识别一大堆不同国家的语言。我一直在寻找能够处理各种文档的工具,而Tesseract就像是给了我一把…...

Windows 下实验视频降噪算法 MeshFlow 详细教程
MeshFlow视频降噪算法 Meshflow 视频降噪算法来自于 2017 年电子科技大学一篇高质量论文。 该论文提出了一个新的运动模型MeshFlow,它是一个空间平滑的稀疏运动场 (spatially smooth sparse motion field),其运动矢量 (motion vectors) 仅在网格顶点 (m…...

Python入门:如何正确的控制Python异步并发量(制并发量的关键技巧与易错点解析)
文章目录 📖 介绍 📖🏡 演示环境 🏡📒 异步并发量控制 📒📝 Python异步并发简介📝 为什么要限制并发量🎈 资源管理🎈 服务稳定性📝 新手容易犯的错误🎈 忽略并发量限制🎈 错误设置并发量📝 设置并发量要注意的事情🎈 了解任务类型🎈 考虑系统资…...

qt QCheckBox详解
QCheckBox 是 Qt 框架中的一个控件,用于创建复选框,允许用户进行选择和取消选择。它通常用于表单、设置界面和任何需要用户选择的场景。 QCheckBox继承自QAbstractButton类,因此继承了按钮的特性。它表示一个复选框,用户可以通过…...

PAT甲级-1041 Be Unique
题目 题目大意 从一组数字中选出第一个唯一出现的数,输出该数。如果没有,则输出None。 思路 哈希的思想,将数值作为索引,对应该数值出现的次数,然后遍历数组即可。 注意第一个数字是指数字的个数,不是数…...
【jvm】如何设置堆内存大小
目录 1. 使用命令行参数设置2. idea中设置3. 注意事项 1. 使用命令行参数设置 1.在Java命令后添加-Xms和-Xmx参数。2.-Xms参数用于设置JVM的初始堆内存大小,等价于-XX:InitialHeapSize。3.-Xmx参数用于设置JVM的最大堆内存大小,等价于-XX:MaxHeapSize。…...

kernel源码分析 do_msgsnd read_msg
笔者分析的源码是v 5.11.22 链接:msg.c - ipc/msg.c - Linux source code v5.11.22 - Bootlin do_msgsnd static long do_msgsnd(int msqid, long mtype, void __user *mtext,size_t msgsz, int msgflg) {struct msg_queue *msq;struct msg_msg *msg;int err;str…...
掌握 CTE 技巧,实现连续日期和月份的 SQL 报表统计
在 SQL 查询中,报表统计往往涉及到特定时间段内的数据汇总,如每日、每月的销售数据等。然而,面对缺少数据的日期或月份,传统 SQL 查询可能会直接跳过这些日期,使得输出的报表在视觉上并不连续。本文将展示如何利用 CTE…...

【表格解决问题】EXCEL行数过多,WPS如何按逐行分别打印多个纸张中
1 问题描述 如图:我的表格行数太多了。打印在一张纸上有点不太好看 2 解决方式 Step01:先选中你需要打印的部分,找到【页面】->【打印区域】->【设置打印区域】 Step02:先选中一行,找到【插入分页符】 Step0…...
Maven讲解从基础到高级配置与实践
一、基础认知 1.1 Maven 的主要作用 Maven 主要是用来管理 Java 项目构建流程的工具,包括以下几个方面: 依赖管理:通过 POM.xml 文件管理项目的外部依赖库,不同版本的依赖包可以通过 Maven 中央仓库自动下载,减少了…...
Vue3组件式父子传值
下面是使用 <script setup> 语法的 Vue 3 组件之间传值的示例。 示例 1:使用 Props 和 Emits 父组件 <template><div><h1>父组件</h1><ChildComponent :message="parentMessage" @reply="handleReply" /><p>…...
网页自动化测试和爬虫:Selenium库入门与进阶
网页自动化测试和爬虫:Selenium库入门与进阶 在现代Web开发和数据分析中,自动化测试和数据采集成为了开发流程中的重要部分。Python 的 Selenium 库是一种强大的工具,不仅用于网页自动化测试,也在网页爬虫中得到了广泛的应用。本…...

Cells 单元
Goto Data Grid 数据网格 Cells 单元 Content Alignment 内容对齐 显示数值的数据网格单元格会将其内容向右对齐。显示其他类型数据的单元格将其内容向左排列。若要更改单元格内容对齐方式,请处理 ColumnView.RowCellDefaultAlignment 事件。 Selection Modes 选…...

2024/11/2 安卓创建首页界面
Gradle 8.7 bin是指Gradle 8.7版本的二进制包,通常以.zip或.tar.gz格式提供。这个二进制包包含了运行Gradle所需的所有文件,用户可以直接下载并解压使用,无需从源代码编译。 首先了解最常用的布局 线性布局(从上到下&#x…...
SpringSession源码分析
默认对常规Session的理解和使用,如何使用Set-Cookie。 Maven库 常见的spring-session-data-redis依赖spring-session-core <dependency><groupId>org.springframework.session</groupId><artifactId>spring-session-core</artifactId&…...

IIC
IIC 目录 IIC BH1750型号的光照传感器 IIC通信协议 iic物理层 IIC软件层协议 -- 那么一主多从,怎么选中与指定的从机通信呢? 从机设备地址 -- 从手册中查看 IIC 写操作 IIC 读操作 硬件IIC和模拟 IIC 使用 模拟 IIC 使用 !&…...

LLM Observability: Azure OpenAI (一)
作者:来自 Elastic Vinay Chandrasekhar•Andres Rodriguez 我们很高兴地宣布 Azure OpenAI 集成现已全面上市,它提供了对 Azure OpenAI 服务性能和使用的全面可观察性!另请参阅本博客的第 2 部分 虽然我们已经提供了对 LLM 环境的可视性一段…...

qt QBrush详解
1、概述 QBrush是Qt框架中的一个基本图形对象类,它主要用于定义图形的填充模式。QBrush可以用于填充如矩形、椭圆形、多边形等形状,也可以用于绘制背景等。通过QBrush,可以设置填充的颜色、样式(如实心、渐变、纹理等)…...

Excel函数CUnique连接合并指定区域的唯一值
上一篇文章向大家介绍了如何使用VBA在低版本Excel中创建unique函数的方法,今天我跟大家分享一下如何使用函数连接指定区域的唯一值,也就是将unique函数获取的唯一值连接合并成一个,并指定连接符。 同样,我们需要先创建一个自定义的…...

机械革命屏幕设置为RGB
机械革命屏幕设置为RGB 如何设为机械革命屏幕显示为RGB如何设置1.win菜单下输入“显卡控制中心”2.选择显示器3.设置为RGB4.饱和度大家设为自己舒服的就行5.调整亮度 参考来源 如何设为机械革命屏幕显示为RGB 之前买的显示器,感觉调成sRGB看起来非常舒服。就想着是…...

网络六边形受到攻击
大家读完觉得有帮助记得关注和点赞!!! 抽象 现代智能交通系统 (ITS) 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 (…...
云计算——弹性云计算器(ECS)
弹性云服务器:ECS 概述 云计算重构了ICT系统,云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台,包含如下主要概念。 ECS(Elastic Cloud Server):即弹性云服务器,是云计算…...
SciencePlots——绘制论文中的图片
文章目录 安装一、风格二、1 资源 安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格 简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源 论文绘图神器来了:一行…...

Redis相关知识总结(缓存雪崩,缓存穿透,缓存击穿,Redis实现分布式锁,如何保持数据库和缓存一致)
文章目录 1.什么是Redis?2.为什么要使用redis作为mysql的缓存?3.什么是缓存雪崩、缓存穿透、缓存击穿?3.1缓存雪崩3.1.1 大量缓存同时过期3.1.2 Redis宕机 3.2 缓存击穿3.3 缓存穿透3.4 总结 4. 数据库和缓存如何保持一致性5. Redis实现分布式…...

高等数学(下)题型笔记(八)空间解析几何与向量代数
目录 0 前言 1 向量的点乘 1.1 基本公式 1.2 例题 2 向量的叉乘 2.1 基础知识 2.2 例题 3 空间平面方程 3.1 基础知识 3.2 例题 4 空间直线方程 4.1 基础知识 4.2 例题 5 旋转曲面及其方程 5.1 基础知识 5.2 例题 6 空间曲面的法线与切平面 6.1 基础知识 6.2…...

【Zephyr 系列 10】实战项目:打造一个蓝牙传感器终端 + 网关系统(完整架构与全栈实现)
🧠关键词:Zephyr、BLE、终端、网关、广播、连接、传感器、数据采集、低功耗、系统集成 📌目标读者:希望基于 Zephyr 构建 BLE 系统架构、实现终端与网关协作、具备产品交付能力的开发者 📊篇幅字数:约 5200 字 ✨ 项目总览 在物联网实际项目中,**“终端 + 网关”**是…...

IT供电系统绝缘监测及故障定位解决方案
随着新能源的快速发展,光伏电站、储能系统及充电设备已广泛应用于现代能源网络。在光伏领域,IT供电系统凭借其持续供电性好、安全性高等优势成为光伏首选,但在长期运行中,例如老化、潮湿、隐裂、机械损伤等问题会影响光伏板绝缘层…...
【C++从零实现Json-Rpc框架】第六弹 —— 服务端模块划分
一、项目背景回顾 前五弹完成了Json-Rpc协议解析、请求处理、客户端调用等基础模块搭建。 本弹重点聚焦于服务端的模块划分与架构设计,提升代码结构的可维护性与扩展性。 二、服务端模块设计目标 高内聚低耦合:各模块职责清晰,便于独立开发…...
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南
精益数据分析(97/126):邮件营销与用户参与度的关键指标优化指南 在数字化营销时代,邮件列表效度、用户参与度和网站性能等指标往往决定着创业公司的增长成败。今天,我们将深入解析邮件打开率、网站可用性、页面参与时…...
return this;返回的是谁
一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请,不同级别的经理有不同的审批权限: // 抽象处理者:审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...