当前位置：首页 > news >正文

Linux安装Tesseract-OCR（操作系统CentOS）

news 2025/11/6 22:09:44

Linux安装Tesseract-OCR

第一步，安装依赖
第二步，下载安装包
第三步，安装leptonica库
第四步，安装tesseract
第五步，添加语言包
第六步，测试

第一步，安装依赖

sudo yum install libpng-devel
rpm -qa | grep libpng-devel

sudo yum install libjpeg-devel
rpm -qa | grep libjpeg-devel

sudo yum install tiff-devel
rpm -qa | grep tiff-devel

sudo yum install libtool-ltdl
rpm -qa | grep libtool-ltdl

sudo yum install gcc
gcc --version

sudo yum install g++
g++ --version

sudo yum install automake
automake --version

第二步，下载安装包

leptonica-1.78.0.tar.gz
下载地址 http://www.leptonica.org/source/leptonica-1.78.0.tar.gz

tesseract-5.2.0.tar.gz
下载地址 https://codeload.github.com/tesseract-ocr/tesseract/tar.gz/refs/tags/5.2.0

第三步，安装leptonica库

#1、首先，使用tar命令解压leptonica-1.78.0.tar.gz文件。这个命令会将压缩包中的所有文件和目录提取到当前目录下
tar -xzvf leptonica-1.78.0.tar.gz#2、然后，进入解压后的目录leptonica-1.78.0
cd leptonica-1.78.0#3、./autogen.sh是一个用于生成Makefile文件的脚本。它会根据系统的环境和配置信息，自动生成适合当前环境的Makefile文件，以便进行编译和安装。通常在源代码包中提供该脚本，用户需要先运行该脚本，然后再执行make命令进行编译和安装。
./autogen.sh
【如果执行autogen.sh脚本提示libtoolize: 未找到命令，执行sudo yum install libtool】#4、接下来，执行configure命令进行配置
./configure --prefix=/usr/local/leptonica#5、配置完成后，执行make命令进行编译
make#6、最后，使用sudo make install命令进行安装。这个命令需要管理员权限，因为安装软件通常需要修改系统文件。
sudo make install接下来配置 leptonica 环境变量
#1、打开 /etc/profile
vim /etc/profile#2、追加以下字段
PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/leptonica/lib/pkgconfig
export PKG_CONFIG_PATH
CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export CPLUS_INCLUDE_PATH
C_INCLUDE_PATH=$C_INCLUDE_PATH:/usr/local/leptonica/include/leptonica
export C_INCLUDE_PATH
LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/leptonica/lib
export LD_LIBRARY_PATH
LIBRARY_PATH=$LIBRARY_PATH:/usr/local/leptonica/lib
export LIBRARY_PATH
LIBLEPT_HEADERSDIR=/usr/local/leptonica/include/leptonica
export LIBLEPT_HEADERSDIR#3、应用配置
source /etc/profile

第四步，安装tesseract

#1、首先，使用tar命令解压tesseract-5.2.0.tar.gz文件。这个命令会将压缩包中的所有文件和目录提取到当前目录下。
tar -xzvf tesseract-5.2.0.tar.gz#2、然后，进入解压后的目录tesseract-5.2.0.tar.gz
cd tesseract-5.2.0#3、./autogen.sh是一个用于生成Makefile文件的脚本。它会根据系统的环境和配置信息，自动生成适合当前环境的Makefile文件，以便进行编译和安装。通常在源代码包中提供该脚本，用户需要先运行该脚本，然后再执行make命令进行编译和安装。
./autogen.sh#4、执行configure命令进行配置（这步可能会提示报错，看看自己缺少什么依赖就安装什么依赖）
./configure --prefix=/usr/local/tesseract#5、配置完成后，执行make命令进行编译
配置完成后，执行make命令进行编译
make#6.最后，使用sudo make install命令进行安装。这个命令需要管理员权限，因为安装软件通常需要修改系统文件
sudo make install接下来配置 tesseract 环境变量
#1、打开 /etc/profile
vim /etc/profile#2、追加以下字段
PATH=$PATH:/usr/local/tesseract/bin
export PATH
export TESSDATA_PREFIX=/usr/local/share/tessdata
#export PATH=$PATH:$TESSDATA_PREFIX#3、应用配置
source /etc/profile#4、测试一下
tesseract -v

第五步，添加语言包

#1、如果你不想每次都指定语言包加载路径的话...你需要： 将软件安装目录下的 tessdata目录 拷贝到 /usr/local/share/tessdata目录#2、下载 tesseract 语言包（从你win系统里面的C:\Program Files\Tesseract-OCR\tessdata里面的语言包拷贝到Linux服务器上/usr/local/share/tessdata目录就可以了，因为这样操作是最安全的，不然会出现奇奇怪怪的问题等待你处理，因为你下载的语言包不一定是正确的。）ps:前提是你的win安装了tesseract，并且在安装的时候选择了安装语言包

第六步，测试

识别图片命令
tesseract 567.png outputteee -l chi_sim+eng参数说明
tesseract = 命令
567.png=当前目录文件
outputteee=会在当前目录生成outputteee.txt文件
-l chi_sim+eng=中文+英文，如果是单个语言-l chi_sim就可以了

Linux安装Tesseract-OCR（操作系统CentOS）

Linux安装Tesseract-OCR 第一步，安装依赖第二步，下载安装包第三步，安装leptonica库第四步，安装tesseract第五步，添加语言包第六步，测试第一步，安装依赖 sudo yum install libpng-devel rpm -q…...

编程日记 2023/11/30 19:35:54

pair和typedef

文章目录一、pair用法1.2、pair的创建和初始化1.3、pair对象的操作1.4、(make_pair)生成新的pair对象1.5、通过tie获取pair元素值 2、typedef2.1、什么是typedef2.2、typedef用法2.2.1、对于数据类型使用例如：2.2.2、对于指针的使用例如2.2.3、对于结构体的使用 2.…...

编程日记 2023/11/30 19:33:51

rdf-file：分布式环境下的文件处理

一：简介数据量大了以后，单机解析或者生成文件的效率就很低，需要通过集群处理： 机构过来的文件：我们先对文件进行分片，在利用集群集群处理分片文件。给机构文件：分库分表数据，每个…...

编程日记 2023/11/30 19:32:50

Maven下载与安装教程

一、下载 Maven 进入 Maven 官网：maven.apache.org/download.cgi 选择 .zip 文件下载，最新版本是 3.9.5 二、安装 Maven 将 .zip 文件解压到没有中文没有空格的路径下。例如下图，在创建一个repository的空文件夹在他的下面，用于…...

编程日记 2023/11/30 19:29:47

C++(20)：通过starts_with/ends_with检查字符串

C20提供了starts_with用于检查字符串是否以某个字符串开始，ends_with用于检查是否以某个字符串结束： #include <iostream> #include <string> using namespace std;int main() {string str "hello and 88";cout<<str.star…...

编程日记 2023/11/30 19:28:46

YOLOv8+Nanodet强强联合改进标签分配：使用NanoDet动态标签分配策略，同时集成VFL全新损失，来打造新颖YOLOv8检测器

💡本篇内容：YOLOv8+Nanodet强强联合改进标签分配：使用NanoDet动态标签分配策略，同时集成VFL全新损失，来打造新颖YOLOv8检测器 💡🚀🚀🚀本博客 YOLO系列 + 改进NanoDet模型的动态标签分配策略源代码改进 💡一篇博客集成多种创新点改进：VFL损失函数 + Nanodet…...

编程日记 2023/11/30 19:27:45

base64字符串转成file

分割base64字符串，获取base64的格式和ASCII字符串；使用atob()方法将base64中的ASCII字符串解码成二进制数据"字符串"；将二进制数据按位放入8 位无符号整型数组中适用new File()方法将ArrayBuffer转换成file对象 const base64 &qu…...

编程日记 2023/11/30 19:26:43

NextJS开发：Prisma开启SQL日志输出

在 Prisma 中打印执行的 SQL 可以通过在 PrismaClient 实例上设置 log 配置参数来实现。具体步骤如下： 在你的Prisma项目根目录中，找到 prisma/schema.prisma 文件在 datasource 块中，找到你正在使用的数据库配置，并添加 provide…...

编程日记 2023/11/30 19:25:42

barcode.js+elementUi——实现二维码的展示——基础积累

barcode.js——实现二维码的展示——基础积累 CSDN服务器一直报错条形码需求分析1.barcode.js的引入2.html页面上的写法——我这边是一个elementUI的弹窗条形码3.script中的部分 CSDN服务器一直报错最近不知道怎么了，CSDN一直报服务器错误，不能只有我自…...

编程日记 2023/11/30 19:24:41

vue2 el-table 封装

vue2 el-table 封装在 custom 文件夹下面创建 tableList.vue直接上代码（代码比较多，复制可直接用） <template><div class"mp-list"><el-tableref"multipleTable"class"mp-custom-table":dat…...

编程日记 2023/11/30 19:23:40

harmonyos应用开发者高级认证考试部分答案(2)

一、判断只要使用端云一体化的云端资源就需要支付费用（错） 所有使用Component修饰的自定义组件都支持onPageShow，onBackPress和onPageHide生命周期函数。（错） HarmonyOS应用可以兼容OpenHarmony生态（对&am…...

编程日记 2023/11/30 19:22:39

【物联网与大数据应用】Hadoop数据处理

Hadoop是目前最成熟的大数据处理技术。Hadoop利用分而治之的思想为大数据提供了一整套解决方案，如分布式文件系统HDFS、分布式计算框架MapReduce、NoSQL数据库HBase、数据仓库工具Hive等。 Hadoop的两个核心解决了数据存储问题（HDFS分布式文件系统&#…...

编程日记 2023/11/30 19:20:37

Kotlin学习——kt里的集合List，Set，Map List集合的各种方法之Int篇

Kotlin 是一门现代但已成熟的编程语言，旨在让开发人员更幸福快乐。它简洁、安全、可与 Java 及其他语言互操作，并提供了多种方式在多个平台间复用代码，以实现高效编程。 https://play.kotlinlang.org/byExample/01_introduction/02_Functio…...

编程日记 2023/11/30 19:19:36

docker buildx跨架构构建笔记(x86_64构建下构建aarch64镜像)

docker buildx跨架构构建(x86_64构建aarch64镜像) 文章目录 docker buildx跨架构构建(x86_64构建aarch64镜像)简介第一步先交叉编译一个aarch64的HelloWorld程序。准备一个用于跨架构的Dockerfile文件使用docker buildx命令构建aarch64架构的镜像。查看镜像具体详细信息&#…...

编程日记 2023/11/30 19:18:35

Sass基础知识详细讲解【附带表图】

文章目录前言使用 SassRack / Rails / Merb插件缓存选项语法选择编码 Sass CSS扩展Sass 注释输出 Sass 脚本Sass -规则和指令Sass 控制指令和表达式 Sass 混入指令Sass 功能指令命名约定Sass 输出样式:nested:expanded:compact:compressedSass 扩展缓存存储自定义导入后言前…...

编程日记 2023/11/30 19:17:33

《斯坦福数据挖掘教程·第三版》读书笔记（英文版）Chapter 3 Finding Similar Items

来源：《斯坦福数据挖掘教程第三版》对应的公开英文书和PPT It is therefore a pleasant surprise to learn of a family of techniques called locality-sensitive hashing, or LSH, that allows us to focus on pairs that are likely to be similar, without hav…...

编程日记 2023/11/30 19:16:32

天眼销：超有用的企业获客工具

天眼销是资深数据团队开发的一个客户资源查询平台，可以通过多重筛选：企业名称/信用代码，所在地区，行业，注册资本，年限，是否在营/有电话/邮箱等。天眼销和某查查有什么区别？ 天*查/…...

编程日记 2023/11/30 19:15:31

dbeaver连接amabri-hbase

目录尝试过程解决之道总结尝试过程注意此章节为记录试错过程，无需跟随操作，仅作试错记录。真正操作方法请看“解决之道”章节环境ambari安装的hbase2.1.6 使用apche phoenix默认驱动配置备注：Apache Phoenix 是一个开源的、基于…...

编程日记 2023/11/30 19:13:29

Mac IDEA解决Maven项目命令行报错：command not found: mvn

1. 使用idea自带的maven命令 open -e ~/.zshrc 2. 在其最下面增加 # maven export MAVEN_HOME"/Applications/IntelliJ IDEA.app/Contents/plugins/maven/lib/maven3" export PATH$MAVEN_HOME/bin:$PATH # maven end 3. 连接使之生效 source ~/.zshrc4. 修改mvn…...

编程日记 2023/11/30 19:12:28

线性回归梯度下降

梯度下降算法在开始之前，为了方便解释，首先规定几个符号所代表的意义： m m m 训练集中训练样本的数量 X X X 输入变量 Y Y Y 输出变量 ( x , y ) (x,y) (x,y) 训练样本 ( x i , y i ) (x^i,y^i) (xi,yi)第i个训练样本（i表示…...

编程日记 2023/11/30 19:11:26

Unity3D中Gfx.WaitForPresent优化方案

前言在Unity中，Gfx.WaitForPresent占用CPU过高通常表示主线程在等待GPU完成渲染（即CPU被阻塞），这表明存在GPU瓶颈或垂直同步/帧率设置问题。以下是系统的优化方案： 对惹，这里有一个游戏开发交流小组&…...

编程新知 2025/10/19 16:25:32

uniapp微信小程序视频实时流+pc端预览方案

方案类型技术实现是否免费优点缺点适用场景延迟范围开发复杂度WebSocket图片帧定时拍照Base64传输✅ 完全免费无需服务器纯前端实现高延迟高流量帧率极低个人demo测试超低频监控500ms-2s⭐⭐RTMP推流TRTC/即构SDK推流❌ 付费方案 （部分有免费额度&#x…...

编程新知 2025/10/23 13:28:30

C++.OpenGL （10/64）基础光照（Basic Lighting）

基础光照（Basic Lighting）冯氏光照模型（Phong Lighting Model） #mermaid-svg-GLdskXwWINxNGHso {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-GLdskXwWINxNGHso .error-icon{fill:#552222;}#mermaid-svg-GLd…...

编程新知 2025/10/29 18:00:42

【生成模型】视频生成论文调研

工作清单上游应用方向：控制、速度、时长、高动态、多主体驱动类型工作基础模型WAN / WAN-VACE / HunyuanVideo控制条件轨迹控制ATI~镜头控制ReCamMaster~多主体驱动Phantom~音频驱动Let Them Talk: Audio-Driven Multi-Person Conversational Video Generation速…...

编程新知 2025/9/9 8:40:47

C#中的CLR属性、依赖属性与附加属性

CLR属性的主要特征封装性： 隐藏字段的实现细节提供对字段的受控访问访问控制： 可单独设置get/set访问器的可见性可创建只读或只写属性计算属性： 可以在getter中执行计算逻辑不需要直接对应一个字段验证逻辑： 可以…...

编程新知 2025/10/7 0:47:59

Redis：现代应用开发的高效内存数据存储利器

一、Redis的起源与发展 Redis最初由意大利程序员Salvatore Sanfilippo在2009年开发，其初衷是为了满足他自己的一个项目需求，即需要一个高性能的键值存储系统来解决传统数据库在高并发场景下的性能瓶颈。随着项目的开源，Redis凭借其简单易用、…...

编程新知 2025/11/1 8:05:41

STM32---外部32.768K晶振（LSE）无法起振问题

晶振是否起振主要就检查两个1、晶振与MCU是否兼容；2、晶振的负载电容是否匹配目录一、判断晶振与MCU是否兼容二、判断负载电容是否匹配 1. 晶振负载电容（CL）与匹配电容（CL1、CL2）的关系 2. 如何选择 CL1 和 CL…...

编程新知 2025/11/1 4:42:43

【Linux系统】Linux环境变量：系统配置的隐形指挥官

。# Linux系列文章目录前言一、环境变量的概念二、常见的环境变量三、环境变量特点及其相关指令3.1 环境变量的全局性3.2、环境变量的生命周期四、环境变量的组织方式五、C语言对环境变量的操作5.1 设置环境变量：setenv5.2 删除环境变量:unsetenv5.3 遍历所有环境…...

编程新知 2025/10/27 11:35:19

nnUNet V2修改网络——暴力替换网络为UNet++

更换前，要用nnUNet V2跑通所用数据集，证明nnUNet V2、数据集、运行环境等没有问题阅读nnU-Net V2 的 U-Net结构，初步了解要修改的网络，知己知彼，修改起来才能游刃有余。 U-Net存在两个局限，一是网络的最佳深度因应用场景而异，这取决于任务的难度和可用于训练的标注数…...

编程新知 2025/10/31 3:42:24

解析两阶段提交与三阶段提交的核心差异及MySQL实现方案

引言在分布式系统的事务处理中，如何保障跨节点数据操作的一致性始终是核心挑战。经典的两阶段提交协议（2PC）通过准备阶段与提交阶段的协调机制，以同步决策模式确保事务原子性。其改进版本三阶段提交协议（3PC&#xf…...

编程新知 2025/10/30 11:27:42