当前位置：首页 > news >正文

搭建自己的OCR服务，第一步：选择合适的开源OCR项目

news 2026/2/10 16:48:13

一、OCR是什么？

光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

亦即将图像中的文字进行识别，并以文本的形式返回。

二、OCR的基本流程

1. 图像输入、预处理：

　　不同的图像格式有不同的存储、压缩方式，目前有OpenCV、CxImage等。

2. 二值化：

　　如今数码摄像头拍摄的图片大多是彩色图像，彩色图像所含信息量巨大，不适用于OCR技术。为了让计算机更快的、更好地进行OCR相关计算，

　　我们需要先对彩色图进行处理，使图片只剩下前景信息与背景信息。二值化也可以简单地将其理解为“黑白化”。

3. 图像降噪：

　　对于不同的图像根据噪点的特征进行去噪的过程称为降噪。

4. 倾斜校正：

　　由于一般用户，在拍照文档时，难以拍摄得完全符合水平平齐与竖直平齐（我本人就经常拍的歪歪扭扭），

　　因此拍照出来的图片不可避免的产生倾斜，这就需要图像处理软件进行校正。

5. 版面分析：

　　将文档图片分段落，分行的过程称为版面分析。

6. 字符切割：

　　由于拍照、书写条件的限制，经常造成字符粘连、断笔，直接使用此类图像进行OCR分析将会极大限制OCR性能。

　　因此需要进行字符切割，即：将不同字符之间分割开。

7. 字符识别：

　　早期以模板匹配为主，后期以结合深度网络的特征提取为主。版面还原：将识别后的文字像原始文档图片那样排列，

　　段落、位置、顺序不变地输出到Word文档、PDF文档等，这一过程称为版面还原。

8. 后期处理：根据特定的语言上下文的关系，对识别结果进行校正。

9. 输出：将识别出的字符以某一格式的文本输出。

三、OCR的使用现状

ocr的发展已经有了非常多的积累，一般人或者企业使用，都是直接使用第三方的服务，目前提供第三方服务的大企业也非常多，百度，阿里云，腾讯等等，都提供了非常方便的api接口，可以进行调用，识别的速度、精确度和效果也都是非常不错的。唯一的缺点就是api的调用是需要收费的，对于调用频次不高的个人和企业，这个费用还是非常低的。

1，为什么企业要使用开源的而不是直接使用api服务？

目前因为公司的现状，使用开源的有几个目的

每天调用的频次比较高，以后可能越来越高，所以基于费用的考虑是最主要的。
目前ocr的算法研究基本趋于成熟，并且目前对识别的精度要求不是太高，目前开源项目基本能够满足。
对于cv和深度学习进行一定程度的积累和了解，为后续工作做一些铺垫。
学习开源ocr的模型构建，方便后续对于模型的更新。

2，目前常用的几个OCR开源的项目

目前针对ocr的相关开源项目还是很多的，做了一些简单的调研和试用，在这里进行记录。对于调研不准确的希望大家指出。

第一名：PaddleOCR

PaddleOCR 是百度开源的中文识别的ocr开源软件，PaddleOCR旨在打造一套丰富、领先、且实用的OCR工具库，助力开发者训练出更好的模型，并应用落地。

支持多种OCR相关前沿算法，在此基础上打造产业级特色模型PP-OCR和PP-Structure，并打通数据生产、模型训练、压缩、预测部署全流程。

开源地址： https://github.com/PaddlePaddle/PaddleOCR.git

官网地址： https://www.paddlepaddle.org.cn/

优势

github上面star非常多，项目非常活跃
模型只针对中文进行训练
后面做背书的公司非常强（baidu）
相关的中文文档非常齐全
识别的精确度比较高
安装和教程详细
支持前沿算法和标注工具

劣势

目前使用的训练模型是基于百度公司自己的PaddlePaddle框架，对于小公司来说并不主流（对比于ts或者pytorch），所使用深度学习框架为后续其他深度学习无法做很好的铺垫
项目整体比较复杂，学习成本较高

所以根据自己实际情况，我最终选择了这个百度飞浆OCR开源项目学习。

第二名：Tesseract

Tesseract 一款由HP实验室开发由Google维护的开源OCR引擎，支持多语言，多平台，使用python开发。

开源地址： https://github.com/tesseract-ocr/tesseract.git

优势

github上面star非常多，项目非常活跃
识别的语言和文字非常多
后面做背书的公司非常强（google）

劣势

不是专门针对中文场景
相关文档主要是英文，对于阅读和理解起来有一定困难
学习成本比较高
源码较多，并且部分源码是c++，学习起来难度比较大

所以根据自己实际情况放弃了这个项目的学习。

第三名：EasyOCR

EasyOCR是用Python编写基于Tesseract的OCR识别库，用于图像识别输出文本，目前支持80多种语言。

开源地址： https://github.com/JaidedAI/EasyOCR.git

优势

github上面的star也是比较多，但是最近不是特别活跃
支持的语言也是非常多的，多达80多种
识别的精确度尚可

劣势

从官方的页面体验来说识别的速度较慢
识别的文字种类多，学习难度较高
相关的官方文档是基于英文的，学习难度较高，对于新手不太友好

所以根据自己实际情况放弃了这个项目的学习。

搭建自己的OCR服务，第一步：选择合适的开源OCR项目

一、OCR是什么？ 光学字符识别（Optical Character Recognition, OCR）是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。亦即将图像中的文字进行识别，并以文本的形式返回。二、OCR的基本流程 1…...

编程日记 2023/9/12 10:12:09

【C++】VScode配置C/C++语言环境（简洁易懂版）

目录一、下载VScode（装好直接跳第五步）二、安装VScode三、VScode设置语言为中文四、VScode切换主题（个人爱好）五、下载C语言编译器（MinGW-W64 GCC）六、配置编译器环境变量七、配置VScode八、使用单独窗口…...

编程日记 2023/9/12 10:11:07

【hive】—原有分区表新增加列(alter table xxx add columns (xxx string) cascade；)

项目场景： 需求：需要在之前上线的分区报表中新增加一列。实现方案： 1、创建分区测试表并插入测试数据 drop table test_1; create table test_1 (id string, score int, name string ) partitioned by (class string) row format delimit…...

编程日记 2023/9/12 10:10:05

verilog学习笔记7——PMOS和NMOS、TTL电路和CMOS电路

文章目录前言一、PMOS和NMOS1、NMOS2、PMOS3、增强型和耗尽型4、两者面积大小二、CMOS门电路1、非门2、与非门3、或非门4、线与逻辑5、CMOS传输门6、三态门三、TTL电路四、TTL电路 VS CMOS电路五、数字电平六、使用CMOS电路实现逻辑函数1、上拉网络 PUN2、下拉网络 PDN3、实…...

编程日记 2023/9/12 10:09:04

Java知识点二

Java知识点二 1、Comparable内部比较器，Comparator外部比较器2、源码结构的区别:1）Comparable接口：2）Comparator接口： 2、Java反射 1、Comparable内部比较器，Comparator外部比较器我们一般把Comparable叫…...

编程日记 2023/9/12 10:08:02

基于单片机压力传感器MPX4115检测-报警系统-proteus仿真-源程序

一、系统方案本设计采用52单片机作为主控器，液晶1602显示，MPX4115检测压力，按键设置报警，LED报警。二、硬件设计原理图如下： 三、单片机软件设计 1、首先是系统初始化 /***************************************…...

编程日记 2023/9/12 10:07:00

文章目录 import numpy as np import torch from PIL.Image import Image from torch.autograd import Variable# 获取数据 def get_data():train_Xnp.asarray([3.3,4.4,5.5,6.71,6.93,4.168,9.779,6.182,7.59,2.167,7.042,10.791,5.313,7.997,5.654,9.27,3.1])train_Ynp.asarr…...

编程日记 2023/9/12 10:05:58

【源码】JavaWeb+Mysql招聘管理系统课设

简介用idea和eclipse都可以，数据库是mysql，这是一个Java和mysql做的web系统，用于期末课设作业 cout<<"如果需要的小伙伴可以http://www.codeying.top";可定做课设线上招聘平台整合了各种就业指导资源，通过了…...

编程日记 2023/9/12 10:04:57

Java中级编程大师班＜第一篇：初识数据结构与算法-数组(2)＞

数组（Array） 数组是计算机编程中最基本的数据结构之一。它是一个有序的元素集合，每个元素都可以通过索引进行访问。本文将详细介绍数组的特性、用法和注意事项。数组的基本特性数组具有以下基本特性： 有序性： 数…...

编程日记 2023/9/12 10:03:56

杰哥教你面试之一百问系列:java集合

文章目录 1. 什么是Java集合？请简要介绍一下集合框架。2. Java集合框架主要分为哪几种类型？3. 什么是迭代器（Iterator）？它的作用是什么？4. ArrayList和LinkedList有什么区别？它们何时适用&#…...

编程日记 2023/9/12 10:02:55

【数据结构】树和二叉树概念

1.树概念及结构树概念树是一种非线性的数据结构，它是由n（n>0）个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树，也就是说它是根朝上，而叶朝下的。有一个特殊的结点，…...

编程日记 2023/9/12 10:01:54

C盘清理教程

C盘清理教程首先使用space Sniffer 扫一下c盘，然后看一下到底是哪个文件这么大第二步，创建软链接。首先将我们需要移动的文件的当前路径拷贝下来：C:\Users\Tom\Desktop\test-link\abc\ghi.txt 然后假设剪切到D盘下：D:\ghi.…...

编程日记 2023/9/12 10:00:53

【实战-05】 flinksql look up join

摘要 look up join 能做什么？ 不饶关子直接说答案， look up join 就是广播。重要是事情说三遍，广播。flinksql中的look up join 就类似于flinks flink Datastream api中的广播的概念，但是又不完全相同，对于初次访问…...

编程日记 2023/9/12 9:59:52

C++数据结构--红黑树

目录一、红黑树的概念二、红黑树的性质三、红黑树的节点的定义四、红黑树结构五、红黑树的插入操作参考代码五、代码汇总一、红黑树的概念红黑树，是一种二叉搜索树，但在每个结点上增加一个存储位表示结点的颜色，可以是Red或Black。通过…...

编程日记 2023/9/12 9:58:50

Linux perf使用思考

目录一、参考资料（建议阅读）二、值得思考的几个问题1、perf使用不同的性能事件进行统计有什么区别呢？2、那使用不同的性能事件统计出来的数据？排序是如何决定的，其中的百分比数值在不同的性能事件进行统计时各自的意义…...

编程日记 2023/9/12 9:57:49

自定义路由断言工厂

我们来设定一个场景: 假设我们的应用仅仅让age在(min,max)之间的人来访问。第1步：在配置文件中,添加一个Age的断言配置 spring: application:name: api-gateway cloud:nacos:discovery:server-addr: 127.0.0.1:8848gateway:discovery:locator:enabled: trueroute…...

编程日记 2023/9/12 9:56:48

Nacos安装及在项目中的使用

目录概要一、安装 Nacos1、下载 Nacos2、解压3、启动 Nacos 服务器4、自定义Nacos启动脚本5、访问Nacos Web控制台二、Nacos----服务注册与发现1、添加 Nacos 依赖2、配置 Nacos 服务器地址3、使用 Nacos 注册服务4、启动服务三、Nacos----配置管理1、创建配置数据2、从 Nac…...

编程日记 2023/9/12 9:55:48

overleaf中latex语法总结

α和bata $\alpha$ $\beta$上标和下标同时使用 $A_{IJ}^{IJ}$\\ %上标^下标_多个使用{}行内公式 \noindent $abc$\\ %行内公式\documentclass{article} \usepackage[utf8]{inputenc} \usepackage[namelimits]{amsmath} %数学公式 \usepackage{amssymb} %数学公式…...

编程日记 2023/9/12 9:54:47

Grafana配置邮件告警

1、创建一个监控图 2、grafana邮件配置 vim /etc/grafana/grafana.ini [smtp] enabled true host smtp.163.com:465 user qinziteng05163.com password xxxxx # 授权码 from_address qinziteng05163.com from_name Grafanasystemctl restart grafana-serv…...

编程日记 2023/9/12 9:53:46

setup中的nextTick函数

await nextTick() 是 Vue 3 的一个异步函数，用于等待 DOM 更新完成后执行回调函数， 它在 setup 函数中非常有用，可以确保在对 DOM 进行操作之前，先等待 Vue 完成相关的 DOM 更新。下面是一个示例，演示了 await nextT…...

编程日记 2023/9/12 9:52:44

React 第五十五节 Router 中 useAsyncError的使用详解

前言 useAsyncError 是 React Router v6.4 引入的一个钩子，用于处理异步操作（如数据加载）中的错误。下面我将详细解释其用途并提供代码示例。一、useAsyncError 用途处理异步错误：捕获在 loader 或 action 中发生的异步错误替…...

编程新知 2025/11/25 10:36:53

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

编程新知 2025/12/21 20:15:17

Neo4j 集群管理：原理、技术与最佳实践深度解析

Neo4j 的集群技术是其企业级高可用性、可扩展性和容错能力的核心。通过深入分析官方文档，本文将系统阐述其集群管理的核心原理、关键技术、实用技巧和行业最佳实践。 Neo4j 的 Causal Clustering 架构提供了一个强大而灵活的基石，用于构建高可用、可扩展且一致的图数据库服务…...

编程新知 2025/12/27 16:43:24

Java多线程实现之Thread类深度解析

Java多线程实现之Thread类深度解析一、多线程基础概念1.1 什么是线程1.2 多线程的优势1.3 Java多线程模型二、Thread类的基本结构与构造函数2.1 Thread类的继承关系2.2 构造函数三、创建和启动线程3.1 继承Thread类创建线程3.2 实现Runnable接口创建线程四、Thread类的核心…...

编程新知 2025/8/28 21:52:02