什么是OCR?OCR技术详解
光学字符识别(Optical Character Recognition)简称为“OCR”。ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。
一般包括以下几个过程:
1.图像输入
针对不同格式的图像,有着不同的存储格式和压缩方式。目前,用于存取图像的开源项目有OpenCV和CxImage等。
2.预处理
预处理主要包括二值化、噪声去除和倾斜较正,具体内容如下:

二值化:大多数情况下,使用摄像头拍摄的图片都是彩色图像,彩色图像包含的信息量非常丰富,需要进行简化。我们可以将图片的内容简单地分为前景和背景,为了让计算机更快地、更好地识别文字,需要先对彩色图像进行处理,使图片只剩下前景与背景信息,即简单地定义前景信息为黑色,背景信息为白色,这就是二值化图。彩色图像和二值化图像处理前后对比如图1所示。
噪声清除:对于不同的文档,噪声的定义可以不同。根据噪声的特征进行消除处理,这就叫做噪声去除。
倾斜校正:通常情况下,用户拍摄的照片比较随意,很有可能拍照文档会产生倾斜。这时,需要使用文字识别软件进行校正。
3.版面分析
将文档图片分段落、分行的过程叫做版面分析。由于实际文档的多样性和复杂性,目前没有一个固定的、最好的切割模型。
4.字符切割
由于拍照条件的限制,经常会造成字符粘连、断笔等情况,因此极大地限制了识别系统的性能。此时就需要文字识别软件具备字符切割的功能。
5.字符识别
很早的时候就有模板匹配,后来是以特征提取为主。由于文字的位移、笔画的粗细、断笔、粘连、旋转等因素的影响,极大地增加了提取的难度。
6.版面恢复
通常,人类希望识别后的文字,仍然按照原文档图片那样排列着,保持段落不变、位置不变、顺序不变,之后输出到Word文档或PDF文档,这个过程就叫做版面恢复。
7.后处理、核对
不同的语言环境中,语言的逻辑顺序是不同的。因此,需要根据语言特征的上下文,对识别后的结果进行校正,这个过程就是后处理。
相关文章:
什么是OCR?OCR技术详解
光学字符识别(Optical Character Recognition)简称为“OCR”。ORC是指对包含文本资料的图像文件进行分析识别处理,获取文字及版面信息的技术。 一般包括以下几个过程: 1.图像输入 针对不同格式的图像,有着不同的存储格式和压缩方式。目前&…...
【大模型】开源且可商用的大模型通义千问-7B(Qwen-7B)来了
【大模型】开源且可商用的大模型通义千问-7B(Qwen-7B)来了 新闻通义千问 - 7B 介绍评测表现快速使用环境要求安装相关的依赖库推荐安装flash-attention来提高你的运行效率以及降低显存占用使用 Transformers 运行模型使用 ModelScope 运行模型 量化长文本…...
SQL分类及通用语法数据类型
一、SQL分类 DDL: 数据定义语言,用来定义数据库对象(数据库、表、字段)DML: 数据操作语言,用来对数据库表中的数据进行增删改DQL: 数据查询语言,用来查询数据库中表的记录DCL: 数据控制语言,用来创建数据库…...
亿欧智库:2023中国功效型护肤产品成分解析研究报告(附下载
关于报告的所有内容,公众【营销人星球】获取下载查看 核心观点 消费端:“纯净美妆〞概念火热,消费驱动因素向成分来源硬核转变 新冠疫情过后,消费者对于生活健康:自然,可持续的关注度持续上升。在消费者…...
Kubernetes高可用集群二进制部署(一)主机准备和负载均衡器安装
Kubernetes概述 使用kubeadm快速部署一个k8s集群 Kubernetes高可用集群二进制部署(一)主机准备和负载均衡器安装 Kubernetes高可用集群二进制部署(二)ETCD集群部署 Kubernetes高可用集群二进制部署(三)部署…...
python与深度学习(十二):CNN和猫狗大战二
目录 1. 说明2. 猫狗大战的CNN模型测试2.1 导入相关库2.2 加载模型2.3 设置保存图片的路径2.4 加载图片2.5 图片预处理2.6 对图片进行预测2.7 显示图片 3. 完整代码和显示结果4. 多张图片进行测试的完整代码以及结果 1. 说明 本篇文章是对上篇文章猫狗大战训练的模型进行测试。…...
React(1)——快速入门
目录 一、React背景简介 ❤️ 官网和资料 📚 介绍描述 🐧 React的特点 🔨 React高效的原因 🙏🏻 二、React的基本使用 💻 三、React JSX(JSX:JavaScript XML)📦 …...
【论文】【生成对抗网络五】Wasserstein GAN (WGAN)
【题目、作者】: 紫色:要解决的问题或发现的问题 红色:重点内容 棕色:关联知识,名称 绿色:了解内容,说明内容 论文地址: 论文下载 本篇文章仅为原文翻译,仅作参考。…...
学习率Learn_rate是什么(深度学习)
学习率是指在训练神经网络时用于调整参数的步进大小,它决定了每次梯度更新时参数的调整程度。学习率的选择直接关系到模型的性能和训练过程的效果。 学习率变化可能带来的影响: 收敛速度:较高的学习率可以加快模型的收敛速度,因为…...
webpack基础知识五:说说Loader和Plugin的区别?编写Loader,Plugin的思路?
一、区别 前面两节我们有提到Loader与Plugin对应的概念,先来回顾下 loader 是文件加载器,能够加载资源文件,并对这些文件进行一些处理,诸如编译、压缩等,最终一起打包到指定的文件中plugin 赋予了 webpack 各种灵活的…...
AI大模型之花,绽放在鸿蒙沃土
随着生成式AI日益火爆,大语言模型能力引发了越来越多对于智慧语音助手的期待。 我们相信,AI大模型能力加持下的智慧语音助手一定会很快落地,这个预判不仅来自对AI大模型的观察,更来自对鸿蒙的了解。鸿蒙一定会很快升级大模型能力&…...
[JAVAee]锁策略
目录 乐观锁与悲观锁 乐观锁 乐观锁的冲突检测 悲观锁 读锁与写锁 重量级锁与轻量级锁 重量级锁 轻量级锁 自旋锁 公平锁与非公平锁 可重入锁与不可重入锁 乐观锁与悲观锁 乐观锁 在乐观锁中,假设数据并不会发生冲突,在正式提交数据时会对数据进行冲突检测,如果发…...
uni-app-使用tkiTree组件实现树形结构选择
前言 在实际开发中我们经常遇见树结构-比如楼层区域-组织架构-部门岗位-系统类型等情况 往往需要把这个树结构当成条件来查询数据,在PC端可以使用Tree,table,Treeselect等组件展示 在uni-app的内置组件中似乎没有提供这样组件来展示&#x…...
SQL-每日一题【1179. 重新格式化部门表】
题目 部门表 Department: 编写一个 SQL 查询来重新格式化表,使得新的表中有一个部门 id 列和一些对应 每个月 的收入(revenue)列。 查询结果格式如下面的示例所示: 解题思路 1.题目要求我们重新格式化表,…...
GO语言语法结构
GO语言结构 包声明引入包函数变量语句 && 表达式注释 package main import "fmt" func main() {fmt.Println("Hello,World!") } 如这段代码块根据上面的语法结构进行逐行解释 第一行的 package main 是定义一个包名,必须在源文件…...
C++学习——模板
目录 🍉一:什么是模板 🍎二:普通模板的定义 🍍三:类模板的定义 🍌四:模板的实例化 🍇1.当普通模板定义存在可修改返回值产生的分歧 🍈2:类模板实例…...
二叉树的遍历(先序遍历,中序遍历,后序遍历)递归与非递归算法
目录 一、先序遍历题目链接1.递归2.非递归 二、中序遍历题目链接1.递归2.非递归 三、后序遍历题目链接1.递归2.非递归 一、先序遍历 先序遍历:先遍历一颗树的根节点,后遍历左子树,最后遍历右子树 先序遍历序列: 1 -> 2 -> 4…...
【LeetCode】516. 最长回文子序列
文章目录 1. 思路讲解1.1 创建dp表1.2 状态转移方程1.3 不需考虑边界问题 2. 整体代码 1. 思路讲解 1.1 创建dp表 此题采用动态规划的方法,创建一个二维dp表,dp[i][j]表示s[i, j]中最大回文子序列的长度。且我们人为规定 i 是一定小于等于 j 的。 1.2…...
Java 集合框架
Java 集合框架提供了一组接口和类,以实现各种数据结构和算法。 集合框架满足以下几个要求。 该框架必须是高性能的。基本集合(动态数组,链表,树,哈希表)的实现也必须是高效的。 该框架允许不同类型的集合…...
遇到多人协作,我们该用git如何应对?(版本二)
一、多人协作二 1.1多人协作 一般情况下,如果有多需求需要多人同时进行开发,是不会在一个分支上进行多人开发,而是一个需求或一个功能点就要创建一个feature 分支。 现在同时有两个需求需要你和你的小伙伴进行开发,那么你们俩便…...
RecursiveCharacterTextSplitter类解读
基于 LangChain 当前官方文档与官方源码/参考入口,RecursiveCharacterTextSplitter 可以这样理解: 文章目录1) 切分原理2) 关键参数3) 方法接口4) 适用边界5) 中文场景优化6)核心类方法的使用1. split_text(text: str) -> list[str]2. cre…...
从零构建私有CA链:OpenSSL实战生成根证书与多级签发
1. 为什么需要自建私有CA链? 第一次接触证书体系时,我和大多数人一样有个疑问:为什么不用现成的Lets Encrypt免费证书?直到在金融项目中遇到内网隔离环境才明白,私有CA就像企业内部的身份证制作中心,完全掌…...
SumatraPDF终极书签管理指南:从基础导航到高级技巧
SumatraPDF终极书签管理指南:从基础导航到高级技巧 【免费下载链接】sumatrapdf SumatraPDF reader 项目地址: https://gitcode.com/gh_mirrors/su/sumatrapdf SumatraPDF作为一款轻量级的多格式文档阅读器,在PDF书签管理方面提供了独特而实用的解…...
三星固件下载神器:Bifrost跨平台解决方案完全指南
三星固件下载神器:Bifrost跨平台解决方案完全指南 【免费下载链接】SamloaderKotlin 项目地址: https://gitcode.com/gh_mirrors/sa/SamloaderKotlin 三星固件下载神器Bifrost(SamloaderKotlin)是一款免费开源的三星官方固件下载工具…...
LS-WVL系统安装全攻略:从修复模式到中文配置一步到位
LS-WVL系统安装全攻略:从修复模式到中文配置一步到位 当你第一次拿到LS-WVL这台NAS设备时,可能会被它略显复杂的安装流程难住。别担心,这篇指南将带你从零开始,一步步完成从系统安装到中文配置的全过程。不同于市面上那些泛泛而谈…...
从轮子直径到PID调参:编码器测速数据如何精准换算成实际速度(附单位换算避坑指南)
从脉冲到速度:编码器测速全流程实战指南 当你的机器人或智能车项目需要精确控制移动速度时,编码器测速的准确性直接决定了闭环控制的效果。但很多开发者都会遇到这样的困惑:为什么编码器读数看起来很大,但实际速度却与预期不符&am…...
别再只盯着复现了!从CVE-2022-10270看企业内网向日葵客户端的隐形风险与排查指南
企业内网向日葵客户端隐形风险排查实战手册 向日葵远程控制软件在企业内网中的广泛使用,为IT运维带来了便利,同时也埋下了安全隐患。2022年曝光的CVE-2022-10270漏洞让企业安全团队意识到,仅依靠终端用户自主更新远远不够。本文将系统性地介绍…...
Mi-Create:小米手表表盘设计的终极免费工具完整指南
Mi-Create:小米手表表盘设计的终极免费工具完整指南 【免费下载链接】Mi-Create Unofficial watchface creator for Xiaomi wearables ~2021 and above 项目地址: https://gitcode.com/gh_mirrors/mi/Mi-Create 还在为小米手表找不到心仪表盘而烦恼吗&#x…...
JPEXS Free Flash Decompiler架构集成与系统对接实施指南
JPEXS Free Flash Decompiler架构集成与系统对接实施指南 【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler JPEXS Free Flash Decompiler(FFDec)作为业界领先的Fla…...
性能优化实战:Vue3 + Cesium加载天地图时,如何解决图层闪烁、内存暴增问题?
Vue3 Cesium天地图性能优化实战:解决图层闪烁与内存泄漏难题 当Vue3遇上Cesium和天地图,这个技术组合能构建出令人惊艳的三维地理应用。但当你真正投入生产环境时,图层闪烁、内存暴增这些"高级"问题就会找上门来。今天我们就来解剖…...
