当前位置：首页 > news >正文

用OpenCV进行OCR字符分割

news 2026/2/9 19:53:28

1. 引言

本文重点介绍如何利用传统的图像处理的方法来进行OCR字符切分，进而可以用分割后的单个字符做相应的后续任务，虽然现在计算机视觉依然是卷积神经网络的天下，但是对于一些相对简单的落地场景传统方案还是很有效的。
闲话少说，我们直接开始吧！

2. 基本概念

OCR: 全称 Optical Character Recognition ，光学字符识别
Segmentation: 是指在图像处理领域中将整张图像分解为多个子部分以进行进一步处理的过程。
OCR Segmentation: 是指将包含文本的图像分解成多个小部分，以识别背景中的文本。
在这里插入图片描述

本文主要通过Python中的计算机视觉处理库OpenCV来实现上述过程。

3. 读入图像

一旦我们拥有了包含文本的数字图像，或者通过扫描仪扫描某些文档并将其存储为数字图像，接着就可以开始下一步，即预处理。这里我们将使用以下图像作为例子，如下所示。

myImage= cv2.imread('pngImgs/t20.png')
cv2.imshow('Text Image', returnImage)
cv2.waitKey(0)

结果如下：
在这里插入图片描述

4. 图像二值化

在我们开始分割文本图像之前，有几个步骤，这些步骤如下：
灰度化：将输入图像转换为灰色图像，使系统能够轻松识别图像中的不同形状并去除相关颜色信息。

grayImg = cv2.cvtColor(myImage, cv2.COLOR_BGR2GRAY)

结果如下：
在这里插入图片描述

二值化：这意味着将灰度图像转换为二值图像，换句话说，二值化后的图像将只包含两个值：[0，1]或黑白。

 ret, thresh = cv2.threshold(grayImg, 0, 255, cv2.THRESH_OTSU | cv2.THRESH_BINARY_INV)

结果如下：
在这里插入图片描述

5. 形态学操作

接着我们可以选择并使用多种算法从上述二值图像中提取信息，例如直方图均衡、傅立叶变换、形态学等。
在这个应用程序中，我们决定选择形态算法来提取所需的信息。
代码如下：

horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (18, 18))
dilation = cv2.dilate(thresh1, horizontal_kernel, iterations=1)

结果如下：
在这里插入图片描述

6. 查找轮廓

接着我们需要找到轮廓线，这样我们才能将图像与背景逐行分离。

horizontal_contours, hierarchy = cv2.findContours(dilation, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
for cnt in horizontal_contours:x, y, w, h = cv2.boundingRect(cnt)rect = cv2.rectangle(im2, (x, y), (x + w, y + h), (255, 255, 255), 1)