当前位置：首页 > news >正文

【OCR】实战使用 - 如何提高识别文字的精准度？

news 2026/2/10 8:50:31

实战使用 - 如何提高文字识别的精准度

我们在平常使用OCR的时候，经常会出现文字识别不精准的情况，我们改如何提高文字识别的精度呢？

以下是一些提高OCR（Optical Character Recognition，光学字符识别）文字识别精准度的方法：

图像预处理：

转换为灰度图像：将彩色图像转换为灰度图像可以减少噪音和干扰，提高识别精度。
二值化：将图像转换为黑白二值图像，使得文本和背景对比更明显。
去噪：去除图像中的噪点和不必要的元素，如线条、污渍等。
边缘检测和轮廓提取：通过边缘检测和轮廓提取来增强文本区域的边界。

调整图像参数：

改变亮度和对比度：调整图像的亮度和对比度可以改善文本的可见性。
使用滤波器：应用高斯滤波器、中值滤波器等可以平滑图像并减少噪声。

选择合适的字体库：

确保你的Tesseract OCR引擎安装了正确的语言数据包，并且包含了你需要识别的字体类型。

设置识别参数：

使用image_to_data函数获取详细的识别结果，包括每个字符的坐标、置信度等信息。
根据实际情况调整识别参数，如使用psm（页面分割模式）来指定图像的布局。

训练自定义模型：

如果现有的Tesseract OCR引擎无法满足你的识别需求，你可以考虑训练一个自定义的OCR模型。这通常需要大量的标注数据和一定的机器学习知识。

优化图像质量：

提供清晰、高质量的图像作为输入，避免模糊、倾斜、旋转或有遮挡的文本。

使用更高级的OCR工具或服务：

如果上述方法仍然无法达到满意的识别精度，你可以考虑使用更先进的OCR工具或服务，如Google Cloud Vision API、Amazon Textract等。

综合运用以上方法，你可以逐步提高OCR文字识别的精准度。但是请注意，对于某些复杂的图像或特定类型的文本，可能无法达到完美的识别效果。

实现

以下是一个使用Python和Tesseract OCR进行图像预处理和文字识别的简单示例，展示了如何应用一些提高OCR识别精度的方法：

import pytesseract
from PIL import Image, ImageFilter, ImageEnhancedef preprocess_image(image_path):# 打开图片文件img = Image.open(image_path)# 转换为灰度图像gray_img = img.convert('L')# 二值化binary_img = gray_img.point(lambda x: 0 if x < 128 else 255, '1')# 使用中值滤波器去噪filtered_img = binary_img.filter(ImageFilter.MedianFilter(size=3))# 提高对比度enhancer = ImageEnhance.Contrast(filtered_img)enhanced_img = enhancer.enhance(2.0)return enhanced_imgdef ocr_image(image_path, lang='eng'):# 预处理图像processed_img = preprocess_image(image_path)# 使用pytesseract进行文字识别text = pytesseract.image_to_string(processed_img, lang=lang)return text# 设置识别语言为中文（简体）
pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'  # 如果需要指定Tesseract路径
language = 'chi_sim'# 识别图像中的文字
image_path = 'your_image_file_path.jpg'
text = ocr_image(image_path, lang=language)# 打印识别出的文字
print(text)

在这个示例中：

preprocess_image函数负责图像预处理，包括转换为灰度图像、二值化、应用中值滤波器去噪和提高对比度。
ocr_image函数负责打开图像、预处理图像并使用Tesseract进行文字识别。

注意：这只是一个基本的示例，实际的图像预处理步骤可能需要根据你的具体需求和图像的特性进行调整。此外，你可能还需要考虑其他提高识别精度的方法，如设置识别参数、使用更高级的OCR工具或服务等。

问题1： 1.ValueError: image has wrong mode

这个ValueError: image has wrong mode错误通常在使用Tesseract OCR进行文字识别时出现，原因是传递给Tesseract的图像模式（mode）不正确。Tesseract期望图像为单色（黑白）或彩色（RGB/RGBA），而你提供的图像可能是其他模式，如CMYK、P等。
要解决这个问题，你可以尝试以下步骤：

确保你的图像已经被正确地转换为Tesseract支持的模式。例如，如果你的图像已经是灰度图像，可以使用以下代码检查其模式：

   from PIL import Imageimage = Image.open('your_image_file_path.jpg')print(image.mode)

如果输出不是L（表示灰度图像），你需要将其转换为灰度模式：

image = image.convert('L')

如果你的图像已经是彩色图像，确保其模式为RGB或RGBA。如果不是，可以使用以下代码将其转换为RGB模式：

if image.mode != 'RGB':image = image.convert('RGB')

在调用pytesseract.image_to_string()函数之前，确保你的图像已经过正确的预处理和模式转换。

以下是一个完整的示例：

import pytesseract
from PIL import Imagedef ocr_image(image_path, lang='eng'):# 打开图片文件img = Image.open(image_path)# 确保图像模式为RGB或Lif img.mode == 'RGB':pass  # 图像已经是RGB模式，无需转换elif img.mode == 'L':pass  # 图像是灰度模式，无需转换else:# 将图像转换为RGB模式img = img.convert('RGB')# 使用pytesseract进行文字识别text = pytesseract.image_to_string(img, lang=lang)return text# 设置识别语言为中文（简体）
pytesseract.pytesseract.tesseract_cmd = '/usr/bin/tesseract'  # 如果需要指定Tesseract路径
language = 'chi_sim'# 识别图像中的文字
image_path = 'your_image_file_path.jpg'
text = ocr_image(image_path, lang=language)# 打印识别出的文字
print(text)

这个示例会检查图像模式，并在必要时将其转换为Tesseract支持的模式。这应该可以避免ValueError: image has wrong mode的错误。

如果对于文字识别还未入门可以先看我前一篇文章：
【OCR】实战使用 - ocr 识别图片中的文字

【OCR】实战使用 - 如何提高识别文字的精准度？

实战使用 - 如何提高文字识别的精准度我们在平常使用OCR的时候，经常会出现文字识别不精准的情况，我们改如何提高文字识别的精度呢？ 以下是一些提高OCR（Optical Character Recognition，光学字符识别）文字识…...

编程日记 2024/1/11 9:13:08

css3浮动定位

css3浮动定位前言浮动float的基本概念浮动的使用浮动的顺序贴靠特性浮动的元素一定能设置宽高使用浮动实现网页布局BFC规范和浏览器差异如何创建BFCBFC的其他作用浏览器差异清除浮动相对定位 relative绝对定位 absolute绝对定位脱离标准文档流绝对定位的参考盒子绝对定位的盒…...

编程日记 2024/1/11 9:11:06

Linux 上 Nginx 配置访问 web 服务器及配置 https 访问配置过程记录

目录一、前言说明二、配置思路三、开始修改配置四、结尾一、前言说明最近自己搭建了个 Blog 网站，想把网站部署到服务器上面，本文记录一下搭建过程中 Nginx 配置请求转发的过程。二、配置思路 web项目已经在服务器上面运行起来了，运行的端…...

编程日记 2024/1/11 9:08:04

css less sass 动态宽高

less height: ~"calc(100% - 30px)";若要需要按照某个比例固定高度可以用 min-height: e("calc(100vh - 184px)")css height: calc(100% - 50px);sass height:calc(100% - var(--height) );...

编程日记 2024/1/11 9:07:02

sqlserver导出数据为excel再导入到另一个数据库

要将SQL Server中的数据导出为Excel文件，然后再将该Excel文件导入到另一个数据库中，你可以按照以下步骤进行操作： 导出数据为Excel文件 echo offset SourceServer源服务器名称 set SourceDB数据库名称 set ExcelFilePath导出到的Excel文件路…...

编程日记 2024/1/11 9:06:01

1.服务提供方打 jar 包 RemoteUserService.java package com.finance.system.api;import com.finance.system.api.domain.dto.Enterprise; import org.springframework.cloud.openfeign.FeignClient; import org.springframework.stereotype.Component; import org.springfra…...

编程日记 2024/1/11 9:01:58

赋能智慧农业生产，基于YOLOv7开发构建农业生产场景下油茶作物成熟检测识别系统

AI赋能生产生活场景，是加速人工智能技术落地的有利途径，在前文很多具体的业务场景中我们也从实验的角度来尝试性地分析实践了基于AI模型来助力生产生活制造相关的各个领域，诸如：基于AI硬件实现农业作物除草就是一个比较熟知的场景…...

编程日记 2024/1/11 8:57:52

Docker入门介绍

【一】从 dotCloud 到 Docker——低调奢华有内涵 1、追根溯源:dotCloud 时间倒回到两年前，有一个名不见经传的小公司，他的名字叫做:dotCloud。 dotCloud 公司主要提供的是基于 PaaS(Platform as a Service，平台及服务) 平台为开发者或开发商…...

编程日记 2024/1/11 8:52:48

第四站:指针的进阶-(二级指针,函数指针)

目录二级指针二级指针的用途多级指针的定义和使用指针和数组之间的关系存储指针的数组(指针数组:保存地址值) 指向数组的指针(数组指针) 传参的形式(指针) 数组传参时会退化为指针 void类型的指针函数指针定义: 调用:两种方式:(*指针名)(参数地址) 或者指针…...

编程日记 2024/1/11 8:51:47

浏览器渲染原理（面试重点）

一、浏览器是如何渲染页面的常见的简洁答案： 浏览器内核拿到内容后，渲染流程大致如下：解析HTML，构建Dom树；解析CSS，构建Render树；（将CSS代码解析成树形的数据结构，与D…...

编程日记 2024/1/11 8:50:46

C //练习 5-3 用指针方式实现第2章中的函数strcat。函数strcat(s, t)将t指向的字符串复制到s指向的字符串的尾部。

C程序设计语言 （第二版） 练习 5-3 练习 5-3 用指针方式实现第2章中的函数strcat。函数strcat(s, t)将t指向的字符串复制到s指向的字符串的尾部。注意：代码在win32控制台运行，在不同的IDE环境下，有部分可能需要变更。…...

编程日记 2024/1/11 8:48:45

深度剖析Redis：从基础到高级应用

目录引言 1、 Redis基础 1.1 Redis数据结构 1.1.1 字符串（String） 1.1.2 列表（List） 1.1.3 集合（Set） 1.1.4 散列（Hash） 1.1.5 有序集合（Sorted Set）…...

编程日记 2024/1/11 8:46:43

视频监控录像服务器（中心录像服务器）功能详细介绍

目录一、概述 （一）定义 （二）视频监控中心录像服务器二、存储策略服务 （一）存储策略配置 1、录入页面 2、选择需要进行录像的视频 3、批量选择多个通道号 4、其他关键参数…...

编程日记 2024/1/11 8:45:43

SouthernBiotech抗荧光淬灭封片剂

荧光淬灭又称荧光熄灭或萃灭，是指导致特定物质的荧光强度和寿命减少的所有现象。引起荧光淬灭的物质称为荧光淬灭剂。SouthernBiotech专门开发的Fluoromount-G系列荧光封片剂是以甘油为基础，加入抗荧光淬灭剂，可明显降低荧光淬灭现象&#xf…...

编程日记 2024/1/11 8:42:40

[Excel]如何找到非固定空白格數列的條件數據? 以月份報價表單為例

在群組中看到上述問題，研判應是一份隨月份變動的產品報價表單，空白欄可能表示該月份價格與上個月份一致。這個問題是需要取得最近一次單價和倒數第二次單價，常用且實務的excel案例值得紀錄。最近一次單價: INDEX($B2:$G2,1,LARGE(IF(ISBLAN…...

编程日记 2024/1/11 8:39:37

TypeScript进阶（二）深入理解装饰器

✨ 专栏介绍 TypeScript是一种由微软开发的开源编程语言，它是JavaScript的超集，意味着任何有效的JavaScript代码都是有效的TypeScript代码。TypeScript通过添加静态类型和其他特性来增强JavaScript，使其更适合大型项目和团队开发。在TypeS…...

编程日记 2024/1/11 8:37:32

书生·浦语第三次作业

我最近在参加书生浦语大模型实战营，这是第三次作业打卡！ 如果你也想两周玩转大模型微调，部署与测评全链路。报名链接：invite 书生浦语大模型实战营报名邀请码可以填026014 一、基础作业：复现课程知识库助手搭建过程…...

编程日记 2024/1/11 8:35:30

GPT实战系列-LangChain + ChatGLM3构建天气查询助手

GPT实战系列-LangChain ChatGLM3构建天气查询助手用ChatGLM的工具可以实现很多查询接口和执行命令，而LangChain是很热的大模型应用框架。如何联合它们实现大模型查询助手功能？例如调用工具实现网络天气查询助手功能。 LLM大模型相关文章： …...

编程日记 2024/1/11 8:34:29

LeetCode 2696.删除子串后的字符串最小长度：栈

【LetMeFly】2696.删除子串后的字符串最小长度：栈力扣题目链接：https://leetcode.cn/problems/minimum-string-length-after-removing-substrings/ 给你一个仅由大写英文字符组成的字符串 s 。你可以对此字符串执行一些操作，在每一步操…...

编程日记 2024/1/11 8:32:27

Xcode15 升级问题记录

这里写自定义目录标题新版本Xcode15升级问题1：rsync error: some files could not be transferred (code 23) at ...参考新版本Xcode15升级下载地址：https://developer.apple.com/download/all/ 我目前使用的版本是Xcode15.2 我新创建了一个项目&…...

编程日记 2024/1/11 8:30:25

R语言AI模型部署方案：精准离线运行详解

R语言AI模型部署方案：精准离线运行详解一、项目概述本文将构建一个完整的R语言AI部署解决方案，实现鸢尾花分类模型的训练、保存、离线部署和预测功能。核心特点： 100%离线运行能力自包含环境依赖生产级错误处理跨平台兼容性模型版本管理# 文件结构说明 Iris_AI_Deployme…...

编程新知 2025/12/6 1:56:35

shell脚本--常见案例

1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件： 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...

编程新知 2026/2/7 19:53:11

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

编程新知 2026/1/25 3:21:09

数据链路层的主要功能是什么

数据链路层（OSI模型第2层）的核心功能是在相邻网络节点（如交换机、主机）间提供可靠的数据帧传输服务，主要职责包括： 🔑 核心功能详解： 帧封装与解封装封装： 将网络层下发…...

编程新知 2026/2/1 7:31:51

WEB3全栈开发——面试专业技能点P2智能合约开发（Solidity）

一、Solidity合约开发下面是 Solidity 合约开发的概念、代码示例及讲解，适合用作学习或写简历项目背景说明。 🧠 一、概念简介：Solidity 合约开发 Solidity 是一种专门为以太坊（Ethereum）平台编写智能合约的高级编…...

编程新知 2026/1/27 9:33:09

NFT模式：数字资产确权与链游经济系统构建

NFT模式：数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命一、确权技术革新：构建可信数字资产基石 1. 区块链底层架构的进化跨链互操作协议：基于LayerZero协议实现以太坊、Solana等公链资产互通，通过零知…...

编程新知 2026/1/31 23:23:23

3403. 从盒子中找出字典序最大的字符串 I

3403. 从盒子中找出字典序最大的字符串 I 题目链接：3403. 从盒子中找出字典序最大的字符串 I 代码如下： class Solution { public:string answerString(string word, int numFriends) {if (numFriends 1) {return word;}string res;for (int i 0;i &…...

编程新知 2025/10/31 5:18:02

蓝桥杯3498 01串的熵

问题描述对于一个长度为 23333333的 01 串, 如果其信息熵为 11625907.5798， 且 0 出现次数比 1 少, 那么这个 01 串中 0 出现了多少次? #include<iostream> #include<cmath> using namespace std;int n 23333333;int main() {//枚举 0 出现的次数//因…...

编程新知 2026/2/6 2:05:50

Docker 本地安装 mysql 数据库

Docker: Accelerated Container Application Development 下载对应操作系统版本的 docker ；并安装。基础操作不再赘述。打开 macOS 终端，开始 docker 安装mysql之旅第一步 docker search mysql 》〉docker search mysql NAME DE…...

编程新知 2026/2/9 17:06:25

现有的 Redis 分布式锁库（如 Redisson）提供了哪些便利？

现有的 Redis 分布式锁库（如 Redisson）相比于开发者自己基于 Redis 命令（如 SETNX, EXPIRE, DEL）手动实现分布式锁，提供了巨大的便利性和健壮性。主要体现在以下几个方面： 原子性保证 (Atomicity)&#xff…...

编程新知 2025/9/23 11:26:04