Python OCR文本识别详细步骤及代码示例
光学字符识别(OCR)是将图像中的文字转换为可编辑文本的技术。在Python中,我们可以利用多种库实现OCR功能。本文将详细介绍使用Tesseract和EasyOCR进行文本识别的步骤,并提供完整的代码示例。

一、OCR简介
OCR(Optical Character Recognition)技术广泛应用于文档数字化、车牌识别、验证码识别等领域。Python中常用的OCR库有:
- Tesseract:Google开源的OCR引擎,支持多种语言
- EasyOCR:基于Tesseract的封装库,使用更简单
- PaddleOCR:百度飞桨框架下的OCR系统,支持中英文识别
二、环境准备
1. 安装必要库
# 安装Tesseract(需要先安装系统级依赖)# Ubuntu: sudo apt install tesseract-ocr# macOS: brew install tesseract# Windows: 通过安装包安装# 安装Python库pip install pillow # 图像处理库pip install pytesseract # Tesseract的Python封装pip install easyocr # EasyOCR库
2. 准备测试图像
准备一张包含清晰文字的测试图片(如test.png),建议:
- 文字方向为正
- 背景与文字对比明显
- 图片分辨率适中(建议300dpi以上)
三、使用Tesseract进行OCR
1. 基础识别
from PIL import Imageimport pytesseract# 打开图像文件image = Image.open('test.png')# 执行OCR识别text = pytesseract.image_to_string(image, lang='eng+chi_sim') # 中英文识别# 打印结果print("识别结果:\n", text)
这里插播一条粉丝福利,如果你正在学习Python或者有计划学习Python,想要突破自我,对未来十分迷茫的,可以点击这里获取最新的Python学习资料和学习路线规划(免费分享,记得关注)
2. 图像预处理(提高识别率)
import easyocr# 初始化阅读器(首次使用会自动下载模型)reader = easyocr.Reader(['ch_sim','en']) # 中英文模型# 执行识别results = reader.readtext('test.png', detail=0)# 打印结果print("识别结果:\n", results)
四、使用EasyOCR进行OCR
1. 基础识别
import easyocr# 初始化阅读器(首次使用会自动下载模型)reader = easyocr.Reader(['ch_sim','en']) # 中英文模型# 执行识别results = reader.readtext('test.png', detail=0)# 打印结果print("识别结果:\n", results)
2. 获取详细识别信息
results = reader.readtext('test.png', detail=1)for (bbox, text, prob) in results:print(f'文本: {text}, 置信度: {prob:.2f}, 位置: {bbox}')
五、结果后处理
def post_process(text):# 去除特殊字符text = ''.join(filter(str.isalnum, text))# 替换常见错误replacements = {'0': 'O','1': 'I','5': 'S','€': 'E'}for old, new in replacements.items():text = text.replace(old, new)return text# 应用后处理final_text = post_process(text)print("后处理结果:\n", final_text)
六、提高识别准确率的技巧
- 图像预处理:
- 调整对比度
- 去除噪声
- 矫正倾斜文本
- 统一文字方向
- 参数调整:
- 尝试不同语言模型组合
- 调整识别参数(如
psm参数控制页面分割模式)
- 使用更强大的模型:
- 对于复杂场景,可以尝试PaddleOCR等专业OCR系统
- 使用深度学习模型进行端到端训练
- 多帧识别:
- 对视频或连续帧进行识别时,可以结合上下文信息进行校正
七、注意事项
- 对于复杂版式(如表格、多列文本),需要先进行版面分析
- 手写体识别需要专门的模型(如Tesseract的手写体训练数据)
- 识别准确率受图像质量影响较大,建议:
- 保证文字清晰可见
- 避免反光和阴影
- 保持文字方向一致
- 对于重要数据,建议人工校验识别结果
通过本文的介绍,您可以快速掌握Python OCR的基本使用方法。根据具体需求,可以选择合适的OCR库并进行参数调优,以达到最佳的识别效果。对于更复杂的场景,可以考虑结合深度学习技术进行模型优化。
需要完整源代码以及Python全套学习资料的宝子可以:扫描下方CSDN官方二维码获娶↓↓↓↓↓

相关文章:
Python OCR文本识别详细步骤及代码示例
光学字符识别(OCR)是将图像中的文字转换为可编辑文本的技术。在Python中,我们可以利用多种库实现OCR功能。本文将详细介绍使用Tesseract和EasyOCR进行文本识别的步骤,并提供完整的代码示例。 一、OCR简介 OCR(Optical…...
OpenCV 基础模块 Python 版
OpenCV 基础模块权威指南(Python 版) 一、模块全景图 plaintext OpenCV 架构 (v4.x) ├─ 核心层 │ ├─ core:基础数据结构与操作(Mat/Scalar/Point) │ └─ imgproc:图像处理流水线(滤…...
华为HCIE网络工程师培训选机构攻略
从 官方授权机构 到 性价比黑马,结合价格、师资、通过率等维度,为你筛选出最适合的培训方案。 一、华为官方授权机构(优先推荐) 华为官方授权机构拥有 真机实验环境考官级讲师,适合预算充足、追求高通过率的学员。 机…...
Linux固定IP方法(RedHat+Net模式)
1、查看当前网关 ip route | grep default 2、配置静态IP 双击重启 3、验证...
210、【图论】课程表(Python)
题目 思路 这道题本质上是一个拓扑排序。每次先统计每个点的入度个数、然后再统计点与点之间的邻接关系,找到入度为0的点作为起始遍历点。之后每遍历到这个点之后,就把这个点后续的邻接关系边的点入度减去一。当某个点入度为0时,继续被加入其…...
使用Python开发自动驾驶技术:车道线检测模型
友友们好! 我是Echo_Wish,我的的新专栏《Python进阶》以及《Python!实战!》正式启动啦!这是专为那些渴望提升Python技能的朋友们量身打造的专栏,无论你是已经有一定基础的开发者,还是希望深入挖掘Python潜力的爱好者,这里都将是你不可错过的宝藏。 在这个专栏中,你将会…...
跟着StatQuest学知识07-张量与PyTorch
一、张量tensor 张量重新命名一些数据概念,存储数据以及权重和偏置。 张量还允许与数据相关的数学计算能够相对快速的完成。 通常,张量及其进行的数学计算会通过成为图形处理单元(GPUs)的特殊芯片来加速。但还有张量处理单元&am…...
nginx配置https域名后,代理后端服务器流式接口变慢
目录 问题描述原因解决办法 问题描述 使用nginx配置域名和https的ssl证书后,代理后端web服务器,发现流式接口比原来直接用服务器外部ip后端web服务器端口变慢了很多。 原因 在于 HTTP 和 HTTPS 在 Nginx 代理中的处理方式不同。以下几点解释了为什么 …...
前端字段名和后端不一致?解锁 JSON 映射的“隐藏规则” !!!
🚀 前端字段名和后端不一致?解锁 JSON 映射的“隐藏规则” 🌟 嘿,技术冒险家们!👋 今天我们要聊一个开发中常见的“坑”:前端传来的 JSON 参数字段名和后端对象字段名不一致,会发生…...
基于springboot的新闻推荐系统(045)
摘要 随着信息互联网购物的飞速发展,国内放开了自媒体的政策,一般企业都开始开发属于自己内容分发平台的网站。本文介绍了新闻推荐系统的开发全过程。通过分析企业对于新闻推荐系统的需求,创建了一个计算机管理新闻推荐系统的方案。文章介绍了…...
2024年数维杯数学建模C题天然气水合物资源量评价解题全过程论文及程序
2024年数维杯数学建模 C题 天然气水合物资源量评价 原题再现: 天然气水合物(Natural Gas Hydrate/Gas Hydrate)即可燃冰,是天然气与水在高压低温条件下形成的类冰状结晶物质,因其外观像冰,遇火即燃&#…...
Linux与HTTP中的Cookie和Session
HTTP中的Cookie和Session 本篇介绍 前面几篇已经基本介绍了HTTP协议的大部分内容,但是前面提到了一点「HTTP是无连接、无状态的协议」,那么到底有什么无连接以及什么是无状态。基于这两个问题,随后解释什么是Cookie和Session,以…...
linux 备份工具,常用的Linux备份工具及其备份数据的语法
在Linux系统中,备份数据是确保数据安全性和完整性的关键步骤。以下是一些常用的Linux备份工具及其备份数据的语法: 1. tar命令 tar命令是Linux系统中常用的打包和压缩工具,可以将多个文件或目录打包成一个文件,并可以选择添加压…...
C++核心语法快速整理
前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文主要为学过多门语言玩家快速入门C 没有基础的就放弃吧。 全部都是精华,看完能直接上手改别人的项目。 输出内容 std::代表了这里的cout使用的标准库,避免不同库中的相同命名导致混乱 …...
STM32八股【3】------RAM和片上FLASH
1、RAM和FLASH构成 1.RAM ┌──────────────────────────┐ │ 栈区 (Stack) │ ← 从RAM顶端向下扩展(存储局部变量、函数调用信息) │--------------------------│ │ 堆区 (Heap) │ ← …...
使用HAI来打通DeepSeek的任督二脉
一、什么是HAI HAI是一款专注于AI与科学计算领域的云服务产品,旨在为开发者、企业及科研人员提供高效、易用的算力支持与全栈解决方案。主要使用场景为: AI作画,AI对话/写作、AI开发/测试。 二、开通HAI 选择CPU算力 16核32GB,这…...
深入理解Aider sends a repo map
你提到的这个链接(https://aider.chat/2023/10/22/repomap.html)是 Aider 的官方文档,介绍了一种叫做“Repo Map”(仓库地图)的功能。Aider 是一个 AI 编程辅助工具,主要通过与大语言模型(如 GP…...
【day2】数据结构刷题 栈
一 有效的括号 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。左括号必须以正确的顺序闭合。每个右括号都有一个对应的…...
第16章:基于CNN和Transformer对心脏左心室的实验分析及改进策略
目录 1. 项目需求 2. 网络选择 2.1 UNet模块 2.2 TransUnet 2.2.1 SE模块 2.2.2 CBAM 2.3 关键代码 3 对比试验 3.1 unet 3.2 transformerSE 3.3 transformerCBAM 4. 结果分析 5. 推理 6. 下载 1. 项目需求 本文需要做的工作是基于CNN和Transformer的心脏左心室…...
云上 Redis 迁移至本地机房
文章目录 摘要在 IDC 搭建读写分离 redis 集群一、环境准备二、部署主从架构1. 安装Redis2. 配置主节点3. 配置从节点4. 所有 Redis 节点设置开机自启动三、部署代理层(读写分离)1. 安装Twemproxy2. 配置Twemproxy3. 配置开机自启动四、高可用配置(哨兵模式)1. 配置哨兵节点…...
zabbix数据库溯源
0x00 背景 zabbix数据库如果密码泄露被登录并新增管理员如何快速发现?并进行溯源? 本文介绍数据库本身未开启access log的情况。 0x01 实践 Mysql 数据库查insert SELECT * FROM sys.host_summary_by_statement_type where statement like %insert% 查…...
ZYNQ的cache原理与一致性操作
在Xilinx Zynq SoC中,Cache管理是确保处理器与外部设备(如FPGA逻辑、DMA控制器)之间数据一致性的关键。Zynq的ARM Cortex-A9处理器包含L1 Cache(指令/数据)和L2 Cache,其刷新(Flush/Invalidate&…...
React 中useMemo和useCallback Hook 的作用,在什么场景下使用它们?
大白话React 中useMemo和useCallback Hook 的作用,在什么场景下使用它们? 在 React 里,useMemo 和 useCallback 这两个 Hook 可有用啦,能帮咱优化组件性能,避免不必要的计算和渲染。下面咱就来详细聊聊它们的作用和使…...
Android笔记之项目引用第三方库(如:Github等)
前言:原生Android开发时引用github上的仓库内容,故出此文。 方式一:使用 JitPack(推荐) 步骤 1:在项目的 build.gradle 文件中添加 JitPack 仓库 打开项目根目录下的 build.gradle 文件,在 a…...
Linux 系统性能优化高级全流程指南
Linux 系统性能优化高级全流程指南 一、系统基础状态捕获 1. 系统信息建档 除了原有的硬件、内核和存储拓扑信息收集,还增加 CPU 缓存、网络设备详细信息等。 # 硬件信息 lscpu > /opt/tuning/lscpu.origin dmidecode -t memory > /opt/tuning/meminfo.or…...
SQL Server——表数据的插入、修改和删除
目录 一、引言 二、表数据的插入、修改和删除 (一)方法一:在SSMS控制台上进行操作 1.向表中添加数据 2.对表中的数据进行修改 3.对表中的数据进行删除 (二)方法二:使用 SQL 代码进行操作 1.向表中添…...
WPF 布局中的共性尺寸组(Shared Size Group)
1. 什么是共性尺寸组? 在 WPF 的 Grid 布局中,SharedSizeGroup 允许多个 Grid 共享同一列或行的尺寸,即使它们属于不同的 Grid 也能保持大小一致。这样可以保证界面元素的对齐性,提高布局的一致性。 SharedSizeGroup 主要用于需…...
deepSeek-SSE流式推送数据
1、背景 DeepSeek作为当前最火的AI大模型, 使用的时候用户在输入框输入问题,大模型进行思考回答你,然后会有一个逐步显示的过程效果,而不是一次性返回整个答案给前端页面进行展示,为了搞清楚其中的原理,我们…...
【北京迅为】iTOP-RK3568开发板OpenHarmony系统南向驱动开发UART接口运作机制
瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和Mali G52 2EE 图形处理器。RK3568 支持4K 解码和 1080P 编码,支持SATA/PCIE/USB3.0 外围接口。RK3568内置独立NPU,可用于轻量级人工…...
Leetcode 3495. Minimum Operations to Make Array Elements Zero
Leetcode 3495. Minimum Operations to Make Array Elements Zero 1. 解题思路2. 代码实现 题目链接:3495. Minimum Operations to Make Array Elements Zero 1. 解题思路 这一题的话核心就是统计对任意自然数 n n n,从 1 1 1到 n n n当中所有的数字对…...
