整治PPOCRLabel中cv2文件读取问题(更新中)
PPOCRLabel
- 使用PPOCRLabel对ocr预标注结果进行纠正
- 由于PaddleOCR代码库十分混乱,路径经常乱调pip和代码库的代码(pip库和源码冲突),经常报错,因此paddleocr和ppocrlabel都是使用pip包;
- PPOCRLabel中使用了cv2进行图片数据的读取,然cv2对中文路径读取有问题,经常会导致一些图片数据无法进行正常数据,在次基础上,把读取图片由cv2改为pilow,可以规避很多读取错误;
安装
pip install PPOCRLabel==2.1.3
启动
PPOCRLabel --lang ch
修改记录
修改1:
- 报错:AttributeError: ‘NoneType’ object has no attribute ‘shape’
'NoneType' object has no attribute 'shape'
Traceback (most recent call last):File "D:\ProgramData\Anaconda3\envs\paddle\lib\site-packages\PPOCRLabel\libs\autoDialog.py", line 41, in runh, w, _ = cv2.imdecode(np.fromfile(Imgpath, dtype=np.uint8), 1).shape
AttributeError: 'NoneType' object has no attribute 'shape'
- 原因:cv2不支持读取带有中文字符路径文件
h, w, _ = cv2.imdecode(np.fromfile(Imgpath, dtype=np.uint8), 1).shape
- 解决:使用PIL替换cv2, 将上述代码替换为
# 修改文件:"D:\ProgramData\Anaconda3\envs\paddle\lib\site-packages\PPOCRLabel\libs\autoDialog.py", line 41
# 增加PIL读取图片函数
from PIL import Image
def load_image(image_path: str, return_chw: bool = True, size: tuple = None):image = Image.open(image_path).convert("RGB")if size is not None:image = image.resize(size) # resize imageimage = np.asarray(image)image = image[:, :, ::-1] # flip color channels from RGB to BGRw, h = image.shape[1], image.shape[0] # update size after resizeif return_chw:image = image.transpose(2, 0, 1)return image, (w, h)# 替换上面代码
try:image_data, (w, h) = load_image(Imgpath, return_chw=False)
except Exception as e:print(f"load file {Imgpath} fail!")continue
修改2
- 报错:AttributeError: ‘NoneType’ object has no attribute ‘shape’
Traceback (most recent call last):File "D:\ProgramData\Anaconda3\envs\paddle\lib\site-packages\PPOCRLabel\PPOCRLabel.py", line 1889, in saveFileself._saveFile(imgidx, mode=mode)File "D:\ProgramData\Anaconda3\envs\paddle\lib\site-packages\PPOCRLabel\PPOCRLabel.py", line 1934, in _saveFileself.openNextImg()File "D:\ProgramData\Anaconda3\envs\paddle\lib\site-packages\PPOCRLabel\PPOCRLabel.py", line 1880, in openNextImgself.loadFile(filename)File "D:\ProgramData\Anaconda3\envs\paddle\lib\site-packages\PPOCRLabel\PPOCRLabel.py", line 1550, in loadFileheight, width, depth = cvimg.shape
AttributeError: 'NoneType' object has no attribute 'shape'
- 原因还是cv2不能读取中文路径文件
- 解决:
# 修改: File "D:\ProgramData\Anaconda3\envs\paddle\lib\site-packages\PPOCRLabel\PPOCRLabel.py", line 1550, in loadFile
# cvimg = cv2.imdecode(np.fromfile(unicodeFilePath, dtype=np.uint8), 1)
cvimg, _ = load_image(unicodeFilePath, return_chw=False)
修改3
-
报错:error: (-215:Assertion failed) _src.total() > 0 in function ‘cv::warpPerspective’
- 报错描述:在对PPOCRLABEL的框进行重新识别是,发生如下报错:
Can not recognise the detection box in xxxx,png. Please change manually'unicodeFilePath is J:\data\mllm-data\xxxxxxxxx\wKh2CWERPJOAY2x-AAE62o598k0620.pngOpenCV(4.2.0) C:\projects\opencv-python\opencv\modules\imgproc\src\imgwarp.cpp:3143: error: (-215:Assertion failed) _src.total() > 0 in function 'cv::warpPerspective'- 原因是我们的ocr预标注数据Label.txt是使用PIL读取图片数据,调用ppocr进行生产的(并不是在PPOCRLabel工具内部生产的), 当我们修改数据框后, PPOCRLabel尝试再次使用cv2进行读取原图,此时由于cv2对路径较为敏感,经常会读取文件失败,才会出现如上情况
-
解决:
依旧是修改PPOCRLabel源码, 把cv2读取改为PIL读取,就不惯着cv2的臭毛病…
# 修改如下代码def reRecognition(self):#img = cv2.imdecode(np.fromfile(self.filePath,dtype=np.uint8),1)img, _ = load_image(self.filePath, return_chw=False)
修改4
- 运行PPOCRLabel源码(paddleocr使用pip安装),报错: AttributeError: ‘Namespace’ object has no attribute ‘return_word_box’
- File "G:\dongyongfei786\paddle\PaddleOCR\ppstructure\predict_system.py", line 82, in __init__self.return_word_box = args.return_word_box
AttributeError: 'Namespace' object has no attribute 'return_word_box'
- 原因:
- paddleocr使用pip安装的源码中(paddleocr=2.7.0.3), D:\ProgramData\Anaconda3\Lib\site-packages\paddleocr\tools\infer\utility.py, 缺少
# extended functionparser.add_argument("--return_word_box", type=str2bool, default=False, help='Whether return the bbox of each word (split by space) or chinese character. Only used in ppstructure for layout recovery')
赞赏
- 都说书中自有黄金屋,在这个“以钱为尊”的年代,没钱那可是万万不能,如果上述对各位帅哥美女有帮助的话,也可动一下发财的小手,你的支持的我做大的动力;
- 后续有需要考虑打成一个whl,供需要的小伙伴使用;
- 后续如果还有改动,会继续更新;

相关文章:
整治PPOCRLabel中cv2文件读取问题(更新中)
PPOCRLabel 使用PPOCRLabel对ocr预标注结果进行纠正由于PaddleOCR代码库十分混乱,路径经常乱调pip和代码库的代码(pip库和源码冲突),经常报错,因此paddleocr和ppocrlabel都是使用pip包;PPOCRLabel中使用了cv2进行图片数据的读取,…...
网络运维Day09-补充
文章目录 rsync增量同步scp与rsync的区别rsync常用选项 rsync本地实验rsync远程同步实验练习上传练习下载 总结 rsync增量同步 rsync是增量同步的一种工具,可以实现本地目录之间数据同步,也可以实现远程跨主机之间数据同步 scp与rsync的区别 scp属于全…...
【C++】【Opencv】minMaxLoc()函数详解和示例
minMaxLoc()函数 是 OpenCV 库中的一个函数,用于找到一个多维数组中的最小值和最大值,以及它们的位置。这个函数对于处理图像和数组非常有用。本文通过参数和示例详解,帮助大家理解和使用该函数。 参数详解 函数原型…...
用Go实现网络流量解析和行为检测引擎
1.前言 最近有个在学校读书的迷弟问我:大德德, 有没有这么一款软件, 能够批量读取多个抓包文件,并把我想要的数据呈现出来, 比如:源IP、目的IP、源mac地址、目的mac地址等等。我说:“这样的软件你要认真找真能找出不少开源软件, 但毕竟没有你自己的灵魂在里面,要不…...
Mysql数据备份 — mysqldump
一 备份类型 - 逻辑备份(mysqldump): - 优点: - 恢复简单,可以使用管道将他们输入到mysql。 - 与存储引擎无关,因为是从MySQL服务器中提取数据而生成的,所以消除了底层数据…...
vue使用Echarts5实现词云图
先上官网 词云图有些特殊,它属于Echarts 的扩展,需要额外安装Echarts-wordcloud包。 Echarts 官网 Echarts-wordcloud 词云图官网 先安装 npm install echarts npm install echarts-wordcloud再引入 echarts选一个引入就行;4或5版本都可以 …...
带有密码的Excel只读模式,如何取消?
Excel文件打开之后发现是只读模式,想要退出只读模式,但是只读模式是带有密码的,该如何取消带有密码的excel只读文件呢? 带有密码的只读模式,是设置了excel文件的修改权限,取消修改权限,我们需要…...
Linux下基本操作命令
一、基础命令 1. pwd 命令 pwd命令用于显示当前所在的工作目录的全路径名称。该命令无需任何参数,只需在终端窗口中输入 pwd 命令即可使用。 2. cd 命令 cd命令用于更改当前工作目录。该命令需要一个参数:目标目录名称。例如,若要进入 Do…...
JVS低代码表单自定义按钮的使用说明和操作示例
在普通的表单设计中,虽然自带的【提交】、【重置】、【取消】按钮可以满足基本操作需求,但在面对更多复杂的业务场景时,这些按钮的显示控制就显得有些力不从心。为了更好地满足用户在表单操作过程中的个性化需求,JVS低代码推出了表…...
C++--二叉树经典例题
本文,我们主要讲解一些适合用C的数据结构来求解的二叉树问题,其中涉及了二叉树的遍历,栈和队列等数据结构,递归与回溯等知识,希望可以帮助你进一步理解二叉树。 目录 1.二叉树的层序遍历 2.二叉树的公…...
软件测试需要学习什么?好学吗?需要学多久?到底是报班好还是自学好?
前言: 我发现很多的小伙伴刚刚毕业和想转行的小伙伴对于软件测试很陌生,其中很有很多的小伙伴还踩不少的坑,花费了大量的精力和时间去探索,结果还是一无所获。这里给大家出一期关于软件测试萌新的疑惑,看完这篇文章你就…...
Ubuntu搭建AI画图工具stable diffusion-webui
Ubuntu搭建 安装依赖项 安装以下依赖项: # Debian-based: sudo apt install wget git python3 python3-venv libgl1 libglib2.0-0# Red Hat-based: sudo dnf install wget git python3# Arch-based: sudo pacman -S wget git python3下载并安装WebUI 进入您想要安…...
智能优化算法(一):伪随机数的产生
文章目录 1.伪随机数介绍1.1.伪随机产生的意义1.2.伪随机产生的过程 2.产生U(0,1)的乘除同余法2.1.原始的乘同余法2.2.改进的乘同余法 3.产生正态分布的伪随机数4.基于逆变法产生伪随机数 1.伪随机数介绍 1.1.伪随机产生的意义 1.随机数的产生是进行随机优化的第一步也是最重要…...
python 调用Oracle有返回参数的存储过程
python 调用Oracle有返回参数的存储过程 1. 存储过程 create or replace procedure pro_test_args(a in integer,b in integer, c out integer) is beginc: a * b ;end pro_test_args;2. Python调用存储过程 import cx_Oracle import os import sys# 连接数据库 #conn cx_O…...
700. 二叉搜索树中的搜索
原题链接700. 二叉搜索树中的搜索 思路: 给定的就是一个二叉搜索树 二叉搜索树是一个有序树: 若它的左子树不空,则左子树上所有结点的值均小于它的根结点的值; 若它的右子树不空,则右子树上所有结点的值均大于它的根结…...
GO学习之 互斥锁、读写锁该如何取舍
GO系列 1、GO学习之Hello World 2、GO学习之入门语法 3、GO学习之切片操作 4、GO学习之 Map 操作 5、GO学习之 结构体 操作 6、GO学习之 通道(Channel) 7、GO学习之 多线程(goroutine) 8、GO学习之 函数(Function) 9、GO学习之 接口(Interface) 10、GO学习之 网络通信(Net/Htt…...
Internet的特点
Internet是一个全球性的计算机网络系统,它将全世界各个地方已有的各种网络(如计算机网、数据通信网以及公用电话交换网等)互联起来,组成一个跨越国界范围的庞大的互联网,因此,也称为“网络的网络”。Internet在很短的时间内风靡全…...
Rust4.2 Common Collections
Rust学习笔记 Rust编程语言入门教程课程笔记 参考教材: The Rust Programming Language (by Steve Klabnik and Carol Nichols, with contributions from the Rust Community) Lecture 8: Common Collections fn main() {//Vectorlet mut v: Vec<i32> Vec::new();//…...
芸鹰蓬飞:抖音投流以后还有自然流量吗?
随着抖音平台的普及,企业和个人纷纷加入到这个短视频的热潮中。然而,一旦投入抖音投流,是否还能依赖自然流量?这是许多用户和品牌关心的问题。本文将深入剖析这一话题,探讨抖音投流与自然流量之间的关系。 一、抖音投…...
CTFhub-RCE-php://input
我们需要使用php://input来构造发送的指令 查看phpinfo,找到一下字段 证明是可以使用php://input 1. 使用Burpsuite抓包并转至Repeater 2. 构造包 方法:POST 目标:/?filephp://input Body:<?php system("ls /"…...
无需前端开发!Clawdbot配置Qwen3-32B,快速拥有Web聊天界面
无需前端开发!Clawdbot配置Qwen3-32B,快速拥有Web聊天界面 1. 为什么选择Clawdbot整合Qwen3-32B? 你是否遇到过这样的困境:团队内部部署了强大的Qwen3-32B大模型,却因为缺乏友好的交互界面而难以推广使用?…...
XUnity.AutoTranslator实用指南:高效实现Unity游戏实时翻译
XUnity.AutoTranslator实用指南:高效实现Unity游戏实时翻译 【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 在全球化游戏市场中,语言障碍常常成为玩家体验优质游戏的最大阻碍。XUn…...
玩转哔哩哔哩视频下载:3分钟掌握DownKyi的高效秘籍
玩转哔哩哔哩视频下载:3分钟掌握DownKyi的高效秘籍 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等ÿ…...
Nano-Banana多场景落地:汽车内饰配件爆炸图AI辅助设计案例
Nano-Banana多场景落地:汽车内饰配件爆炸图AI辅助设计案例 1. 引言:当汽车设计遇上AI拆解美学 想象一下,你是一位汽车内饰设计师。面对一个复杂的中央扶手总成,里面有几十个塑料件、卡扣、线束和电子模块。你需要向客户、工程师…...
Qwen3-Reranker-0.6B效果实测:轻量级模型重排序能力展示
Qwen3-Reranker-0.6B效果实测:轻量级模型重排序能力展示 1. 引言:为什么需要重排序模型? 在信息检索和问答系统中,我们经常会遇到这样的场景:用户输入一个问题,系统返回多个相关文档。但如何判断哪些文档…...
SGLang-v0.5.6应用教程:快速构建API服务,支持约束解码生成指定格式
SGLang-v0.5.6应用教程:快速构建API服务,支持约束解码生成指定格式 1. SGLang简介与核心能力 SGLang(Structured Generation Language)是一个专注于大模型推理优化的高性能框架。它通过创新的架构设计,有效解决了传统…...
STM32定时器编码器模式:从ARR寄存器到精准测速的实战解析
1. STM32编码器模式基础认知 第一次接触STM32的编码器接口时,我完全被那些专业术语搞懵了。什么正交解码、自动重装值、计数方向,听起来就像天书。但当我真正用起来才发现,这玩意儿简直就是为电机测速量身定做的神器。 编码器模式本质上就是定…...
无障碍辅助:OpenClaw+Qwen3-32B实现语音控制电脑
无障碍辅助:OpenClawQwen3-32B实现语音控制电脑 1. 为什么需要语音控制电脑 去年帮一位视障朋友调试电脑时,我看着他反复摸索键盘快捷键的样子突然意识到:图形界面对于视觉障碍者而言,本质上是一道数字鸿沟。虽然Windows自带讲述…...
OpenClaw+千问3.5-9B:自动化社交媒体内容发布
OpenClaw千问3.5-9B:自动化社交媒体内容发布 1. 为什么需要自动化内容发布工具 作为一个同时运营多个社交媒体平台的技术博主,我每天要花大量时间在不同平台间切换:先在Markdown写好文章,然后手动复制到微信公众号后台排版&…...
【计算机视觉】Intel RealSense深度相机与OpenCV融合:从基础配置到实时交互应用
1. 深度相机与OpenCV的黄金组合 第一次接触Intel RealSense深度相机时,我被它同时获取RGB和深度数据的能力惊艳到了。这就像给普通摄像头装上了"立体视觉",不仅能看见物体的颜色和形状,还能精确感知物体离相机有多远。而OpenCV作为…...
