当前位置：首页 > news >正文

OCR实践-问卷表格统计

news 2026/2/11 3:27:25

前言

书接上文

OCR实践—PaddleOCR
OCR实践-Table-Transformer

本项目代码已开源放在 Github上，欢迎参考使用，Star

https://github.com/caibucai22/TableAnalysisTool

在这里插入图片描述

主要功能说明：对手动拍照的问卷图片进行统计分数（对应分数打对号），单张问卷各项得分写入excel文件，并汇总所有图片得分到 excel

模型

基于前面的模型知识，完成了这一需求

首先涉及到的模型（在技术测试过程中，也发现了一些效果更好的模型，放在后续迭代过程中加入）

表格定位模型，使用ppstructure

表格特征编码模型和表格结构识别模型分别是 Detr，和微软的table-transformer-structure-recognition

字符识别模型，使用 PaddleOCR

对号处理模型，使用微调的Yolov8n-cls（Yolov8n-det 也可以）

模型的加载统一放在 ModelManager.py 中实现

UI

在这里插入图片描述

UI，是用pyqt5简单实现的界面，主要包括

简单的进度展示

简单的图像状态展示

处理图像展示

打开单张图片、打开文件夹、以及开始处理的三个按钮

其中模型加载，以及表格图像处理都是耗时操作，为了避免主进程阻塞，导致界面卡住，使用了 Worker 封装然后用线程执行，多提升点用户体验，在Workers.py 中定义

UI层逻辑

模型加载

self.model: TableProcessModel = None
self.thread = None
self.worker = None# load model by thread
self.load_model()

load_model函数

def load_model(self):self.thread = QThread()self.worker = ModelLoadWorker()self.worker.moveToThread(self.thread)# connectself.worker.model_loaded.connect(self.on_model_loaded)self.thread.started.connect(self.worker.run)self.thread.finished.connect(self.thread.deleteLater)#self.thread.start()

表格处理

def process_images_v2(self):if self.model is None:QMessageBox.information(self, 'info', "Model has not been loaded successfully! Please wait")returnif len(self.images_need_process) == 0:QMessageBox.information(self, 'info', "No Image loaded! Please load images")returnself.process_button.setEnabled(False)self.thread = QThread()self.worker = ImageProcessWorker(self.images_need_process, self.model, log=True)self.worker.moveToThread(self.thread)self.worker.image_processed.connect(self.update_ui)self.worker.finished.connect(self.on_processing_finished)self.worker.show_signal.connect(self.load_image_on_screen)self.thread.started.connect(self.worker.run)self.thread.start()

模型加载Worker

class ModelLoadWorker(QObject):model_loaded = pyqtSignal(object)def __init__(self):super().__init__()self.model = Nonedef run(self):try:self.model = TableProcessModel()except Exception as e:print('error loading model', e)else:self.model_loaded.emit(self.model)

如有问题，欢迎留言、私信或加群交流【群号：392784757】

Workers

图像（表格）处理 Worker

class ImageProcessWorker(QObject):image_processed = pyqtSignal(str)finished = pyqtSignal()show_signal = pyqtSignal(int)def __init__(self, images, model:TableProcessModel,log=False):super().__init__()self.images = imagesself.processor = modelself.log = log@pyqtSlot()def run(self):for i, image_path in enumerate(self.images):try:self.show_signal.emit(i)# 处理图片if self.log:print('processing ', image_path, '--->', end='')self.processor.run(image_path)if self.log:print('done')time.sleep(0.5)self.image_processed.emit(f"Processed: {image_path}")except Exception as e:self.image_processed.emit(f"Error processing {image_path}: {str(e)}")self.finished.emit()  # 处理完成

在具体执行时，交由线程处理，避免了主线程的阻塞

表格处理模块 TableProcess.py

涉及到的模型，表格定位模型、表格特征编码和表格结构识别模型

其中表格处理模块在完成结构识别后，会调用统计分数模块，二者存在一定的低耦合性，但主要逻辑还是互相分离，比较清晰，也方便适配其他业务逻辑，只需要修改或添加后面的业务模块，如统计分数

统一调用接口

def run(self, next_image_path):try:self.reset_results()self.image_path = next_image_pathself.load_image()self.initialize_cache_dir()self.run_parse_table()self.score_eval.eval_score()self.score_eval.to_xlsx()except Exception as e:print('run error ', e)

核心函数 run_parse_table()

def run_parse_table(self):table_image = self.infer_locate_table() # bgrif len(self.locate_table_bbox) == 0:raise Exception("定位表格失败")table_image = Image.fromarray(cv2.cvtColor(table_image,cv2.COLOR_BGR2RGB))target_sizes = [table_image.size[::-1]]self.encoding_for_table_split(table_image)if self.table_split_result['encoding'] is None:raise Exception("表格特征编码失败")self.infer_split(self.table_split_result['encoding'], target_sizes)if len(self.table_split_result.keys()) <= 1:raise Exception("表格切分失败")self.parse_table_split_result()# visualize first for debugif CACHE:self.draw_boxs(table_image.copy(), cut_cell=False)self.setup_score_eval(table_image)

整体流程：表格定位 -> 表格图像编码 -> 表格结构识别 -> 表格分数评估

中间图，settings.py 中提供了 CACHE = True 开启，默认False 关闭

在这里插入图片描述

其中

self.infer_locate_table()

self.encoding_for_table_split(table_image)

self.infer_split(self.table_split_result[‘encoding’], target_sizes)

分别涉及了模型的推理

完整代码，请前往 Github 下载查看

统计分数模块 ScoreEvaluation.py

涉及到的模块，字符识别模型、对号处理模型

主要函数 eval_score()

def eval_score(self):for row_i in range(self.n_row):if row_i == 0:continuescore_boxs = self.cells[row_i*self.n_col +self.score_col_start_idx:row_i*self.n_col+self.score_col_end_idx+1]line_score = self.eval_line_score(score_boxs)self.row_scores.append(line_score)self.score_history.append((f'{self.cur_image_name}_score.xlsx', sum(self.row_scores)))

eval_line_score() 评估每一行得分，涉及到模型推理，以及顺序的判断

完整代码，请前往 Github 下载查看

性能测试

4060 8G 16G RAM i9-13900HX

100张图片 GPU _{3.5s/张，CPU}4.6s/张

注意事项

欢迎一起探讨，留言、私信或加群交流【群号：392784757】
编程过程注意

使用一定的方法，防止模型重复加载（一次加载，多次推理）
paddle的模型 GPU的使用应该是自动管理的，use_gpu = True；其他模型的GPU推理，需要自行管理，同时需要设置输入和模型所在设备位置一致 CPU/GPU
模型的推理与解析，需要先了解模型输入输出，根据官方demo/sample学习；然后结合自己的需求修改；多Debug；
不同模型默认使用的图像读取，有的是 PIL.Image，或者是 cv2.imread() ，读取后送入模型处理，发现模型结果有一定区别，甚至完全不对，当发现你的模型结果很奇怪，不妨查看一下输入
耗时操作不要在主线程做【我的模型加载在ui初始化里完成，虽然使用了额外线程去做，但还是会影响到主线程，主界面，有大佬知道怎么处理，还请指点！！！】
对于某些操作，如处理单张图片和文件夹多张图片应该要统一；加载图片接口统一不要分别实现
注意资源的清理，临时变量的清理

OCR实践-问卷表格统计

前言书接上文 OCR实践—PaddleOCROCR实践-Table-Transformer 本项目代码已开源放在 Github上，欢迎参考使用，Star https://github.com/caibucai22/TableAnalysisTool 主要功能说明：对手动拍照的问卷图片进行统计分数（对应分数…...

编程日记 2024/12/28 5:22:56

在script中 // #ifdef APP-PLUS console.log("11"); // #endif// #ifdef MP-WEIXIN console.log("22"); // #endif 在template中 <view>哈哈哈</view> …...

编程日记 2024/12/28 5:21:53

Segment Routing Overview

大家觉得有意义和帮助记得及时关注和点赞!!! Segment Routing (SR) 是近年来网络领域的一项新技术，“segment” 在这里指代网络隔离技术，例如 MPLS。如果快速回顾网络设计在过去几十年的发展，我们会发现 SR 也许是正在形成的第三代网络设计…...

编程日记 2024/12/28 5:19:52

【K8s】专题十五（6）：Kubernetes 网络之 Pod 网络调试

编程日记 2024/12/28 5:18:50

CMake 构建项目并整理头文件和库文件

本文将介绍如何使用 CMake 构建项目、编译生成库文件，并将头文件和库文件整理到统一的目录中以便在其他项目中使用。 1. 项目结构假设我们正在构建一个名为 rttr 的开源库，初始的项目结构如下： D:\WorkCode\Demo\rttr-master\|- src\ …...

编程日记 2024/12/28 5:17:49

Boost之log日志使用

不讲理论，直接上在程序中可用代码： 一、引入Boost模块开发环境：Visual Studio 2017 Boost库版本：1.68.0 安装方式：Nuget 安装命令： #只安装下面几个即可 Install-package boost -version 1.68.0 Install…...

编程日记 2024/12/28 5:16:48

多功能jquery图片预览放大镜插件

xZoom是一款多功能的jquery图片预览放大镜插件。它支持多种图片放大模式，可以和Fancy Box或Magnific Pop-up等插件结合使用，功能非常强大。在线预览下载使用方法在页面中引入jquery和xzoom.css以及xzoom.js文件。 <link rel"stylesheet&…...

编程日记 2024/12/28 5:15:48

CSS系列（39）-- Shapes详解

前端技术探索系列：CSS Shapes详解 ✨ 致读者：探索形状布局的艺术 👋 前端开发者们， 今天我们将深入探讨 CSS Shapes，这个强大的形状布局特性。基础形状 🚀 圆形与椭圆 /* 基础圆形 */ .circle {widt…...

编程日记 2024/12/28 5:14:47

AI 神经网络在智能家居场景中的应用

在科技持续进步的当下，智能家居领域正经历着深刻变革，AI 神经网络技术的融入成为推动这一变革的关键力量，为家居生活带来了诸多显著变化与提升，本文将几种常见的AI算法应用做了一下总结，希望对物联网从业者有所帮助。 …...

编程日记 2024/12/28 5:13:46

Rocky DEM tutorial7_Conical Dryer_锥形干燥器

tutorial 7_Conical Dryer_锥形干燥器文章目录 tutorial 7_Conical Dryer_锥形干燥器0. 目的1. 模型介绍2. 模型设置2.1设置physics2.2 导入几何2.3 设置motion2.4 Boundary边界设置2.5 设置材料2.6设置材料间相互作用2.7 创建粒子2.8 设置颗粒进口2.9 求解器设置3. 后处理Enj…...

编程日记 2024/12/28 5:12:45

CSS（二）：美化网页元素

目录字体样式文本样式列表样式背景图片字体样式字体相关的 CSS 属性： font-family：设置字体font-size：设置字体大小font-weight：设置字体的粗细（如 normal, bold, lighter 等）color：…...

编程日记 2024/12/28 5:11:44

平方根无迹卡尔曼滤波（SR-UKF）算法，用于处理三维非线性状态估计问题

本MATLAB 代码实现了平方根无迹卡尔曼滤波（SR-UKF）算法，用于处理三维非线性状态估计问题文章目录运行结果代码概述代码运行结果三轴状态曲线对比： 三轴误差曲线对比： 误差统计特性输出（命令行截图&…...

编程日记 2024/12/28 5:10:43

【论文笔记】Visual Alignment Pre-training for Sign Language Translation

🍎个人主页：小嗷犬的个人主页 🍊个人网站：小嗷犬的技术小站 🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。基本信息标题: Visual Alignment Pre-tra…...

编程日记 2024/12/28 5:02:36

NLP基础知识 - 向量化

NLP基础知识 - 向量化目录 NLP基础知识 - 向量化 NLP基础知识 - 向量化目录什么是向量化？为什么需要向量化？常见的向量化方法1. 词袋模型（Bag of Words, BoW）2. TF-IDF（词频-逆文档频率）3. 词嵌入&#x…...

编程日记 2024/12/28 5:01:35

JAVA学习笔记_MySQL进阶

文章目录存储引擎InnoDB引擎MyISAM引擎Memory存储引擎的选择索引索引数据结构Btree(多路平衡查找树)BTreeHash索引为什么InnoDQB存储引擎采用Btree索引结构索引分类思考题索引语法索引性能分析慢查询日志show profiesexplain 索引的使用规则最左前缀法则索引失效SQL提示覆盖…...

编程日记 2024/12/28 5:00:34

ffmpeg: stream_loop报错 Error while filtering: Operation not permitted

问题描述执行ffmpeg命令的时候，报错：Error while filtering: Operation not permitted 我得命令如下 ffmpeg -framerate 25 -y -i /data/workerspace/mtk/work_home/mtk_202406111543-l9CSU91H1f1b3/tmp/%08d.png -stream_loop -1 -i /data/workerspa…...

编程日记 2024/12/28 4:58:31

Vue.use()和Vue.component()

当很多页面用到同一个组件，又不想每次都在局部注册时，可以在main.js 中全局注册 Vue.component()一次只能注册一个组件 import CcInput from /components/cc-input.vue Vue.component(CcInput);Vue.use()一次可以注册多个组件对于自定义的组件&#…...

编程日记 2024/12/28 4:53:26

javaweb 04 springmvc

0.1 在上一次的课程中，我们开发了springbootweb的入门程序。基于SpringBoot的方式开发一个web应用，浏览器发起请求 /hello 后 ，给浏览器返回字符串 “Hello World ~”。其实呢，是我们在浏览器发起请求，请求了我们…...

编程日记 2024/12/28 4:52:24

[Visual studio] 性能探测器

最近发现VS的profile还是很好用的， 可以找到项目代码的瓶颈，比如发现CPU的每一个函数的时间占比，分析代码耗时分布，和火焰图一样的效果如何使用 1. 打开你的项目，调整成release状态 2. 点击调试->性能探测器 3…...

编程日记 2024/12/28 4:50:21

【漫话机器学习系列】017.大O算法（Big-O Notation）

大 O 表示法（Big-O Notation） 大 O 表示法是一种用于描述算法复杂性的数学符号，主要用于衡量算法的效率，特别是随着输入规模增大时算法的运行时间或占用空间的增长趋势。基本概念时间复杂度描述算法所需的运行时间如何随输入数…...

编程日记 2024/12/28 4:47:19

[特殊字符] 智能合约中的数据是如何在区块链中保持一致的？

🧠 智能合约中的数据是如何在区块链中保持一致的？ 为什么所有区块链节点都能得出相同结果？合约调用这么复杂，状态真能保持一致吗？本篇带你从底层视角理解“状态一致性”的真相。一、智能合约的数据存储在哪里&#xf…...

编程新知 2025/10/25 17:23:41

未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？

编辑：陈萍萍的公主一点人工一点智能未来机器人的大脑：如何用神经网络模拟器实现更智能的决策？RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战，在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…...

编程新知 2026/2/10 23:40:41

HTML 列表、表格、表单

1 列表标签作用：布局内容排列整齐的区域列表分类：无序列表、有序列表、定义列表。例如： 1.1 无序列表标签：ul 嵌套 li，ul是无序列表，li是列表条目。注意事项： ul 标签里面只能包裹 li…...

编程新知 2026/1/24 22:33:33

屋顶变身“发电站” ，中天合创屋面分布式光伏发电项目顺利并网！

5月28日，中天合创屋面分布式光伏发电项目顺利并网发电，该项目位于内蒙古自治区鄂尔多斯市乌审旗，项目利用中天合创聚乙烯、聚丙烯仓库屋面作为场地建设光伏电站，总装机容量为9.96MWp。项目投运后，每年可节约标煤3670…...

编程新知 2026/2/9 17:55:49

04-初识css

一、css样式引入 1.1.内部样式 <div style"width: 100px;"></div>1.2.外部样式 1.2.1.外部样式1 <style>.aa {width: 100px;} </style> <div class"aa"></div>1.2.2.外部样式2 <!-- rel内表面引入的是style样…...

编程新知 2026/1/29 17:54:05