当前位置：首页 > news >正文

深度学习 tablent表格识别实践记录

news 2026/2/10 11:51:36

下载代码：https://github.com/asagar60/TableNet-pytorch
下载模型：https://drive.usercontent.google.com/download?id=13eDDMHbxHaeBbkIsQ7RSgyaf6DSx9io1&export=download&confirm=t&uuid=1bf2e85f-5a4f-4ce8-976c-395d865a3c37

原理：https://asagar60.medium.com/tablenet-deep-learning-model-for-end-to-end-table-detection-and-tabular-data-extraction-from-b1547799fe29

tablenet

通过端到端的训练来同时优化表格区域检测和表格结构识别，从而实现更高的准确性和效率。

任务：

精确检测称为表检测的表格区域。
检测到的表的行和列中检测和提取信息，称为表结构识别。

tablenet使用一个网络来同时解决这两个任务。它是一个端到端模型，将文档分辨率为 1024x1024 的图像作为输入，并生成两个语义标记的输出，一个用于图像中的表，另一个用于表中的列，分别称为表和列掩码。生成这些掩码后，使用表掩码从图像中过滤表格。

模型架构：

在这里插入图片描述

类似于编码器-解码器模型，编码器对图像中表的位置和结构信息进行编码，解码器使用这些信息为表和列生成掩码。

对于编码器，使用在 ImageNet 数据集上预训练的 VGG-19 模型。

接下来是两个单独的解码器分支，分别用于对表和列进行分段。解码器分支相互独立训练，而编码器可以使用两个解码器的梯度进行微调。

VGG-19 的全连接层（pool5 之后的层）被替换为两个（1x1）卷积层。这些卷积层（conv6）中的每一个都使用 ReLU 激活，然后是概率为 0.8 的 dropout 层。

来自 3 个池化层的输出与表解码器和列解码器连接，然后多次upscale。值得一提的是，ResNet-18 和 EfficientNet 的性能几乎接近 DenseNet，但选择了基于测试数据的最佳 F1 分数的模型。

训练策略：
在这里插入图片描述

与 VGG19、ResNet-18 和 EfficientNet 相比，Densenet121 作为编码器效果最好。

模型：
→DenseNet121 编码器块

→Table 解码器块

→Column 解码器模块

在这里插入图片描述

loss函数
BCEWithLogitsLoss（）在这里用作损失。这是 Sigmoid + 二进制交叉熵损失的组合。这将分别应用于列掩码和表掩码。

在这里插入图片描述


class TableNetLoss(nn.Module):def __init__(self):super(TableNetLoss, self).__init__()self.bce = nn.BCEWithLogitsLoss()def forward(self, table_pred, table_gt, col_pred = None, col_gt = None, ):table_loss = self.bce(table_pred, table_gt)column_loss = self.bce(col_pred, col_gt)

优化器

用的adam

原有模型测试效果

下载github TableNet-pytorch 代码
安装pytesseract
设置环境变量
下载语言包

更改app的pytesseract路径， pytesseract.pytesseract.tesseract_cmd
设置环境：pt.image_to_string(thresh1,lang=“chi_sim”)

streamlit run app.py

效果不是太好

在这里插入图片描述

训练模型

python train.py

报错内存不足，将测试集的batch_size也调整为2

使用原始数据集，训练结果：

在这里插入图片描述

深度学习 tablent表格识别实践记录

tablenet

原有模型测试效果

训练模型

相关文章：

深度学习 tablent表格识别实践记录

深度学习线性神经网络（线性回归从零开始实现）

HBase在表操作--显示中文

基于BusyBox的imx6ull移植sqlite3到ARM板子上

连续子数组的最大和

Photoshop 工具使用详解（全集 · 2024版）

C++函数返回机制，返回类型

[linux] Key is stored in legacy trusted.gpg keyring

阿里云部署OneApi

MapReduce学习问题记录

Elasticsearch优化

【Redis知识点总结】（六）——主从同步、哨兵模式、集群

Java面试题：设计一个线程安全的单例模式，并解释其内存占用和垃圾回收机制；使用生产者消费者模式实现一个并发安全的队列；设计一个支持高并发的分布式锁

【硬件设计】以立创EDA举例——持续更新

Chain of Note-CoN增强检索增强型语言模型的鲁棒性

Uniapp 的 uni.request传参后端

数据可视化-ECharts Html项目实战（5）

C++学习之旅（二）运行四个小项目（Ubuntu使用Vscode）

数据分析与挖掘

Maxwell监听mysql的binlog日志变化写入kafka消费者

TDengine 快速体验（Docker 镜像方式）

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序

全球首个30米分辨率湿地数据集(2000—2022)

linux 下常用变更-8

数据库分批入库

tree 树组件大数据卡顿问题优化

Redis的发布订阅模式与专业的 MQ（如 Kafka, RabbitMQ）相比，优缺点是什么？适用于哪些场景？

【笔记】WSL 中 Rust 安装与测试完整记录

用鸿蒙HarmonyOS5实现中国象棋小游戏的过程

2.2.2 ASPICE的需求分析