当前位置: 首页 > news >正文

深度学习 tablent表格识别实践记录

下载代码:https://github.com/asagar60/TableNet-pytorch
下载模型:https://drive.usercontent.google.com/download?id=13eDDMHbxHaeBbkIsQ7RSgyaf6DSx9io1&export=download&confirm=t&uuid=1bf2e85f-5a4f-4ce8-976c-395d865a3c37

原理:https://asagar60.medium.com/tablenet-deep-learning-model-for-end-to-end-table-detection-and-tabular-data-extraction-from-b1547799fe29

tablenet

通过端到端的训练来同时优化表格区域检测和表格结构识别,从而实现更高的准确性和效率。

任务:

  • 精确检测称为表检测的表格区域。

  • 检测到的表的行和列中检测和提取信息,称为表结构识别。

tablenet使用一个网络来同时解决这两个任务。它是一个端到端模型,将文档分辨率为 1024x1024 的图像作为输入,并生成两个语义标记的输出,一个用于图像中的表,另一个用于表中的列,分别称为表和列掩码。生成这些掩码后,使用表掩码从图像中过滤表格。

模型架构:

在这里插入图片描述

类似于编码器-解码器模型,编码器对图像中表的位置和结构信息进行编码,解码器使用这些信息为表和列生成掩码。

对于编码器,使用在 ImageNet 数据集上预训练的 VGG-19 模型。

接下来是两个单独的解码器分支,分别用于对表和列进行分段。解码器分支相互独立训练,而编码器可以使用两个解码器的梯度进行微调。

VGG-19 的全连接层(pool5 之后的层)被替换为两个 (1x1) 卷积层。这些卷积层 (conv6) 中的每一个都使用 ReLU 激活,然后是概率为 0.8 的 dropout 层。

来自 3 个池化层的输出与表解码器和列解码器连接,然后多次upscale。值得一提的是,ResNet-18 和 EfficientNet 的性能几乎接近 DenseNet,但选择了基于测试数据的最佳 F1 分数的模型。

训练策略:
在这里插入图片描述

与 VGG19、ResNet-18 和 EfficientNet 相比,Densenet121 作为编码器效果最好。

模型:
→DenseNet121 编码器块

→Table 解码器块

→Column 解码器模块

在这里插入图片描述

loss函数
BCEWithLogitsLoss() 在这里用作损失。这是 Sigmoid + 二进制交叉熵损失的组合。这将分别应用于列掩码和表掩码。

在这里插入图片描述


class TableNetLoss(nn.Module):def __init__(self):super(TableNetLoss, self).__init__()self.bce = nn.BCEWithLogitsLoss()def forward(self, table_pred, table_gt, col_pred = None, col_gt = None, ):table_loss = self.bce(table_pred, table_gt)column_loss = self.bce(col_pred, col_gt)

优化器

用的adam

原有模型测试效果

下载github TableNet-pytorch 代码
安装pytesseract
设置环境变量
下载语言包

更改app的pytesseract路径, pytesseract.pytesseract.tesseract_cmd
设置环境:pt.image_to_string(thresh1,lang=“chi_sim”)

streamlit run app.py

效果不是太好

在这里插入图片描述

训练模型

python train.py

报错内存不足,将测试集的batch_size也调整为2

使用原始数据集,训练结果:

在这里插入图片描述

相关文章:

深度学习 tablent表格识别实践记录

下载代码:https://github.com/asagar60/TableNet-pytorch 下载模型:https://drive.usercontent.google.com/download?id13eDDMHbxHaeBbkIsQ7RSgyaf6DSx9io1&exportdownload&confirmt&uuid1bf2e85f-5a4f-4ce8-976c-395d865a3c37 原理&#…...

深度学习 线性神经网络(线性回归 从零开始实现)

介绍: 在线性神经网络中,线性回归是一种常见的任务,用于预测一个连续的数值输出。其目标是根据输入特征来拟合一个线性函数,使得预测值与真实值之间的误差最小化。 线性回归的数学表达式为: y w1x1 w2x2 ... wnxn …...

HBase在表操作--显示中文

启动HBase后,Master和RegionServer两个服务器,分别对应进程为HMaster和HRegionServe。(可通过jps查看) 1.进入表操作 hbase shell 2.查看当前库中存在的表 list 3.查看表中数据(注:学习期间可用&#…...

基于BusyBox的imx6ull移植sqlite3到ARM板子上

1.官网下载源码 https://www.sqlite.org/download.html 下载源码解压到本地的linux环境下 2.解压并创建install文件夹 3.使用命令行配置 在解压的文件夹下打开终端,然后输入以下内容,其中arm-linux-gnueabihf是自己的交叉编译器【自己替换】 ./config…...

连续子数组的最大和

问题描述: 输入一个整型数组,数组里有正数也有负数。求连续子数组中的最大和为多少。 举例: 数组:arry{1 , 2 ,-5 , 4 , 1 ,-2} 输出:5,数组中连续的位置相加最大值为5, 41 方法…...

Photoshop 工具使用详解(全集 · 2024版)

全面介绍 Photoshop 工具箱里的工具,点击下列表格中工具名称或图示,即可查阅工具的使用详解。 移动工具Move Tool移动选区、图层和参考线。画板工具Artboard Tool创建、移动多个画布或调整其大小。moVe快捷键:V 矩形选框工具 Rectangular Mar…...

C++函数返回机制,返回类型

return语句终止当前正在执行的函数并将控制权返回到调用该函数的地方。 return语句有两种形式 return;return expression; 无返回值函数 没有返回值的return语句只能用在返回类型是void的函数中。 返回void的函数不要求必须有return语句,因为这类函数的最后一句…...

[linux] Key is stored in legacy trusted.gpg keyring

修复 Ubuntu 中的 “Key is stored in legacy trusted.gpg keyring” 问题_key is stored in legacy trusted.gpg keyring (/etc/-CSDN博客 复制到trusted.gpd.d 目录中(快速但不优雅的方法) 如果你觉得手动做上面的事情不舒服,那么,你可以忽略这个警告…...

阿里云部署OneApi

基于 Docker 进行部署 # 使用 SQLite 的部署命令: docker run --name one-api -d --restart always -p 3000:3000 -e TZAsia/Shanghai -v /home/ubuntu/data/one-api:/data justsong/one-api # 使用 MySQL 的部署命令,在上面的基础上添加 -e SQL_DSN&qu…...

MapReduce学习问题记录

1、如何跳过对某行数据的处理 第一行数据是字段名不需要处理,我们知道第一行偏移量是0(行记录的时候是从数组首地址开始,到了行标识符进行一次计数,这个计数就是行偏移量,从0开始),我们根据偏移…...

Elasticsearch优化

集群配置 1、调整副本数:考虑数据的可用性和读取性能,合理配置分片的副本数。 2、合理配置分片大小(分片的合理容量:10GB-50GB):避免分片过大,以确保更好的性能和均衡的负载。 3、监控集群状态:使用监控工…...

【Redis知识点总结】(六)——主从同步、哨兵模式、集群

Redis知识点总结(六)——主从同步、哨兵模式、集群 主从同步哨兵集群 主从同步 redis的主从同步,一般是一个主节点,加上多个从节点。只有主节点可以接收写命令,主节点接收到的写命令,会同步给从节点&#…...

Java面试题:设计一个线程安全的单例模式,并解释其内存占用和垃圾回收机制;使用生产者消费者模式实现一个并发安全的队列;设计一个支持高并发的分布式锁

Java深度面试题:设计模式、内存管理与并发编程的综合考察 随着Java技术的不断发展,对Java开发者的技术要求也在不断提高。设计模式、内存管理、多线程工具类以及并发工具包和框架等都是Java开发者必须掌握的核心知识点。本文将通过三道综合性的面试题&a…...

【硬件设计】以立创EDA举例——持续更新

【硬件设计】以立创EDA举例——持续更新 文章目录 前言立创EDA官网教程一、原理图二、PCB1.布局2.设计规则3.电流与线宽 4.PCB走线5.Polar Si90006.过孔7.铺铜总结 前言 提示:以下是本篇文章正文内容,下面案例可供参考 立创EDA官网教程 立创EDA使用教程…...

Chain of Note-CoN增强检索增强型语言模型的鲁棒性

Enhancing Robustness in Retrieval-Augmented Language Models 检索增强型语言模型(RALMs)在大型语言模型的能力上取得了重大进步,特别是在利用外部知识源减少事实性幻觉方面。然而,检索到的信息的可靠性并不总是有保证的。检索…...

Uniapp 的 uni.request传参后端

以下是使用Uniapp的交互数据的两种方式 后端使用Parameter接收数据 后端使用RequestBody接收Json格式数据 后端: CrossOrigin RestController RequestMapping("/user") public class UserController {GetMapping("/login")public String lo…...

数据可视化-ECharts Html项目实战(5)

在之前的文章中,我们学习了如何设置滚动图例,工具箱设置和插入图片。想了解的朋友可以查看这篇文章。同时,希望我的文章能帮助到你,如果觉得我的文章写的不错,请留下你宝贵的点赞,谢谢 数据可视化-ECharts…...

C++学习之旅(二)运行四个小项目 (Ubuntu使用Vscode)

如果是c语言学的比较好的同学 可以直接跟着代码敲一遍&#xff0c;代码附有详细语法介绍&#xff0c;不可错过 一&#xff0c;猜数字游戏 #include <iostream> #include <cstdlib> #include <ctime>int main() {srand(static_cast<unsigned int>(tim…...

数据分析与挖掘

数据起源&#xff1a; 规模庞大&#xff0c;结构复杂&#xff0c;难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。具有5V特性&#xff1a;数量&#xff08;Volume&#xff09;&#xff1a;数据量大、多样性&#xff08;Variety&#xff09;&#xff1a…...

Maxwell监听mysql的binlog日志变化写入kafka消费者

一. 环境&#xff1a; maxwell:v1.29.2 (从1.30开始maxwell停止了对java8的使用&#xff0c;改为为11) maxwell1.29.2这个版本对mysql8.0以后的缺少utf8mb3字符的解码问题&#xff0c;需要对原码中加上一个部分内容 &#xff1a;具体也给大家做了总结 &#xff1a; 关于v1.…...

蓝桥杯单片机第12届省赛2满分(西风)

1注意S7长短按键冲突问题if(key_down7)//判断是否按下{fs71;//开始计时t1000ms_10;}if(key_up7)//判断是否抬起{if(t1000ms_1>1000)//长按键{fled^1;}else//短按键{f_baofreq;}t1000ms_10;fs70;//停止计时}2获取频率void Timer0_Init(void) //100微秒12.000MHz {AUXR &…...

WebLaTex:革新学术写作体验的云端LaTeX解决方案

WebLaTex&#xff1a;革新学术写作体验的云端LaTeX解决方案 【免费下载链接】WebLaTex A complete alternative for Overleaf with VSCode Web Git Integration Copilot Grammar & Spell Checker Live Collaboration Support. Based on GitHub Codespace and Dev cont…...

若依RuoYi-Vue集成wangEditor:从零到一构建富文本内容管理模块

1. 为什么选择wangEditor与若依框架组合 在前后端分离的开发模式中&#xff0c;富文本编辑器是内容管理系统的核心组件。我实测过市面上主流的编辑器&#xff0c;wangEditor以其轻量级、易扩展的特性脱颖而出。特别是对于使用若依(RuoYi-Vue)框架的开发者来说&#xff0c;这个组…...

零基础入门linux开发:快马带你轻松搞定wsl2下载与初体验

作为一个刚接触Linux开发的新手&#xff0c;第一次听说WSL2时完全摸不着头脑。经过一段时间的摸索和实践&#xff0c;我发现用InsCode(快马)平台来学习和体验WSL2特别方便&#xff0c;下面就把我的入门经验分享给大家。 什么是WSL2&#xff1f;为什么需要它&#xff1f; WSL2…...

5分钟搞定HeyGem数字人视频生成:科哥二次开发版,批量处理指南

5分钟搞定HeyGem数字人视频生成&#xff1a;科哥二次开发版&#xff0c;批量处理指南 1. 系统简介与核心价值 HeyGem数字人视频生成系统批量版是科哥基于原版进行的二次开发版本&#xff0c;专门针对企业级批量视频生成需求进行了优化。这个工具能够将一段音频与多个视频素材…...

Harness十篇博客

propmt1. Harness engineering (OpenAI)&#xff1a;关于如何通过约束与验证构建可靠agent-first软件的实践报告。​2. Building Effective AI Agents&#xff1a;Anthropic关于何时使用工作流或自治代理以及如何组织系统的实践指南。​3. Writing effective tools for AI agen…...

基于单细胞测序技术的细胞通讯分析方法及其应用

一、细胞通讯与单细胞测序技术的研究意义多细胞生物由不同类型的细胞构成一个开放的社会。在这一社会中&#xff0c;单个细胞之间必须协调其行为&#xff0c;因此建立有效的通讯联络机制至关重要。细胞通讯是指一个细胞发出的信息通过介质传递至另一个细胞&#xff0c;并引发相…...

【Python MCP服务器开发终极模板】:2026年生产级架构、安全加固与AI运维集成全指南

第一章&#xff1a;Python MCP服务器开发模板的演进与2026核心定位Python MCP&#xff08;Model–Control–Protocol&#xff09;服务器架构自2018年首次在开源社区实践以来&#xff0c;经历了从单体脚本、Flask轻量封装&#xff0c;到基于ASGI的异步协议栈重构的三阶段跃迁。2…...

高效办公:浏览器扩展无需安装桌面软件的全功能解决方案

高效办公&#xff1a;浏览器扩展无需安装桌面软件的全功能解决方案 【免费下载链接】se-office se-office扩展&#xff0c;提供基于开放标准的全功能办公生产力套件&#xff0c;基于浏览器预览和编辑office。 项目地址: https://gitcode.com/gh_mirrors/se/se-office 在…...

解锁3大维度:Helix Toolkit如何重构.NET开发者的3D开发体验

解锁3大维度&#xff1a;Helix Toolkit如何重构.NET开发者的3D开发体验 【免费下载链接】helix-toolkit Helix Toolkit is a collection of 3D components for .NET. 项目地址: https://gitcode.com/gh_mirrors/he/helix-toolkit Helix Toolkit是一套功能完备的.NET 3D组…...