当前位置：首页 > news >正文

OCR实践-Table-Transformer

news 2026/2/11 2:03:56

前言

书接上文

OCR实践—PaddleOCR

Table-Transformer 与 PubTables-1M

table-transformer，来自微软，基于Detr，在PubTables1M 数据集上进行训练，模型是在提出数据集同时的工作，

paper PubTables-1M: Towards comprehensive table extraction from unstructured documents，发表在2022年的 CVPR

数据来自 PubMed PMCOA 数据库的一百万个文章表格

PubTables-1M 针对表格处理一共有三个任务（所以table transformer 也能做到）

表格检测（表格定位）TD
表格结构识别（行、列、spanning cell，grid cell， text cell）TSR
表格分析（表头 cell，projected row header cell) FA

在这里插入图片描述

table-transformer

是第一个将 detr 用于表格处理任务的模型，没有使用任何特别的定制模块，简称为 TATR

we apply the Detection Transformer (DETR) [2] for the first time to the tasks of TD, TSR, and FA, and demonstrate how with PubTables-1M all three tasks can be addressed with a transformer-based object detection framework without any special customization for these tasks.

有关模型详细的权重、指标信息可以通过论文和 Github仓库可以进一步了解

https://arxiv.org/abs/2110.00061

https://github.com/microsoft/table-transformer

官方也在HuggingFace 上提供了各个模型权重

https://huggingface.co/collections/microsoft/table-transformer-6564528e330b667bb267502e
在这里插入图片描述

各个模型的版本和区别信息如下

在这里插入图片描述

官方提示，microsoft/table-transformer-structure-recognition-v1.1-all 是最好的结构识别模型

实践代码

如有问题，需要帮助，欢迎留言、私信或加群交流【群号：392784757】

表格检测 TD

通过以下设置，可以加速下载以及保存模型到当前文件夹下

import os
os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0"
os.environ['HF_HUB_CACHE'] = './hf_models/'
os.environ['TRANSFORMERS_CACHE'] = './hf_models'
os.environ['HF_HOME'] = './hf_models'

打开文件

table_img_path = './table.jpg'
image = Image.open(table_img_path).convert("RGB")
file_name = table_img_path.split('/')[-1].split('.')[0]

加载模型

image_processor = AutoImageProcessor.from_pretrained("microsoft/table-transformer-detection")
model = TableTransformerForObjectDetection.from_pretrained("microsoft/table-transformer-detection")

模型推理与后处理

inputs = image_processor(images=image, return_tensors="pt")
outputs = model(**inputs)target_sizes = torch.tensor([image.size[::-1]])
results = image_processor.post_process_object_detection(outputs, threshold=0.9, target_sizes=target_sizes)[0]

结果解析

i = 0
for score, label, box in zip(results["scores"], results["labels"], results["boxes"]):box = [round(i, 2) for i in box.tolist()]print(f"Detected {model.config.id2label[label.item()]} with confidence "f"{round(score.item(), 3)} at location {box}")region = image.crop(box) #检测region.save(f'./{file_name}_{i}.jpg')i += 1

表格结构识别 TSR

打开图片与模型加载

from transformers import DetrFeatureExtractor
feature_extractor = DetrFeatureExtractor()file_path = "./locate_table.jpg"
image = Image.open(file_path).convert("RGB")encoding = feature_extractor(image, return_tensors="pt")
model = TableTransformerForObjectDetection.from_pretrained("microsoft/table-transformer-structure-recognition-v1.1-all")
print(model.config.id2label)
# {0: 'table', 1: 'table column', 2: 'table row', 3: 'table column header', 4: 'table projected row header', 5: 'table spanning cell'}

模型推理与后处理

with torch.no_grad():outputs = model(**encoding)target_sizes = [image.size[::-1]]
results = feature_extractor.post_process_object_detection(outputs, threshold=0.6, target_sizes=target_sizes)[0]
# print(results)

结果解析

header

headers_box_list = [results['boxes'][i].tolist() for i in range(len(results['boxes'])) if results['labels'][i].item()==3] 
crop_image = image.crop(headers_box_list[0]) 
crop_image.save('header.png')

column

columns_box_list = [results['boxes'][i].tolist() for i in range(len(results['boxes'])) if results['labels'][i].item()==1] 
print(len(columns_box_list))

row

rows_box_list = [results['boxes'][i].tolist() for i in range(len(results['boxes'])) if results['labels'][i].item()==2] 
print(len(rows_box_list))

cell

cell_draw_image = image.copy()
cell_draw = ImageDraw.Draw(cell_draw_image)# col row inserction
for col in columns_box_list:for row in rows_box_list:cell = intersection(col,row) # 自行定义 if cell is not None:cell_draw.rectangle(cell, outline="red", width=3)cell_draw_image.save("cells.png")

效果

在这里插入图片描述

效果还不错

感谢

感谢以下文章提供的灵感与代码参考

[表格检测与识别入门 - My Github Blog](https://percent4.github.io/表格检测与识别入门/#表格结构识别
表格检测与识别的初次尝试

OCR实践-Table-Transformer

前言书接上文 OCR实践—PaddleOCR Table-Transformer 与 PubTables-1M table-transformer，来自微软，基于Detr，在PubTables1M 数据集上进行训练，模型是在提出数据集同时的工作， paper PubTables-1M: Towards comp…...

编程日记 2024/12/27 12:04:24

HarmonyOS NEXT 实战之元服务：静态案例效果---电台推荐

背景： 前几篇学习了元服务，后面几期就让我们开发简单的元服务吧，里面丰富的内容大家自己加，本期案例仅供参考先上本期效果图 ，里面图片自行替换效果图1完整代码案例如下： Index import { authentica…...

编程日记 2024/12/27 12:02:21

微信小程序不同角色进入不同页面、呈现不同底部导航栏

遇到这个需求之前一直使用的小程序默认底部导航栏，且小程序默认入口页面为pages/index/index，要使不同角色呈现不同底部导航栏，必须要在不同页面引用不同的自定义导航栏。本篇将结合分包（subPackages）展开以下三步叙述…...

编程日记 2024/12/27 12:01:19

MATLAB符号计算-符号表达式基础运算操作

1.1.2符号变量取值域的限定默认复数域【例1-1-2】解不等式 1.1.3创建符号表达式对符号对象进行各种运算（算术运算、关系运算、逻辑运算），即可创建符号表达式。 1.算术运算与转置【例1-1-3】 f5是f4的共轭转置 f6是f4的转置 2.关系…...

编程日记 2024/12/27 11:59:17

服务器被攻击怎么办

当服务器遭受恶意流量攻击，如DDoS（分布式拒绝服务）或CC（Challenge Collapsar）攻击时，传统的防护措施可能不足以应对。此时，采用高防IP服务可以有效缓解攻击压力，确保业务连续性和数据…...

编程日记 2024/12/27 11:57:14

精准识别花生豆：基于EfficientNetB0的深度学习检测与分类项目

精准检测花生豆：基于EfficientNet的深度学习分类项目在现代农业生产中，作物的质量检测和分类是确保产品质量的重要环节。针对花生豆的检测与分类需求，我们开发了一套基于深度学习的解决方案，利用EfficientNetB0模型实现高效、准…...

编程日记 2024/12/27 11:56:09

【UE5 C++课程系列笔记】13——GameInstanceSubsystem的简单使用

目录概念基本使用案例效果步骤概念 UGameInstanceSubsystem 类继承自 USubsystem，它与 GameInstance 紧密关联，旨在为游戏提供一种模块化、可方便扩展和管理的功能单元机制。在整个游戏运行期间，一个 GameInstance 可以包含多个 UGa…...

编程日记 2024/12/27 11:55:07

实用工具推荐----Doxygen使用方法

目录目录 1 软件介绍 2 Doxygen软件下载方法 3 Doxygen软件配置方法 4 标准注释描述 4.1 块注释和特殊描述字符 4.1.1 函数描述示例 4.1.2结构体数组变量示例特别注意： 4.2单行注释 4.2.1 单个变量注释示例特别注意： 4.2.2对于枚举变量…...

编程日记 2024/12/27 11:54:05

js垃圾回收机制详细讲解

JavaScript 垃圾回收机制（Garbage Collection, GC）负责自动管理内存的分配和释放，确保程序在运行时不会因为内存泄漏而崩溃。它的主要任务是回收不再使用的内存空间，防止内存泄漏。JavaScript 的垃圾回收通常由引擎自动完成&#…...

编程日记 2024/12/27 11:52:02

【Linux/踩坑】Linux中启动eclipse或HDFS因JAVA_HOME设置报错

Linux中启动eclipse或hadoop因JAVA_HOME设置报错 eclipseHadoop eclipse 错误提示： A Java Runtime Environment (JRE) or Java Development Kit (JDK) must be available in order to run Eclipse. No Java virtual machine was found after searching the follo…...

编程日记 2024/12/27 11:50:00

百度千帆平台构建AI APP的基础概念梳理

百度千帆平台构建AI APP的基础概念梳理如果想制作大语言模型（LLM）相关的APP， 将利用百度的千帆平台在国内可能是最便捷的途径，因为百度开发了成熟的工作流，前些年还有些不稳定，现在固定下来了&#xff0c…...

编程日记 2024/12/27 11:48:59

Unity3D Huatuo技术原理剖析详解

前言在游戏开发领域，Unity3D凭借其强大的跨平台能力和丰富的功能，成为了众多开发者的首选工具。而在Unity3D的生态系统中，Huatuo作为一款重要的插件，为游戏开发带来了极大的便利。本文将深入剖析Huatuo的技术原理，并…...

编程日记 2024/12/27 11:47:54

记Fastjson2的一个报ConcurrentModificationException的bug

错误背景：fastjson2的parseObject方法，在spring webflux项目中被调用，有时会报java.util.ConcurrentModificationException错误。报错处的代码如下图： 改了半天与并发安全相关的代码，还是会报此错误。后来改变思路搜…...

编程日记 2024/12/27 11:43:44

使用TimesFM 对车辆销售进行预测

代码功能概述导入相关包与设置环境变量： 首先导入了如 os、numpy、pandas 等常用的 Python 库，同时设置了一些与特定库（如 XLA_PYTHON_CLIENT_PREALLOCATE 和 JAX_PM AP_USE_TENSORSTORE）相关的环境变量，用于优化计算…...

编程日记 2024/12/27 11:41:41

OpenEuler 22.03 不依赖zookeeper安装 kafka 3.3.2集群

零：规划本次计划安装三台OpenEuler 22.03 版本操作系统的服务器，用于搭建 kafka和flink 集群。因为从kafka 2.8 版本以后开始不依赖 zookeeper ，同时考虑到需要找一个发布时间早于 flink 1.17 的kafka 版本且应尽量稳定，综合考虑…...

编程日记 2024/12/27 11:40:35

ubuntu 将python3.8 升级为python3.10并进行版本切换

ubuntu 将python3.8 升级为python3.10并进行版本切换前言将python3.8 升级为3.10安装pippython版本切换前言有一个功能包编译环境需要为python3.10 ，但是当前环境为python3.8 ，所以需要进行版本升级，编译完还需要把环境切换回来。将pyt…...

编程日记 2024/12/27 11:37:31

3. Kafka入门—安装与基本命令

Kafka基础操作一. 章节简介二. kafka简介三. Kafka安装1. 准备工作2. Zookeeper安装2.1 配置文件2.2 启动相关命令3. Kafka安装3.1 配置文件3.2 启动相关命令-------------------------------------------------------------------------------------------------------------…...

编程日记 2024/12/27 11:34:28

如何使用 python创建图片格式转换器

在本篇博客中，我们将通过一个简单的实例来展示如何使用 wxPython 创建一个图形用户界面（GUI）应用程序，用于将图片从一种格式转换为另一种格式。我们将通过以下几个步骤实现这一目标： C:\pythoncode\new\imageconvertty…...

编程日记 2024/12/27 11:29:19

命令行之巅：Linux Shell编程的至高艺术（上）

文章一览前言一、shell概述1.1 shell的特点和类型1.1.1 **shell的特点：**1.1.2 常用shell类型 1.2 shell脚本的建立和执行1.2.1 建立shell脚本1.2.2 执行shell脚本的方式1.2.3 shell程序实例二、shell变量与算数运算2.1 简单shell变量2.1.1 简单变量定义和赋值2.1…...

编程日记 2024/12/27 11:28:16

【gulp】gulp 的基本使用

gulp 是一个基于node的自动化打包构建工具，前端开发者可以使用它来处理常见任务： 创建项目进入项目 npm init -ynpm i gulp -g （使用命令 gulp）npm i gulp -D # 开发依赖（前端工具都是开发依赖本地安装代…...

编程日记 2024/12/27 11:27:14

Chapter03-Authentication vulnerabilities

文章目录 1. 身份验证简介1.1 What is authentication1.2 difference between authentication and authorization1.3 身份验证机制失效的原因1.4 身份验证机制失效的影响 2. 基于登录功能的漏洞2.1 密码爆破2.2 用户名枚举2.3 有缺陷的暴力破解防护2.3.1 如果用户登录尝试失败次…...

编程新知 2026/2/10 3:29:01

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？

Golang 面试经典题：map 的 key 可以是什么类型？哪些不可以？ 在 Golang 的面试中，map 类型的使用是一个常见的考点，其中对 key 类型的合法性是一道常被提及的基础却很容易被忽视的问题。本文将带你深入理解 Golang 中…...

编程新知 2025/12/20 7:42:02

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时，需结合业务场景设计数据流转链路，重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点： 一、核心对接场景与目标商品数据同步场景：将1688商品信息…...

编程新知 2025/11/30 16:55:32

学习STC51单片机31（芯片为STC89C52RCRC）OLED显示屏1

每日一言生活的美好，总是藏在那些你咬牙坚持的日子里。硬件：OLED 以后要用到OLED的时候找到这个文件 OLED的设备地址 SSD1306"SSD" 是品牌缩写，"1306" 是产品编号。驱动 OLED 屏幕的 IIC 总线数据传输格式示意图 …...

编程新知 2026/1/30 4:16:26

鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序

一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...

编程新知 2025/11/26 13:15:57

html-＜abbr＞缩写或首字母缩略词

定义与作用 <abbr> 标签用于表示缩写或首字母缩略词，它可以帮助用户更好地理解缩写的含义，尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时，会显示一个提示框。示例&#x…...

编程新知 2026/1/24 19:22:03

Linux nano命令的基本使用

参考资料 GNU nanoを使いこなすnano基础目录一. 简介二. 文件打开2.1 普通方式打开文件2.2 只读方式打开文件三. 文件查看3.1 打开文件时，显示行号3.2 翻页查看四. 文件编辑4.1 Ctrl K 复制和 Ctrl U 粘贴4.2 Alt/Esc U 撤回五. 文件保存与退出5.1 Ctrl …...

编程新知 2026/1/31 2:17:41

CVPR2025重磅突破：AnomalyAny框架实现单样本生成逼真异常数据，破解视觉检测瓶颈！

本文介绍了一种名为AnomalyAny的创新框架，该方法利用Stable Diffusion的强大生成能力，仅需单个正常样本和文本描述，即可生成逼真且多样化的异常样本，有效解决了视觉异常检测中异常样本稀缺的难题，为工业质检、医疗影像…...

编程新知 2026/2/5 4:18:48

Neko虚拟浏览器远程协作方案：Docker+内网穿透技术部署实践

前言：本文将向开发者介绍一款创新性协作工具——Neko虚拟浏览器。在数字化协作场景中，跨地域的团队常需面对实时共享屏幕、协同编辑文档等需求。通过本指南，你将掌握在Ubuntu系统中使用容器化技术部署该工具的具体方案，并结合内网…...

编程新知 2026/2/9 22:04:22

快速排序算法改进:随机快排-荷兰国旗划分详解

随机快速排序-荷兰国旗划分算法详解一、基础知识回顾1.1 快速排序简介1.2 荷兰国旗问题二、随机快排 - 荷兰国旗划分原理2.1 随机化枢轴选择2.2 荷兰国旗划分过程2.3 结合随机快排与荷兰国旗划分三、代码实现3.1 Python实现3.2 Java实现3.3 C实现四、性能分析4.1 时间复杂度…...

编程新知 2026/2/4 16:34:53

前言

Table-Transformer 与 PubTables-1M

实践代码

表格检测 TD

表格结构识别 TSR

效果

感谢

相关文章：