当前位置：首页 > news >正文

基于RapidOCR与DeepSeek的智能表格转换技术实践

news 2025/7/7 23:37:17

基于RapidOCR与DeepSeek的智能表格转换技术实践

一、技术背景与需求场景

在金融分析、数据报表处理等领域，存在大量图片格式的表格数据需要结构化处理。本文介绍基于开源RapidOCR表格识别与DeepSeek大模型的智能转换方案，实现以下典型场景：

金融研报分析：自动提取股票概念数据
企业报表处理：纸质表格数字化归档
数据中台建设：非结构化数据转结构化存储
自动化办公：会议记录表格快速电子化

二、技术架构设计

本方案采用四层处理架构：

三、核心代码实现

环境配置

# 基础依赖
pip install rapidocr_onnxruntime openpyxl openai
# 表格识别库
pip install wired-table-recognition lineless-table-recognition

完整实现代码

from rapidocr_onnxruntime import RapidOCR
from wired_table_rec import WiredTableRecognition
from lineless_table_rec import LinelessTableRecognition
from openai import OpenAI
import json
import reclass ImageToExcelConverter:def __init__(self, api_key):self.ocr_engine = RapidOCR()self.wired_rec = WiredTableRecognition()self.lineless_rec = LinelessTableRecognition()self.client = OpenAI(api_key=api_key, base_url="https://api.deepseek.com")def _call_deepseek(self, html_content):"""调用DeepSeek模型进行数据清洗"""PROMPT_TEMPLATE = '''请将以下表格内容转换为规范JSON格式：1. 提取股票简称、概念、创建日期等关键字段2. 去除免责声明等无关信息3. 日期格式统一为YYYY-MM-DD示例输出：[{"股票简称": "示例", "概念": "概念名称", ...}]待处理内容：{content}'''response = self.client.chat.completions.create(model="deepseek-reasoner",messages=[{"role": "user", "content": PROMPT_TEMPLATE.format(content=html_content)}],temperature=0.3)return self._parse_response(response.choices[0].message.content)def _parse_response(self, raw_text):"""解析大模型返回结果"""json_str = re.search(r'```json(.*?)```', raw_text, re.DOTALL)if json_str:try:return json.loads(json_str.group(1).strip())except json.JSONDecodeError:return self._retry_parsing(raw_text)return []def process_image(self, img_path):"""主处理流程"""# OCR识别ocr_result, _ = self.ocr_engine(img_path)# 表格结构识别html_wired = self.wired_rec.process(img_path, ocr_result)html_lineless = self.lineless_rec.process(img_path, ocr_result)# 数据清洗转换structured_data = self._call_deepseek(html_wired or html_lineless)# 生成Exceldf = pd.DataFrame(structured_data)output_path = f"{os.path.splitext(img_path)[0]}.xlsx"df.to_excel(output_path, index=False)return output_path

四、关键技术解析

1. 双模式表格识别

# 有线表格处理
wired_table_rec.process(img, enhance_box_line=True,  # 增强框线检测col_threshold=15,       # 列间距阈值rotated_fix=True        # 旋转矫正
)# 无线表格处理 
lineless_table_rec.process(img,row_threshold=10,       # 行间距阈值need_ocr=True           # 启用二次OCR
)

2. 大模型prompt工程

PROMPT设计要点：
- 字段提取规则明确
- 输出格式示例清晰
- 数据清洗要求具体化
- 异常数据处理策略

3. 数据验证机制

def validate_stock_data(data):"""数据校验函数"""REQUIRED_FIELDS = ['股票简称', '概念', '创建日期']for item in data:if not all(field in item for field in REQUIRED_FIELDS):return Falseif not re.match(r'\d{4}-\d{2}-\d{2}', item['创建日期']):return Falsereturn True

五、实践效果对比

原始图片在这里插入图片描述

Excel输出

在这里插入图片描述

六、性能优化建议

并行处理优化

from concurrent.futures import ThreadPoolExecutordef batch_process(image_paths):with ThreadPoolExecutor(max_workers=4) as executor:results = list(executor.map(converter.process_image, image_paths))

缓存机制实现

from diskcache import Cachecache = Cache('./ocr_cache')@cache.memoize(expire=3600)
def cached_ocr_process(img_path):return ocr_engine(img_path)

识别精度提升

自定义OCR字典：ocr_engine = RapidOCR(custom_vocab=["科创板", "北交所"])
图像预处理：添加锐化、对比度调整
表格检测增强：调整行列阈值参数

七、应用扩展方向

多模态文档处理

def process_pdf(pdf_path):for page in extract_pdf_pages(pdf_path):if detect_table(page):yield process_image(page)

实时流处理

import websocketsasync def realtime_processing(websocket):async for img_bytes in websocket:result = process_image(img_bytes)await websocket.send(result)

智能校验系统

def auto_correction(data):# 连接企业数据库校验validated = db_session.query(StockInfo).filter(StockInfo.name == data['股票简称']).exists()# 自动修正日期格式if not validate_date(data['创建日期']):return guess_date_format(data['创建日期'])

项目地址: GitHub - SmartTableConverter
在线体验: Demo Portal

通过本方案的实施，企业可将传统表格处理效率提升300%以上，同时保证99%以上的数据准确率。该技术栈可灵活扩展应用于财务报表分析、医疗数据数字化等多个垂直领域。

基于RapidOCR与DeepSeek的智能表格转换技术实践

基于RapidOCR与DeepSeek的智能表格转换技术实践一、技术背景与需求场景在金融分析、数据报表处理等领域，存在大量图片格式的表格数据需要结构化处理。本文介绍基于开源RapidOCR表格识别与DeepSeek大模型的智能转换方案，实现以下典型场景： …...

编程日记 2025/3/7 6:16:36

创建阿里云CDN

创建阿里云CDN CDN域名管理 SSL证书上传...

编程日记 2025/3/7 6:15:34

进入到conf cd /usr/local/tomcat/conf/备份tomcat-users.xml cp tomcat-users.xml{.,bak}编辑tomcat-users.xml vim tomcat-users.xml增加以下内容配置tomcat-users.xml <role rolename"manager-gui"/><role rolename"admin-gui"/><use…...

编程日记 2025/3/7 6:14:34

【Linux系统】-----进程初相识：原理与概念全解析

Linux系列文章目录 Linux系列前言一、进程的概念二、进程的管理三、Linux操作系统的进程管理3.1、进程标识符3.2、查看进程3.3、查看进程的PID和PPID 前言经过前两篇文章的铺垫，我们对操作系统的管理方式已经有了比较完整的认识，今天我们将学习Linux比…...

编程日记 2025/3/7 6:13:33

分布式系统设计（架构能力）

一、微服务架构服务治理 Nacos 注册中心（AP模式） CAP选择：Nacos 默认采用 AP 模式（可用性分区容忍性），通过心跳检测实现服务健康管理。服务发现：客户端定时拉取服务列表，支持权重…...

编程日记 2025/3/7 6:12:31

171. Excel 表列序号

Excel 表列序号题目描述尝试做法推荐做法题目描述给你一个字符串 columnTitle ，表示 Excel 表格中的列名称。返回该列名称对应的列序号。例如： A -> 1 B -> 2 C -> 3 … Z -> 26 AA -> 27 AB -> 28 … 示例 1: 输入: colum…...

编程日记 2025/3/7 6:11:30

在 Java 中使用 Apache POI 为 Word 文档添加水印

在 Java 中使用 Apache POI 为 Word 文档添加水印在日常办公中，我们经常需要给 Word 文档添加水印，以标明文件的机密性或归属权。本文将介绍如何使用 Apache POI 库在 Java 中给 Word 文档添加水印。技术栈 Apache POI：用于操作 Word 文…...

编程日记 2025/3/7 6:10:29

贪心算法二

> 作者：დ旧言~ > 座右铭：松树千年终是朽，槿花一日自为荣。 > 目标：了解什么是贪心算法，并且掌握贪心算法。 > 毒鸡汤：有些事情，总是不明白，所以我不会坚持。早安! >…...

编程日记 2025/3/7 6:08:26

【大模型安全】大模型的技术风险

【大模型安全】大模型的技术风险 1.DDoS攻击2.常见的传统网络攻击方式3.恶意意图的识别4.AI生成虚假信息传播5.利用AI进行黑客攻击6.模型对抗攻击7.后门攻击8.Prompt攻击9.数据投毒攻击10.模型窃取攻击11.数据窃取攻击 1.DDoS攻击 2023年11月9日凌晨，OpenAI在官网公…...

编程日记 2025/3/7 6:07:25

Java 线程池中 shutdown 与 shutdownNow 的区别是什么？

Java 线程池中 shutdown 与 shutdownNow 的区别核心行为差异 | 方法 | 行为描述 | |----------------|----------------------------------------------------------------------------| | shutdown | 平缓关闭线程池：1. 停止接受新任务。2. 已提交的任务&#xff…...

编程日记 2025/3/7 6:04:22

基于Spring Boot的共享学习经验系统的设计与实现

目录摘要第1章　绪论 1.1研究背景与意义 1.2国内外现状 1.3研究目标第2章需求分析 2.1业务需求 2.1.1业务概述 2.1.2业务流程 2.2.1用例概述 2.2.2用例描述 2.3非功能性需求第3章　系统设计 3.1技术路线 3.2系统功能模块设计 3.3系统架构 3.4数据库设计 3.4.1概念结构设…...

编程日记 2025/3/7 6:03:21

【简单的C++围棋游戏开发示例】

C围棋游戏开发简单示例（控制台版） ‌核心代码实现‌ #include <iostream> #include <vector> #include <queue> using namespace std;const int SIZE 9; // 简化棋盘为9x9‌:ml-citation{ref"1" data"citationList&…...

编程日记 2025/3/7 6:02:19

单片机中的基础外设GPIO的知识和应用—（6）

GPIO（通用输入输出）是单片机与外部世界交互的重要接口。单片机的GPIO引脚可以灵活配置为输入、输出、中断或复用功能，广泛应用于LED控制、按键读取、传感器通信等场景。下文以STM32F103C8T6的GPIO为例。有些51单片机IO功能有的稍微有不同&…...

编程日记 2025/3/7 6:01:17

10-Agent循环分析新闻并输出总结报告

目录关键词摘要速览自动新闻总结与行业分析报告生成流程创建深度行业分析报告的工作流测试用例执行与调试业务逻辑与循环处理任务演示如何在循环体中添加链接读取工具使用大模型处理和分析新闻信息构建循环分析新闻并生成综合报告的流程分析和优化慢速循…...

编程日记 2025/3/7 6:00:16

十二、Redis Cluster（集群）详解：原理、搭建、数据分片与读写分离

Redis Cluster（集群）详解：原理、搭建、数据分片与读写分离 Redis Cluster 是 Redis 官方提供的分布式存储方案，通过数据分片（Sharding）实现水平扩展（scalability），并提供高可用性（HA）和故障自动转移（failover）能力，解决了单机 Redis 内存受限、主从复制故障…...

编程日记 2025/3/7 5:59:15

贪心算法解题框架+经典反例分析，效率提升300%

贪心算法是一种在每一步选择中都采取当前状态下的最优决策，从而希望最终达到全局最优解的算法策略。以下从其定义、特点、一般步骤、应用场景及实例等方面进行讲解： 定义与基本思想 • 贪心算法在对问题求解时，总是做出在当前看来是最好的选…...

编程日记 2025/3/7 5:57:12

策略设计模式-下单

1、定义一个下单context类通过这类来判断具体使用哪个实现类，可以通过一些枚举或者条件来判断 import com.alibaba.fastjson.JSON; import com.tc.common.exception.BusinessException; import com.tc.common.user.YjkUserDetails; import com.tc.institution.cons…...

编程日记 2025/3/7 5:56:10

Go加spy++隐藏窗口

最近发现有些软件的窗口就像狗皮膏药一样，关也关不掉，一点就要登录，属实是有点不爽了。窗口的进程不能杀死，但是窗口我不想要。思路很简单，用 spy 找到要隐藏的窗口的句柄，然后调用 Windows 的 ShowWindo…...

编程日记 2025/3/7 5:55:08

React基础之tsx语法

tsx在jsx的基础上添加了新的类型，除此之外没有任何区别事件绑定 function App() { const handleClick()>{ console.log(button被点击了); } return( <div className"App"> <button onClick{handleClick}>click me</button> </di…...

编程日记 2025/3/7 5:53:06

一体机：DeepSeek性能的“隐形枷锁”！

一体机是DeepSeek交付的最佳方式吗？ 恰恰相反，一体机是阻碍DeepSeek提升推理性能的最大绊脚石。为啥？ 只因DeepSeek这个模型有点特殊，它是个高稀疏度的MoE模型。 MoE这种混合专家模型，设计的初衷是通过“激活一堆专…...

编程日记 2025/3/7 5:51:04

[2025CVPR]DeepVideo-R1：基于难度感知回归GRPO的视频强化微调框架详解

突破视频大语言模型推理瓶颈，在多个视频基准上实现SOTA性能一、核心问题与创新亮点 1.1 GRPO在视频任务中的两大挑战安全措施依赖问题 GRPO使用min和clip函数限制策略更新幅度，导致：梯度抑制：当新旧策略差异过大时梯度消失收敛困难：策略无法充分优化# 传统GRPO的梯…...

编程新知 2025/6/18 19:00:20

智慧医疗能源事业线深度画像分析（上）

引言医疗行业作为现代社会的关键基础设施，其能源消耗与环境影响正日益受到关注。随着全球"双碳"目标的推进和可持续发展理念的深入，智慧医疗能源事业线应运而生，致力于通过创新技术与管理方案，重构医疗领域的能源使用模式。这一事业线融合了能源管理、可持续发…...

编程新知 2025/7/7 20:59:23

基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述通过动态调整节点通信的能量开销，平衡网络负载，延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...

编程新知 2025/7/7 19:52:29

React Native 开发环境搭建（全平台详解）

React Native 开发环境搭建（全平台详解） 在开始使用 React Native 开发移动应用之前，正确设置开发环境是至关重要的一步。本文将为你提供一份全面的指南，涵盖 macOS 和 Windows 平台的配置步骤，如何在 Android 和 iOS…...

编程新知 2025/6/20 17:53:24

SciencePlots——绘制论文中的图片

文章目录安装一、风格二、1 资源安装 # 安装最新版 pip install githttps://github.com/garrettj403/SciencePlots.git# 安装稳定版 pip install SciencePlots一、风格简单好用的深度学习论文绘图专用工具包–Science Plot 二、 1 资源论文绘图神器来了：一行…...

编程新知 2025/6/17 19:00:28

1688商品列表API与其他数据源的对接思路

将1688商品列表API与其他数据源对接时，需结合业务场景设计数据流转链路，重点关注数据格式兼容性、接口调用频率控制及数据一致性维护。以下是具体对接思路及关键技术点： 一、核心对接场景与目标商品数据同步场景：将1688商品信息…...

编程新知 2025/7/7 4:15:57

【CSS position 属性】static、relative、fixed、absolute 、sticky详细介绍，多层嵌套定位示例

文章目录 ★ position 的五种类型及基本用法 ★ 一、position 属性概述二、position 的五种类型详解（初学者版） 1. static（默认值） 2. relative（相对定位） 3. absolute（绝对定位） 4. fixed（固定定位） 5. sticky（粘性定位）三、定位元素的层级关系（z-i…...

编程新知 2025/7/7 10:36:22