当前位置: 首页 > news >正文

从数据提取到管理:TextIn平台的全面解析与产品体验

一、引言

在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的主要功能、产品亮点及其广泛的应用场景,带领大家全面体验这款文档处理“百宝箱”。


二、TextIn智能文档处理概述

TextIn平台覆盖文档解析的多个环节,支持批量处理多种文档类型,并适配多语言环境。其核心工具包括:

核心工具描述
TextIn ParseX提供复杂文档的可视化解析能力,适合多种格式的文档展示和编辑。
acge-embedding 向量化模型提升长文本信息抽取的精度,适合大规模信息检索和内容审核。
markdown_tester 文档解析测评工具帮助开发者定量评估解析效果,降低工具选择和调试成本。

三、可视化文档解析前端TextIn ParseX

TextIn ParseX是TextIn推出的一款通用文档解析工具,支持多种文档格式的高效解析和可视化展示。它不仅可以将PDF、JPG等格式的文档转换为Markdown格式,还可以解析表格、公式等复杂文档元素,确保阅读顺序的准确性,支持多语言识别,并且提供缩放、旋转、编辑等丰富的交互功能。

TextIn ParseX的技术特点包括:

  • 高效的解析速度:100页文档可在2秒内完成解析,适合需要快速处理大量文档的企业需求。
  • 精确的元素识别:支持表格、公式、图片等文档元素的精确识别与还原,特别适用于年报、业务报告等复杂文档的处理。
  • 灵活的可视化功能:用户可以通过目录树、预览图像、标注跳转等方式便捷地查看和编辑解析结果。

在线使用:【免费使用入口】

以下面的票据识别为例子,发票内容被准确识别,而且内容没有错误。

在这里插入图片描述

也可以使用通用文档解析,在获取结果后一键输出。

在这里插入图片描述
输出为markdown的结果如图:
在这里插入图片描述

同时,我们可以通过结合coze,调用textIn的api,使用coze完成图片信息提取,做成问答式的AI文本小助手,实际测试下来,流程比较简单,识别准确率也很高。
在这里插入图片描述


四、向量化acge-embedding模型

acge是一个通用的文本编码模型,是一个可变长度的向量化模型,使用了Matryoshka Representation Learning,专为提升长文档检索的精度和速度而设计。它通过将文本数据转换为数值向量,为搜索、聚类、推荐等任务提供坚实基础。acge-embedding模型通过高效的俄罗斯套娃表征学习(MRL)框架,支持多任务混合训练,帮助企业灵活地配置性能和资源,以应对不同应用场景的需求。

acge-embedding模型开源地址:https://huggingface.co/aspire/acge_text_embedding

技术架构上,acge_text_embedding采用了俄罗斯套娃表示学习(Matryoshka Representation Learning,MRL)编码不同粒度的信息,并让一个编码能够适应不同计算资源的下游任务。原理如下面GIF图所示:
在这里插入图片描述

acge-embedding的核心亮点:

  • 高精度和高效率:凭借创新的MRL框架,acge模型在文本分类和情感分析等任务中表现优异,支持灵活的嵌入维度,适应多种业务需求。
  • 支持多任务混合训练:模型通过对比学习技术,实现了数据的多场景混合训练,提升了泛化能力和检索效率。

五、文档解析测评工具markdown_tester

文档解析工具种类繁多,但缺乏统一的评估标准。TextIn开发的markdown_tester提供了定量评估机制,帮助用户客观地测评各类文档解析工具的性能。用户可以通过上传样本,查看段落、标题、表格等元素的识别效果,并通过直观的雷达图展示对比结果。

文档解析测评工具markdown _ tester开源地址:https://github.com/intsig-textin/markdown_tester

在这里插入图片描述
该测评脚本用于评价markdown文档相似性,从段落、标题、表格和公式四个维度进行评价:

指标说明
段落识别率段落匹配的个数(段落编辑距离小于0.2) / 预测出的总段落数
段落召回率段落匹配的个数(段落编辑距离小于0.2)/ 总的段落数
段落f12 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率)
标题识别率标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数
标题召回率标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数
标题f12 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率)
标题树状编辑距离所有标题树编辑距离分数之和(pred,包含文字)/ 总标题数量(gt)
表格文本全对率文本全对的表格个数(pred)/ 总表格个数(gt)
表格树状编辑距离所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt)
表格结构树状编辑距离所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt)
公式识别率公式匹配的个数(公式编辑距离小于0.2) / 预测出的总公式数
公式召回率公式匹配的个数(公式编辑距离小于0.2)/ 总的公式数
公式f12 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率)
阅读顺序指标计算预测值和真值中,所有匹配段落的编辑距离

使用方法

运行install.sh,安装软件包:

./install.sh

待测评样本按照下述方式放置:

dataset/
├── pred/
│   ├── gpt-4o/
│   ├── vendor_A/
│   ├── vendor_B/
│   ├── ...
├── gt/

运行命令:

python run_test.py --pred_path path_to_pred_md  --gt_path path_to_gt_md

其中:
path_to_pred_md:预测值文件所在文件夹。
path_to_gt_md:真值文件所在文件夹。

运行效果

结果表格:
在这里插入图片描述

结果雷达图:
在这里插入图片描述

markdown_tester工具的优势:

  • 全面性:涵盖了文档解析的多个重要维度,提供细致的评测指标。
  • 可视化结果:通过雷达图等形式直观展示各工具的解析效果,帮助用户快速筛选最合适的文档处理工具。

六、TextIn文档解析应用场景

TextIn平台的应用场景非常广泛,涵盖了从知识库构建到大规模语料处理等多个领域,助力企业实现更高效的信息管理和业务支持。

应用场景描述
知识库构建通过ParseX和acge模型配合,TextIn帮助开发者快速将企业内部文档自动解析,提升知识库构建的效率和准确性。
智能文档抽取支持合同、招投标文件等结构化信息抽取需求,TextIn提供精准的数据解析与复用,适用于企业合同管理、财务报销等场景。
大模型预训练语料处理TextIn能够批量、高效解析多种版式文档,支持大模型语料的精准提取,提升预训练数据的质量。
多语言文档翻译TextIn支持多语言文档解析与翻译,帮助企业轻松实现跨语言业务扩展,同时保持原有文档格式。

七、总结

TextIn平台凭借其强大的文档解析和管理能力,为开发者和企业带来了显著的效率提升。TextIn ParseX、acge-embedding模型和markdown_tester工具的组合,构成了一个功能全面、灵活高效的文档处理“百宝箱”。TextIn在处理多种文档格式、语言环境、以及知识库建设和文档翻译等方面为用户提供了高效、便捷的解决方案。通过TextIn,企业能够轻松实现复杂文档解析和大规模信息管理,进而在业务支持和信息管理方面获得显著提升。

最后,小智诚挚地邀请大家一起体验TextIn产品为我们带来的便利之处!点击【免费体验】,即可在线使用,感受TextIn为我们带来的文档解析新体验!

相关文章:

从数据提取到管理:TextIn平台的全面解析与产品体验

一、引言 在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的…...

2024 Rust现代实用教程 Error错误处理

文章目录 一、错误处理之:Result、Option以及panic!宏1.Result2.Option3.panic! 二、错误处理之:unwrap()与?1.unwrap()2.?运算符 三、自定义一个Error类型参考 一、错误处理之:Result、Option以及panic!宏 Rust中的错误可以分为…...

android 逆向破解360加固(MT管理器反编译)

1.需要准备的环境MT管理器 2.一台root手机 3,需要给app脱壳https://nop.gs/在这里脱壳 4.将脱壳的文件解压之后解压 5.用MT管理器打开需要反编译破解的app 6.然后把脱壳的classes.dex添加到破解的app里面删除原来的classes.dex 7.删除360加固的so,so在assets文件里面删除libjia…...

使用 SSH 蜜罐提升安全性和记录攻击活动

文章目录 使用 SSH 蜜罐提升安全性和记录攻击活动前言整体逻辑讲解安全最佳实践蜜罐的类型与选择数据分析与响应进一步学习资源修改 SSH 服务端口部署 FakeSSHFakeSSH 简介部署步骤记录攻击 部署 SSHSameSSHSame 简介部署步骤观察攻击行为 总结 使用 SSH 蜜罐提升安全性和记录攻…...

无人机拦截捕获/直接摧毁算法详解!

一、无人机拦截捕获算法 网捕技术 原理:抛撒特殊设计的网具,捕获并固定无人机。 特点: 适用于小型无人机。 对无人机的损害较小,基本不影响其后续使用。 捕获成功率较高,且成本相对较低。 应用实例:…...

后端eclipse——文字样式:UEditor富文本编辑器引入

目录 1.富文本编辑器的优点 2.文件的准备 3.文件的导入 导入到项目: 导入到html文件: ​编辑 4.富文本编辑器的使用 1.富文本编辑器的优点 我们从前端写入数据库时,文字的样式具有局限性,不能存在换行,更改字体…...

thinkphp6 redis 哈希存储方式以及操作函数(笔记)

逻辑:如果redis里没有指定表数据就进行存储再输出,如果有就直接输出,代码优化后几万条数据从数据库入redis也是三四秒的时间,数据以json方式存储:key用于数据ID 跟数据库数据ID同步,value用于存储整个字段包…...

「Mac畅玩鸿蒙与硬件28」UI互动应用篇5 - 滑动选择器实现

本篇将带你实现一个滑动选择器应用,用户可以通过滑动条选择不同的数值,并实时查看选定的值和提示。这是一个学习如何使用 Slider 组件、状态管理和动态文本更新的良好实践。 关键词 UI互动应用Slider 组件状态管理动态数值更新用户交互 一、功能说明 在…...

【嵌入式】STM32中的SPI通信

SPI是由摩托罗拉公司开发的一种通用数据总线,其中由四根通信线,支持总线挂载多设备(一主多从),是一种同步全双工的协议。主要是实现主控芯片和外挂芯片之间的交流。这样可以使得STM32可以访问并控制各种外部芯片。本文…...

后端:Spring、Spring Boot-配置、定义bean

文章目录 1. 什么是Bean,如何配置2. 如何配置bean2.1 使用注解Bean2.2 使用注解Import 1. 什么是Bean,如何配置 被spring容器所管理的对象被称为bean,管理方式可以有纯xml文件方式、注解方式进行管理(比如注解Component)。 在Spring Boot中&…...

【Git】Git 远程仓库命令详解

目录 引言1. Git Fetch、Git Pull 和 Git Push 简介1.1 概念总结1.2 图示概念 2. 分支的概念2.1 分支定义2.2 分支的特点2.3 分支示例2.4 基本操作命令2.5 分支的使用场景 3. Git Fetch 用法3.1 基本命令3.2 获取特定分支3.3 查看更新内容3.4 使用示例3.5 适用场景 4. Git Pull…...

html简易流程图

效果图 使用htmlcssjs&#xff0c;无图片&#xff0c;没用Canvas demo: <!DOCTYPE html> <html> <head><link href"draw.css" rel"stylesheet" /><script src"draw.js" type"text/javascript"></…...

Java 入门

目录 Java简介 Java JDK开发环境配置 第一个Java程序 Java标识符与关键字 Java注释 Java常量 Java变量的定义和使用 Java简介 Java简介&#xff1a; Java是由Sun Microsystems公司于1995年推出的一门面向对象的高级程序设计语言&#xff0c;可以运行于多个平台&#xff0c;其…...

JVM基本结构和垃圾回收机制

一、JVM基本结构 Java虚拟机&#xff08;JVM, Java Virtual Machine&#xff09;是Java程序执行的环境&#xff0c;其基本结构可以分为以下几个主要部分&#xff1a; 类加载器子系统&#xff08;Class Loader Subsystem&#xff09;&#xff1a; 负责加载Java类文件到内存中。…...

CentOS 7 安装 ntp,自动校准系统时间

1、安装 ntp yum install ntp 安装好后&#xff0c;ntp 会自动注册成为服务&#xff0c;服务名称为 ntpd 2、查看当前 ntpd 服务的状态 systemctl status ntpd 3、启动 ntpd 服务、查看 ntpd 服务的状态 systemctl start ntpdsystemctl status ntpd 4、设置 ntpd 服务开机启…...

Spring Boot 配置文件启动加载顺序

前言 Spring Boot的启动加载顺序是一个涉及多个步骤和组件的过程。Spring Boot通过一系列默认设置简化了应用程序的配置&#xff0c;使得开发者能够快速地搭建和部署应用。为了实现这一目标&#xff0c;Spring Boot采用了一种分层和优先级机制来加载配置文件。 一、Spring Bo…...

webrtc agc2实现原理

WebRTC的AGC2&#xff08;自适应增益控制器&#xff09;是一种用于音频处理的算法&#xff0c;可以根据输入信号的强度自动调整增益&#xff0c;使输出信号的音量保持稳定。其详细原理如下&#xff1a; 噪声估计 首先&#xff0c;AGC2需要对输入信号中的噪声进行估计&#xff…...

2024.11.03 周报

一 实时超分音频同步问题: 处理方向&#xff1a; 按照胡学长的办法尝试: 前面处理视频, 将视频中音频提取出来, 将音频每隔 1-2 秒保存为一段 (这样将音频缓存在内存中) , 然后依次播放, 但是音频是44.1KHz采样率&#xff0c;每秒44100次的频率. 每次间隔中程序处理的极短时间…...

Oceanbase学习之一迁移mysql数据到oceanbase

一、数据库环境 #mysql环境 root192.168.150.162 20:28: [(none)]> select version(); ---------- | version() | ---------- | 8.0.26 | ---------- 1 row in set (0.00 sec) root192.168.150.162 20:28: [(none)]> show variables like ‘%char%’; ---…...

Milvus - GPU 索引类型及其应用场景

1. 背景概述 Milvus 是一款高效的矢量数据库管理系统&#xff0c;支持在高并发和高调用场景下加速相似度搜索。Milvus 的 GPU 支持由 NvidiaRAPIDS 团队提供&#xff0c;可以借助各种 GPU 索引类型来优化性能。本篇将重点解析 Milvus 支持的 GPU 索引类型、适用场景及各自的性…...

Webserver(2.8)守护进程

目录 守护进程案例 守护进程案例 每隔2s获取系统时间&#xff0c;将这个时间写入到磁盘文件中 #include<stdio.h> #include<sys/stat.h> #include<sys/types.h> #include<unistd.h> #include<fcntl.h> #include<sys/time.h> #include<…...

HarmonyOS :

HarmonyOS 移动应用开发 什么是HarmonyOS&#xff1f;&#xff1a; 官方解释&#xff1a;HarmonyOS是一款面向万物互联时代的、全新的分布式操作系统。 鸿蒙操作系统在传统的单设备系统能力的基础上&#xff0c;提出了基于同一套系统能力、适配多种终端形态的分布式理念&#…...

C# EF 使用

WPF EF MySQL - - -版本.NET Framework4.7.2EntityFramework6.5.1MySql.Data.EntityFramework9.1.0 创建数据库 ccApp.config <connectionStrings><add name"MyDbContext" providerName"MySql.Data.MySqlClient" connectionString"server…...

简介Voronoi图Voronoi Diagrams

这是计算机的经典算法。 问题引入 倘若一张大白纸上有很多三角点&#xff0c;掉进去一个五星点&#xff0c;问&#xff0c;哪个三角离着五星最近&#xff1f;简单&#xff0c;算距离呗&#xff0c;这个五星到其他所有三角点的距离&#xff0c;找到最小的那个就行。 若掉进去…...

硬件测试工程师之EMC项目-辐射抗扰度试验(RS)测试标准解析思维导图

1&#xff1a;链接上一篇文章 硬件测试工程师之EMC项目-电磁干扰-谐波测试标准解析 2&#xff1a;总结思维导图并进行深入解析EMC-辐射抗扰度测试项目 附上相关报告文档以及图片解析。 3:以下为思维导图大致展示&#xff0c;后续可可方便观看。如有需要也可以下载。 本期先…...

H265编码丢帧问题分析

问题 通过海思芯片编码后,将编码的数据通过UDP网口发送到UDP 服务端,UDP服务端收到后保存成文件。 保存的文件有时候用VLC软件可以打开。有时候不能打开,同时用Elecard HEVC Analyer工具打开,发现VLC不能打开时丢帧。如下图,实际为858帧,而此处只有846帧。 分析 UDP包…...

CentOS Linux教程(12)--常用编辑器

文章目录 1. 背景2. nano编辑器2.1 检查安装2.2 安装nano2.3 使用nano 3. emacs编辑器3.1 检查安装3.2 安装emacs 3.3 使用emacs 1. 背景 我们经常需要编辑文件内容&#xff0c;windows上这个工作可以用记事本来做。 linux上对应的&#xff0c;我们可以使用nano或者emacs编辑…...

【浏览器学习笔记】-- 浏览器检查jQuery是否加载

环境&#xff1a;最近做爬虫实验&#xff0c;需要用到上下文http数据请求&#xff0c;为了能够兼容上下文环境&#xff0c;因此采用就jQuery请求&#xff0c;请求前需要加查是否有JQuery加载成功。 浏览器F12&#xff0c;打开浏览器控制台&#xff0c;复制粘贴以下代码&#x…...

大模型的提示学习

文章目录 人工提示设计自动提示设计经过预训练、指令微调和人类对齐后,我们接下来讨论如何通过提示学习方法来有效地使用大语言模型解决实际任务。目前常用的方法是设计合适的提示(Prompting),通过自然语言接口与大模型进行交互。在现有研究中,任务提示的设计主要依靠人工…...

2-143 基于matlab-GUI的脉冲响应不变法实现音频滤波功能

基于matlab-GUI的脉冲响应不变法实现音频滤波功能&#xff0c;输入加噪信号&#xff0c;通过巴特沃斯模拟滤波器脉冲响应不变法进行降噪。效果较好。程序已调通&#xff0c;可直接运行。 下载源程序请点链接&#xff1a;2-143 基于matlab-GUI的脉冲响应不变法实现音频滤波功能…...