从数据提取到管理:TextIn平台的全面解析与产品体验
一、引言
在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的主要功能、产品亮点及其广泛的应用场景,带领大家全面体验这款文档处理“百宝箱”。
二、TextIn智能文档处理概述
TextIn平台覆盖文档解析的多个环节,支持批量处理多种文档类型,并适配多语言环境。其核心工具包括:
| 核心工具 | 描述 |
|---|---|
| TextIn ParseX | 提供复杂文档的可视化解析能力,适合多种格式的文档展示和编辑。 |
| acge-embedding 向量化模型 | 提升长文本信息抽取的精度,适合大规模信息检索和内容审核。 |
| markdown_tester 文档解析测评工具 | 帮助开发者定量评估解析效果,降低工具选择和调试成本。 |
三、可视化文档解析前端TextIn ParseX
TextIn ParseX是TextIn推出的一款通用文档解析工具,支持多种文档格式的高效解析和可视化展示。它不仅可以将PDF、JPG等格式的文档转换为Markdown格式,还可以解析表格、公式等复杂文档元素,确保阅读顺序的准确性,支持多语言识别,并且提供缩放、旋转、编辑等丰富的交互功能。
TextIn ParseX的技术特点包括:
- 高效的解析速度:100页文档可在2秒内完成解析,适合需要快速处理大量文档的企业需求。
- 精确的元素识别:支持表格、公式、图片等文档元素的精确识别与还原,特别适用于年报、业务报告等复杂文档的处理。
- 灵活的可视化功能:用户可以通过目录树、预览图像、标注跳转等方式便捷地查看和编辑解析结果。
在线使用:【免费使用入口】
以下面的票据识别为例子,发票内容被准确识别,而且内容没有错误。

也可以使用通用文档解析,在获取结果后一键输出。

输出为markdown的结果如图:

同时,我们可以通过结合coze,调用textIn的api,使用coze完成图片信息提取,做成问答式的AI文本小助手,实际测试下来,流程比较简单,识别准确率也很高。

四、向量化acge-embedding模型
acge是一个通用的文本编码模型,是一个可变长度的向量化模型,使用了Matryoshka Representation Learning,专为提升长文档检索的精度和速度而设计。它通过将文本数据转换为数值向量,为搜索、聚类、推荐等任务提供坚实基础。acge-embedding模型通过高效的俄罗斯套娃表征学习(MRL)框架,支持多任务混合训练,帮助企业灵活地配置性能和资源,以应对不同应用场景的需求。
acge-embedding模型开源地址:https://huggingface.co/aspire/acge_text_embedding
技术架构上,acge_text_embedding采用了俄罗斯套娃表示学习(Matryoshka Representation Learning,MRL)编码不同粒度的信息,并让一个编码能够适应不同计算资源的下游任务。原理如下面GIF图所示:

acge-embedding的核心亮点:
- 高精度和高效率:凭借创新的MRL框架,acge模型在文本分类和情感分析等任务中表现优异,支持灵活的嵌入维度,适应多种业务需求。
- 支持多任务混合训练:模型通过对比学习技术,实现了数据的多场景混合训练,提升了泛化能力和检索效率。
五、文档解析测评工具markdown_tester
文档解析工具种类繁多,但缺乏统一的评估标准。TextIn开发的markdown_tester提供了定量评估机制,帮助用户客观地测评各类文档解析工具的性能。用户可以通过上传样本,查看段落、标题、表格等元素的识别效果,并通过直观的雷达图展示对比结果。
文档解析测评工具markdown _ tester开源地址:https://github.com/intsig-textin/markdown_tester

该测评脚本用于评价markdown文档相似性,从段落、标题、表格和公式四个维度进行评价:
| 指标 | 说明 |
|---|---|
| 段落识别率 | 段落匹配的个数(段落编辑距离小于0.2) / 预测出的总段落数 |
| 段落召回率 | 段落匹配的个数(段落编辑距离小于0.2)/ 总的段落数 |
| 段落f1 | 2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率) |
| 标题识别率 | 标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数 |
| 标题召回率 | 标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数 |
| 标题f1 | 2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率) |
| 标题树状编辑距离 | 所有标题树编辑距离分数之和(pred,包含文字)/ 总标题数量(gt) |
| 表格文本全对率 | 文本全对的表格个数(pred)/ 总表格个数(gt) |
| 表格树状编辑距离 | 所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt) |
| 表格结构树状编辑距离 | 所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt) |
| 公式识别率 | 公式匹配的个数(公式编辑距离小于0.2) / 预测出的总公式数 |
| 公式召回率 | 公式匹配的个数(公式编辑距离小于0.2)/ 总的公式数 |
| 公式f1 | 2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率) |
| 阅读顺序指标 | 计算预测值和真值中,所有匹配段落的编辑距离 |
使用方法
运行install.sh,安装软件包:
./install.sh
待测评样本按照下述方式放置:
dataset/
├── pred/
│ ├── gpt-4o/
│ ├── vendor_A/
│ ├── vendor_B/
│ ├── ...
├── gt/
运行命令:
python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md
其中:
path_to_pred_md:预测值文件所在文件夹。
path_to_gt_md:真值文件所在文件夹。
运行效果
结果表格:

结果雷达图:

markdown_tester工具的优势:
- 全面性:涵盖了文档解析的多个重要维度,提供细致的评测指标。
- 可视化结果:通过雷达图等形式直观展示各工具的解析效果,帮助用户快速筛选最合适的文档处理工具。
六、TextIn文档解析应用场景
TextIn平台的应用场景非常广泛,涵盖了从知识库构建到大规模语料处理等多个领域,助力企业实现更高效的信息管理和业务支持。
| 应用场景 | 描述 |
|---|---|
| 知识库构建 | 通过ParseX和acge模型配合,TextIn帮助开发者快速将企业内部文档自动解析,提升知识库构建的效率和准确性。 |
| 智能文档抽取 | 支持合同、招投标文件等结构化信息抽取需求,TextIn提供精准的数据解析与复用,适用于企业合同管理、财务报销等场景。 |
| 大模型预训练语料处理 | TextIn能够批量、高效解析多种版式文档,支持大模型语料的精准提取,提升预训练数据的质量。 |
| 多语言文档翻译 | TextIn支持多语言文档解析与翻译,帮助企业轻松实现跨语言业务扩展,同时保持原有文档格式。 |
七、总结
TextIn平台凭借其强大的文档解析和管理能力,为开发者和企业带来了显著的效率提升。TextIn ParseX、acge-embedding模型和markdown_tester工具的组合,构成了一个功能全面、灵活高效的文档处理“百宝箱”。TextIn在处理多种文档格式、语言环境、以及知识库建设和文档翻译等方面为用户提供了高效、便捷的解决方案。通过TextIn,企业能够轻松实现复杂文档解析和大规模信息管理,进而在业务支持和信息管理方面获得显著提升。
最后,小智诚挚地邀请大家一起体验TextIn产品为我们带来的便利之处!点击【免费体验】,即可在线使用,感受TextIn为我们带来的文档解析新体验!
相关文章:
从数据提取到管理:TextIn平台的全面解析与产品体验
一、引言 在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的…...
2024 Rust现代实用教程 Error错误处理
文章目录 一、错误处理之:Result、Option以及panic!宏1.Result2.Option3.panic! 二、错误处理之:unwrap()与?1.unwrap()2.?运算符 三、自定义一个Error类型参考 一、错误处理之:Result、Option以及panic!宏 Rust中的错误可以分为…...
android 逆向破解360加固(MT管理器反编译)
1.需要准备的环境MT管理器 2.一台root手机 3,需要给app脱壳https://nop.gs/在这里脱壳 4.将脱壳的文件解压之后解压 5.用MT管理器打开需要反编译破解的app 6.然后把脱壳的classes.dex添加到破解的app里面删除原来的classes.dex 7.删除360加固的so,so在assets文件里面删除libjia…...
使用 SSH 蜜罐提升安全性和记录攻击活动
文章目录 使用 SSH 蜜罐提升安全性和记录攻击活动前言整体逻辑讲解安全最佳实践蜜罐的类型与选择数据分析与响应进一步学习资源修改 SSH 服务端口部署 FakeSSHFakeSSH 简介部署步骤记录攻击 部署 SSHSameSSHSame 简介部署步骤观察攻击行为 总结 使用 SSH 蜜罐提升安全性和记录攻…...
无人机拦截捕获/直接摧毁算法详解!
一、无人机拦截捕获算法 网捕技术 原理:抛撒特殊设计的网具,捕获并固定无人机。 特点: 适用于小型无人机。 对无人机的损害较小,基本不影响其后续使用。 捕获成功率较高,且成本相对较低。 应用实例:…...
后端eclipse——文字样式:UEditor富文本编辑器引入
目录 1.富文本编辑器的优点 2.文件的准备 3.文件的导入 导入到项目: 导入到html文件: 编辑 4.富文本编辑器的使用 1.富文本编辑器的优点 我们从前端写入数据库时,文字的样式具有局限性,不能存在换行,更改字体…...
thinkphp6 redis 哈希存储方式以及操作函数(笔记)
逻辑:如果redis里没有指定表数据就进行存储再输出,如果有就直接输出,代码优化后几万条数据从数据库入redis也是三四秒的时间,数据以json方式存储:key用于数据ID 跟数据库数据ID同步,value用于存储整个字段包…...
「Mac畅玩鸿蒙与硬件28」UI互动应用篇5 - 滑动选择器实现
本篇将带你实现一个滑动选择器应用,用户可以通过滑动条选择不同的数值,并实时查看选定的值和提示。这是一个学习如何使用 Slider 组件、状态管理和动态文本更新的良好实践。 关键词 UI互动应用Slider 组件状态管理动态数值更新用户交互 一、功能说明 在…...
【嵌入式】STM32中的SPI通信
SPI是由摩托罗拉公司开发的一种通用数据总线,其中由四根通信线,支持总线挂载多设备(一主多从),是一种同步全双工的协议。主要是实现主控芯片和外挂芯片之间的交流。这样可以使得STM32可以访问并控制各种外部芯片。本文…...
后端:Spring、Spring Boot-配置、定义bean
文章目录 1. 什么是Bean,如何配置2. 如何配置bean2.1 使用注解Bean2.2 使用注解Import 1. 什么是Bean,如何配置 被spring容器所管理的对象被称为bean,管理方式可以有纯xml文件方式、注解方式进行管理(比如注解Component)。 在Spring Boot中&…...
【Git】Git 远程仓库命令详解
目录 引言1. Git Fetch、Git Pull 和 Git Push 简介1.1 概念总结1.2 图示概念 2. 分支的概念2.1 分支定义2.2 分支的特点2.3 分支示例2.4 基本操作命令2.5 分支的使用场景 3. Git Fetch 用法3.1 基本命令3.2 获取特定分支3.3 查看更新内容3.4 使用示例3.5 适用场景 4. Git Pull…...
html简易流程图
效果图 使用htmlcssjs,无图片,没用Canvas demo: <!DOCTYPE html> <html> <head><link href"draw.css" rel"stylesheet" /><script src"draw.js" type"text/javascript"></…...
Java 入门
目录 Java简介 Java JDK开发环境配置 第一个Java程序 Java标识符与关键字 Java注释 Java常量 Java变量的定义和使用 Java简介 Java简介: Java是由Sun Microsystems公司于1995年推出的一门面向对象的高级程序设计语言,可以运行于多个平台,其…...
JVM基本结构和垃圾回收机制
一、JVM基本结构 Java虚拟机(JVM, Java Virtual Machine)是Java程序执行的环境,其基本结构可以分为以下几个主要部分: 类加载器子系统(Class Loader Subsystem): 负责加载Java类文件到内存中。…...
CentOS 7 安装 ntp,自动校准系统时间
1、安装 ntp yum install ntp 安装好后,ntp 会自动注册成为服务,服务名称为 ntpd 2、查看当前 ntpd 服务的状态 systemctl status ntpd 3、启动 ntpd 服务、查看 ntpd 服务的状态 systemctl start ntpdsystemctl status ntpd 4、设置 ntpd 服务开机启…...
Spring Boot 配置文件启动加载顺序
前言 Spring Boot的启动加载顺序是一个涉及多个步骤和组件的过程。Spring Boot通过一系列默认设置简化了应用程序的配置,使得开发者能够快速地搭建和部署应用。为了实现这一目标,Spring Boot采用了一种分层和优先级机制来加载配置文件。 一、Spring Bo…...
webrtc agc2实现原理
WebRTC的AGC2(自适应增益控制器)是一种用于音频处理的算法,可以根据输入信号的强度自动调整增益,使输出信号的音量保持稳定。其详细原理如下: 噪声估计 首先,AGC2需要对输入信号中的噪声进行估计ÿ…...
2024.11.03 周报
一 实时超分音频同步问题: 处理方向: 按照胡学长的办法尝试: 前面处理视频, 将视频中音频提取出来, 将音频每隔 1-2 秒保存为一段 (这样将音频缓存在内存中) , 然后依次播放, 但是音频是44.1KHz采样率,每秒44100次的频率. 每次间隔中程序处理的极短时间…...
Oceanbase学习之一迁移mysql数据到oceanbase
一、数据库环境 #mysql环境 root192.168.150.162 20:28: [(none)]> select version(); ---------- | version() | ---------- | 8.0.26 | ---------- 1 row in set (0.00 sec) root192.168.150.162 20:28: [(none)]> show variables like ‘%char%’; ---…...
Milvus - GPU 索引类型及其应用场景
1. 背景概述 Milvus 是一款高效的矢量数据库管理系统,支持在高并发和高调用场景下加速相似度搜索。Milvus 的 GPU 支持由 NvidiaRAPIDS 团队提供,可以借助各种 GPU 索引类型来优化性能。本篇将重点解析 Milvus 支持的 GPU 索引类型、适用场景及各自的性…...
OpenMP实战避坑:你的C++并行程序为什么跑得比单线程还慢?
OpenMP实战避坑:你的C并行程序为什么跑得比单线程还慢? 第一次在C代码里加上#pragma omp parallel for时,那种期待性能飙升的心情,相信每个开发者都经历过。但现实往往很骨感——程序运行速度不升反降,甚至出现莫名其妙…...
大麦网自动抢票脚本:告别手速焦虑,轻松抢到心仪票务
大麦网自动抢票脚本:告别手速焦虑,轻松抢到心仪票务 【免费下载链接】Automatic_ticket_purchase 大麦网抢票脚本 项目地址: https://gitcode.com/GitHub_Trending/au/Automatic_ticket_purchase 还在为抢不到演唱会门票而烦恼吗?每次…...
探秘书匠策AI:毕业论文写作的“智慧引擎”
在学术探索的征途中,毕业论文如同一座巍峨的山峰,让无数学生既敬畏又向往。它不仅是对所学知识的综合检验,更是学术生涯的重要里程碑。然而,面对这座大山,许多人常常感到力不从心,选题迷茫、文献难觅、结构…...
OpenTiny NEXT 前端智能化系列直播征文开启,带你系统学习 AI 前端与 WebAgent
🔥个人主页:杨利杰YJlio❄️个人专栏:《Sysinternals实战教程》《Windows PowerShell 实战》《WINDOWS教程》《IOS教程》《微信助手》《锤子助手》 《Python》 《Kali Linux》《那些年未解决的Windows疑难杂症》🌟 让复杂的事情更…...
OpenProject:构建高效团队协作的终极开源项目管理平台
OpenProject:构建高效团队协作的终极开源项目管理平台 【免费下载链接】openproject OpenProject is the leading open source project management software. 项目地址: https://gitcode.com/GitHub_Trending/op/openproject OpenProject 是一款领先的开源项…...
【SOC锁死SPORT、ECO不生效?10年VCU老兵:模式管理不是切个开关那么简单!】
SOC锁死SPORT、ECO不生效?10年VCU老兵:模式管理不是切个开关那么简单! 副标题:10年老兵深度拆解 | 标定测试故障产品定义 作者 新能源汽车研发测试 10 年高级工程师 关键词 #VCU车辆模式管理#驾驶模式切换逻辑#SOC阈值标定#扭矩Map#VCU测试标定#新能源三电测试#整车能…...
Linux内存不够用吧 Linux 交换内存(Swap)来帮忙
Linux内存不够用吧 Linux 交换内存(Swap)来帮忙 Linux 交换内存(Swap)完全指南:概念、配置与性能优化 我开发了一款内存管理工具,内存管理工具下载地址 1. 什么是交换内存(Swap)&a…...
网页资源提取工具:猫抓开源方案解决媒体获取难题
网页资源提取工具:猫抓开源方案解决媒体获取难题 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 在数字化学习与研究的过程中ÿ…...
实战指南|OpenWrt磁盘扩容全流程解析与避坑技巧
1. 为什么需要给OpenWrt扩容? 很多朋友第一次接触OpenWrt时都会遇到一个尴尬的问题:系统默认分配的存储空间太小了。我自己刚开始用OpenWrt时也踩过这个坑,当时想装个Docker跑点服务,结果发现连最基本的镜像都拉不下来。这就像给…...
MatterGen:AI驱动的无机材料生成革命,开启新材料发现新纪元
MatterGen:AI驱动的无机材料生成革命,开启新材料发现新纪元 【免费下载链接】mattergen Official implementation of MatterGen -- a generative model for inorganic materials design across the periodic table that can be fine-tuned to steer the …...
