从数据提取到管理:TextIn平台的全面解析与产品体验
一、引言
在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的主要功能、产品亮点及其广泛的应用场景,带领大家全面体验这款文档处理“百宝箱”。
二、TextIn智能文档处理概述
TextIn平台覆盖文档解析的多个环节,支持批量处理多种文档类型,并适配多语言环境。其核心工具包括:
| 核心工具 | 描述 |
|---|---|
| TextIn ParseX | 提供复杂文档的可视化解析能力,适合多种格式的文档展示和编辑。 |
| acge-embedding 向量化模型 | 提升长文本信息抽取的精度,适合大规模信息检索和内容审核。 |
| markdown_tester 文档解析测评工具 | 帮助开发者定量评估解析效果,降低工具选择和调试成本。 |
三、可视化文档解析前端TextIn ParseX
TextIn ParseX是TextIn推出的一款通用文档解析工具,支持多种文档格式的高效解析和可视化展示。它不仅可以将PDF、JPG等格式的文档转换为Markdown格式,还可以解析表格、公式等复杂文档元素,确保阅读顺序的准确性,支持多语言识别,并且提供缩放、旋转、编辑等丰富的交互功能。
TextIn ParseX的技术特点包括:
- 高效的解析速度:100页文档可在2秒内完成解析,适合需要快速处理大量文档的企业需求。
- 精确的元素识别:支持表格、公式、图片等文档元素的精确识别与还原,特别适用于年报、业务报告等复杂文档的处理。
- 灵活的可视化功能:用户可以通过目录树、预览图像、标注跳转等方式便捷地查看和编辑解析结果。
在线使用:【免费使用入口】
以下面的票据识别为例子,发票内容被准确识别,而且内容没有错误。

也可以使用通用文档解析,在获取结果后一键输出。

输出为markdown的结果如图:

同时,我们可以通过结合coze,调用textIn的api,使用coze完成图片信息提取,做成问答式的AI文本小助手,实际测试下来,流程比较简单,识别准确率也很高。

四、向量化acge-embedding模型
acge是一个通用的文本编码模型,是一个可变长度的向量化模型,使用了Matryoshka Representation Learning,专为提升长文档检索的精度和速度而设计。它通过将文本数据转换为数值向量,为搜索、聚类、推荐等任务提供坚实基础。acge-embedding模型通过高效的俄罗斯套娃表征学习(MRL)框架,支持多任务混合训练,帮助企业灵活地配置性能和资源,以应对不同应用场景的需求。
acge-embedding模型开源地址:https://huggingface.co/aspire/acge_text_embedding
技术架构上,acge_text_embedding采用了俄罗斯套娃表示学习(Matryoshka Representation Learning,MRL)编码不同粒度的信息,并让一个编码能够适应不同计算资源的下游任务。原理如下面GIF图所示:

acge-embedding的核心亮点:
- 高精度和高效率:凭借创新的MRL框架,acge模型在文本分类和情感分析等任务中表现优异,支持灵活的嵌入维度,适应多种业务需求。
- 支持多任务混合训练:模型通过对比学习技术,实现了数据的多场景混合训练,提升了泛化能力和检索效率。
五、文档解析测评工具markdown_tester
文档解析工具种类繁多,但缺乏统一的评估标准。TextIn开发的markdown_tester提供了定量评估机制,帮助用户客观地测评各类文档解析工具的性能。用户可以通过上传样本,查看段落、标题、表格等元素的识别效果,并通过直观的雷达图展示对比结果。
文档解析测评工具markdown _ tester开源地址:https://github.com/intsig-textin/markdown_tester

该测评脚本用于评价markdown文档相似性,从段落、标题、表格和公式四个维度进行评价:
| 指标 | 说明 |
|---|---|
| 段落识别率 | 段落匹配的个数(段落编辑距离小于0.2) / 预测出的总段落数 |
| 段落召回率 | 段落匹配的个数(段落编辑距离小于0.2)/ 总的段落数 |
| 段落f1 | 2 * (段落识别率 * 段落召回率) / (段落识别率 + 段落召回率) |
| 标题识别率 | 标题匹配的个数(标题编辑距离小于0.2) / 预测出的总标题数 |
| 标题召回率 | 标题匹配的个数(标题编辑距离小于0.2)/ 总的标题数 |
| 标题f1 | 2 * (标题识别率 * 标题召回率) / (标题识别率 + 标题召回率) |
| 标题树状编辑距离 | 所有标题树编辑距离分数之和(pred,包含文字)/ 总标题数量(gt) |
| 表格文本全对率 | 文本全对的表格个数(pred)/ 总表格个数(gt) |
| 表格树状编辑距离 | 所有表格树编辑距离分数之和(pred,包含文字)/ 总表格数量(gt) |
| 表格结构树状编辑距离 | 所有表格树编辑距离分数之和(pred,不包含文字)/ 总表格数量(gt) |
| 公式识别率 | 公式匹配的个数(公式编辑距离小于0.2) / 预测出的总公式数 |
| 公式召回率 | 公式匹配的个数(公式编辑距离小于0.2)/ 总的公式数 |
| 公式f1 | 2 * ( 公式识别率 * 公式召回率) / (公式识别率 + 公式召回率) |
| 阅读顺序指标 | 计算预测值和真值中,所有匹配段落的编辑距离 |
使用方法
运行install.sh,安装软件包:
./install.sh
待测评样本按照下述方式放置:
dataset/
├── pred/
│ ├── gpt-4o/
│ ├── vendor_A/
│ ├── vendor_B/
│ ├── ...
├── gt/
运行命令:
python run_test.py --pred_path path_to_pred_md --gt_path path_to_gt_md
其中:
path_to_pred_md:预测值文件所在文件夹。
path_to_gt_md:真值文件所在文件夹。
运行效果
结果表格:

结果雷达图:

markdown_tester工具的优势:
- 全面性:涵盖了文档解析的多个重要维度,提供细致的评测指标。
- 可视化结果:通过雷达图等形式直观展示各工具的解析效果,帮助用户快速筛选最合适的文档处理工具。
六、TextIn文档解析应用场景
TextIn平台的应用场景非常广泛,涵盖了从知识库构建到大规模语料处理等多个领域,助力企业实现更高效的信息管理和业务支持。
| 应用场景 | 描述 |
|---|---|
| 知识库构建 | 通过ParseX和acge模型配合,TextIn帮助开发者快速将企业内部文档自动解析,提升知识库构建的效率和准确性。 |
| 智能文档抽取 | 支持合同、招投标文件等结构化信息抽取需求,TextIn提供精准的数据解析与复用,适用于企业合同管理、财务报销等场景。 |
| 大模型预训练语料处理 | TextIn能够批量、高效解析多种版式文档,支持大模型语料的精准提取,提升预训练数据的质量。 |
| 多语言文档翻译 | TextIn支持多语言文档解析与翻译,帮助企业轻松实现跨语言业务扩展,同时保持原有文档格式。 |
七、总结
TextIn平台凭借其强大的文档解析和管理能力,为开发者和企业带来了显著的效率提升。TextIn ParseX、acge-embedding模型和markdown_tester工具的组合,构成了一个功能全面、灵活高效的文档处理“百宝箱”。TextIn在处理多种文档格式、语言环境、以及知识库建设和文档翻译等方面为用户提供了高效、便捷的解决方案。通过TextIn,企业能够轻松实现复杂文档解析和大规模信息管理,进而在业务支持和信息管理方面获得显著提升。
最后,小智诚挚地邀请大家一起体验TextIn产品为我们带来的便利之处!点击【免费体验】,即可在线使用,感受TextIn为我们带来的文档解析新体验!
相关文章:
从数据提取到管理:TextIn平台的全面解析与产品体验
一、引言 在现代信息时代,文档解析和管理已经成为企业和开发者不可或缺的工具。TextIn是合合信息旗下的一款智能文档处理平台,为开发者和企业提供高效、精准的文档解析工具,帮助用户轻松应对各种复杂的文档处理需求。本文将深入探讨TextIn的…...
2024 Rust现代实用教程 Error错误处理
文章目录 一、错误处理之:Result、Option以及panic!宏1.Result2.Option3.panic! 二、错误处理之:unwrap()与?1.unwrap()2.?运算符 三、自定义一个Error类型参考 一、错误处理之:Result、Option以及panic!宏 Rust中的错误可以分为…...
android 逆向破解360加固(MT管理器反编译)
1.需要准备的环境MT管理器 2.一台root手机 3,需要给app脱壳https://nop.gs/在这里脱壳 4.将脱壳的文件解压之后解压 5.用MT管理器打开需要反编译破解的app 6.然后把脱壳的classes.dex添加到破解的app里面删除原来的classes.dex 7.删除360加固的so,so在assets文件里面删除libjia…...
使用 SSH 蜜罐提升安全性和记录攻击活动
文章目录 使用 SSH 蜜罐提升安全性和记录攻击活动前言整体逻辑讲解安全最佳实践蜜罐的类型与选择数据分析与响应进一步学习资源修改 SSH 服务端口部署 FakeSSHFakeSSH 简介部署步骤记录攻击 部署 SSHSameSSHSame 简介部署步骤观察攻击行为 总结 使用 SSH 蜜罐提升安全性和记录攻…...
无人机拦截捕获/直接摧毁算法详解!
一、无人机拦截捕获算法 网捕技术 原理:抛撒特殊设计的网具,捕获并固定无人机。 特点: 适用于小型无人机。 对无人机的损害较小,基本不影响其后续使用。 捕获成功率较高,且成本相对较低。 应用实例:…...
后端eclipse——文字样式:UEditor富文本编辑器引入
目录 1.富文本编辑器的优点 2.文件的准备 3.文件的导入 导入到项目: 导入到html文件: 编辑 4.富文本编辑器的使用 1.富文本编辑器的优点 我们从前端写入数据库时,文字的样式具有局限性,不能存在换行,更改字体…...
thinkphp6 redis 哈希存储方式以及操作函数(笔记)
逻辑:如果redis里没有指定表数据就进行存储再输出,如果有就直接输出,代码优化后几万条数据从数据库入redis也是三四秒的时间,数据以json方式存储:key用于数据ID 跟数据库数据ID同步,value用于存储整个字段包…...
「Mac畅玩鸿蒙与硬件28」UI互动应用篇5 - 滑动选择器实现
本篇将带你实现一个滑动选择器应用,用户可以通过滑动条选择不同的数值,并实时查看选定的值和提示。这是一个学习如何使用 Slider 组件、状态管理和动态文本更新的良好实践。 关键词 UI互动应用Slider 组件状态管理动态数值更新用户交互 一、功能说明 在…...
【嵌入式】STM32中的SPI通信
SPI是由摩托罗拉公司开发的一种通用数据总线,其中由四根通信线,支持总线挂载多设备(一主多从),是一种同步全双工的协议。主要是实现主控芯片和外挂芯片之间的交流。这样可以使得STM32可以访问并控制各种外部芯片。本文…...
后端:Spring、Spring Boot-配置、定义bean
文章目录 1. 什么是Bean,如何配置2. 如何配置bean2.1 使用注解Bean2.2 使用注解Import 1. 什么是Bean,如何配置 被spring容器所管理的对象被称为bean,管理方式可以有纯xml文件方式、注解方式进行管理(比如注解Component)。 在Spring Boot中&…...
【Git】Git 远程仓库命令详解
目录 引言1. Git Fetch、Git Pull 和 Git Push 简介1.1 概念总结1.2 图示概念 2. 分支的概念2.1 分支定义2.2 分支的特点2.3 分支示例2.4 基本操作命令2.5 分支的使用场景 3. Git Fetch 用法3.1 基本命令3.2 获取特定分支3.3 查看更新内容3.4 使用示例3.5 适用场景 4. Git Pull…...
html简易流程图
效果图 使用htmlcssjs,无图片,没用Canvas demo: <!DOCTYPE html> <html> <head><link href"draw.css" rel"stylesheet" /><script src"draw.js" type"text/javascript"></…...
Java 入门
目录 Java简介 Java JDK开发环境配置 第一个Java程序 Java标识符与关键字 Java注释 Java常量 Java变量的定义和使用 Java简介 Java简介: Java是由Sun Microsystems公司于1995年推出的一门面向对象的高级程序设计语言,可以运行于多个平台,其…...
JVM基本结构和垃圾回收机制
一、JVM基本结构 Java虚拟机(JVM, Java Virtual Machine)是Java程序执行的环境,其基本结构可以分为以下几个主要部分: 类加载器子系统(Class Loader Subsystem): 负责加载Java类文件到内存中。…...
CentOS 7 安装 ntp,自动校准系统时间
1、安装 ntp yum install ntp 安装好后,ntp 会自动注册成为服务,服务名称为 ntpd 2、查看当前 ntpd 服务的状态 systemctl status ntpd 3、启动 ntpd 服务、查看 ntpd 服务的状态 systemctl start ntpdsystemctl status ntpd 4、设置 ntpd 服务开机启…...
Spring Boot 配置文件启动加载顺序
前言 Spring Boot的启动加载顺序是一个涉及多个步骤和组件的过程。Spring Boot通过一系列默认设置简化了应用程序的配置,使得开发者能够快速地搭建和部署应用。为了实现这一目标,Spring Boot采用了一种分层和优先级机制来加载配置文件。 一、Spring Bo…...
webrtc agc2实现原理
WebRTC的AGC2(自适应增益控制器)是一种用于音频处理的算法,可以根据输入信号的强度自动调整增益,使输出信号的音量保持稳定。其详细原理如下: 噪声估计 首先,AGC2需要对输入信号中的噪声进行估计ÿ…...
2024.11.03 周报
一 实时超分音频同步问题: 处理方向: 按照胡学长的办法尝试: 前面处理视频, 将视频中音频提取出来, 将音频每隔 1-2 秒保存为一段 (这样将音频缓存在内存中) , 然后依次播放, 但是音频是44.1KHz采样率,每秒44100次的频率. 每次间隔中程序处理的极短时间…...
Oceanbase学习之一迁移mysql数据到oceanbase
一、数据库环境 #mysql环境 root192.168.150.162 20:28: [(none)]> select version(); ---------- | version() | ---------- | 8.0.26 | ---------- 1 row in set (0.00 sec) root192.168.150.162 20:28: [(none)]> show variables like ‘%char%’; ---…...
Milvus - GPU 索引类型及其应用场景
1. 背景概述 Milvus 是一款高效的矢量数据库管理系统,支持在高并发和高调用场景下加速相似度搜索。Milvus 的 GPU 支持由 NvidiaRAPIDS 团队提供,可以借助各种 GPU 索引类型来优化性能。本篇将重点解析 Milvus 支持的 GPU 索引类型、适用场景及各自的性…...
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明
LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造,完美适配AGV和无人叉车。同时,集成以太网与语音合成技术,为各类高级系统(如MES、调度系统、库位管理、立库等)提供高效便捷的语音交互体验。 L…...
《Qt C++ 与 OpenCV:解锁视频播放程序设计的奥秘》
引言:探索视频播放程序设计之旅 在当今数字化时代,多媒体应用已渗透到我们生活的方方面面,从日常的视频娱乐到专业的视频监控、视频会议系统,视频播放程序作为多媒体应用的核心组成部分,扮演着至关重要的角色。无论是在个人电脑、移动设备还是智能电视等平台上,用户都期望…...
为什么需要建设工程项目管理?工程项目管理有哪些亮点功能?
在建筑行业,项目管理的重要性不言而喻。随着工程规模的扩大、技术复杂度的提升,传统的管理模式已经难以满足现代工程的需求。过去,许多企业依赖手工记录、口头沟通和分散的信息管理,导致效率低下、成本失控、风险频发。例如&#…...
对WWDC 2025 Keynote 内容的预测
借助我们以往对苹果公司发展路径的深入研究经验,以及大语言模型的分析能力,我们系统梳理了多年来苹果 WWDC 主题演讲的规律。在 WWDC 2025 即将揭幕之际,我们让 ChatGPT 对今年的 Keynote 内容进行了一个初步预测,聊作存档。等到明…...
srs linux
下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口 默认RTMP接收推流端口是1935,SRS管理页面端口是8080,可…...
GitHub 趋势日报 (2025年06月08日)
📊 由 TrendForge 系统生成 | 🌐 https://trendforge.devlive.org/ 🌐 本日报中的项目描述已自动翻译为中文 📈 今日获星趋势图 今日获星趋势图 884 cognee 566 dify 414 HumanSystemOptimization 414 omni-tools 321 note-gen …...
大学生职业发展与就业创业指导教学评价
这里是引用 作为软工2203/2204班的学生,我们非常感谢您在《大学生职业发展与就业创业指导》课程中的悉心教导。这门课程对我们即将面临实习和就业的工科学生来说至关重要,而您认真负责的教学态度,让课程的每一部分都充满了实用价值。 尤其让我…...
学校时钟系统,标准考场时钟系统,AI亮相2025高考,赛思时钟系统为教育公平筑起“精准防线”
2025年#高考 将在近日拉开帷幕,#AI 监考一度冲上热搜。当AI深度融入高考,#时间同步 不再是辅助功能,而是决定AI监考系统成败的“生命线”。 AI亮相2025高考,40种异常行为0.5秒精准识别 2025年高考即将拉开帷幕,江西、…...
Springboot社区养老保险系统小程序
一、前言 随着我国经济迅速发展,人们对手机的需求越来越大,各种手机软件也都在被广泛应用,但是对于手机进行数据信息管理,对于手机的各种软件也是备受用户的喜爱,社区养老保险系统小程序被用户普遍使用,为方…...
【C++进阶篇】智能指针
C内存管理终极指南:智能指针从入门到源码剖析 一. 智能指针1.1 auto_ptr1.2 unique_ptr1.3 shared_ptr1.4 make_shared 二. 原理三. shared_ptr循环引用问题三. 线程安全问题四. 内存泄漏4.1 什么是内存泄漏4.2 危害4.3 避免内存泄漏 五. 最后 一. 智能指针 智能指…...
