合合信息:TextIn文档解析技术与高精度文本向量化模型再加速
文章目录
- 前言
- 现有大模型文档解析问题
- 表格无法解析
- 无法按照阅读顺序解析
- 文档编码错误
- 诉求
- 文档解析技术
- 技术难点
- 技术架构
- 关键技术
- 回根溯源
- 文本向量化模型
- 结语
前言
随着人工智能技术的持续演进,大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通常需要庞大的知识库来支持其生成和理解自然语言的能力。文档解析技术可以帮助从各种来源(如学术论文、技术文档、新闻报道等)中提取和整合信息,构建出全面且准确的知识库。这些知识库是模型进行语言理解和生成的基础。
那么什么是文档解析技术呢?文档解析技术是指对文档进行深入分解、分析和理解的过程,目的是从中提取和整合有用的信息。这个过程通常涉及对文档的标题、段落、段落关系以及文档中的其他关键元素进行详细的分析。通过文档解析,我们可以更好地理解文档的结构、内容和主题,从而更有效地利用这些信息。
现有大模型文档解析问题
既然文档解析这么重要,那他的发展应该引起大家足够的重视,我们先来看一下目前市场上的现有大模型在文档解析领域都出现了哪些问题呢?
表格无法解析

如上图所示,我们将一篇文档输入给ChatGPT4,并让它根据文件来回答一下“精氨酸在40度的水中,溶解度是多少”。右图明确指出该答案是“31.9”,而ChatGPT4却给出了错误答案,这就意味着ChatGPT4并没有对提供的文档进行准确地解析。
无法按照阅读顺序解析
无法按照阅读顺序解析通常指的是在文档解析或内容呈现过程中,系统无法按照人类阅读的自然顺序(如从左到右、从上到下)来正确解析或展示文档内容。来看个例子

我们依旧给ChatGPT4提供了一篇文章,并让它根据文档内容回答一下本书致谢环节提到的致谢对象,它给出的结果依旧不理想。
文档编码错误
如下图所示,ChatGPT4在解析文档的过程中出现了文档编码错误,这表明在大模型训练或者应用过程中仍然存在文档编码问题。

诉求
当然出现以上问题都是我们所不能忍受的,毕竟我们不仅仅需要大模型帮我们提高工作的效率,更重要的是我们需要让他对准确度负责,因为准确性是使用他的前提。如果连准确度都不能做保证的话,那一切都将没有任何意义。

我认为我们对高效获取高质量数据的要求是希望在大模型训练和应用的部分,可以将PDF、Word、扫描件的阅读顺序还原准确、识别速度快、支持论文等多种排版文档、元素识别准确,尤其是表格、段落、公式、标题等多个方面。
说到这儿,我就不得不提一下合合信息推出的TextIn 平台了,如下图所示,TextIn不仅包含文档解析技术,还包括文本向量化模型技术。接下来阿Q将对他们依次进行介绍。

文档解析技术
在了解TextIn文档解析技术之前我们先来说一下他的大模型在训练和应用过程中都对哪些文档进行了分析吧!据我所知,他的大模型训练所使用的文档种类比较丰富,比如:合同、书籍、论文、产品说明书、公文函、财报等。
技术难点
要想将以上多种文档进行准确无误的识别并且解析,在大模型的训练和应用过程中需要克服和解决各种各样的技术难点:
- 版面检测:元素遮盖重叠、元素本身有多样性、复杂版式(双栏、跨页、三栏);
- 阅读顺序还原困难:多栏的影响、多栏和插入表格的影响;
- 表格还原:无线表格识别、合并单元格识别;
- 公式识别:单行公式与行内公式、表格内公式;
技术架构
为了克服以上提到的种种技术难点,合合信息设计出了以下TextIn文档解析技术架构。

该技术架构底层是基于测评工具链和数据工具链的基建层,算法层分为文档解析引擎、检测引擎和图像识别引擎,算法层主要用来完成一个文档将多页拆分成单页,同时将其中的每一个元素进行检测和图像识别。
至于应用层的话,可以分为以下三步走:
- 第一步:将多页文档进行拆分,并且将其中的电子档和扫描档经过不同的解析引擎进行解析,并最终形成了文档表征的基础特征。
- 第二步:将基础的文档的表征,比如表格、页眉、页脚、目录、文字、图形等做版面分析、跨页合并、图层分离、处理多节点关系,最终的目的是将一个多元的不同格式的文档输出为大模型可以理解的顺序的文档
- 第三步:文档的重建,输出成一个markdown文件。

接入层的话为应用的最终形态,用于对外提供API、SDK、私有化镜像以及web端的产品。
关键技术
Layout-engine版面分析框架:将电子档和扫描档经过不同的物理和逻辑版面分析,拿到文档中所有的元素:段落、公式、目录、页眉、页脚等,在整合成可以被大模型顺利阅读的有顺序性的内容。
Catelog-engine文档树提取技术:
- 通过输入整份文档的段落内容,以序列化形式传入模型。
- 文档树引擎提取当前段落的embedding值,预测每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题等。如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点。
- 最后基于每个段落的情况,构造该文档的文档树,并按 JSON 结构输出。

回根溯源
有了以上技术的加持之后,我们再来对ChatGPT4来进行下测验,此时我们不再上传PDF格式的文件,而是将被TextIn技术处理后得到的markdown文件整理成txt文件进行上传,通过下图我们可以看出ChatGPT4已经可以完全回答正确了。

至于其他两个问题,咱们直接上图,不做太多解释,就是这么自信。


文本向量化模型
近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在行业中产生应用价值。

结语
合合信息是一家深耕人工智能与大数据领域的科技企业,凭借独特的智能文字识别与商业大数据核心技术,为全球的个人用户(C端)和各行各业的企业客户(B端)提供前沿的数字化、智能化解决方案。
TextIn是合合信息推出的智能文档处理产品,旨在为全球用户提供智能图像处理、文字表格识别、文档内容提取产品。希望所有对技术充满热情的朋友们,前往TextIn的官方网站来亲身体验图像处理的智能化、文字与表格识别的精准度,以及文档内容的高效提取。更多精彩功能等待您的探索,快来开启您的智能化体验之旅吧!

相关文章:
合合信息:TextIn文档解析技术与高精度文本向量化模型再加速
文章目录 前言现有大模型文档解析问题表格无法解析无法按照阅读顺序解析文档编码错误 诉求文档解析技术技术难点技术架构关键技术回根溯源 文本向量化模型结语 前言 随着人工智能技术的持续演进,大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通…...
Git与Gitlab
第1章Git概述 Git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。 代码托管中心,记录每个版本的代码,从项目创建到现在使用的代码,中间所有的修改都有记录。 1. 何为版本控制 版本控制是…...
MySQL数据库从入门到精通(下)
对表做了修改之后,记得点击对应图标按钮重新执行一下。 1.创建角色表 数据库一开始就要设计好,轻易不要改动。一个账号下可能有多个角色,所以我们单独再创建另一个表role用来存储所有的角色信息。其中idrole表示角色id,name表示名…...
从融媒到智媒,小程序框架可助力传媒企业在AI实践下的服务变现
过去5年,媒体行业一直都在进行着信息化建设向融媒体平台建设的转变。一些融媒体的建设演变总结如下: 新闻终端的端侧内容矩阵建设,如App新闻端,社交平台上的官方媒体等 新闻本地生活双旗舰客户端,兼顾主流媒体核心宣传…...
MES系统在电线电缆行业生产上的应用
MES系统在线缆行业的应用可以带来多重价值,包括提高生产效率、降低生产成本、提高产品质量、优化库存管理、改善生产环境和提高企业竞争力等方面。因此,在电线电缆行业中广泛应用MES系统可以提高企业的经济效益和社会效益,推动企业发展和行业…...
怎么把图片上的字去掉
将图片上的字去掉通常需要使用图像编辑软件或在线工具。以下是一些常用的方法和步骤: 使用Adobe Photoshop: 打开Photoshop,导入需要编辑的图片。 选择“橡皮擦工具”或“克隆图章工具”。 如果使用“橡皮擦工具”,调整橡皮擦的…...
BFS和DFS优先搜索算法
1. BFS与DFS 1.1 BFS DFS即Depth First Search,深度优先搜索。它是一种图遍历算法,它从一个起始点开始,逐层扩展搜索范围,直到找到目标节点为止。 这种算法通常用于解决“最短路径”问题,比如在迷宫中找到从起点到终…...
python将两张图片对齐
目录 需要对齐的照片如下: 源码: 结果: 需要对齐的照片如下: 源码: import cv2 import numpy as np from matplotlib import pyplot as plt# 读取两张图片 imgA cv2.imread(./out/out/3.png) imgB cv2.imread(./…...
Linux修炼之路之初识操作系统+基础指令(1)
目录 引言 一:对操作系统(OS)的简单了解 1.操作系统(OS) 是什么 2.操作系统好坏的衡量标准 3.操作系统存在的重要性 4.理解所有在计算机上的操作 二:Linux与windows操作的特点区别 三:基础指令 1.ls 指令 1.使用 2.常用选项 2.…...
Flink中基于Chandy-Lamport算法的分布式快照实现详解
Apache Flink利用了一种基于Chandy-Lamport分布式快照算法的变体——异步屏障快照(Asynchronous Barrier Snapshotting, ABS)来实现其强大的容错机制。Chandy-Lamport算法最初由K.M. Chandy和Leslie Lamport于1985年提出,是一种用于分布式系统…...
软件3班20240513
java.util.PropertyResourceBundle4554617c package com.yanyu;import java.sql.*; import java.util.ResourceBundle;public class JDBCTest01 {public static void main(String[] args) throws SQLException { // 获取属性配置文件ResourceBundle bundle Res…...
【小程序】怎么优化小程序的性能
优化小程序的性能是提高用户体验和确保应用顺畅运行的关键。以下是一些优化小程序性能的方法: 1. 代码优化2. 图片优化3. 网络请求优化4. 页面渲染优化5. 分包加载6. 使用性能分析工具7. 后端优化8. 用户体验优化 1. 代码优化 精简代码:删除不必要的代码…...
告别信用卡绑定烦恼:探索这个全功能的Azure语音替代品,包含AI视频制作!(微软Azure语音替代方案)
文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 语音合成的替代方案📝 功能特色📝 使用步骤示例⚓️ 相关链接 ⚓️📖 介绍 📖 虽然微软Azure语音服务为个人用户提供了充足的免费语音合成额度,但其注册过程中的信用卡绑定要求、繁琐的API配置步骤却…...
酷开科技依托酷开系统“硬件+内容”产业布局,抢占全球机遇!
2024年3月26日,创维集团发布了2023年年度业绩报告,去年全年实现了总营业额690.31亿元较上一年的534.91亿元整体营业额增长了29.1%。然而,值得注意的是,2023年度,创维集团智能家电业务的营收306.37亿元,较上…...
从离线到实时:无锡锡商银行基于 Apache Doris 的数据仓库演进实践
作者:武基鹏,无锡锡商银行 大数据技术经理 编辑整理:SelectDB 技术团队 导读:为实现数据资产的价值转化以及全面数字化、智能化的风险管理,无锡锡商银行大数据平台经历从 Hive 离线数据仓库到 Apache Doris 实时数据仓…...
网易云如何改ip地址到另外城市
在数字化时代,网络音乐平台已经成为我们日常生活中不可或缺的一部分。然而,有时候我们可能会因为某些原因想要改变自己的IP地址,网易云音乐作为国内领先的音乐平台,其强大的功能和丰富的音乐资源吸引了大量用户。那么,…...
Golang 开发实战day13 - Reciver Functions
🏆个人专栏 🤺 leetcode 🧗 Leetcode Prime 🏇 Golang20天教程 🚴♂️ Java问题收集园地 🌴 成长感悟 欢迎大家观看,不执着于追求顶峰,只享受探索过程 Golang 开发实战day13 - 接收…...
ZL-016D多通道小鼠主动跑轮系统主要研究动物生活节律
简单介绍: 多通道小鼠主动跑轮系统是由动物本身自发运动来推动跑轮转动。在这种构型中,笼内动物长期活动的信息,如跑轮转动方向、转数、累计总行程等,能够使用编码器进行长度计记录。此装置由转轮组件、笼体、以及转动方向速度传…...
基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (九)
LlaMA 3 系列博客 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (三) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (四) 基于 LlaMA…...
计算机类的英语
Algorithm(算法)Binary code(二进制代码)Byte(字节)Cache(缓存)Database(数据库)Encryption(加密)Firewall(防火墙&#x…...
centos 7 部署awstats 网站访问检测
一、基础环境准备(两种安装方式都要做) bash # 安装必要依赖 yum install -y httpd perl mod_perl perl-Time-HiRes perl-DateTime systemctl enable httpd # 设置 Apache 开机自启 systemctl start httpd # 启动 Apache二、安装 AWStats࿰…...
Java 加密常用的各种算法及其选择
在数字化时代,数据安全至关重要,Java 作为广泛应用的编程语言,提供了丰富的加密算法来保障数据的保密性、完整性和真实性。了解这些常用加密算法及其适用场景,有助于开发者在不同的业务需求中做出正确的选择。 一、对称加密算法…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
自然语言处理——Transformer
自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,但是它有一个很大的缺陷——很难并行化。 我们可以考虑用CNN来替代RNN,但是…...
k8s业务程序联调工具-KtConnect
概述 原理 工具作用是建立了一个从本地到集群的单向VPN,根据VPN原理,打通两个内网必然需要借助一个公共中继节点,ktconnect工具巧妙的利用k8s原生的portforward能力,简化了建立连接的过程,apiserver间接起到了中继节…...
FFmpeg:Windows系统小白安装及其使用
一、安装 1.访问官网 Download FFmpeg 2.点击版本目录 3.选择版本点击安装 注意这里选择的是【release buids】,注意左上角标题 例如我安装在目录 F:\FFmpeg 4.解压 5.添加环境变量 把你解压后的bin目录(即exe所在文件夹)加入系统变量…...
libfmt: 现代C++的格式化工具库介绍与酷炫功能
libfmt: 现代C的格式化工具库介绍与酷炫功能 libfmt 是一个开源的C格式化库,提供了高效、安全的文本格式化功能,是C20中引入的std::format的基础实现。它比传统的printf和iostream更安全、更灵活、性能更好。 基本介绍 主要特点 类型安全:…...
SpringAI实战:ChatModel智能对话全解
一、引言:Spring AI 与 Chat Model 的核心价值 🚀 在 Java 生态中集成大模型能力,Spring AI 提供了高效的解决方案 🤖。其中 Chat Model 作为核心交互组件,通过标准化接口简化了与大语言模型(LLM࿰…...
k8s从入门到放弃之HPA控制器
k8s从入门到放弃之HPA控制器 Kubernetes中的Horizontal Pod Autoscaler (HPA)控制器是一种用于自动扩展部署、副本集或复制控制器中Pod数量的机制。它可以根据观察到的CPU利用率(或其他自定义指标)来调整这些对象的规模,从而帮助应用程序在负…...
【安全篇】金刚不坏之身:整合 Spring Security + JWT 实现无状态认证与授权
摘要 本文是《Spring Boot 实战派》系列的第四篇。我们将直面所有 Web 应用都无法回避的核心问题:安全。文章将详细阐述认证(Authentication) 与授权(Authorization的核心概念,对比传统 Session-Cookie 与现代 JWT(JS…...
