当前位置: 首页 > news >正文

合合信息:TextIn文档解析技术与高精度文本向量化模型再加速

文章目录

  • 前言
  • 现有大模型文档解析问题
    • 表格无法解析
    • 无法按照阅读顺序解析
    • 文档编码错误
  • 诉求
  • 文档解析技术
    • 技术难点
    • 技术架构
    • 关键技术
    • 回根溯源
  • 文本向量化模型
  • 结语

前言

随着人工智能技术的持续演进,大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通常需要庞大的知识库来支持其生成和理解自然语言的能力。文档解析技术可以帮助从各种来源(如学术论文、技术文档、新闻报道等)中提取和整合信息,构建出全面且准确的知识库。这些知识库是模型进行语言理解和生成的基础。

那么什么是文档解析技术呢?文档解析技术是指对文档进行深入分解、分析和理解的过程,目的是从中提取和整合有用的信息。这个过程通常涉及对文档的标题、段落、段落关系以及文档中的其他关键元素进行详细的分析。通过文档解析,我们可以更好地理解文档的结构、内容和主题,从而更有效地利用这些信息。

现有大模型文档解析问题

既然文档解析这么重要,那他的发展应该引起大家足够的重视,我们先来看一下目前市场上的现有大模型在文档解析领域都出现了哪些问题呢?

表格无法解析

在这里插入图片描述

如上图所示,我们将一篇文档输入给ChatGPT4,并让它根据文件来回答一下“精氨酸在40度的水中,溶解度是多少”。右图明确指出该答案是“31.9”,而ChatGPT4却给出了错误答案,这就意味着ChatGPT4并没有对提供的文档进行准确地解析。

无法按照阅读顺序解析

无法按照阅读顺序解析通常指的是在文档解析或内容呈现过程中,系统无法按照人类阅读的自然顺序(如从左到右、从上到下)来正确解析或展示文档内容。来看个例子

在这里插入图片描述

我们依旧给ChatGPT4提供了一篇文章,并让它根据文档内容回答一下本书致谢环节提到的致谢对象,它给出的结果依旧不理想。

文档编码错误

如下图所示,ChatGPT4在解析文档的过程中出现了文档编码错误,这表明在大模型训练或者应用过程中仍然存在文档编码问题。

在这里插入图片描述

诉求

当然出现以上问题都是我们所不能忍受的,毕竟我们不仅仅需要大模型帮我们提高工作的效率,更重要的是我们需要让他对准确度负责,因为准确性是使用他的前提。如果连准确度都不能做保证的话,那一切都将没有任何意义。

在这里插入图片描述

我认为我们对高效获取高质量数据的要求是希望在大模型训练和应用的部分,可以将PDF、Word、扫描件的阅读顺序还原准确、识别速度快、支持论文等多种排版文档、元素识别准确,尤其是表格、段落、公式、标题等多个方面。

说到这儿,我就不得不提一下合合信息推出的TextIn 平台了,如下图所示,TextIn不仅包含文档解析技术,还包括文本向量化模型技术。接下来阿Q将对他们依次进行介绍。

在这里插入图片描述

文档解析技术

在了解TextIn文档解析技术之前我们先来说一下他的大模型在训练和应用过程中都对哪些文档进行了分析吧!据我所知,他的大模型训练所使用的文档种类比较丰富,比如:合同、书籍、论文、产品说明书、公文函、财报等。

技术难点

要想将以上多种文档进行准确无误的识别并且解析,在大模型的训练和应用过程中需要克服和解决各种各样的技术难点:

  • 版面检测:元素遮盖重叠、元素本身有多样性、复杂版式(双栏、跨页、三栏);
  • 阅读顺序还原困难:多栏的影响、多栏和插入表格的影响;
  • 表格还原:无线表格识别、合并单元格识别;
  • 公式识别:单行公式与行内公式、表格内公式;

技术架构

为了克服以上提到的种种技术难点,合合信息设计出了以下TextIn文档解析技术架构。

在这里插入图片描述
该技术架构底层是基于测评工具链和数据工具链的基建层,算法层分为文档解析引擎、检测引擎和图像识别引擎,算法层主要用来完成一个文档将多页拆分成单页,同时将其中的每一个元素进行检测和图像识别。
至于应用层的话,可以分为以下三步走:

  • 第一步:将多页文档进行拆分,并且将其中的电子档和扫描档经过不同的解析引擎进行解析,并最终形成了文档表征的基础特征。
  • 第二步:将基础的文档的表征,比如表格、页眉、页脚、目录、文字、图形等做版面分析、跨页合并、图层分离、处理多节点关系,最终的目的是将一个多元的不同格式的文档输出为大模型可以理解的顺序的文档
  • 第三步:文档的重建,输出成一个markdown文件。

在这里插入图片描述

接入层的话为应用的最终形态,用于对外提供API、SDK、私有化镜像以及web端的产品。

关键技术

Layout-engine版面分析框架:将电子档和扫描档经过不同的物理和逻辑版面分析,拿到文档中所有的元素:段落、公式、目录、页眉、页脚等,在整合成可以被大模型顺利阅读的有顺序性的内容。

Catelog-engine文档树提取技术

  1. 通过输入整份文档的段落内容,以序列化形式传入模型。
  2. 文档树引擎提取当前段落的embedding值,预测每个段落和上一个段落的关系,分为子标题、子段落、合并、旁系、主标题、表格标题等。如果是旁系类型,则再往上找父节点,并判断其层级关系,直到找到最终的父节点。
  3. 最后基于每个段落的情况,构造该文档的文档树,并按 JSON 结构输出。

在这里插入图片描述

回根溯源

有了以上技术的加持之后,我们再来对ChatGPT4来进行下测验,此时我们不再上传PDF格式的文件,而是将被TextIn技术处理后得到的markdown文件整理成txt文件进行上传,通过下图我们可以看出ChatGPT4已经可以完全回答正确了。

在这里插入图片描述

至于其他两个问题,咱们直接上图,不做太多解释,就是这么自信。

在这里插入图片描述

在这里插入图片描述

文本向量化模型

近期,合合信息发布了文本向量化模型acge_text_embedding(简称“acge模型”),获得MTEB中文榜单(C-MTEB)第一的成绩,相关成果将有助于大模型更快速地在行业中产生应用价值。

在这里插入图片描述

结语

合合信息是一家深耕人工智能与大数据领域的科技企业,凭借独特的智能文字识别与商业大数据核心技术,为全球的个人用户(C端)和各行各业的企业客户(B端)提供前沿的数字化、智能化解决方案。

TextIn是合合信息推出的智能文档处理产品,旨在为全球用户提供智能图像处理、文字表格识别、文档内容提取产品。希望所有对技术充满热情的朋友们,前往TextIn的官方网站来亲身体验图像处理的智能化、文字与表格识别的精准度,以及文档内容的高效提取。更多精彩功能等待您的探索,快来开启您的智能化体验之旅吧!
在这里插入图片描述

相关文章:

合合信息:TextIn文档解析技术与高精度文本向量化模型再加速

文章目录 前言现有大模型文档解析问题表格无法解析无法按照阅读顺序解析文档编码错误 诉求文档解析技术技术难点技术架构关键技术回根溯源 文本向量化模型结语 前言 随着人工智能技术的持续演进,大语言模型在我们日常生活中正逐渐占据举足轻重的地位。大模型语言通…...

Git与Gitlab

第1章Git概述 Git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。 代码托管中心,记录每个版本的代码,从项目创建到现在使用的代码,中间所有的修改都有记录。 1. 何为版本控制 版本控制是…...

MySQL数据库从入门到精通(下)

对表做了修改之后,记得点击对应图标按钮重新执行一下。 1.创建角色表 数据库一开始就要设计好,轻易不要改动。一个账号下可能有多个角色,所以我们单独再创建另一个表role用来存储所有的角色信息。其中idrole表示角色id,name表示名…...

从融媒到智媒,小程序框架可助力传媒企业在AI实践下的服务变现

过去5年,媒体行业一直都在进行着信息化建设向融媒体平台建设的转变。一些融媒体的建设演变总结如下: 新闻终端的端侧内容矩阵建设,如App新闻端,社交平台上的官方媒体等 新闻本地生活双旗舰客户端,兼顾主流媒体核心宣传…...

MES系统在电线电缆行业生产上的应用

MES系统在线缆行业的应用可以带来多重价值,包括提高生产效率、降低生产成本、提高产品质量、优化库存管理、改善生产环境和提高企业竞争力等方面。因此,在电线电缆行业中广泛应用MES系统可以提高企业的经济效益和社会效益,推动企业发展和行业…...

怎么把图片上的字去掉

将图片上的字去掉通常需要使用图像编辑软件或在线工具。以下是一些常用的方法和步骤: 使用Adobe Photoshop: 打开Photoshop,导入需要编辑的图片。 选择“橡皮擦工具”或“克隆图章工具”。 如果使用“橡皮擦工具”,调整橡皮擦的…...

BFS和DFS优先搜索算法

1. BFS与DFS 1.1 BFS DFS即Depth First Search,深度优先搜索。它是一种图遍历算法,它从一个起始点开始,逐层扩展搜索范围,直到找到目标节点为止。 这种算法通常用于解决“最短路径”问题,比如在迷宫中找到从起点到终…...

python将两张图片对齐

目录 需要对齐的照片如下: 源码: 结果: 需要对齐的照片如下: 源码: import cv2 import numpy as np from matplotlib import pyplot as plt# 读取两张图片 imgA cv2.imread(./out/out/3.png) imgB cv2.imread(./…...

Linux修炼之路之初识操作系统+基础指令(1)

目录 引言 一:对操作系统(OS)的简单了解 1.操作系统(OS) 是什么 2.操作系统好坏的衡量标准 3.操作系统存在的重要性 4.理解所有在计算机上的操作 二:Linux与windows操作的特点区别 三:基础指令 1.ls 指令 1.使用 2.常用选项 2.…...

Flink中基于Chandy-Lamport算法的分布式快照实现详解

Apache Flink利用了一种基于Chandy-Lamport分布式快照算法的变体——异步屏障快照(Asynchronous Barrier Snapshotting, ABS)来实现其强大的容错机制。Chandy-Lamport算法最初由K.M. Chandy和Leslie Lamport于1985年提出,是一种用于分布式系统…...

软件3班20240513

java.util.PropertyResourceBundle4554617c package com.yanyu;import java.sql.*; import java.util.ResourceBundle;public class JDBCTest01 {public static void main(String[] args) throws SQLException { // 获取属性配置文件ResourceBundle bundle Res…...

【小程序】怎么优化小程序的性能

优化小程序的性能是提高用户体验和确保应用顺畅运行的关键。以下是一些优化小程序性能的方法: 1. 代码优化2. 图片优化3. 网络请求优化4. 页面渲染优化5. 分包加载6. 使用性能分析工具7. 后端优化8. 用户体验优化 1. 代码优化 精简代码:删除不必要的代码…...

告别信用卡绑定烦恼:探索这个全功能的Azure语音替代品,包含AI视频制作!(微软Azure语音替代方案)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 语音合成的替代方案📝 功能特色📝 使用步骤示例⚓️ 相关链接 ⚓️📖 介绍 📖 虽然微软Azure语音服务为个人用户提供了充足的免费语音合成额度,但其注册过程中的信用卡绑定要求、繁琐的API配置步骤却…...

酷开科技依托酷开系统“硬件+内容”产业布局,抢占全球机遇!

2024年3月26日,创维集团发布了2023年年度业绩报告,去年全年实现了总营业额690.31亿元较上一年的534.91亿元整体营业额增长了29.1%。然而,值得注意的是,2023年度,创维集团智能家电业务的营收306.37亿元,较上…...

从离线到实时:无锡锡商银行基于 Apache Doris 的数据仓库演进实践

作者:武基鹏,无锡锡商银行 大数据技术经理 编辑整理:SelectDB 技术团队 导读:为实现数据资产的价值转化以及全面数字化、智能化的风险管理,无锡锡商银行大数据平台经历从 Hive 离线数据仓库到 Apache Doris 实时数据仓…...

网易云如何改ip地址到另外城市

在数字化时代,网络音乐平台已经成为我们日常生活中不可或缺的一部分。然而,有时候我们可能会因为某些原因想要改变自己的IP地址,网易云音乐作为国内领先的音乐平台,其强大的功能和丰富的音乐资源吸引了大量用户。那么,…...

Golang 开发实战day13 - Reciver Functions

🏆个人专栏 🤺 leetcode 🧗 Leetcode Prime 🏇 Golang20天教程 🚴‍♂️ Java问题收集园地 🌴 成长感悟 欢迎大家观看,不执着于追求顶峰,只享受探索过程 Golang 开发实战day13 - 接收…...

ZL-016D多通道小鼠主动跑轮系统主要研究动物生活节律

简单介绍: 多通道小鼠主动跑轮系统是由动物本身自发运动来推动跑轮转动。在这种构型中,笼内动物长期活动的信息,如跑轮转动方向、转数、累计总行程等,能够使用编码器进行长度计记录。此装置由转轮组件、笼体、以及转动方向速度传…...

基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (九)

LlaMA 3 系列博客 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (一) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (二) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (三) 基于 LlaMA 3 + LangGraph 在windows本地部署大模型 (四) 基于 LlaMA…...

计算机类的英语

Algorithm(算法)Binary code(二进制代码)Byte(字节)Cache(缓存)Database(数据库)Encryption(加密)Firewall(防火墙&#x…...

RestClient

什么是RestClient RestClient 是 Elasticsearch 官方提供的 Java 低级 REST 客户端,它允许HTTP与Elasticsearch 集群通信,而无需处理 JSON 序列化/反序列化等底层细节。它是 Elasticsearch Java API 客户端的基础。 RestClient 主要特点 轻量级&#xff…...

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

【Oracle APEX开发小技巧12】

有如下需求: 有一个问题反馈页面,要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据,方便管理员及时处理反馈。 我的方法:直接将逻辑写在SQL中,这样可以直接在页面展示 完整代码: SELECTSF.FE…...

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候,写过一篇简单实现,后期随着对该模型的深入研究,本次记录涉及到prophet 的公式以及参数调优,从公式可以更直观…...

DBAPI如何优雅的获取单条数据

API如何优雅的获取单条数据 案例一 对于查询类API,查询的是单条数据,比如根据主键ID查询用户信息,sql如下: select id, name, age from user where id #{id}API默认返回的数据格式是多条的,如下: {&qu…...

是否存在路径(FIFOBB算法)

题目描述 一个具有 n 个顶点e条边的无向图,该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序,确定是否存在从顶点 source到顶点 destination的路径。 输入 第一行两个整数,分别表示n 和 e 的值(1…...

sipsak:SIP瑞士军刀!全参数详细教程!Kali Linux教程!

简介 sipsak 是一个面向会话初始协议 (SIP) 应用程序开发人员和管理员的小型命令行工具。它可以用于对 SIP 应用程序和设备进行一些简单的测试。 sipsak 是一款 SIP 压力和诊断实用程序。它通过 sip-uri 向服务器发送 SIP 请求,并检查收到的响应。它以以下模式之一…...

JVM 内存结构 详解

内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: ​ 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 ​ 每个线程都有一个程序计数…...

【Android】Android 开发 ADB 常用指令

查看当前连接的设备 adb devices 连接设备 adb connect 设备IP 断开已连接的设备 adb disconnect 设备IP 安装应用 adb install 安装包的路径 卸载应用 adb uninstall 应用包名 查看已安装的应用包名 adb shell pm list packages 查看已安装的第三方应用包名 adb shell pm list…...

go 里面的指针

指针 在 Go 中,指针(pointer)是一个变量的内存地址,就像 C 语言那样: a : 10 p : &a // p 是一个指向 a 的指针 fmt.Println(*p) // 输出 10,通过指针解引用• &a 表示获取变量 a 的地址 p 表示…...