当前位置: 首页 > news >正文

多模态产品在智能文档处理应用的展望------以TextIn模型为例

  • 前言
  • 发展现状
  • TextIn 文档解析技术
  • 文本向量化
  • 展望
  • 合合信息

前言

   第十四届视觉与学习青年学者研讨会(VALSE 2024)于5月5日-7日在山城重庆渝北区悦来国际会议中心举办。大会聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向。大会中,合合信息智能创新事业部研发总监常扬做了"文档解析与向量化技术加速多模态大模型训练与应用"专题汇报,主要讲解TextIn文档解析技术和高精度文本向量化模型的技术特征。下面为大家分享一下这次报告的主要内容。

发展现状

   目前已有的文档解析技术依然面临诸多挑战。例如表格(特别是无线表)无法解析或结果错乱的问题,无法按照阅读顺序解析的问题,或是无法解析扫描版或图片版文档,又或是文档的编码出错误。这一问题严重影响到了大语言模型的训练与输出。因此我们需要文档解析技术能够阅读顺序还原准确、元素识别准确,尤其是表格、段落、公式、标题、识别速度快、支持论文等多种排版文档。

   通常的做法是建立一个独立的文档解析Pipeline,判断文档类型并进行预处理。它主要分为三个部分:

  • 第一个部分将不同类型的文档解析为基础文档表征。

  • 第二个部分将基础文档表征进行处理,如版面分析、跨页合并、节点关系处理,将多元异构不同格式文档输出为可理解的顺序文档。

  • 最后一个部分,将结果输出为markdown。
    在这里插入图片描述

   建立文档解析Pipeline的难点在于版面检测。文档元素可能存在遮盖重叠,元素本身形式五花八门,同时文档的版式众多,特别是多栏文档,阅读顺序本就不一样,在插入表格后,情况会变得更为复杂。此外表格造成的困难也是巨大的,无线表格和合并表格使内容难以定位。另外公式的使用也会为识别工作带来挑战。

TextIn 文档解析技术

针对上述问题,合合信息发布了TextIn 相关模型。它采用了四层技术架构:底层是围绕数据相关的基建层;上方的算法层将文档拆分为单页的同时,对每个独立的元素进行解析检测和图像文字的识别;得到文档基础表征后,会进入到应用层,进行文档类型判断,表征整合以及版面的还原,最终还原为一个正常阅读顺序的文本,并通过接入层分发至其他应用。

在这里插入图片描述

   这其中包括两部分核心技术。第一部分是版面分析算法框架。它能够选取合适的流程,将电子档或扫描档解析为独立的元素,再整合成为遵循大模型可理解的阅读顺序的输出。

在这里插入图片描述

   第二部分是文档树引擎。通过目录树准确地识别主标题、子标题、子段落、表格标题。

在这里插入图片描述

   归功于这两样核心技术,TextIn在双栏、非对称双栏、含表格双栏、无线表格、合并表格层级目录文档的解析上都有出色表现。

在这里插入图片描述在这里插入图片描述
其他模型TextIn模型

文本向量化

   除了文本解析技术,TextIn在文本向量化领域也尤为突出。近日,TextIn acge_text_embedding 文本向量化模型在 C-MTEB榜单排名第一。同时TextIn模型在多个方面都展现出了明显的优势。相比于传统的预训练或微调垂直领域模型,TextIn模型不仅支持通用分类模型的构建,还能提升长文档信息抽取的精度。此外,该模型的应用成本相对较低,使得大模型能够在多个行业中快速创造价值,推动科技创新和产业升级。在文档问答或知识库问答应用领域都有较强的发展前景。

在这里插入图片描述

展望

   合合信息的研究成果为各行业提供了实用的解决方案。合合信息开发出了高效、准确的图像处理算法和工具,为各种应用场景提供了优化的解决方案。这些成果广泛应用于金融、制造业、医疗等领域,极大地提升了效率和精度,并为各行业的发展带来了实际效益。希望合合信息能够持续进行深入的研究探索和技术创新,不断取得更多突破,推动人工智能技术的应用和智能产业的发展。

合合信息

   上海合合信息科技股份有限公司致力于通过智能文字识别及商业大数据领域的核心技术、C端和B端产品以及行业解决方案为全球企业和个人用户提供创新的数字化、智能化服务。它开发的深受全球用户喜爱的C端产品全球累计用户下载超23亿,累计月活约 1.3亿。其中名片全能王和扫描全能王免费版在App Store排行榜上名列前茅。本次合合信息提供了TextIn的专题网站和讨论交流群,感兴趣的小伙伴不要错过!

在这里插入图片描述

相关文章:

多模态产品在智能文档处理应用的展望------以TextIn模型为例

前言发展现状TextIn 文档解析技术文本向量化展望合合信息 前言 第十四届视觉与学习青年学者研讨会(VALSE 2024)于5月5日-7日在山城重庆渝北区悦来国际会议中心举办。大会聚焦计算机视觉、模式识别、多媒体和机器学习等领域的国际前沿和热点方向。大会中,合合信息智能…...

上海市计算机学会竞赛平台2024年3月月赛丙组最近的数字

题目描述 给定两个正整数 𝑛n 与 𝑑d ,请找到所有最接近 𝑛n 且是 𝑑d 的倍数的整数。 输入格式 第一行:单个整数表示 𝑛n第二行:单个整数表示 𝑑d 输出格式 若干行…...

RFID在汽车制造中的应用如何改变行业

随着工业4.0和中国制造2025的推进,企业对于智能化、自动化的需求日益增长,RFID射频技术在制造业中已经相当普遍了。在如今这瞬息万变的行业与时代中,RFID技术可以帮助企业获得竞争优势,简化日益复杂的生产流程,推动企业…...

sCrypt受邀在中国人民大学举办《区块链与数字经济》课程讲座

4月17日,可一科技特邀美国sCrypt公司的开发工程师周全,在中国人民大学的《区块链与数字经济》课程上进行了讲座。周全讲解了区块链的分布式设计、不可篡改特性,以及智能合约的基本原理,利用“智能家居触发机制”等生动比喻&#x…...

pc端的鼠标箭头变换

<div style"cursor:pointer"></div>...

ICode国际青少年编程竞赛- Python-2级训练场-for循环练习2

ICode国际青少年编程竞赛- Python-2级训练场-for循环练习2 1、 for i in range(5):Dev.step(9 - i * 2)Dev.turnLeft()2、 for i in range(3):Spaceship.step(i 1)Spaceship.turnRight()Spaceship.step(i 1)Spaceship.turnLeft()3、 for i in range(4):Dev.step(10 - i…...

RiPro主题美化【支付弹窗底部提示语根据入口不同有不同的提示】ritheme主题美化RiProV2 增加支付提示语,按支付类型不同,入口不同提示语不同的设置

RiPro主题美化【支付弹窗底部提示语根据入口不同有不同的提示】ritheme主题美化RiProV2 增加支付提示语,按支付类型不同,入口不同提示语不同的设置 背景: 接上文:https://www.uu2id.com/827.html 付费组件在以下几个地方会弹出:1)文章隐藏内容付费;2)付费资源下载;3…...

MSMQ消息队列

MQ是一种企业服务的消息中间节技术&#xff0c;这种技术常常伴随着企业服务总线相互使用&#xff0c;构成了企业分布式开发的一部分&#xff0c;如果考虑到消息的发送和传送之间是可以相互不联系的并且需要分布式架构&#xff0c;则可以考虑使用MQ做消息的中间价技术&#xff0…...

树莓派nmap扫描

debian系统安装nmap&#xff1a; sudo apt install nmap安装nmap完成后&#xff0c;输入 ip route 来查看当前Wi-Fi路由器的ip地址。 第一行的default via后显示的便是网关地址&#xff0c;也就是路由器地址。 获取到路由器ip地址后&#xff0c;在终端中输入&#xff1a; …...

【必看】Spring系列面试题

Spring Core Container, AOP, Data Access, Web... 基础 1. 简单介绍Spring 一款开源的轻量级 Java 开发框架&#xff0c;旨在提高开发人员的开发效率以及系统的可维护性。Spring 支持 IoC&#xff08;Inversion of Control:控制反转&#xff09; 和 AOP(Aspect-Oriented Pro…...

wordpress增加谷歌分析

wordpress增加谷歌分析 为了更好的浏览体验&#xff0c;欢迎光顾勤奋的凯尔森同学个人博客 http://www.huerpu.cc:7000 一、创建谷歌分析账号与媒体应用 谷歌分析地址&#xff1a;https://analytics.google.com/analytics 创建一个账号&#xff0c;如果你没有的话。 在该账…...

linux的信号量的使用

1.信号量 在多线程情况下&#xff0c;线程要进入关键代码就得获取信号量&#xff08;钥匙&#xff09;{sem_init(&sem, 0, 0);}&#xff0c;没有信号量的情况下就一直等待sem_wait(&sem)&#xff0c;只到别人把钥匙&#xff08;sem_post(&sem)&#xff09;给你。 …...

C--贪吃蛇

前言 贪吃蛇游戏是一个耳熟能详的小游戏,本次我们讲解他的简单的实现,需要掌握基本的API知识(http://t.csdnimg.cn/uHH6y),简单的C语言知识和基本的数据结构链表 简单的准备工作 蛇的节点 在游戏运⾏的过程中&#xff0c;蛇每次吃⼀个⻝物&#xff0c;蛇的⾝体就会变⻓⼀节&a…...

element ui的确认提示框按钮样式修改

修改确认提示框的默认按钮样式&#xff0c;使用css强制修改 例&#xff1a; js代码&#xff1a; this.$confirm("您确定要删除吗&#xff1f;此操作无法撤销并且将永久删除所有数据。", "提示", { type: "warning", cancelButtonClass: "…...

【vue】keep-alive:true缓存导致页面数据不刷新

keep-alive生命周期钩子函数&#xff1a;activated、deactivated activated&#xff1a;页面第一次进入的时候&#xff0c;钩子触发的顺序是created->mounted->activated deactivated: 页面退出的时候会触发deactivated&#xff0c; 当再次前进或者后退的时候只触发acti…...

Golang — map的使用心得和底层原理

map作为一种基础的数据结构&#xff0c;在算法和项目中有着非常广泛的应用&#xff0c;以下是自己总结的map使用心得、实现原理、扩容机制和增删改查过程。 1.使用心得&#xff1a; 1.1 当map为nil和map为空时&#xff0c;增删改查操作时会出现的不同情况 我们可以发现&#…...

Oracle如何收缩减小表空间大小

比如我们发现一个表空间占用比较大&#xff0c;但是空闲空间很大&#xff0c;想要减小表空间占用大小。查看表空间的情况 发现BETEST表空间占用大&#xff0c;但是剩余大小比较大&#xff0c;可以减小存储占用。 如果我们想减小到100MB&#xff0c;那么就登录其用户执行&#…...

【爬虫】爬取股票历史K线数据写入数据库(三)

前几天有写过两篇&#xff1a; 【爬虫】爬取A股数据写入数据库&#xff08;二&#xff09; 【爬虫】爬取A股数据写入数据库&#xff08;一&#xff09; 现在继续完善&#xff0c;分析及爬取股票的历史K线数据通过ORM形式批量写入数据库。 2024/05&#xff0c;本文主要内容如下…...

文心一言指令

文心一言&#xff08;ERNIE Bot&#xff09;是百度公司开发的人工智能语言模型&#xff0c;它可以接收各种指令来执行不同的任务。以下是一些可能的指令示例&#xff1a; 知识问答&#xff1a; 指令&#xff1a;“请问什么是人工智能&#xff1f;”文心一言会回答关于人工智能…...

常用的命令技巧总结

java命令执行 如下编码网站&#xff1a; Runtime.exec Payload Generater | AresXs Blogjava.lang.Runtime.exec() Payload Workarounds - Jackson_Thttps://www.bugku.net/runtime-exec-payloads/ 手动编码操作 bash -c {echo,cGluZyAxMjcuMC4wLjE7ZWNobyAxID50ZXN0LnR4dA}|…...

ML.NET + 1-bit LLM:在 C# 上位机实现仅 1GB 内存的本地 AI 推理

文章目录上位机程序员的内存焦虑&#xff0c;谁懂啊1-bit LLM是个啥&#xff1f;把模型"压缩裤"穿到极致ML.NET&#xff1a;被遗忘的.NET AI利器实战&#xff1a;把BitNet塞进你的上位机路子一&#xff1a;ONNX Runtime桥梁&#xff08;最正统&#xff09;路子二&…...

4步攻克Fiji在macOS系统的启动难题:从诊断到长效维护的全方位解决方案

4步攻克Fiji在macOS系统的启动难题&#xff1a;从诊断到长效维护的全方位解决方案 【免费下载链接】fiji A "batteries-included" distribution of ImageJ :battery: 项目地址: https://gitcode.com/gh_mirrors/fi/fiji 问题定位&#xff1a;精准识别Fiji启动…...

如何突破Office功能限制?本地化激活方案全解析

如何突破Office功能限制&#xff1f;本地化激活方案全解析 【免费下载链接】ohook An universal Office "activation" hook with main focus of enabling full functionality of subscription editions 项目地址: https://gitcode.com/gh_mirrors/oh/ohook 当…...

揭秘JVM创世过程之Call Stub进入Java世界的门票

前言 本文旨在记录近期研读Java源码的学习心得与疑难问题。由于个人理解水平有限&#xff0c;文中内容可能存在疏漏&#xff0c;恳请读者不吝指正。 前情回顾 在揭秘JVM创世过程之两种语言首席外交官JavaCalls&#xff0c;一文中将JVM看作Java世界中一个拥有两种语言的领事馆…...

AI艺术创作大赛:Shadow Sound Hunter生成作品展示

AI艺术创作大赛&#xff1a;Shadow & Sound Hunter生成作品展示 1. 引言 最近参加了一场AI艺术创作大赛&#xff0c;用Shadow & Sound Hunter模型生成了不少有意思的作品。这个模型在数字绘画、诗歌创作和音乐编曲方面都表现出色&#xff0c;让我看到了AI在艺术创作领…...

新手入门福音:用快马AI生成你的第一个Python版游戏账号管理工具

作为一个刚接触Python编程的新手&#xff0c;最近想尝试开发一个简单的游戏账号管理工具。这个需求其实挺常见的&#xff0c;比如我平时玩多个游戏&#xff0c;账号密码经常记混&#xff0c;如果能有个小工具统一管理就方便多了。在朋友的推荐下&#xff0c;我尝试用InsCode(快…...

从零构建32位MIPS单周期处理器:Logisim实战与24条核心指令实现详解

1. 从零理解MIPS单周期处理器 第一次接触CPU设计时&#xff0c;我盯着教科书上的数据通路图看了整整三天——那些密密麻麻的连线和缩写让我头晕目眩。直到用Logisim动手搭建了一个最简单的加法器&#xff0c;才突然明白处理器不过是精心设计的电子积木。单周期MIPS处理器就像乐…...

从开发到上线:在快马平台部署一个可商用的旗博士口播智能体

最近在做一个电商直播相关的项目&#xff0c;需要快速搭建一个智能口播文案生成工具。经过一番摸索&#xff0c;我发现用InsCode(快马)平台可以非常高效地完成从开发到上线的全流程。下面分享下我的实战经验。 项目需求分析 这个旗博士口播智能体主要面向直播运营人员&#xff…...

英特尔 BOT 优化 Geekbench 6:性能提升背后的争议与影响

【导语&#xff1a;英特尔的二进制优化工具&#xff08;BOT&#xff09;引发关注&#xff0c;它能修改可执行文件指令序列提升性能&#xff0c;但仅与少数应用配合。研究人员对其在 Geekbench 6 上的表现进行测试&#xff0c;结果引发对基准测试公平性的思考。】启动开销&#…...

避坑指南:Informer模型更换自定义数据集时,90%新手会忽略的5个关键参数

Informer模型自定义数据集避坑指南&#xff1a;5个关键参数详解与实战调优 第一次尝试将Informer模型应用到自己的数据集上时&#xff0c;我盯着屏幕上那一串令人绝望的报错信息发呆了整整半小时。明明已经按照官方示例修改了数据路径和基本参数&#xff0c;为什么模型要么无法…...