【技术突破】合合信息新品震动业界,TextIn智能抽取,是不是藏了黑科技?

官.网地址:合合TextIn - 合合信息旗下OCR云服务产品
随着文本数据关系的日益复杂化,传统的信息抽取技术面临着诸多挑战。深度学习模型的训练往往需要大量的高质量标注的训练样本,依赖规则实现上下文对话,新样本如果变换了行文方式则将难以保证抽取效果,模型泛化能力不强,这就导致基于传统深度学习算法进行标注训练的方式成本非常高昂。
合合信息TextIn平台重磅上线智能文档抽取产品,依托合合信息自研的垂直领域语义模型,并结合了合合信息强大的文字识别、文档解析、文档检索和文本生成四项关键技术,让计算机模拟人类的推理方式,来识别在训练阶段从未见过的新事物,实现开箱即用的“零样本”抽取,让AI触手可及。
立即体验:
TextIn 智能文档抽取

01 “开箱即用”
与以往通过标注训练实现文档结构化抽取不同,用户只需在TextIn智能文档抽取直接配置需要提取的关键字段。例如,发明专利证书中的发明名称、证书号、发明人、发明专利号、证书颁发时间、专利申请日等字段,模型可自动提取关键信息。

02 优秀的泛化性
TextIn智能文档抽取基于海量的基础数据做预训练,具备极强的泛化性。以医疗险理赔场景为例,传统标注训练的方式下,需针对每一种不同版式进行大量的样本标注及模型训练,但各家医院出具的住院病案、出入院小结等文档材料版式各不相同、无法穷尽,传统方式显然不可行,不仅标注训练的工作量极大,效果上也无法保证各类版式下的准确率。
合合信息全新上线的智能文档抽取模块具备强大的理解能力,可以兼容各家医院不同版式的住院材料,无需标注训练,开箱即用,即可达到精准的抽取效果。





03 准确理解复杂版面
非结构化文档抽取的瓶颈之一在于对文档复杂版面解析的准确性,例如文档中插入的各类复杂表格,对表格结构的准确还原是进行表格信息结构化抽取的前提。如下所示的机动车保单中,关于承保险种的明细项,是以一个非标准、横线缺失、且是双栏结构的复杂表格进行展示的,基于合合信息自研的版面分析引擎可以准确还原该区域的表结构,进而准确抽取到承保险种、保险金额、绝对免赔额、保险费四个表格字段。

04 “多模态”抽取能力
企业各类非标文档中,有双层PDF电子件、拍摄件、扫描件等不同格式的文件,文档中也可能包含手写体、印章、整表等不同类型的元素。如下所示的某制造企业内部结算申请所需各类单据中,相关人员签名是财务部门进行收入确认审核时需要重点关注的字段,在页面上配置“项目经理”、“保管员”字段,可以抽取到手写体签字信息。

05 兼顾长/短文本
TextIn智能文档抽取既支持单页的非标卡证、票据、表单,如海外invoice、国际信用证、电汇凭证、不动产权证等,也支持几十甚至上百页的长文档,如购销合同、借款合同、基金合同等。

06 具备通用及领域知识
数据量级是模型的地基,模型通过对文档资料的阅读和建模来吸收知识。合合信息通过对涵盖金融(研报、财报、公告、招股书等)、政务(公文、公告、规章制度、政府工作报告等)、法律(法律法规、法律文书等)等各行业高质量语料库的应用,使得语义模型既具备通识能力,也具备不同行业的专项领域知识。以下是一篇公司点评类研报的抽取结果,基于合合信息最新语义模型强大的理解能力,可以实现以往传统模型无法实现的抽取效果:

比如对于“年度”有2022、2023、2024;2022-2024;2022~2024;2022至2024等多种表述方式,传统的抽取模式只能基于穷举规则,一一对应年份,表述方式一旦变化就无法准确抽取。再如指标“PE”和“年份”的“距离”,PE离“2022-2024”已经非常远了,传统nlp无法理解这么长的上下文关系,但TextIn智能文档抽取可以准确推理出2023年的PE为50倍。
全文没有出现“股票代码”这个Key字段,但基于合合信息语义模型具备的通识+金融知识,可以准确推理出603605代表的是股票代码。

强大的文档抽取能力正在成为非结构化数据治理、数智化升级的关键驱动力,推动着社会各行各业的快速发展和创新。


相关文章:
【技术突破】合合信息新品震动业界,TextIn智能抽取,是不是藏了黑科技?
官.网地址:合合TextIn - 合合信息旗下OCR云服务产品 随着文本数据关系的日益复杂化,传统的信息抽取技术面临着诸多挑战。深度学习模型的训练往往需要大量的高质量标注的训练样本,依赖规则实现上下文对话,新样本如果变换了行文方式…...
Transformer模型学习(1)
Transformer模型,它自2017年被引入以来,已成为处理语言任务的主流技术。Transformer模型不仅在多个语言处理任务上取得了优异的成绩,而且还因为它的设计极大地推动了后续模型的发展,如今广泛应用于聊天机器人、翻译软件和文本生成…...
TinTinLand Web3 + AI 共学月|五周上手,捕获浪潮碰撞下的无限机遇
近期,斯坦福大学人文x人工智能研究所(Stanford HAI)发布了《2024 年人工智能指数报告》(Artificial Intelligence Index Report 2024),指出当前人工智能的发展已全面改变社会的前沿风向,其中据 …...
渗透课程第二阶段--Part1--信息收集
目录 一. 为什么要做信息收集? 渗透测试的流程 信息收集包括的内容 学习框架: 二. 分类 1. 域名相关信息 域名(Domain Name)是什么 域名的分类 域名联系人信息 子域名信息 域名DNS信息 2. IP相关信息 ping/nslookup …...
ubuntu22 搭建nginx高可用集群(VIP(keepalived) + 负载均衡)
#在所有节点安装nginx #ps: 如果要使用tcp流转发:需用二进制包安装 make编译时加入stream流的参数。 推荐直接安装openresty【默认支持stream等nginx模块,还附带了很多常用的lua库】 apt install -y net-tools sudo apt install -y nginx vim /etc/…...
QT 编译Lua 动态库,使用Lua脚本混合编程
一,编译Lua动态库 1,下载lua源码 地址:Lua: downloadhttps://www.lua.org/download.html 2,配置 解压lua源码压缩包,里面有个src文件夹,里面的代码就是lua的源码...
关于不均衡数据的探究
1、不均衡数据指什么 不均衡数据是指在一个数据集中,某些类别(或标签)的样本数量明显少于其他类别的样本数量,也就是说不同类别的样本分布不均匀。这样的数据集在分类问题中非常常见。 2、不均衡数据的特征 类别比例失衡…...
LwIP 之十 详解 TCP RAW 编程、示例、API 源码、数据流
我们最为熟知的网络通信程序接口应该是 Socket。LwIP 自然也提供了 Socket 编程接口,不过,LwIP 的 Socket 编程接口都是使用最底层的接口来实现的。我们这里要学习的 TCP RAW 编程则是指的直接使用 LwIP 的最底层 TCP 接口来直接实现应用层功能。这里先来一张图,对 LwIP 内部…...
【京东评论】数据源——Python提升获取效率▼
这不是我的第一个爬虫,但大多数都是像这样简单粗暴的,因为一开始对于定义函数,然后再相应 相应的操作,是比较困难的,这能直接写for循环语句。 首先,我们要明确我们的目标:从京东上爬取产品的评…...
Java大厂面试题第2季
一、本课程前提要求和说明 面试题1: 面试题2: 面试题3: 面试题4: 面试题5: 高频最多的常见笔试面试题目 ArrayList HashMap 底层是什么东东 JVM/GC 多线程与高并发 java集合类...
探索无限可能性——微软 Visio 2021 改变您的思维方式
在当今信息化时代,信息流动和数据处理已经成为各行各业的关键。微软 Visio 2021 作为领先的流程图和图表软件,帮助用户以直观、动态的方式呈现信息和数据,从而提高工作效率,优化业务流程。本文将介绍 Visio 2021 的特色功能及其在…...
Linux CFS调度器之周期性调度器scheduler_tick函数
文章目录 前言一、简介二、源码分析2.1 scheduler_tick2.2 task_tick2.3 entity_tick2.4 check_preempt_tick2.5 resched_curr 参考资料 前言 Linux内核调度器主要是主调度器和周期性调度器,主调度器请参考:Linux 进程调度之schdule主调度器 一、简介 …...
git生成密钥(免密)
生成SSH密钥对的方法如下: 打开Git Bash。 输入以下命令生成新的SSH密钥对: ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 这里的 -C 参数后面跟的是你的邮箱地址,通常用于标识这个密钥。 当系统提示你“Enter a fil…...
山东大学软件学院2021级编译原理回忆版
一、判断题 1、正则文法可以表示一般的高级程序语言,构成其语法成分和生成句子() 2、NFA的状态和符号有且只有一条边,因此看起来更直观() 3、DFA无法表示这样的语言{anbn,n>1}() …...
为什么都说视频号小店值得做,具体该怎么做?新手必学
大家好,我是电商花花。 所有人都在告诉你2024年应该做视频号小店,但没有人告诉你到底应该怎么做。 今天给大家说一下为什么2024年都推荐大家去做视频号小店,以及分享一些视频号小店的实操干货,可以帮助大家更快更稳的做店。 首先…...
网络安全岗秋招面试题及面试经验分享
Hello,各位小伙伴,我作为一名网络安全工程师曾经在秋招中斩获🔟个offer🌼,并在国内知名互联网公司任职过的职场老油条,希望可以将我的面试的网络安全大厂面试题和好运分享给大家~ 转眼2024年秋招又快到了金…...
如何实现一个AI聊天功能
最近公司的网站上需要对接一个AI聊天功能,领导把这个任务分给了我,从最初的调研,学习,中间也踩过一些坑,碰到过问题,但最后对接成功,还是挺有成就感的,今天把这个历程和项目整理一下…...
实战16:基于apriori关联挖掘FP-growth算法挖掘关联规则的手机销售分析-代码+数据
直接看视频演示: 基于apriori关联挖掘关联规则的手机销售分析与优化策略 直接看结果: 这是数据展示: 挖掘结果展示: 数据分析展示:...
Linux基础指令及其作用之系统信息和管理
系统信息和管理 ps ps 命令用于显示当前系统的进程信息。它是 Unix 和类 Unix 操作系统中的一个重要工具,可以用于监控和管理系统进程。以下是 ps 命令的详细用法和常见选项: ps [选项]常用选项支持的新型开源AI Agent平台,支持多个金融专业AI Agent
财务分析一直是解读市场趋势、预测经济结果和提供投资策略的关键。这一领域传统上依赖数据,但随着时间的推移,越来越多地使用人工智能(AI)和算法方法来处理日益增长的复杂数据。AI在金融领域的作用显著增强,它自动化了…...
UE5 学习系列(二)用户操作界面及介绍
这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…...
应用升级/灾备测试时使用guarantee 闪回点迅速回退
1.场景 应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。 相对于RMAN恢复需要很长时间, 数据库闪回只需要几分钟。 2.技术实现 数据库设置 2个db_recovery参数 创建guarantee闪回点,不需要开启数据库闪回。…...
2025年能源电力系统与流体力学国际会议 (EPSFD 2025)
2025年能源电力系统与流体力学国际会议(EPSFD 2025)将于本年度在美丽的杭州盛大召开。作为全球能源、电力系统以及流体力学领域的顶级盛会,EPSFD 2025旨在为来自世界各地的科学家、工程师和研究人员提供一个展示最新研究成果、分享实践经验及…...
五年级数学知识边界总结思考-下册
目录 一、背景二、过程1.观察物体小学五年级下册“观察物体”知识点详解:由来、作用与意义**一、知识点核心内容****二、知识点的由来:从生活实践到数学抽象****三、知识的作用:解决实际问题的工具****四、学习的意义:培养核心素养…...
【单片机期末】单片机系统设计
主要内容:系统状态机,系统时基,系统需求分析,系统构建,系统状态流图 一、题目要求 二、绘制系统状态流图 题目:根据上述描述绘制系统状态流图,注明状态转移条件及方向。 三、利用定时器产生时…...
如何在网页里填写 PDF 表格?
有时候,你可能希望用户能在你的网站上填写 PDF 表单。然而,这件事并不简单,因为 PDF 并不是一种原生的网页格式。虽然浏览器可以显示 PDF 文件,但原生并不支持编辑或填写它们。更糟的是,如果你想收集表单数据ÿ…...
VM虚拟机网络配置(ubuntu24桥接模式):配置静态IP
编辑-虚拟网络编辑器-更改设置 选择桥接模式,然后找到相应的网卡(可以查看自己本机的网络连接) windows连接的网络点击查看属性 编辑虚拟机设置更改网络配置,选择刚才配置的桥接模式 静态ip设置: 我用的ubuntu24桌…...
Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战
说明:这是一个机器学习实战项目(附带数据代码文档),如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 在金融市场日益复杂和波动加剧的背景下,风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...
日常一水C
多态 言简意赅:就是一个对象面对同一事件时做出的不同反应 而之前的继承中说过,当子类和父类的函数名相同时,会隐藏父类的同名函数转而调用子类的同名函数,如果要调用父类的同名函数,那么就需要对父类进行引用&#…...
android RelativeLayout布局
<?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"match_parent"android:gravity&…...
