通用信息抽取技术UIE产业案例解析,Prompt 范式落地经验分享!
想了解用户的评价究竟是“真心夸赞”还是“阴阳怪气”?
想快速从多角色多事件的繁杂信息中剥茧抽丝提取核心内容?
想通过聚合相似事件准确地归纳出特征标签?
……
想了解UIE技术在产业中的实战落地经验?通用信息抽取技术 UIE 产业案例分享来了!
近期Prompt 范式备受关注,实际上,Prompt 思想在产业界已经有了一些成功的应用案例。由中科院软件所和百度共同提出了大一统诸多任务的通用信息抽取技术UIE(Universal Information Extraction),基于 Prompt 思想,将希望抽取的 Schema 信息转换成“线索词”(Schema-based Prompt)作为模型输入的前缀,使得模型理论上能够适应不同领域和任务的 Schema 信息,并按需抽取出线索词指向的结果,从而实现开放域环境下的通用信息抽取。在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能[1]。
截止目前,UIE 系列模型已发布UIE、UIE-X、UIE-senta三大模型,凭借其强大的零样本与小样本能力、多任务统一建模能力,成为业界在信息抽取、情感分析等任务上的首选方案。
2022年5月,飞桨PaddleNLP结合文心大模型中的知识增强 NLP 大模型 ERNIE 3.0 ,发挥 UIE 在中文任务上的强大潜力,推出首个面向通用信息抽取的产业级技术方案[2] 。
2022年11月,UIE 新增文档信息抽取能力——UIE-X[3],OCR、版面分析、跨模态文档信息抽取能力一应俱全。UIE-X 基于文心 ERNIE-Layout[4] 跨模态布局增强预训练模型,集成了 PaddleOCR[5] 的 PP-OCR、PP-Structure 版面分析等领先能力。
2022年12月,PaddleNLP 以 UIE 为训练底座,在大量情感分析数据集上进一步训练,增强了模型对于情感知识的处理能力,推出基于 UIE 的情感分析方案(下表简写UIE-senta)[6],覆盖句子级情感极性分类、属性抽取、观点抽取、属性级情感极性分类等多项情感任务,且解决了属性聚合和隐性观点抽取难题,并提供情感分析结果可视化能力。
(图:UIE 系列模型介绍)
来自云南能投财务服务有限公司和黑蚁资本的两位讲师将带来精彩课程,解析UIE技术在多领域的应用场景,分享落地实战经验。
2月28日、3月1日,飞桨直播间、B站直播间,两场连播,不见不散!
课程介绍
2月28日 【金融】复杂单据信息抽取——财务系统智能化
钟榆星 | 云南能投财务服务有限公司
财务管理是企业管理的重要组成部分,财务人员常常需要将业务单据表格中的数据通过人工填制到财务系统里,这往往费时费力,且容易产生错误。云南能投财务服务有限公司(以下简称云南能投),成立于2020年4月,是云南省能源投资集团有限公司全资子公司。为有效支撑集团财务管控落地执行,起到支持集团国际化发展、战略决策的作用,云南能投技术支持部利用PaddleNLP提供的文档信息抽取全流程解决方案,开发了基于UIE-X的表格信息抽取方案,实现复杂结构表格的关系型抽取,帮助业务、财务将常用表格快速导入业务系统,取代人工手录,高效推动了财务共享智能提单业务的快速落地。
(图:云南能投基于 UIE-X 开发了表格信息抽取方案)
3月1日 【零售】客户意见洞察促进消费品牌经营转型
Jeru | 黑蚁资本
黑蚁资本,是一家深耕消费领域投资的企业,成立之初就决心让“投后服务”成为机构的核心能力之一,而“数字化”正是黑蚁服务被投企业的重要内容。随着餐饮行业进入线上线下、堂食外卖并重的“双主场”时代,面对铺天盖地的用户评论数据,如何用数字化手段优化经营成为餐饮企业降本增效的关键。为了帮助被投企业提升评价数据的处理效率,黑蚁投后数字化团队基于 UIE 开发了用户评论洞察系统,帮助品牌高效深入了解用户反馈,自动抽取出高价值信息,实现量化统计分析,从而降低经营成本,优化产品和服务,提升市场竞争力。
(图:黑蚁资本基于 UIE 开发了用户评论洞察系统)
技术拓展——文心大模型
随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。
文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。
从技术研发到落地应用,大模型的发展已经进入产业落地的关键期,欢迎前往文心大模型官网了解详情:https://wenxin.baidu.com/
相关项目
PaddleNLP GitHub地址:https://github.com/PaddlePaddle/PaddleNLP
PaddleNLP Gitee地址:https://gitee.com/paddlepaddle/PaddleNLP
参考
Unified Structure Generation for Universal Information Extraction
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout
https://github.com/PaddlePaddle/PaddleOCR
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis
相关文章:

通用信息抽取技术UIE产业案例解析,Prompt 范式落地经验分享!
想了解用户的评价究竟是“真心夸赞”还是“阴阳怪气”?想快速从多角色多事件的繁杂信息中剥茧抽丝提取核心内容?想通过聚合相似事件准确地归纳出特征标签?……想了解UIE技术在产业中的实战落地经验?通用信息抽取技术 UIE 产业案例…...

integrationobjects/OPC AE Client ActiveX Crack
使用 OPC AE 客户端 ActiveX 进行快速 OPC 警报和事件客户端编程! OPC AE Client ActiveX包括多个 OPC ActiveX 控件,可以轻松嵌入到最流行的 OLE 容器中。这允许用户与任何 OPC AE 服务器连接并实时检索警报和事件。 这种易于使用的 OPC AE ActiveX 简化…...

JavaScript HTML DOM 简介
文章目录JavaScript HTML DOM 简介HTML DOM (文档对象模型)HTML DOM 树查找 HTML 元素通过 id 查找 HTML 元素通过标签名查找 HTML 元素通过类名找到 HTML 元素下面我们将学到如下内容JavaScript HTML DOM 简介 通过 HTML DOM,可访问 JavaScript HTML 文档的所有元素…...

interrupt多线程设计模式
1. 两阶段终止-interrupt Two Phase Termination 在一个线程T1中如何“优雅”终止线程T2?这里的【优雅】指的是给T2一个料理后事的机会。 错误思路 ● 使用线程对象的stop()方法停止线程(强制杀死) —— stop()方法…...

Spring IoC 和 Spring AOP
Spring IoC Ioc(Inversion of control:即控制反转)是一种设计思想,而不是一种具体的技术实现。IoC的思想就是将原本在程序中手动创建对象的控制权交给Spring框架来管理。 不过, IoC 并非 Spring 特有,在其…...

taobao.top.oaid.merge( OAID订单合并 )
¥开放平台免费API必须用户授权 基于OAID(收件人ID, Open Addressee ID)做订单合并,确保相同收件人信息的订单合并到相同组。 公共参数 请求地址: HTTP地址 http://gw.api.taobao.com/router/rest 公共请求参数: 公共响应参数: 请…...

Python自动获取海量ip,再也不用愁被封啦~
前言 嗨喽~大家好呀,这里是魔王呐 ❤ ~! 本次网站: 本文所有模块\环境\源码\教程皆可点击文章下方名片获取此处跳转 开发环境: python 3.8 运行代码 pycharm 2022.3 辅助敲代码 模块使用: import parsel >>> pip install parsel…...
XLua学习笔记 { }
Lua调用C# 通过生成的适配代码进行调用 把在白名单上和打上[LuaCallCSharp]标签的C#类转换成Lua的table,然后注册C#类的方法和属性到table中。性能好,但占用安装包的内存大 通过反射机制进行调用 性能差,在运行的时候才去查找C#的方法&#…...
推荐程序员收藏的几个技术社区以及工具网站
常用技术社区 1、GitHub 网站地址:https://github.com/ 全球最大的开源社区,这点我想大家都清楚。但是今年被微软收购,之前很多的人在那说可能以后GitHub就会变样,但是事实并非如此,目前还没有收到什么信息,…...

StopWatch计时器
前言 开发中,为了评估性能,我们通常会使用System.currentTimeMillis() 去计算程序运行耗时 long startTimeSystem.currentTimeMillis();//业务代码... long endTimeSystem.currentTimeMillis(); System.out.println("耗时:" (endTime-startT…...

常见web安全漏洞-暴力破解,xss,SQL注入,csrf
1,暴力破解 原理: 使用大量的认证信息在认证接口进行登录认证,知道正确为止。为提高效率一般使用带有字典的工具自动化操作 基于表单的暴力破解 --- 若用户没有安全认证,直接进行抓包破解。 验证码绕过 on server ---验证码校验在…...
11个案例讲透 Python 函数参数
大家好,今天给大家分享一下明哥整理的一篇 Python 参数的内容,内容非常的干,全文通过案例的形式来理解知识点,自认为比网上 80% 的文章讲的都要明白,如果你是入门不久的 python 新手,相信本篇文章应该对你会…...

《分布式技术原理与算法解析》学习笔记Day21
分布式数据存储三要素 什么是分布式数据存储系统? 分布式存储系统的核心逻辑,就是将用户需要存储的数据根据某种规则存储到不同的机器上,当用户想要获取指定数据时,再按照规则到存储数据的机器中获取。 分布式存储系统的三要素…...

开源shell脚本系列-检查etcd集群可用性
图好看不?AI生成的,这几天也在测试AI绘图这个东东,挺牛叉的。咱们的社区工具平台在PC的web端已经完成了。大家没事可以去看看,设置个主页也行其实挺好的:https://www.98dev.com/index,主要用于一些关键性新…...

资源限制类题目七大技巧 解决所有大数据资源限制类问题
有一个无符号整数的文件,数据个数有40亿个,如何通过1G的内存返回出现次数最多的数 1. 对每个数调用哈希函数得到哈希值,将哈希值模上100,进行小文件分类(相同的数一定在同一文件) 2. 将每个小文件内出现次…...
adb命令导出手机已安装的android应用apk文件
adb命令导出手机已安装的android应用apk文件,保存到PC电脑 前提条件是手机已经和PC电脑可以通过adb建立连接。 (1)通过adb shell命令获取当前手机所有已经安装的应用包名: adb shell pm list package (2)…...

华为CT6100双千M路由记录
该文章仅仅记录使用CT6100的流程,不提供任何参考和建议。 一、简介 设备:华为CT6100瘦客服端,J1800cpu,不包含外壳,有双千M网口,2G内存8G硬盘。系统:esir的高大全openwrt版本用途:对…...

【AcWing-Python-785】快速排序
题目:https://www.acwing.com/problem/content/description/787/对应视频讲解:https://www.acwing.com/video/227/题目描述注意本题数据已加强。快速排序过程中,如果每次取区间起点或者终点作为分界点,则会超时。分界点换成随机值…...

从 JDK 8 到 JDK 18,Java 垃圾回收的十次进化
经历了数千次改进,Java 的垃圾回收在吞吐量、延迟和内存大小方面有了巨大的进步。 2014 年3 月 JDK 8 发布,自那以来 JDK 又连续发布了许多版本,直到今日的 JDK 18 是 Java 的第十个版本。借此机会,我们来回顾一下 HotSpot JVM 的…...

虚拟机VMware Workstation Pro环境搭建
VMware Workstation Pro是一款虚拟化工具,允许用户在Windows PC上运行多个操作系统。这个平台提供一个安全和独立的环境,让用户在使用前,可以建立和测试应用程序、检查修补程序,以及尝试不同的操作系统。它附有虚拟机库 它允许用户…...

CTF show Web 红包题第六弹
提示 1.不是SQL注入 2.需要找关键源码 思路 进入页面发现是一个登录框,很难让人不联想到SQL注入,但提示都说了不是SQL注入,所以就不往这方面想了 先查看一下网页源码,发现一段JavaScript代码,有一个关键类ctfs…...
进程地址空间(比特课总结)
一、进程地址空间 1. 环境变量 1 )⽤户级环境变量与系统级环境变量 全局属性:环境变量具有全局属性,会被⼦进程继承。例如当bash启动⼦进程时,环 境变量会⾃动传递给⼦进程。 本地变量限制:本地变量只在当前进程(ba…...

聊聊 Pulsar:Producer 源码解析
一、前言 Apache Pulsar 是一个企业级的开源分布式消息传递平台,以其高性能、可扩展性和存储计算分离架构在消息队列和流处理领域独树一帜。在 Pulsar 的核心架构中,Producer(生产者) 是连接客户端应用与消息队列的第一步。生产者…...
拉力测试cuda pytorch 把 4070显卡拉满
import torch import timedef stress_test_gpu(matrix_size16384, duration300):"""对GPU进行压力测试,通过持续的矩阵乘法来最大化GPU利用率参数:matrix_size: 矩阵维度大小,增大可提高计算复杂度duration: 测试持续时间(秒&…...

NFT模式:数字资产确权与链游经济系统构建
NFT模式:数字资产确权与链游经济系统构建 ——从技术架构到可持续生态的范式革命 一、确权技术革新:构建可信数字资产基石 1. 区块链底层架构的进化 跨链互操作协议:基于LayerZero协议实现以太坊、Solana等公链资产互通,通过零知…...

回溯算法学习
一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...
LangChain知识库管理后端接口:数据库操作详解—— 构建本地知识库系统的基础《二》
这段 Python 代码是一个完整的 知识库数据库操作模块,用于对本地知识库系统中的知识库进行增删改查(CRUD)操作。它基于 SQLAlchemy ORM 框架 和一个自定义的装饰器 with_session 实现数据库会话管理。 📘 一、整体功能概述 该模块…...
Spring Security 认证流程——补充
一、认证流程概述 Spring Security 的认证流程基于 过滤器链(Filter Chain),核心组件包括 UsernamePasswordAuthenticationFilter、AuthenticationManager、UserDetailsService 等。整个流程可分为以下步骤: 用户提交登录请求拦…...
微服务通信安全:深入解析mTLS的原理与实践
🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 一、引言:微服务时代的通信安全挑战 随着云原生和微服务架构的普及,服务间的通信安全成为系统设计的核心议题。传统的单体架构中&…...

使用SSE解决获取状态不一致问题
使用SSE解决获取状态不一致问题 1. 问题描述2. SSE介绍2.1 SSE 的工作原理2.2 SSE 的事件格式规范2.3 SSE与其他技术对比2.4 SSE 的优缺点 3. 实战代码 1. 问题描述 目前做的一个功能是上传多个文件,这个上传文件是整体功能的一部分,文件在上传的过程中…...