千言数据集赛题介绍
赛题题目
通用信息抽取任务评测
将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力。
赛题介绍
信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域。一直受到学术界和工业界的广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务。难以评估相关技术与方法在通用场景和任务下的抽取性能。
为此,中国科学院软件研究所,百度公司与千言开源数据集项目联合发起业界首个通用信息抽取评测。千言通用信息抽取竞赛
本榜单是千言通用信息抽取的常规赛版本。面对NLP开发者长期报名和提交。不设置截止提交时间,任务设置与该竞赛保持一致**:不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述**,着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用。
————————————————————————
信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中,特定的抽取需求是指抽取任务中的抽取框架,抽要由抽取类别(人物名称、公司名称、企业上市事件)及目标结构(实体、关系、事件等)组成。本任务为中文信息抽取任务,即按照特定的抽取框架sss,从给定的一组自由文本xxx中,抽取出所有符合抽取需求的信息结构YYY.(实体、关系、事件记录等)对于同一输入文本,不同的抽取框架会抽取不同的信息结构,如下:
抽取框架示例:金融事件抽取
输入文本text
宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市。
抽取需求

事件定义
企业通过证券交易所首次公开向投资者增发股票,以期募集用于企业发展资金的过程。
<上市企业> 于 <上市时间> 在 <上市板块> 上市,一共融资 <融资金额>。
论元定义
- 上市企业:是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司。
- 上市时间:指证券管理部门在证券交易所上市交易的时间
- 上市板块:是指主板、中小板、创业板、其他。
- 融资金额:是指上市企业通过“上市”这一行为融到的总资本
——————————————————————

抽取框架示例2 东奥事件抽取
输入文本text
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!
抽取需求



抽取框架3人物信息
输入文本
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!
抽取需求

示例输出3

示例框架4:对话情感抽取



数据集介绍
本评测的数据及抽取框架主要来自于千言数据平台和百度通用信息抽取的应用案例,本文评测构建了多领域多场景下的多种抽取框架,包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务。以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。参赛者可以通过已有模型以及千言平台,公开课获得的数据集进行快速数据构建和现有模型的迁移。
同时评测鼓励参赛者使用公开的可获取的数据集和知识库数据通过半监督、远距离监督等形式构建训练数据。
数据集组成主要包含两个部分:
- 6个Seen Schema(已知框架)
- 主要来自千言平台与AI Studio平台上可获取的数据,参赛者可根据平台数据构建模型,该赛道主要评测现有技术基于标记数据构建模型的能力。
- 4个Unseen Schema(未知框架)
- 主要来自百度数据的抽取案例,评测方仅提供少量的验证数据,用与参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力
本次评测数据分为三次发布:
- 主要来自百度数据的抽取案例,评测方仅提供少量的验证数据,用与参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力
- Seen Schema定义文件、验证数据。 该部分数据主要来源于千言数据集平台中的各类数据。每一个Schema 包含结构和类型定义,并提供少量验证数据。验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
- Unseen Schema定义和少量对应的验证数据。 每一个Schema 包**含结构和类型定义,并提供少量验证数据。**验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
- 测试集数据(最终测试集)。 参赛者需要对纯文本数据及对应的抽取需求(同时包含seen和unseen)进行信息抽取,最后提交抽取结果。
数据说明
抽取框架定义
抽取框架定义文件为YAML格式,包含了不同任务的抽取形式和标签定义。每个抽取框架文件包含实体、关系和事件等定义信息。

训练集文件
不同抽取框架的训练集文件为一个jsonlines文件,文件中的一行是一个训练实例,包含输入文本X,抽取框架S(schema)和目标结构Y(entity、relation、event)。数据样例如下:
{
“text”: “宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市,实控人白厚善的资本术也浮出水面,也引来各路资本加持。”,
“entity”: [],
“relation”: [],
“event”: [
{
“type”: “上市”,
“text”: “上市”,
“args”: [
{“type”: “上市板块”, “offset”: [38, 39, 40], “text”: “科创板”},
{“type”: “上市企业”, “offset”: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
“text”: “宁波容百新能源科技股份有限公司”}
]
}
],
“schema”: “金融信息”
}
训练文件中每个实例包含的常用字段为
- text 输入文本
- scheme:对应的抽取框架
- entity 实体标注结果
- relation 关系标注结果
- event事件标注结果
测试集文件

测试文件中每个实例包含的常用字段
- text 输入文本
- scheme:对应的抽取框架
- id 抽取实例id
提交格式
模型预测结果以编码为UTF-8的jsonlines的文件格式提交到AI Studio,平台进行在线评分,实时排名。文件中一行为一个json对象,是一个实例的预测结果,样例如下所示。选手需针对所有测试样例提交结果,若无输出结果则目标结构(entity、relation、event)列表为空。
评测内容
本次大赛基于抽取系统从输入序列中抽取的输出记录进行评价。我们将不同范式的抽取任务统一表示成不同的多元组,并对集合去重的结果进行评价,评测脚本自动将提交格式中的输出结果转化为多元组并进行评价,评价形式可能包括二元组与三元组。
多元组中所涉及的基本元素包括:
-
文本块抽取结果span,(以字符串形式出现,不需要对应的offset)
-
表示类型的标签(例如:实体类型、事件类型)
-
表示关联关系的标签(例如:关系类型、事件论元类型)
具体来讲,评测的多元组具体包含: -
(Span,类型标签):代表性的抽取任务包括有实体抽取任务(实体提及span,实体类型)、事件触发词识别任务(触发词span,事件类型)
-
(关联关系标签,Span1,Span2):代表性的抽取任务包括有关系抽取任务(关系类型, 主体span, 客体span)、情感三元组(情感极性,意见对象span,情感表达span)
-
(类型标签,关联关系标签,Span):代表性的抽取任务包括有事件论元识别(事件类型,论元角色,论元span)
请注意,本次评测主要关注于信息的抽取,而非标注。因此,对于同一段文本中出现多次的相同信息,我们将去重后进行评价。例如,对于同一段输入文本中出现有多次相同的特定实体,模型仅需要输出一个二元组即可,输出多个相同的二元组,评价脚本将自动去重。
评价指标

总体打分

经验
慢慢的将这个比赛挖掘透彻,通过问题形式完成该比赛一个月完成一个都是进步,慢慢的积累自己的比赛经验。
相关文章:
千言数据集赛题介绍
赛题题目 通用信息抽取任务评测 将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力。 赛题介绍 信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础…...
信息技术最全总结(备考教资)
信息技术 备考教资信息技术知识点总结,欢迎收藏!需要xmind和备考书籍的可以评论区留言。 第一部分-学科专业知识 第一章-信息技术基础知识 信息与信息技术概述 信息概述 信息的定义 信息本身不是实体信息是通过文字、数字、图像、图形、声音、视频等方…...
opencv识别车道线(霍夫线变换)
目录1、前言2、霍夫线变换2.1、霍夫线变换是什么?2.2、在opencv中的基本用法2.2.1、HoughLinesP函数定义2.2.2、用法3、识别车道3.1、优化3.1.1、降噪3.1.2、过滤方向3.1.3、截选区域3.1.4、测试其它图片图片1图片2图片31、前言 最近学习opencv学到了霍夫线变换&am…...
MySQL的同步数据Replication功能
MySQL提供了Replication功能,可以实现将一个数据库的数据同步到多台其他数据库。前者通常称之为主库(master),后者则被称从库(slave)。MySQL复制过程采用异步方式,但延时非常小,秒级…...
2023年全国最新高校辅导员精选真题及答案17
百分百题库提供高校辅导员考试试题、辅导员考试预测题、高校辅导员考试真题、辅导员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 21.完善大学生的自我意识,我们可以采取的措施是()。 …...
中文代码92
PK 嘚釦 docProps/PK 嘚釦諿hl | docProps/app.xml漅Mo?糤?皘幅H??Q州濾mじ沜咅K宩Z5~q矹阶浇?灭貄}鰜>hk?i灐Q墩娲蝊毲b檊!J邮?\鏶 鵉苻牢[?j Y?a漺1簕B傟p悺L睮恃鶤?龎劂Q|瓣} A??苷0???5m?髤咄佶?\/#姧1N_??熹 冟.琽僠糧固Pw襅…...
Python SEO采集海量文本标题,用倒排索引找出“类似的标题“代码实现
Python SEO采集海量文本标题,用倒排索引找出“类似的标题“代码实现 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 一、说明 假设这个是采集到的海量文本标题: 现在要判断找到的这个标题 title = "拜登称特朗普拒绝承认选举…...
模型杂谈:快速上手元宇宙大厂 Meta “开源泄露”的大模型(LLaMA)
本篇文章聊聊如何低成本快速上手使用 Meta(Facebook)的开源模型 LLaMA。 写在前面 在积累点赞,兑现朋友提供的显卡算力之前,我们先来玩玩“小号的”大模型吧。我相信 2023 年了,应该不需要再赘述如何使用 Docker 干净…...
RedisCluster集群模式下master宕机主从切换期间Lettuce连接Redis无法使用报错Redis command timed out的问题
背景springboot使用redisTemplate访问redis cluster(三主三从),底层是Lettuce,当其中一个master挂掉后,slave正常升为master,程序报错 Redis commond timed out after 6 seconds。解决手动连接集群…...
Xuetr杀毒工具使用实验(28)
实验目的 (1)学习Xuetr的基本功能; (2)掌握Xuetr的基本使用方法。预备知识 windows操作系统的基本知识如:进程、网络、服务和文件等的了解。 XueTr是近年推出的一款广受好评的ARK工具。ARK工具全称为Anti R…...
fastapi(https)+openssl+测试(双向校验)
第一步生成根证书 # Generate CA private key openssl genrsa -out ca.key 2048 # Generate CSR openssl req -new -key ca.key -out ca.csr # Generate Self Signed certificate(CA 根证书) openssl x509 -req -days 365 -in ca.csr -signkey ca.key -o…...
TiDB Server
文章目录TiDB Server架构TiDB Server作用TiDB Server的进程SQL语句的解析和编译SQL读写相关模块在线DDL相关模块GC机制与相关模块TiDB Server的缓存热点小表缓存TiDB Server架构 Protocol Layer、Parse、Compile负责sql语句的解析编译和优化,然后生成sql语句执行计划…...
S3C2440移植Linux4.19.275内核以及过程中遇到的问题
目录 1 问题一:内核移植时MTD分区问题 2 问题二:uboot的MTDPARTS_DEFAULT定义的MTD分区,bootargs中的文件系统分区,内核的mtd_partition smdk_default_nand_part定义的分区,三者要对应起来 3 问题三:ubo…...
解忧杂货铺(二):UML时序图
目录 1、概述 2、UML时序图 2.1、什么是时序图 2.2、时序图的元素 2.2.1 角色(Actor) 2.2.2 对象(Object) 2.2.3 生命线(LifeLine) 2.2.4 控制焦点(Activation) 2.2.5 消息(Message) 2.2.6 自关联消息 2.2.7 组合片段 1、概述 在看AUTOSAR规范的时候发现时序图里面的…...
微信小程序的代码由哪些结构组成?
小程序官方建议把所有小程序的页面,都存放在pages 目录中,以单独的文件夹存在,如图所示: 其中,每个页面由4 个基本文件组成,它们分别是:js文件(页面的脚本文件,存放页面的数据、事件…...
Cloud Kernel SIG月度动态:发布 ANCK 新版本及 Plugsched v1.2.0
Cloud Kernel SIG(Special Interest Group):支撑龙蜥内核版本的研发、发布和服务,提供生产可用的高性价比内核产品。 01 2 月 SIG 整体进展 发布 ANCK 4.19.91-27.1 版本。 发布 ANCK 5.10.134-13.1 版本。 调度器热升级相关事…...
Jedis 使用详解(官方原版)
一、配置 Maven 依赖项Jedis也通过Sonatype作为Maven Dependency 分发。要配置它,只需将以下 XML 代码段添加到您的 pom.xml 文件中。<dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>2.…...
关于Pytorch中的张量学习
关于Pytorch中的张量学习 张量的概念和创建 张量的概念 Tensor是pytorch中非常重要且常见的数据结构,相较于numpy数组,Tensor能加载到GPU中,从而有效地利用GPU进行加速计算。但是普通的Tensor对于构建神经网络还远远不够,我们需…...
基于Transformer的目标检测算法学习记录
前言 本文主要通过阅读相关论文了解当前Transformer在目标检测领域的应用与发展。 谷歌在 ICLR2020 上提出的 ViT(Vision Transformer)是将 Transformer 应用在视觉领域的先驱。从此,打开了Transformer进入CV领域的桥梁,NLP与CV几…...
嵌入式学习笔记——使用寄存器编程实现按键输入功能
文章目录前言模块介绍原理图编程思路前言 昨天,通过配置通用输出模式,实现了LED灯的点亮、熄灭以及流水等操作,解决了通用输出的问题,今天我们再借用最常见的输入模块,按键来实现一个按键控制LED的功能,重…...
vscode里如何用git
打开vs终端执行如下: 1 初始化 Git 仓库(如果尚未初始化) git init 2 添加文件到 Git 仓库 git add . 3 使用 git commit 命令来提交你的更改。确保在提交时加上一个有用的消息。 git commit -m "备注信息" 4 …...
基于距离变化能量开销动态调整的WSN低功耗拓扑控制开销算法matlab仿真
目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.算法仿真参数 5.算法理论概述 6.参考文献 7.完整程序 1.程序功能描述 通过动态调整节点通信的能量开销,平衡网络负载,延长WSN生命周期。具体通过建立基于距离的能量消耗模型&am…...
Java如何权衡是使用无序的数组还是有序的数组
在 Java 中,选择有序数组还是无序数组取决于具体场景的性能需求与操作特点。以下是关键权衡因素及决策指南: ⚖️ 核心权衡维度 维度有序数组无序数组查询性能二分查找 O(log n) ✅线性扫描 O(n) ❌插入/删除需移位维护顺序 O(n) ❌直接操作尾部 O(1) ✅内存开销与无序数组相…...
HTML 列表、表格、表单
1 列表标签 作用:布局内容排列整齐的区域 列表分类:无序列表、有序列表、定义列表。 例如: 1.1 无序列表 标签:ul 嵌套 li,ul是无序列表,li是列表条目。 注意事项: ul 标签里面只能包裹 li…...
跨链模式:多链互操作架构与性能扩展方案
跨链模式:多链互操作架构与性能扩展方案 ——构建下一代区块链互联网的技术基石 一、跨链架构的核心范式演进 1. 分层协议栈:模块化解耦设计 现代跨链系统采用分层协议栈实现灵活扩展(H2Cross架构): 适配层…...
微信小程序云开发平台MySQL的连接方式
注:微信小程序云开发平台指的是腾讯云开发 先给结论:微信小程序云开发平台的MySQL,无法通过获取数据库连接信息的方式进行连接,连接只能通过云开发的SDK连接,具体要参考官方文档: 为什么? 因为…...
return this;返回的是谁
一个审批系统的示例来演示责任链模式的实现。假设公司需要处理不同金额的采购申请,不同级别的经理有不同的审批权限: // 抽象处理者:审批者 abstract class Approver {protected Approver successor; // 下一个处理者// 设置下一个处理者pub…...
莫兰迪高级灰总结计划简约商务通用PPT模版
莫兰迪高级灰总结计划简约商务通用PPT模版,莫兰迪调色板清新简约工作汇报PPT模版,莫兰迪时尚风极简设计PPT模版,大学生毕业论文答辩PPT模版,莫兰迪配色总结计划简约商务通用PPT模版,莫兰迪商务汇报PPT模版,…...
MySQL:分区的基本使用
目录 一、什么是分区二、有什么作用三、分类四、创建分区五、删除分区 一、什么是分区 MySQL 分区(Partitioning)是一种将单张表的数据逻辑上拆分成多个物理部分的技术。这些物理部分(分区)可以独立存储、管理和优化,…...
MySQL 主从同步异常处理
阅读原文:https://www.xiaozaoshu.top/articles/mysql-m-s-update-pk MySQL 做双主,遇到的这个错误: Could not execute Update_rows event on table ... Error_code: 1032是 MySQL 主从复制时的经典错误之一,通常表示ÿ…...
