千言数据集赛题介绍
赛题题目
通用信息抽取任务评测
将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力。
赛题介绍
信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础技术和重要研究领域。一直受到学术界和工业界的广泛关注。传统的信息抽取任务与评测通常针对特定的文本领域和单一的抽取任务。难以评估相关技术与方法在通用场景和任务下的抽取性能。
为此,中国科学院软件研究所,百度公司与千言开源数据集项目联合发起业界首个通用信息抽取评测。千言通用信息抽取竞赛
本榜单是千言通用信息抽取的常规赛版本。面对NLP开发者长期报名和提交。不设置截止提交时间,任务设置与该竞赛保持一致**:不局限于传统的单任务信息抽取的评测范式,而是将多种不同的信息抽取任务用统一的通用框架进行描述**,着重考察相关技术方法在面对新的、未知的信息抽取任务与范式时的适应与迁移能力,从而满足当下信息抽取领域快速迭代、快速迁移的实际需求,更贴近实际业务应用。
————————————————————————
信息抽取任务旨在根据特定的抽取需求从非结构化文本中自动抽取结构化信息。其中,特定的抽取需求是指抽取任务中的抽取框架,抽要由抽取类别(人物名称、公司名称、企业上市事件)及目标结构(实体、关系、事件等)组成。本任务为中文信息抽取任务,即按照特定的抽取框架sss,从给定的一组自由文本xxx中,抽取出所有符合抽取需求的信息结构YYY.(实体、关系、事件记录等)对于同一输入文本,不同的抽取框架会抽取不同的信息结构,如下:
抽取框架示例:金融事件抽取
输入文本text
宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市。
抽取需求

事件定义
企业通过证券交易所首次公开向投资者增发股票,以期募集用于企业发展资金的过程。
<上市企业> 于 <上市时间> 在 <上市板块> 上市,一共融资 <融资金额>。
论元定义
- 上市企业:是指所发行的股票经过国务院或者国务院授权的证券管理部门批准在证券交易所上市交易的股份有限公司。
- 上市时间:指证券管理部门在证券交易所上市交易的时间
- 上市板块:是指主板、中小板、创业板、其他。
- 融资金额:是指上市企业通过“上市”这一行为融到的总资本
——————————————————————

抽取框架示例2 东奥事件抽取
输入文本text
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!
抽取需求



抽取框架3人物信息
输入文本
2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!
抽取需求

示例输出3

示例框架4:对话情感抽取



数据集介绍
本评测的数据及抽取框架主要来自于千言数据平台和百度通用信息抽取的应用案例,本文评测构建了多领域多场景下的多种抽取框架,包含医疗、法律、金融等领域和实体抽取、关系抽取、事件抽取等多种抽取任务。以期评测现有技术对通用领域下的信息抽取能力以及对新任务、场景的迁移能力。参赛者可以通过已有模型以及千言平台,公开课获得的数据集进行快速数据构建和现有模型的迁移。
同时评测鼓励参赛者使用公开的可获取的数据集和知识库数据通过半监督、远距离监督等形式构建训练数据。
数据集组成主要包含两个部分:
- 6个Seen Schema(已知框架)
- 主要来自千言平台与AI Studio平台上可获取的数据,参赛者可根据平台数据构建模型,该赛道主要评测现有技术基于标记数据构建模型的能力。
- 4个Unseen Schema(未知框架)
- 主要来自百度数据的抽取案例,评测方仅提供少量的验证数据,用与参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力
本次评测数据分为三次发布:
- 主要来自百度数据的抽取案例,评测方仅提供少量的验证数据,用与参赛者进行抽取需求确认和模型验证,该赛道主要评测现有技术面向新的抽取需求的迁移能力
- Seen Schema定义文件、验证数据。 该部分数据主要来源于千言数据集平台中的各类数据。每一个Schema 包含结构和类型定义,并提供少量验证数据。验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
- Unseen Schema定义和少量对应的验证数据。 每一个Schema 包**含结构和类型定义,并提供少量验证数据。**验证数据用于帮助参赛选手确认标注规范(例如标注边界等)。
- 测试集数据(最终测试集)。 参赛者需要对纯文本数据及对应的抽取需求(同时包含seen和unseen)进行信息抽取,最后提交抽取结果。
数据说明
抽取框架定义
抽取框架定义文件为YAML格式,包含了不同任务的抽取形式和标签定义。每个抽取框架文件包含实体、关系和事件等定义信息。

训练集文件
不同抽取框架的训练集文件为一个jsonlines文件,文件中的一行是一个训练实例,包含输入文本X,抽取框架S(schema)和目标结构Y(entity、relation、event)。数据样例如下:
{
“text”: “宁波容百新能源科技股份有限公司(简称“容百科技”,证券代码:688005)在科创板上市,实控人白厚善的资本术也浮出水面,也引来各路资本加持。”,
“entity”: [],
“relation”: [],
“event”: [
{
“type”: “上市”,
“text”: “上市”,
“args”: [
{“type”: “上市板块”, “offset”: [38, 39, 40], “text”: “科创板”},
{“type”: “上市企业”, “offset”: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14],
“text”: “宁波容百新能源科技股份有限公司”}
]
}
],
“schema”: “金融信息”
}
训练文件中每个实例包含的常用字段为
- text 输入文本
- scheme:对应的抽取框架
- entity 实体标注结果
- relation 关系标注结果
- event事件标注结果
测试集文件

测试文件中每个实例包含的常用字段
- text 输入文本
- scheme:对应的抽取框架
- id 抽取实例id
提交格式
模型预测结果以编码为UTF-8的jsonlines的文件格式提交到AI Studio,平台进行在线评分,实时排名。文件中一行为一个json对象,是一个实例的预测结果,样例如下所示。选手需针对所有测试样例提交结果,若无输出结果则目标结构(entity、relation、event)列表为空。
评测内容
本次大赛基于抽取系统从输入序列中抽取的输出记录进行评价。我们将不同范式的抽取任务统一表示成不同的多元组,并对集合去重的结果进行评价,评测脚本自动将提交格式中的输出结果转化为多元组并进行评价,评价形式可能包括二元组与三元组。
多元组中所涉及的基本元素包括:
-
文本块抽取结果span,(以字符串形式出现,不需要对应的offset)
-
表示类型的标签(例如:实体类型、事件类型)
-
表示关联关系的标签(例如:关系类型、事件论元类型)
具体来讲,评测的多元组具体包含: -
(Span,类型标签):代表性的抽取任务包括有实体抽取任务(实体提及span,实体类型)、事件触发词识别任务(触发词span,事件类型)
-
(关联关系标签,Span1,Span2):代表性的抽取任务包括有关系抽取任务(关系类型, 主体span, 客体span)、情感三元组(情感极性,意见对象span,情感表达span)
-
(类型标签,关联关系标签,Span):代表性的抽取任务包括有事件论元识别(事件类型,论元角色,论元span)
请注意,本次评测主要关注于信息的抽取,而非标注。因此,对于同一段文本中出现多次的相同信息,我们将去重后进行评价。例如,对于同一段输入文本中出现有多次相同的特定实体,模型仅需要输出一个二元组即可,输出多个相同的二元组,评价脚本将自动去重。
评价指标

总体打分

经验
慢慢的将这个比赛挖掘透彻,通过问题形式完成该比赛一个月完成一个都是进步,慢慢的积累自己的比赛经验。
相关文章:
千言数据集赛题介绍
赛题题目 通用信息抽取任务评测 将多种不同的信息抽取任务用统一的通用框架进行描述,着重考察相关技术方面在面对新的、未知的信息抽取任务与范式时的适应和迁移能力。 赛题介绍 信息抽取旨在将非结构化文本中的信息进行结构化,是自然语言处理的基础…...
信息技术最全总结(备考教资)
信息技术 备考教资信息技术知识点总结,欢迎收藏!需要xmind和备考书籍的可以评论区留言。 第一部分-学科专业知识 第一章-信息技术基础知识 信息与信息技术概述 信息概述 信息的定义 信息本身不是实体信息是通过文字、数字、图像、图形、声音、视频等方…...
opencv识别车道线(霍夫线变换)
目录1、前言2、霍夫线变换2.1、霍夫线变换是什么?2.2、在opencv中的基本用法2.2.1、HoughLinesP函数定义2.2.2、用法3、识别车道3.1、优化3.1.1、降噪3.1.2、过滤方向3.1.3、截选区域3.1.4、测试其它图片图片1图片2图片31、前言 最近学习opencv学到了霍夫线变换&am…...
MySQL的同步数据Replication功能
MySQL提供了Replication功能,可以实现将一个数据库的数据同步到多台其他数据库。前者通常称之为主库(master),后者则被称从库(slave)。MySQL复制过程采用异步方式,但延时非常小,秒级…...
2023年全国最新高校辅导员精选真题及答案17
百分百题库提供高校辅导员考试试题、辅导员考试预测题、高校辅导员考试真题、辅导员证考试题库等,提供在线做题刷题,在线模拟考试,助你考试轻松过关。 21.完善大学生的自我意识,我们可以采取的措施是()。 …...
中文代码92
PK 嘚釦 docProps/PK 嘚釦諿hl | docProps/app.xml漅Mo?糤?皘幅H??Q州濾mじ沜咅K宩Z5~q矹阶浇?灭貄}鰜>hk?i灐Q墩娲蝊毲b檊!J邮?\鏶 鵉苻牢[?j Y?a漺1簕B傟p悺L睮恃鶤?龎劂Q|瓣} A??苷0???5m?髤咄佶?\/#姧1N_??熹 冟.琽僠糧固Pw襅…...
Python SEO采集海量文本标题,用倒排索引找出“类似的标题“代码实现
Python SEO采集海量文本标题,用倒排索引找出“类似的标题“代码实现 作者:虚坏叔叔 博客:https://xuhss.com 早餐店不会开到晚上,想吃的人早就来了!😄 一、说明 假设这个是采集到的海量文本标题: 现在要判断找到的这个标题 title = "拜登称特朗普拒绝承认选举…...
模型杂谈:快速上手元宇宙大厂 Meta “开源泄露”的大模型(LLaMA)
本篇文章聊聊如何低成本快速上手使用 Meta(Facebook)的开源模型 LLaMA。 写在前面 在积累点赞,兑现朋友提供的显卡算力之前,我们先来玩玩“小号的”大模型吧。我相信 2023 年了,应该不需要再赘述如何使用 Docker 干净…...
RedisCluster集群模式下master宕机主从切换期间Lettuce连接Redis无法使用报错Redis command timed out的问题
背景springboot使用redisTemplate访问redis cluster(三主三从),底层是Lettuce,当其中一个master挂掉后,slave正常升为master,程序报错 Redis commond timed out after 6 seconds。解决手动连接集群…...
Xuetr杀毒工具使用实验(28)
实验目的 (1)学习Xuetr的基本功能; (2)掌握Xuetr的基本使用方法。预备知识 windows操作系统的基本知识如:进程、网络、服务和文件等的了解。 XueTr是近年推出的一款广受好评的ARK工具。ARK工具全称为Anti R…...
fastapi(https)+openssl+测试(双向校验)
第一步生成根证书 # Generate CA private key openssl genrsa -out ca.key 2048 # Generate CSR openssl req -new -key ca.key -out ca.csr # Generate Self Signed certificate(CA 根证书) openssl x509 -req -days 365 -in ca.csr -signkey ca.key -o…...
TiDB Server
文章目录TiDB Server架构TiDB Server作用TiDB Server的进程SQL语句的解析和编译SQL读写相关模块在线DDL相关模块GC机制与相关模块TiDB Server的缓存热点小表缓存TiDB Server架构 Protocol Layer、Parse、Compile负责sql语句的解析编译和优化,然后生成sql语句执行计划…...
S3C2440移植Linux4.19.275内核以及过程中遇到的问题
目录 1 问题一:内核移植时MTD分区问题 2 问题二:uboot的MTDPARTS_DEFAULT定义的MTD分区,bootargs中的文件系统分区,内核的mtd_partition smdk_default_nand_part定义的分区,三者要对应起来 3 问题三:ubo…...
解忧杂货铺(二):UML时序图
目录 1、概述 2、UML时序图 2.1、什么是时序图 2.2、时序图的元素 2.2.1 角色(Actor) 2.2.2 对象(Object) 2.2.3 生命线(LifeLine) 2.2.4 控制焦点(Activation) 2.2.5 消息(Message) 2.2.6 自关联消息 2.2.7 组合片段 1、概述 在看AUTOSAR规范的时候发现时序图里面的…...
微信小程序的代码由哪些结构组成?
小程序官方建议把所有小程序的页面,都存放在pages 目录中,以单独的文件夹存在,如图所示: 其中,每个页面由4 个基本文件组成,它们分别是:js文件(页面的脚本文件,存放页面的数据、事件…...
Cloud Kernel SIG月度动态:发布 ANCK 新版本及 Plugsched v1.2.0
Cloud Kernel SIG(Special Interest Group):支撑龙蜥内核版本的研发、发布和服务,提供生产可用的高性价比内核产品。 01 2 月 SIG 整体进展 发布 ANCK 4.19.91-27.1 版本。 发布 ANCK 5.10.134-13.1 版本。 调度器热升级相关事…...
Jedis 使用详解(官方原版)
一、配置 Maven 依赖项Jedis也通过Sonatype作为Maven Dependency 分发。要配置它,只需将以下 XML 代码段添加到您的 pom.xml 文件中。<dependency><groupId>redis.clients</groupId><artifactId>jedis</artifactId><version>2.…...
关于Pytorch中的张量学习
关于Pytorch中的张量学习 张量的概念和创建 张量的概念 Tensor是pytorch中非常重要且常见的数据结构,相较于numpy数组,Tensor能加载到GPU中,从而有效地利用GPU进行加速计算。但是普通的Tensor对于构建神经网络还远远不够,我们需…...
基于Transformer的目标检测算法学习记录
前言 本文主要通过阅读相关论文了解当前Transformer在目标检测领域的应用与发展。 谷歌在 ICLR2020 上提出的 ViT(Vision Transformer)是将 Transformer 应用在视觉领域的先驱。从此,打开了Transformer进入CV领域的桥梁,NLP与CV几…...
嵌入式学习笔记——使用寄存器编程实现按键输入功能
文章目录前言模块介绍原理图编程思路前言 昨天,通过配置通用输出模式,实现了LED灯的点亮、熄灭以及流水等操作,解决了通用输出的问题,今天我们再借用最常见的输入模块,按键来实现一个按键控制LED的功能,重…...
(十)学生端搭建
本次旨在将之前的已完成的部分功能进行拼装到学生端,同时完善学生端的构建。本次工作主要包括: 1.学生端整体界面布局 2.模拟考场与部分个人画像流程的串联 3.整体学生端逻辑 一、学生端 在主界面可以选择自己的用户角色 选择学生则进入学生登录界面…...
电脑插入多块移动硬盘后经常出现卡顿和蓝屏
当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...
高危文件识别的常用算法:原理、应用与企业场景
高危文件识别的常用算法:原理、应用与企业场景 高危文件识别旨在检测可能导致安全威胁的文件,如包含恶意代码、敏感数据或欺诈内容的文档,在企业协同办公环境中(如Teams、Google Workspace)尤为重要。结合大模型技术&…...
深入解析C++中的extern关键字:跨文件共享变量与函数的终极指南
🚀 C extern 关键字深度解析:跨文件编程的终极指南 📅 更新时间:2025年6月5日 🏷️ 标签:C | extern关键字 | 多文件编程 | 链接与声明 | 现代C 文章目录 前言🔥一、extern 是什么?&…...
(转)什么是DockerCompose?它有什么作用?
一、什么是DockerCompose? DockerCompose可以基于Compose文件帮我们快速的部署分布式应用,而无需手动一个个创建和运行容器。 Compose文件是一个文本文件,通过指令定义集群中的每个容器如何运行。 DockerCompose就是把DockerFile转换成指令去运行。 …...
C++八股 —— 单例模式
文章目录 1. 基本概念2. 设计要点3. 实现方式4. 详解懒汉模式 1. 基本概念 线程安全(Thread Safety) 线程安全是指在多线程环境下,某个函数、类或代码片段能够被多个线程同时调用时,仍能保证数据的一致性和逻辑的正确性…...
OPENCV形态学基础之二腐蚀
一.腐蚀的原理 (图1) 数学表达式:dst(x,y) erode(src(x,y)) min(x,y)src(xx,yy) 腐蚀也是图像形态学的基本功能之一,腐蚀跟膨胀属于反向操作,膨胀是把图像图像变大,而腐蚀就是把图像变小。腐蚀后的图像变小变暗淡。 腐蚀…...
Mobile ALOHA全身模仿学习
一、题目 Mobile ALOHA:通过低成本全身远程操作学习双手移动操作 传统模仿学习(Imitation Learning)缺点:聚焦与桌面操作,缺乏通用任务所需的移动性和灵活性 本论文优点:(1)在ALOHA…...
管理学院权限管理系统开发总结
文章目录 🎓 管理学院权限管理系统开发总结 - 现代化Web应用实践之路📝 项目概述🏗️ 技术架构设计后端技术栈前端技术栈 💡 核心功能特性1. 用户管理模块2. 权限管理系统3. 统计报表功能4. 用户体验优化 🗄️ 数据库设…...
Python基于历史模拟方法实现投资组合风险管理的VaR与ES模型项目实战
说明:这是一个机器学习实战项目(附带数据代码文档),如需数据代码文档可以直接到文章最后关注获取。 1.项目背景 在金融市场日益复杂和波动加剧的背景下,风险管理成为金融机构和个人投资者关注的核心议题之一。VaR&…...
