conll-2012-formatted-ontonotes-5.0中文数据格式说明
CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。
CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:
bc/cnn/00/cnn_0000 0 0 而且 AD (TOP(IP(ADVP*) - - - Paula_Zahn_#1E * (ARGM-DIS*) * -
bc/cnn/00/cnn_0000 0 1 国防部长 NN (NP(NP*) - - - Paula_Zahn_#1E * (ARG0* * (195
bc/cnn/00/cnn_0000 0 2 唐纳德·拉姆斯菲尔 NR (NP*)) - - - Paula_Zahn_#1E (PERSON) *) * 195)
bc/cnn/00/cnn_0000 0 3 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * -
bc/cnn/00/cnn_0000 0 4 更 AD (IP(NP(DNP(QP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARG0* (247
bc/cnn/00/cnn_0000 0 5 多 CD (QP*)) - - 3 Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 6 的 DEG *) - - - Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 7 美国 NR (NP*) - - - Paula_Zahn_#1E (NORP) * * -
bc/cnn/00/cnn_0000 0 8 士兵 NN (NP*)) - - - Paula_Zahn_#1E * * *) 247)
bc/cnn/00/cnn_0000 0 9 可能 AD (VP(ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
bc/cnn/00/cnn_0000 0 10 不久 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-TMP*) -
bc/cnn/00/cnn_0000 0 11 将 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
bc/cnn/00/cnn_0000 0 12 启程 VV (VP(VP*) - - - Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 13 前往 VV (VP* - 01 - Paula_Zahn_#1E * * (V*) -
bc/cnn/00/cnn_0000 0 14 伊拉克 NR (NP*)))))) - - - Paula_Zahn_#1E (LOC) *) (ARG1*) -
bc/cnn/00/cnn_0000 0 15 . PU *)) - - - Paula_Zahn_#1E * * * -bc/cnn/00/cnn_0000 0 0 他 PN (TOP(IP(NP*) - - - Paula_Zahn_#1E * (ARG0*) * * * * * (195)
bc/cnn/00/cnn_0000 0 1 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * * * * * -
bc/cnn/00/cnn_0000 0 2 将 AD (IP(VP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARGM-ADV*) * * * * -
bc/cnn/00/cnn_0000 0 3 暂时 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) * * * * -
bc/cnn/00/cnn_0000 0 4 需要 VV (VP* - 02 1 Paula_Zahn_#1E * * (V*) * * * * -
bc/cnn/00/cnn_0000 0 5 他们 PN (IP(NP*) - - - Paula_Zahn_#1E * * (ARG1* (ARG0*) * * * (247)
bc/cnn/00/cnn_0000 0 6 来 MSP (VP* - - 7 Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 7 防止 VV (VP* - 01 - Paula_Zahn_#1E * * * (V*) * * * -
bc/cnn/00/cnn_0000 0 8 十二月份 NT (NP(LCP(NP(NP*) - - - Paula_Zahn_#1E (DATE) * * (ARG1* * * * -
bc/cnn/00/cnn_0000 0 9 伊拉克 NR (NP*) - - - Paula_Zahn_#1E (ORG* * * * * * * (206)
bc/cnn/00/cnn_0000 0 10 国会 NN (NP* - - - Paula_Zahn_#1E *) * * * * * * -
bc/cnn/00/cnn_0000 0 11 选举 NN *)) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 12 前 LC *) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 13 预料 VV (CP(CP(IP(VP* - 01 - Paula_Zahn_#1E * * * * (V*) * * -
bc/cnn/00/cnn_0000 0 14 会 VV (IP(VP* - 02 - Paula_Zahn_#1E * * * * (ARG1* (V*) * -
bc/cnn/00/cnn_0000 0 15 增长 VV (VP*))))) - 01 1 Paula_Zahn_#1E * * * * *) * (V*) -
bc/cnn/00/cnn_0000 0 16 的 DEC *)) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 17 叛乱 NN (NP* - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 18 袭击 NN *))))))))) - - - Paula_Zahn_#1E * *) *) *) * * * -
bc/cnn/00/cnn_0000 0 19 . PU *)) - - - Paula_Zahn_#1E * * * * * * * -
每列的含义为:
第一列是文件名。
第二列是文档片段iid,大部分是0。
后面几列为:
- Word index: 句子中的词索引。
- Word form: 词的原形。
- Part-of-Speech tag: 词性标签。
- Parse tree: 句法分析树的部分信息。
- Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
- Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
- Word sense: 词的语义编号,如果适用的话。
- Speaker/Author: 说话者或作者。
- Named Entities: 命名实体标记。
- Predicate Arguments: 与谓词相关的语义角色标注。
- Coreference: 共指解析标记。
其中,共指标记中,相同数字的表示同一指代簇。
/cctv/00/cctv_0000 0 4 熟知 VV (VP*))))) - 01 - Speaker#1 * (V*) * * -
bc/cctv/00/cctv_0000 0 5 的 DEC *)) - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 6 卡通 NN (NP* - - - Speaker#1 * * * * (82
bc/cctv/00/cctv_0000 0 7 形象 NN *)) - - - Speaker#1 * * *) * 82)
bc/cctv/00/cctv_0000 0 8 以 P (VP(PP* - - - Speaker#1 * * (ARGM-MNR* * -
bc/cctv/00/cctv_0000 0 9 其 PN (NP(NP*) - - - Speaker#1 * * * * (82)
bc/cctv/00/cctv_0000 0 10 独有 JJ (DNP(ADJP*) - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 11 的 DEG *) - - - Speaker#1 * * * * -
这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。
相关文章:
conll-2012-formatted-ontonotes-5.0中文数据格式说明
CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。 CoNLL-2012 数据格式通常包括多列…...
SpringBoot集成Seata分布式事务OpenFeign远程调用
Docker Desktop 安装Seata Server seata 本质上是一个服务,用docker安装更方便,配置默认:file docker run -d --name seata-server -p 8091:8091 -p 7091:7091 seataio/seata-server:2.0.0与SpringBoot集成 表结构 项目目录 dynamic和dyna…...
视觉检测系统,是否所有产品都可以进行视觉检测?
视觉检测系统作为一种先进的质检工具,虽然具有广泛的应用范围,但并非所有产品都适合进行视觉检测。本文将探讨视觉检测系统的适用范围及其局限性。 随着机器视觉技术的快速发展,视觉检测系统已广泛应用于各个行业,为产品质检提供…...
通过金山和微软虚拟打印机转换PDF文件,流程方法及优劣对比
文章目录 一、WPS/金山 PDF虚拟打印机1、常规流程2、PDF文件位置3、严重缺陷二、微软虚拟打印机Microsoft Print to Pdf1、安装流程2、微软虚拟打印机的优势一、WPS/金山 PDF虚拟打印机 1、常规流程 安装过WPS办公组件或金山PDF独立版的电脑,会有一个或两个WPS/金山 PDF虚拟…...
采用java+B/S开发的全套医院绩效考核系统源码springboot+mybaits 医院绩效考核系统优势
采用java开发的全套医院绩效考核系统源码springbootmybaits 医院绩效考核系统优势 医院绩效管理系统解决方案紧扣新医改形势下医院绩效管理的要求,以“工作量为基础的考核方案”为核心思想,结合患者满意度、服务质量、技术难度、工作效率、医德医风等管…...
驱动开发-用户空间和内核空间数据传输
1.用户空间-->内核空间(写) #include<linux/uaccess.h> int copy_from_user(void *to,const void __user volatile*from,unsigned long n) 函数功能:将用户空间数据拷贝到内核空间 参数: to:内核空间首地…...
【408精华知识】速看!各种排序的大总结!
文章目录 一、插入排序(一)直接插入排序(二)折半插入排序(三)希尔排序 二、交换排序(一)冒泡排序(二)快速排序 三、选择排序(一)简单选…...
【STM32 |程序实例】按键控制、光敏传感器控制蜂鸣器
目录 前言 按键控制LED 光敏传感器控制蜂鸣器 前言 上拉输入:若GPIO引脚配置为上拉输入模式,在默认情况下(GPIO引脚无输入),读取的GPIO引脚数据为1,即高电平。 下拉输入:若GPIO引脚配置为下…...
Spring boot使用websocket实现在线聊天
maven依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spr…...
品牌设计理念和logo设计方法
一 品牌设计的目的 设计是为了传播,让传播速度更快,传播效率更高,减少宣传成本 二 什么是好的品牌设计 好的设计是为了让消费者更容易看懂、记住的设计, 从而辅助传播, 即 看得懂、记得住。 1 看得懂 就是让别人看懂…...
Python | Leetcode Python题解之第88题合并两个有序数组
题目: 题解: class Solution:def merge(self, nums1: List[int], m: int, nums2: List[int], n: int) -> None:"""Do not return anything, modify nums1 in-place instead."""p1, p2 m - 1, n - 1tail m n - 1whi…...
vscode新版本remotessh服务端报`GLIBC_2.28‘ not found解决方案
问题现象 通过vscode的remotessh插件连接老版本服务器(如RHEL7,Centos7)时,插件会报错,无法连接。 查看插件的错误日志可以看到类似如下的报错信息: dc96b837cf6bb4af9cd736aa3af08cf8279f7685/node: /li…...
盘他系列——oj!!!
1.Openjudge 网站: OpenJudge 2.洛谷 网站: 首页 - 洛谷 | 计算机科学教育新生态 3.环球OJ 网站: QOJ - QOJ.ac 4. 北京大学 OJ:Welcome To PKU JudgeOnline 5.自由OJ 网站: https://loj.ac/ 6.炼码 网站:LintCode 炼码 8.力扣 网站: 力扣 9.晴练网首页 - 晴练网...
洛谷 P2657 [SCOI2009] windy 数 题解 数位dp
[SCOI2009] windy 数 题目背景 windy 定义了一种 windy 数。 题目描述 不含前导零且相邻两个数字之差至少为 2 2 2 的正整数被称为 windy 数。windy 想知道,在 a a a 和 b b b 之间,包括 a a a 和 b b b ,总共有多少个 windy 数&…...
Python爬虫入门:网络世界的宝藏猎人
今天阿佑将带你踏上Python的肩膀,成为一名网络世界的宝藏猎人! 文章目录 1. 引言1.1 简述Python在爬虫领域的地位1.2 阐明学习网络基础对爬虫的重要性 2. 背景介绍2.1 Python语言的流行与适用场景2.2 网络通信基础概念及其在数据抓取中的角色 3. Python基…...
【NodeMCU实时天气时钟温湿度项目 6】解析天气信息JSON数据并显示在 TFT 屏幕上(心知天气版)
今天是第六专题,主要内容是:导入ArduinoJson功能库,借助该库解析从【心知天气】官网返回的JSON数据,并显示在 TFT 屏幕上。 如您需要了解其它专题的内容,请点击下面的链接。 第一专题内容,请参考&a…...
重构四要素:目的、对象、时机和方法
目录 1.引言 2.重构的目的:为什么重构(why) 3.重构的对象:到底重构什么(what) 4.重构的时机:什么时候重构(when) 5.重构的方法:应该如何重构(how) 6.思考题 1.引言 一些软件工程师对为什么要重构(why)、到底重构什么(what)、什么时候重构(when)应该如何重构(how)等问题的…...
基于Echarts的大数据可视化模板:服务器运营监控
目录 引言背景介绍研究现状与相关工作服务器运营监控技术综述服务器运营监控概述监控指标与数据采集可视化界面设计与实现数据存储与查询优化Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满足管理的特定需求模板功能与特性…...
Python3 笔记:Python的常量
常量(constant):跟变量相对应,指第一次赋予值后就保持固定不变的值。 Python里面没有声明常量的关键字,其他语言像C/C/Java会有const修饰符,但Python没有。 Python中没有使用语法强制定义常量,…...
【Linux】自动化构建工具make/Makefile和git介绍
🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:https://blog.csdn.net/qinjh_/category_12625432.html 目录 前言 Linux项目自动化构建工具-make/Makefile 举例 .PHONY 常见符号 依赖关系…...
VB.net复制Ntag213卡写入UID
本示例使用的发卡器:https://item.taobao.com/item.htm?ftt&id615391857885 一、读取旧Ntag卡的UID和数据 Private Sub Button15_Click(sender As Object, e As EventArgs) Handles Button15.Click轻松读卡技术支持:网站:Dim i, j As IntegerDim cardidhex, …...
黑马Mybatis
Mybatis 表现层:页面展示 业务层:逻辑处理 持久层:持久数据化保存 在这里插入图片描述 Mybatis快速入门  {int head 0;int end s.length - 1;while(head < end) {char temp …...
第一篇:Agent2Agent (A2A) 协议——协作式人工智能的黎明
AI 领域的快速发展正在催生一个新时代,智能代理(agents)不再是孤立的个体,而是能够像一个数字团队一样协作。然而,当前 AI 生态系统的碎片化阻碍了这一愿景的实现,导致了“AI 巴别塔问题”——不同代理之间…...
C# 类和继承(抽象类)
抽象类 抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。 不能创建抽象类的实例。抽象类使用abstract修饰符声明。 抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带 实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...
【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)
要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况,可以通过以下几种方式模拟或触发: 1. 增加CPU负载 运行大量计算密集型任务,例如: 使用多线程循环执行复杂计算(如数学运算、加密解密等)。运行图…...
【HarmonyOS 5 开发速记】如何获取用户信息(头像/昵称/手机号)
1.获取 authorizationCode: 2.利用 authorizationCode 获取 accessToken:文档中心 3.获取手机:文档中心 4.获取昵称头像:文档中心 首先创建 request 若要获取手机号,scope必填 phone,permissions 必填 …...
高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数
高效线程安全的单例模式:Python 中的懒加载与自定义初始化参数 在软件开发中,单例模式(Singleton Pattern)是一种常见的设计模式,确保一个类仅有一个实例,并提供一个全局访问点。在多线程环境下,实现单例模式时需要注意线程安全问题,以防止多个线程同时创建实例,导致…...
处理vxe-table 表尾数据是单独一个接口,表格tableData数据更新后,需要点击两下,表尾才是正确的
修改bug思路: 分别把 tabledata 和 表尾相关数据 console.log() 发现 更新数据先后顺序不对 settimeout延迟查询表格接口 ——测试可行 升级↑:async await 等接口返回后再开始下一个接口查询 ________________________________________________________…...
