当前位置: 首页 > news >正文

conll-2012-formatted-ontonotes-5.0中文数据格式说明

CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。

CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:


bc/cnn/00/cnn_0000   0    0           而且    AD         (TOP(IP(ADVP*)  -    -   -    Paula_Zahn_#1E         *    (ARGM-DIS*)            *      -
bc/cnn/00/cnn_0000   0    1         国防部长    NN               (NP(NP*)  -    -   -    Paula_Zahn_#1E         *        (ARG0*             *   (195
bc/cnn/00/cnn_0000   0    2    唐纳德·拉姆斯菲尔    NR                 (NP*))  -    -   -    Paula_Zahn_#1E   (PERSON)            *)            *    195)
bc/cnn/00/cnn_0000   0    3            说    VV                  (VP*   -   01   7    Paula_Zahn_#1E         *           (V*)            *      -
bc/cnn/00/cnn_0000   0    4            更    AD   (IP(NP(DNP(QP(ADVP*)  -    -   -    Paula_Zahn_#1E         *        (ARG1*        (ARG0*   (247
bc/cnn/00/cnn_0000   0    5            多    CD                 (QP*))  -    -   3    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    6            的   DEG                     *)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0    7           美国    NR                  (NP*)  -    -   -    Paula_Zahn_#1E     (NORP)            *             *      -
bc/cnn/00/cnn_0000   0    8           士兵    NN                 (NP*))  -    -   -    Paula_Zahn_#1E         *             *             *)   247)
bc/cnn/00/cnn_0000   0    9           可能    AD             (VP(ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   10           不久    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-TMP*)     -
bc/cnn/00/cnn_0000   0   11            将    AD                (ADVP*)  -    -   -    Paula_Zahn_#1E         *             *    (ARGM-ADV*)     -
bc/cnn/00/cnn_0000   0   12           启程    VV               (VP(VP*)  -    -   -    Paula_Zahn_#1E         *             *             *      -
bc/cnn/00/cnn_0000   0   13           前往    VV                  (VP*   -   01   -    Paula_Zahn_#1E         *             *           (V*)     -
bc/cnn/00/cnn_0000   0   14          伊拉克    NR             (NP*))))))  -    -   -    Paula_Zahn_#1E      (LOC)            *)       (ARG1*)     -
bc/cnn/00/cnn_0000   0   15            .    PU                    *))  -    -   -    Paula_Zahn_#1E         *             *             *      -bc/cnn/00/cnn_0000   0    0       他    PN      (TOP(IP(NP*)  -    -   -    Paula_Zahn_#1E       *    (ARG0*)            *         *        *      *      *    (195)
bc/cnn/00/cnn_0000   0    1       说    VV             (VP*   -   01   7    Paula_Zahn_#1E       *       (V*)            *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    2       将    AD     (IP(VP(ADVP*)  -    -   -    Paula_Zahn_#1E       *    (ARG1*    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    3      暂时    AD           (ADVP*)  -    -   -    Paula_Zahn_#1E       *         *    (ARGM-ADV*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    4      需要    VV             (VP*   -   02   1    Paula_Zahn_#1E       *         *           (V*)        *        *      *      *       -
bc/cnn/00/cnn_0000   0    5      他们    PN          (IP(NP*)  -    -   -    Paula_Zahn_#1E       *         *        (ARG1*    (ARG0*)       *      *      *    (247)
bc/cnn/00/cnn_0000   0    6       来   MSP             (VP*   -    -   7    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0    7      防止    VV             (VP*   -   01   -    Paula_Zahn_#1E       *         *             *       (V*)       *      *      *       -
bc/cnn/00/cnn_0000   0    8    十二月份    NT   (NP(LCP(NP(NP*)  -    -   -    Paula_Zahn_#1E   (DATE)        *             *    (ARG1*        *      *      *       -
bc/cnn/00/cnn_0000   0    9     伊拉克    NR             (NP*)  -    -   -    Paula_Zahn_#1E   (ORG*         *             *         *        *      *      *    (206)
bc/cnn/00/cnn_0000   0   10      国会    NN             (NP*   -    -   -    Paula_Zahn_#1E       *)        *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   11      选举    NN               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   12       前    LC                *)  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   13      预料    VV    (CP(CP(IP(VP*   -   01   -    Paula_Zahn_#1E       *         *             *         *      (V*)     *      *       -
bc/cnn/00/cnn_0000   0   14       会    VV          (IP(VP*   -   02   -    Paula_Zahn_#1E       *         *             *         *   (ARG1*    (V*)     *       -
bc/cnn/00/cnn_0000   0   15      增长    VV         (VP*)))))  -   01   1    Paula_Zahn_#1E       *         *             *         *        *)     *    (V*)      -
bc/cnn/00/cnn_0000   0   16       的   DEC               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   17      叛乱    NN             (NP*   -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -
bc/cnn/00/cnn_0000   0   18      袭击    NN        *)))))))))  -    -   -    Paula_Zahn_#1E       *         *)            *)        *)       *      *      *       -
bc/cnn/00/cnn_0000   0   19       .    PU               *))  -    -   -    Paula_Zahn_#1E       *         *             *         *        *      *      *       -

每列的含义为:

      第一列是文件名。

      第二列是文档片段iid,大部分是0。

     后面几列为:

  1. Word index: 句子中的词索引。
  2. Word form: 词的原形。
  3. Part-of-Speech tag: 词性标签。
  4. Parse tree: 句法分析树的部分信息。
  5. Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
  6. Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
  7. Word sense: 词的语义编号,如果适用的话。
  8. Speaker/Author: 说话者或作者。
  9. Named Entities: 命名实体标记。
  10. Predicate Arguments: 与谓词相关的语义角色标注。
  11. Coreference: 共指解析标记。

其中,共指标记中,相同数字的表示同一指代簇。

/cctv/00/cctv_0000   0    4    熟知    VV         (VP*)))))  -   01   -   Speaker#1       *       (V*)           *         *      -
bc/cctv/00/cctv_0000   0    5     的   DEC               *))  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0    6    卡通    NN             (NP*   -    -   -   Speaker#1       *         *            *         *    (82
bc/cctv/00/cctv_0000   0    7    形象    NN               *))  -    -   -   Speaker#1       *         *            *)        *     82)
bc/cctv/00/cctv_0000   0    8     以     P          (VP(PP*   -    -   -   Speaker#1       *         *   (ARGM-MNR*         *      -
bc/cctv/00/cctv_0000   0    9     其    PN          (NP(NP*)  -    -   -   Speaker#1       *         *            *         *    (82)
bc/cctv/00/cctv_0000   0   10    独有    JJ       (DNP(ADJP*)  -    -   -   Speaker#1       *         *            *         *      -
bc/cctv/00/cctv_0000   0   11     的   DEG                *)  -    -   -   Speaker#1       *         *            *         *      -

这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。

相关文章:

conll-2012-formatted-ontonotes-5.0中文数据格式说明

CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。 CoNLL-2012 数据格式通常包括多列&#xf…...

SpringBoot集成Seata分布式事务OpenFeign远程调用

Docker Desktop 安装Seata Server seata 本质上是一个服务,用docker安装更方便,配置默认:file docker run -d --name seata-server -p 8091:8091 -p 7091:7091 seataio/seata-server:2.0.0与SpringBoot集成 表结构 项目目录 dynamic和dyna…...

视觉检测系统,是否所有产品都可以进行视觉检测?

视觉检测系统作为一种先进的质检工具,虽然具有广泛的应用范围,但并非所有产品都适合进行视觉检测。本文将探讨视觉检测系统的适用范围及其局限性。 随着机器视觉技术的快速发展,视觉检测系统已广泛应用于各个行业,为产品质检提供…...

通过金山和微软虚拟打印机转换PDF文件,流程方法及优劣对比

文章目录 一、WPS/金山 PDF虚拟打印机1、常规流程2、PDF文件位置3、严重缺陷二、微软虚拟打印机Microsoft Print to Pdf1、安装流程2、微软虚拟打印机的优势一、WPS/金山 PDF虚拟打印机 1、常规流程 安装过WPS办公组件或金山PDF独立版的电脑,会有一个或两个WPS/金山 PDF虚拟…...

采用java+B/S开发的全套医院绩效考核系统源码springboot+mybaits 医院绩效考核系统优势

采用java开发的全套医院绩效考核系统源码springbootmybaits 医院绩效考核系统优势 医院绩效管理系统解决方案紧扣新医改形势下医院绩效管理的要求,以“工作量为基础的考核方案”为核心思想,结合患者满意度、服务质量、技术难度、工作效率、医德医风等管…...

驱动开发-用户空间和内核空间数据传输

1.用户空间-->内核空间&#xff08;写&#xff09; #include<linux/uaccess.h> int copy_from_user(void *to,const void __user volatile*from,unsigned long n) 函数功能&#xff1a;将用户空间数据拷贝到内核空间 参数&#xff1a; to&#xff1a;内核空间首地…...

【408精华知识】速看!各种排序的大总结!

文章目录 一、插入排序&#xff08;一&#xff09;直接插入排序&#xff08;二&#xff09;折半插入排序&#xff08;三&#xff09;希尔排序 二、交换排序&#xff08;一&#xff09;冒泡排序&#xff08;二&#xff09;快速排序 三、选择排序&#xff08;一&#xff09;简单选…...

【STM32 |程序实例】按键控制、光敏传感器控制蜂鸣器

目录 前言 按键控制LED 光敏传感器控制蜂鸣器 前言 上拉输入&#xff1a;若GPIO引脚配置为上拉输入模式&#xff0c;在默认情况下&#xff08;GPIO引脚无输入&#xff09;&#xff0c;读取的GPIO引脚数据为1&#xff0c;即高电平。 下拉输入&#xff1a;若GPIO引脚配置为下…...

Spring boot使用websocket实现在线聊天

maven依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spr…...

品牌设计理念和logo设计方法

一 品牌设计的目的 设计是为了传播&#xff0c;让传播速度更快&#xff0c;传播效率更高&#xff0c;减少宣传成本 二 什么是好的品牌设计 好的设计是为了让消费者更容易看懂、记住的设计&#xff0c; 从而辅助传播&#xff0c; 即 看得懂、记得住。 1 看得懂 就是让别人看懂…...

Python | Leetcode Python题解之第88题合并两个有序数组

题目&#xff1a; 题解&#xff1a; class Solution:def merge(self, nums1: List[int], m: int, nums2: List[int], n: int) -> None:"""Do not return anything, modify nums1 in-place instead."""p1, p2 m - 1, n - 1tail m n - 1whi…...

vscode新版本remotessh服务端报`GLIBC_2.28‘ not found解决方案

问题现象 通过vscode的remotessh插件连接老版本服务器&#xff08;如RHEL7&#xff0c;Centos7&#xff09;时&#xff0c;插件会报错&#xff0c;无法连接。 查看插件的错误日志可以看到类似如下的报错信息&#xff1a; dc96b837cf6bb4af9cd736aa3af08cf8279f7685/node: /li…...

盘他系列——oj!!!

1.Openjudge 网站: OpenJudge 2.洛谷 网站: 首页 - 洛谷 | 计算机科学教育新生态 3.环球OJ 网站: QOJ - QOJ.ac 4. 北京大学 OJ:Welcome To PKU JudgeOnline 5.自由OJ 网站: https://loj.ac/ 6.炼码 网站:LintCode 炼码 8.力扣 网站: 力扣 9.晴练网首页 - 晴练网...

洛谷 P2657 [SCOI2009] windy 数 题解 数位dp

[SCOI2009] windy 数 题目背景 windy 定义了一种 windy 数。 题目描述 不含前导零且相邻两个数字之差至少为 2 2 2 的正整数被称为 windy 数。windy 想知道&#xff0c;在 a a a 和 b b b 之间&#xff0c;包括 a a a 和 b b b &#xff0c;总共有多少个 windy 数&…...

Python爬虫入门:网络世界的宝藏猎人

今天阿佑将带你踏上Python的肩膀&#xff0c;成为一名网络世界的宝藏猎人&#xff01; 文章目录 1. 引言1.1 简述Python在爬虫领域的地位1.2 阐明学习网络基础对爬虫的重要性 2. 背景介绍2.1 Python语言的流行与适用场景2.2 网络通信基础概念及其在数据抓取中的角色 3. Python基…...

【NodeMCU实时天气时钟温湿度项目 6】解析天气信息JSON数据并显示在 TFT 屏幕上(心知天气版)

今天是第六专题&#xff0c;主要内容是&#xff1a;导入ArduinoJson功能库&#xff0c;借助该库解析从【心知天气】官网返回的JSON数据&#xff0c;并显示在 TFT 屏幕上。 如您需要了解其它专题的内容&#xff0c;请点击下面的链接。 第一专题内容&#xff0c;请参考&a…...

重构四要素:目的、对象、时机和方法

目录 1.引言 2.重构的目的:为什么重构(why) 3.重构的对象:到底重构什么(what) 4.重构的时机:什么时候重构(when) 5.重构的方法:应该如何重构(how) 6.思考题 1.引言 一些软件工程师对为什么要重构(why)、到底重构什么(what)、什么时候重构(when)应该如何重构(how)等问题的…...

基于Echarts的大数据可视化模板:服务器运营监控

目录 引言背景介绍研究现状与相关工作服务器运营监控技术综述服务器运营监控概述监控指标与数据采集可视化界面设计与实现数据存储与查询优化Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满足管理的特定需求模板功能与特性…...

Python3 笔记:Python的常量

常量&#xff08;constant&#xff09;&#xff1a;跟变量相对应&#xff0c;指第一次赋予值后就保持固定不变的值。 Python里面没有声明常量的关键字&#xff0c;其他语言像C/C/Java会有const修饰符&#xff0c;但Python没有。 Python中没有使用语法强制定义常量&#xff0c…...

【Linux】自动化构建工具make/Makefile和git介绍

&#x1f308;个人主页&#xff1a;秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343&#x1f525; 系列专栏&#xff1a;https://blog.csdn.net/qinjh_/category_12625432.html 目录 前言 Linux项目自动化构建工具-make/Makefile 举例 .PHONY 常见符号 依赖关系…...

conda相比python好处

Conda 作为 Python 的环境和包管理工具&#xff0c;相比原生 Python 生态&#xff08;如 pip 虚拟环境&#xff09;有许多独特优势&#xff0c;尤其在多项目管理、依赖处理和跨平台兼容性等方面表现更优。以下是 Conda 的核心好处&#xff1a; 一、一站式环境管理&#xff1a…...

云计算——弹性云计算器(ECS)

弹性云服务器&#xff1a;ECS 概述 云计算重构了ICT系统&#xff0c;云计算平台厂商推出使得厂家能够主要关注应用管理而非平台管理的云平台&#xff0c;包含如下主要概念。 ECS&#xff08;Elastic Cloud Server&#xff09;&#xff1a;即弹性云服务器&#xff0c;是云计算…...

FFmpeg 低延迟同屏方案

引言 在实时互动需求激增的当下&#xff0c;无论是在线教育中的师生同屏演示、远程办公的屏幕共享协作&#xff0c;还是游戏直播的画面实时传输&#xff0c;低延迟同屏已成为保障用户体验的核心指标。FFmpeg 作为一款功能强大的多媒体框架&#xff0c;凭借其灵活的编解码、数据…...

ssc377d修改flash分区大小

1、flash的分区默认分配16M、 / # df -h Filesystem Size Used Available Use% Mounted on /dev/root 1.9M 1.9M 0 100% / /dev/mtdblock4 3.0M...

UDP(Echoserver)

网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法&#xff1a;netstat [选项] 功能&#xff1a;查看网络状态 常用选项&#xff1a; n 拒绝显示别名&#…...

前端导出带有合并单元格的列表

// 导出async function exportExcel(fileName "共识调整.xlsx") {// 所有数据const exportData await getAllMainData();// 表头内容let fitstTitleList [];const secondTitleList [];allColumns.value.forEach(column > {if (!column.children) {fitstTitleL…...

【解密LSTM、GRU如何解决传统RNN梯度消失问题】

解密LSTM与GRU&#xff1a;如何让RNN变得更聪明&#xff1f; 在深度学习的世界里&#xff0c;循环神经网络&#xff08;RNN&#xff09;以其卓越的序列数据处理能力广泛应用于自然语言处理、时间序列预测等领域。然而&#xff0c;传统RNN存在的一个严重问题——梯度消失&#…...

sqlserver 根据指定字符 解析拼接字符串

DECLARE LotNo NVARCHAR(50)A,B,C DECLARE xml XML ( SELECT <x> REPLACE(LotNo, ,, </x><x>) </x> ) DECLARE ErrorCode NVARCHAR(50) -- 提取 XML 中的值 SELECT value x.value(., VARCHAR(MAX))…...

2025盘古石杯决赛【手机取证】

前言 第三届盘古石杯国际电子数据取证大赛决赛 最后一题没有解出来&#xff0c;实在找不到&#xff0c;希望有大佬教一下我。 还有就会议时间&#xff0c;我感觉不是图片时间&#xff0c;因为在电脑看到是其他时间用老会议系统开的会。 手机取证 1、分析鸿蒙手机检材&#x…...

WordPress插件:AI多语言写作与智能配图、免费AI模型、SEO文章生成

厌倦手动写WordPress文章&#xff1f;AI自动生成&#xff0c;效率提升10倍&#xff01; 支持多语言、自动配图、定时发布&#xff0c;让内容创作更轻松&#xff01; AI内容生成 → 不想每天写文章&#xff1f;AI一键生成高质量内容&#xff01;多语言支持 → 跨境电商必备&am…...