conll-2012-formatted-ontonotes-5.0中文数据格式说明
CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。
CoNLL-2012 数据格式通常包括多列,每列包含不同类型的语言学信息。以下是一个典型的 CoNLL-2012 格式的例子,展示了它的列结构和类型:
bc/cnn/00/cnn_0000 0 0 而且 AD (TOP(IP(ADVP*) - - - Paula_Zahn_#1E * (ARGM-DIS*) * -
bc/cnn/00/cnn_0000 0 1 国防部长 NN (NP(NP*) - - - Paula_Zahn_#1E * (ARG0* * (195
bc/cnn/00/cnn_0000 0 2 唐纳德·拉姆斯菲尔 NR (NP*)) - - - Paula_Zahn_#1E (PERSON) *) * 195)
bc/cnn/00/cnn_0000 0 3 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * -
bc/cnn/00/cnn_0000 0 4 更 AD (IP(NP(DNP(QP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARG0* (247
bc/cnn/00/cnn_0000 0 5 多 CD (QP*)) - - 3 Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 6 的 DEG *) - - - Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 7 美国 NR (NP*) - - - Paula_Zahn_#1E (NORP) * * -
bc/cnn/00/cnn_0000 0 8 士兵 NN (NP*)) - - - Paula_Zahn_#1E * * *) 247)
bc/cnn/00/cnn_0000 0 9 可能 AD (VP(ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
bc/cnn/00/cnn_0000 0 10 不久 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-TMP*) -
bc/cnn/00/cnn_0000 0 11 将 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) -
bc/cnn/00/cnn_0000 0 12 启程 VV (VP(VP*) - - - Paula_Zahn_#1E * * * -
bc/cnn/00/cnn_0000 0 13 前往 VV (VP* - 01 - Paula_Zahn_#1E * * (V*) -
bc/cnn/00/cnn_0000 0 14 伊拉克 NR (NP*)))))) - - - Paula_Zahn_#1E (LOC) *) (ARG1*) -
bc/cnn/00/cnn_0000 0 15 . PU *)) - - - Paula_Zahn_#1E * * * -bc/cnn/00/cnn_0000 0 0 他 PN (TOP(IP(NP*) - - - Paula_Zahn_#1E * (ARG0*) * * * * * (195)
bc/cnn/00/cnn_0000 0 1 说 VV (VP* - 01 7 Paula_Zahn_#1E * (V*) * * * * * -
bc/cnn/00/cnn_0000 0 2 将 AD (IP(VP(ADVP*) - - - Paula_Zahn_#1E * (ARG1* (ARGM-ADV*) * * * * -
bc/cnn/00/cnn_0000 0 3 暂时 AD (ADVP*) - - - Paula_Zahn_#1E * * (ARGM-ADV*) * * * * -
bc/cnn/00/cnn_0000 0 4 需要 VV (VP* - 02 1 Paula_Zahn_#1E * * (V*) * * * * -
bc/cnn/00/cnn_0000 0 5 他们 PN (IP(NP*) - - - Paula_Zahn_#1E * * (ARG1* (ARG0*) * * * (247)
bc/cnn/00/cnn_0000 0 6 来 MSP (VP* - - 7 Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 7 防止 VV (VP* - 01 - Paula_Zahn_#1E * * * (V*) * * * -
bc/cnn/00/cnn_0000 0 8 十二月份 NT (NP(LCP(NP(NP*) - - - Paula_Zahn_#1E (DATE) * * (ARG1* * * * -
bc/cnn/00/cnn_0000 0 9 伊拉克 NR (NP*) - - - Paula_Zahn_#1E (ORG* * * * * * * (206)
bc/cnn/00/cnn_0000 0 10 国会 NN (NP* - - - Paula_Zahn_#1E *) * * * * * * -
bc/cnn/00/cnn_0000 0 11 选举 NN *)) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 12 前 LC *) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 13 预料 VV (CP(CP(IP(VP* - 01 - Paula_Zahn_#1E * * * * (V*) * * -
bc/cnn/00/cnn_0000 0 14 会 VV (IP(VP* - 02 - Paula_Zahn_#1E * * * * (ARG1* (V*) * -
bc/cnn/00/cnn_0000 0 15 增长 VV (VP*))))) - 01 1 Paula_Zahn_#1E * * * * *) * (V*) -
bc/cnn/00/cnn_0000 0 16 的 DEC *)) - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 17 叛乱 NN (NP* - - - Paula_Zahn_#1E * * * * * * * -
bc/cnn/00/cnn_0000 0 18 袭击 NN *))))))))) - - - Paula_Zahn_#1E * *) *) *) * * * -
bc/cnn/00/cnn_0000 0 19 . PU *)) - - - Paula_Zahn_#1E * * * * * * * -
每列的含义为:
第一列是文件名。
第二列是文档片段iid,大部分是0。
后面几列为:
- Word index: 句子中的词索引。
- Word form: 词的原形。
- Part-of-Speech tag: 词性标签。
- Parse tree: 句法分析树的部分信息。
- Predicate lemma: 如果当前词是谓词,则为谓词的原形;否则为一个连字符。
- Predicate Frameset ID: 如果当前词是谓词,则为框架ID;否则为一个连字符。
- Word sense: 词的语义编号,如果适用的话。
- Speaker/Author: 说话者或作者。
- Named Entities: 命名实体标记。
- Predicate Arguments: 与谓词相关的语义角色标注。
- Coreference: 共指解析标记。
其中,共指标记中,相同数字的表示同一指代簇。
/cctv/00/cctv_0000 0 4 熟知 VV (VP*))))) - 01 - Speaker#1 * (V*) * * -
bc/cctv/00/cctv_0000 0 5 的 DEC *)) - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 6 卡通 NN (NP* - - - Speaker#1 * * * * (82
bc/cctv/00/cctv_0000 0 7 形象 NN *)) - - - Speaker#1 * * *) * 82)
bc/cctv/00/cctv_0000 0 8 以 P (VP(PP* - - - Speaker#1 * * (ARGM-MNR* * -
bc/cctv/00/cctv_0000 0 9 其 PN (NP(NP*) - - - Speaker#1 * * * * (82)
bc/cctv/00/cctv_0000 0 10 独有 JJ (DNP(ADJP*) - - - Speaker#1 * * * * -
bc/cctv/00/cctv_0000 0 11 的 DEG *) - - - Speaker#1 * * * * -
这个示例中同一共指簇的信息为 [82, 9, 9], [82, 6, 7],表示第9个词“其”和第6和第7“卡通形象”,指代相同。
相关文章:
conll-2012-formatted-ontonotes-5.0中文数据格式说明
CoNLL-2012 数据格式是用于自然语言处理任务的一种常见格式,特别是在命名实体识别、词性标注、句法分析和语义角色标注等领域。这种格式在 CoNLL-2012 共享任务中被广泛使用,该任务主要集中在语义角色标注上。 CoNLL-2012 数据格式通常包括多列…...
SpringBoot集成Seata分布式事务OpenFeign远程调用
Docker Desktop 安装Seata Server seata 本质上是一个服务,用docker安装更方便,配置默认:file docker run -d --name seata-server -p 8091:8091 -p 7091:7091 seataio/seata-server:2.0.0与SpringBoot集成 表结构 项目目录 dynamic和dyna…...
视觉检测系统,是否所有产品都可以进行视觉检测?
视觉检测系统作为一种先进的质检工具,虽然具有广泛的应用范围,但并非所有产品都适合进行视觉检测。本文将探讨视觉检测系统的适用范围及其局限性。 随着机器视觉技术的快速发展,视觉检测系统已广泛应用于各个行业,为产品质检提供…...
通过金山和微软虚拟打印机转换PDF文件,流程方法及优劣对比
文章目录 一、WPS/金山 PDF虚拟打印机1、常规流程2、PDF文件位置3、严重缺陷二、微软虚拟打印机Microsoft Print to Pdf1、安装流程2、微软虚拟打印机的优势一、WPS/金山 PDF虚拟打印机 1、常规流程 安装过WPS办公组件或金山PDF独立版的电脑,会有一个或两个WPS/金山 PDF虚拟…...
采用java+B/S开发的全套医院绩效考核系统源码springboot+mybaits 医院绩效考核系统优势
采用java开发的全套医院绩效考核系统源码springbootmybaits 医院绩效考核系统优势 医院绩效管理系统解决方案紧扣新医改形势下医院绩效管理的要求,以“工作量为基础的考核方案”为核心思想,结合患者满意度、服务质量、技术难度、工作效率、医德医风等管…...
驱动开发-用户空间和内核空间数据传输
1.用户空间-->内核空间(写) #include<linux/uaccess.h> int copy_from_user(void *to,const void __user volatile*from,unsigned long n) 函数功能:将用户空间数据拷贝到内核空间 参数: to:内核空间首地…...
【408精华知识】速看!各种排序的大总结!
文章目录 一、插入排序(一)直接插入排序(二)折半插入排序(三)希尔排序 二、交换排序(一)冒泡排序(二)快速排序 三、选择排序(一)简单选…...
【STM32 |程序实例】按键控制、光敏传感器控制蜂鸣器
目录 前言 按键控制LED 光敏传感器控制蜂鸣器 前言 上拉输入:若GPIO引脚配置为上拉输入模式,在默认情况下(GPIO引脚无输入),读取的GPIO引脚数据为1,即高电平。 下拉输入:若GPIO引脚配置为下…...
Spring boot使用websocket实现在线聊天
maven依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>org.springframework.boot</groupId><artifactId>spr…...
品牌设计理念和logo设计方法
一 品牌设计的目的 设计是为了传播,让传播速度更快,传播效率更高,减少宣传成本 二 什么是好的品牌设计 好的设计是为了让消费者更容易看懂、记住的设计, 从而辅助传播, 即 看得懂、记得住。 1 看得懂 就是让别人看懂…...
Python | Leetcode Python题解之第88题合并两个有序数组
题目: 题解: class Solution:def merge(self, nums1: List[int], m: int, nums2: List[int], n: int) -> None:"""Do not return anything, modify nums1 in-place instead."""p1, p2 m - 1, n - 1tail m n - 1whi…...
vscode新版本remotessh服务端报`GLIBC_2.28‘ not found解决方案
问题现象 通过vscode的remotessh插件连接老版本服务器(如RHEL7,Centos7)时,插件会报错,无法连接。 查看插件的错误日志可以看到类似如下的报错信息: dc96b837cf6bb4af9cd736aa3af08cf8279f7685/node: /li…...
盘他系列——oj!!!
1.Openjudge 网站: OpenJudge 2.洛谷 网站: 首页 - 洛谷 | 计算机科学教育新生态 3.环球OJ 网站: QOJ - QOJ.ac 4. 北京大学 OJ:Welcome To PKU JudgeOnline 5.自由OJ 网站: https://loj.ac/ 6.炼码 网站:LintCode 炼码 8.力扣 网站: 力扣 9.晴练网首页 - 晴练网...
洛谷 P2657 [SCOI2009] windy 数 题解 数位dp
[SCOI2009] windy 数 题目背景 windy 定义了一种 windy 数。 题目描述 不含前导零且相邻两个数字之差至少为 2 2 2 的正整数被称为 windy 数。windy 想知道,在 a a a 和 b b b 之间,包括 a a a 和 b b b ,总共有多少个 windy 数&…...
Python爬虫入门:网络世界的宝藏猎人
今天阿佑将带你踏上Python的肩膀,成为一名网络世界的宝藏猎人! 文章目录 1. 引言1.1 简述Python在爬虫领域的地位1.2 阐明学习网络基础对爬虫的重要性 2. 背景介绍2.1 Python语言的流行与适用场景2.2 网络通信基础概念及其在数据抓取中的角色 3. Python基…...
【NodeMCU实时天气时钟温湿度项目 6】解析天气信息JSON数据并显示在 TFT 屏幕上(心知天气版)
今天是第六专题,主要内容是:导入ArduinoJson功能库,借助该库解析从【心知天气】官网返回的JSON数据,并显示在 TFT 屏幕上。 如您需要了解其它专题的内容,请点击下面的链接。 第一专题内容,请参考&a…...
重构四要素:目的、对象、时机和方法
目录 1.引言 2.重构的目的:为什么重构(why) 3.重构的对象:到底重构什么(what) 4.重构的时机:什么时候重构(when) 5.重构的方法:应该如何重构(how) 6.思考题 1.引言 一些软件工程师对为什么要重构(why)、到底重构什么(what)、什么时候重构(when)应该如何重构(how)等问题的…...
基于Echarts的大数据可视化模板:服务器运营监控
目录 引言背景介绍研究现状与相关工作服务器运营监控技术综述服务器运营监控概述监控指标与数据采集可视化界面设计与实现数据存储与查询优化Echarts与大数据可视化Echarts库以及其在大数据可视化领域的应用优势开发过程和所选设计方案模板如何满足管理的特定需求模板功能与特性…...
Python3 笔记:Python的常量
常量(constant):跟变量相对应,指第一次赋予值后就保持固定不变的值。 Python里面没有声明常量的关键字,其他语言像C/C/Java会有const修饰符,但Python没有。 Python中没有使用语法强制定义常量,…...
【Linux】自动化构建工具make/Makefile和git介绍
🌈个人主页:秦jh__https://blog.csdn.net/qinjh_?spm1010.2135.3001.5343🔥 系列专栏:https://blog.csdn.net/qinjh_/category_12625432.html 目录 前言 Linux项目自动化构建工具-make/Makefile 举例 .PHONY 常见符号 依赖关系…...
UE5 GAS修改Attribute的四种正确方式与原理
1. 为什么改Attribute不是简单赋值,而是要走GAS的整套流程 在UE5中用Gameplay Ability System(GAS)做RPG,很多人刚上手时都会卡在一个看似最基础的问题上: “我想让角色血量100,直接写 Attributes.Health…...
Unity URP中_Material Stencil属性报错的四层根因与修复
1. 这个报错不是材质没写对,而是渲染管线在“敲门问权限” 刚在Unity 2021.3 LTS项目里切完URP(Universal Render Pipeline)后打包iOS,突然弹出一行红字: Material xxx doesnt have _Stencil property 。我第一反应是…...
2026这6款宝藏降AIGC平台大起底,一键把AI检测率精准控到安全区!
步入 2026 年,学术圈的风向早已不是过去那个简单的“降重”时代。随着 AI 技术的迅猛发展,论文查重系统不断升级,高校对 AI 生成内容的审查标准也愈发严苛。曾经只需关注重复率的你,现在却要面对更复杂、更隐蔽的 AIGC 检测压力。…...
MASA模组汉化包技术解析:构建高效中文游戏体验的技术解决方案
MASA模组汉化包技术解析:构建高效中文游戏体验的技术解决方案 【免费下载链接】masa-mods-chinese 一个masa mods的汉化资源包 项目地址: https://gitcode.com/gh_mirrors/ma/masa-mods-chinese 在Minecraft模组生态系统中,MASA系列模组以其强大的…...
红队实战信息收集:从域名枚举到攻击链路建模
1. 这不是教科书里的“信息收集”,而是红队进现场前真正要干的活 你拿到一个目标域名,比如 example.com,老板说:“先摸清家底,别急着打。” 这时候,90%的人会立刻打开终端敲 nmap -sV example.com &…...
端侧AI与嵌入式系统融合:从模型轻量化到5G通信的产业化落地
1. 从展会看趋势:端侧AI与嵌入式系统的深度融合最近在德国纽伦堡举办的国际嵌入式展览会,可以说是全球嵌入式技术发展的风向标。作为从业者,我每年都会关注这个展会,因为它总能揭示未来几年工业和技术应用的核心走向。今年&#x…...
CANN Rotary Embedding 融合算子:解锁千问大模型推理性能的 3 倍密钥
CANN Rotary Embedding 融合算子:解锁千问大模型推理性能的 3 倍密钥 导语:在大模型推理的“微操”中,位置编码(Positional Encoding)往往被视为理所当然的开销。然而,在昇腾(Ascend࿰…...
Harness 中的令牌级流控与字符级计费
Harness 中的令牌级流控与字符级计费:从原理到落地的全指南 关键词:Harness CI/CD, 令牌级流控, 字符级计费, 微服务流量治理, 用量计量, 云原生成本优化, 网关限流 摘要:作为全球领先的智能软件交付平台,Harness 每天要处理来自数千家企业客户的上亿次 API 调用、数百万次…...
5分钟搞定!RK3588开发板Ubuntu系统终极配置指南 [特殊字符]
5分钟搞定!RK3588开发板Ubuntu系统终极配置指南 🚀 【免费下载链接】ubuntu-rockchip Ubuntu for Rockchip RK35XX Devices 项目地址: https://gitcode.com/gh_mirrors/ub/ubuntu-rockchip 还在为RK3588开发板的系统配置发愁吗?别担心…...
历史性突破,OpenAI模型搞定人类科学家80年未破难题,能发顶刊了
OpenAI 7个月前曾因虚假数学突破被同行嘲笑。 智东西5月21日报道,今日,OpenAI宣布,其一款未对外发布的内部通用推理模型,独立完成了一份原创数学证明。该证明推翻了匈牙利数学家保罗埃尔德什(Paul Erdős)…...
