当前位置: 首页 > news >正文

NER 数据集格式转换

NER 数据集格式

格式一

某些地方的数据和标签拆成两个文件了

sentences.txt

如 何 解 决 足 球 界 长 期 存 在 的 诸 多 矛 盾 , 重 振 昔 日 津 门 足 球 的 雄 风 , 成 为 天 津 足 坛 上 下 内 外 到 处 议 论 的 话 题 。
该 县 一 手 抓 农 业 技 术 推 广 , 一 手 抓 农 民 科 技 教 育 和 农 技 水 平 的 提 高 。
而 创 新 的 关 键 就 是 知 识 和 信 息 的 生 产 、 传 播 、 使 用 。
联 合 国 秘 书 长 安 南 2 0 日 发 表 讲 话 , 敦 促 有 关 各 方 采 取 克 制 态 度 , 以 避 免 塞 岛 紧 张 局 势 进 一 步 升 级 。
他 出 任 总 理 后 因 怕 惹 怒 美 国 才 改 抽 多 米 尼 加 生 产 的 雪 茄 。
同 时 , 三 毛 集 团 自 身 也 快 速 扩 张 , 企 业 新 创 造 了 3 0 0 0 多 个 就 业 岗 位 , 安 置 了 一 大 批 下 岗 职 工 。
金 融 人 员 一 旦 犯 法 , 自 己 进 监 狱 不 说 , 上 司 也 要 受 惩 罚 , 而 且 所 在 公 司 名 誉 会 受 损 害 , 这 是 非 常 严 重 的 事 情 。
我 想 以 这 句 话 向 母 亲 说 明 女 儿 也 同 样 爱 她 , 同 样 在 远 方 思 念 着 她 , 虽 然 在 她 身 旁 时 , 我 总 违 心 地 说 我 不 想 家 。
韩 国 人 向 国 外 借 款 、 投 资 和 发 行 海 外 证 券 , 外 国 人 在 韩 国 投 资 和 购 买 不 动 产 , 原 则 上 将 不 予 限 制 。
现 在 , 全 球 经 济 逐 渐 融 合 , 世 界 性 的 知 识 经 济 时 代 已 经 来 临 , 在 新 的 经 济 形 势 下 , 乡 镇 企 业 更 应 抓 住 机 遇 , 开 拓 进 取 。

tags.txt

O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O
B-ORG I-ORG I-ORG O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O
O O O O O O O O O O B-LOC I-LOC O O O B-LOC I-LOC I-LOC I-LOC O O O O O O
O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
B-LOC I-LOC O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O

格式二

{"text": "如何解决足球界长期存在的诸多矛盾,重振昔日津门足球的雄风,成为天津足坛上下内外到处议论的话题。", "label": {"LOC": {"津门": [[21, 22]], "天津": [[31, 32]]}}}
{"text": "联合国秘书长安南20日发表讲话,敦促有关各方采取克制态度,以避免塞岛紧张局势进一步升级。", "label": {"ORG": {"联合国": [[0, 2]]}, "PER": {"安南": [[6, 7]]}, "LOC": {"塞岛": [[32, 33]]}}}
{"text": "他出任总理后因怕惹怒美国才改抽多米尼加生产的雪茄。", "label": {"LOC": {"美国": [[10, 11]], "多米尼加": [[15, 18]]}}}
{"text": "同时,三毛集团自身也快速扩张,企业新创造了3000多个就业岗位,安置了一大批下岗职工。", "label": {"ORG": {"三毛集团": [[3, 6]]}}}
{"text": "韩国人向国外借款、投资和发行海外证券,外国人在韩国投资和购买不动产,原则上将不予限制。", "label": {"LOC": {"韩国": [[0, 1], [23, 24]]}}}
{"text": "当有了一定的实力后,他就成立了武义县重点实用菌公司,不仅负责为菇农提供技术指导和菌种,而且负责原料代购,产品回收,经自己加工,或出口、或内销,从而使高温香菇栽培技术迅速扩散到浙西南山区的10多个县市,100多个乡镇,栽培规模由1991年的23万袋增加到1995年的3000万袋,仅此一项就使当地农民增加收入1亿多元。", "label": {"ORG": {"武义县重点实用菌公司": [[15, 24]]}, "LOC": {"浙": [[87, 87]]}}}
{"text": "四十九岁的田春美曾是老三届下乡知青,返城时已是二十七八岁的老姑娘,仓促成婚。", "label": {"PER": {"田春美": [[5, 7]]}}}
{"text": "阿巴查8日晨因心脏病突发在首都阿布贾去世。", "label": {"PER": {"阿巴查": [[0, 2]]}, "LOC": {"阿布贾": [[15, 17]]}}}
{"text": "例如,要对社会主义市场经济与公有制为主体、多种所有制经济共同发展的基本经济制度如何结合的问题,加强社会主义民主法制建设与政治体制改革问题,以及社会主义市场经济条件下的文化建设和价值观念问题,进行深入研究和剖析,为不断丰富我们对有中国特色社会主义发展规律的认识,避免盲目性和片面性,提供更有效的理论支持。", "label": {"LOC": {"中国": [[114, 115]]}}}
{"text": "”由于设备先进科技水平高、管理严格,天象生产的“文林”牌铅笔各项技术标准均达到国际先进水平,畅销近40个国家和地区。", "label": {"ORG": {"天象": [[18, 19]]}}}

我个人比较喜欢这种格式,json解析

格式1转格式2

import re
from collections import defaultdictwith open('sentences.txt', 'r') as f:sentences = f.readlines()sentences = [i.strip().split(' ') for i in sentences]with open('tags.txt', 'r') as f:tags = f.readlines()tags = [i.strip().split(' ') for i in tags]dataset = []
for s, t in zip(sentences,tags):assert(len(s) == len(t))text = ''.join(s)features = [i.split('-')[0] for i in t]entities = [i.split('-')[-1] for i in t]biotags = ''.join(features)pattern = re.compile('BI*')ne_label = re.finditer(pattern, biotags)ne_list = []label = {}for ne in ne_label:start, end = int(ne.start()), int(ne.end())entity_group = entities[start]words = text[start: end]if entity_group in label:if words in label[entity_group]:label[entity_group][words] += [[start, end-1]]else:label[entity_group][words] = [[start, end-1]]else:label[entity_group] = {words: [[start, end-1]]}if len(label) > 0:sample = {"text": text, "label": label}dataset.append(sample)import json
with open('msra.train.json', 'w') as file:for i in dataset:file.write(json.dumps(i, ensure_ascii=False))file.write('\n')

中文NER数据集:https://www.cluebenchmarks.com/dataSet_search_modify.html?keywords=ner

相关文章:

NER 数据集格式转换

NER 数据集格式 格式一 某些地方的数据和标签拆成两个文件了 sentences.txt 如 何 解 决 足 球 界 长 期 存 在 的 诸 多 矛 盾 , 重 振 昔 日 津 门 足 球 的 雄 风 , 成 为 天 津 足 坛 上 下 内 外 到 处 议 论 的 话 题 。 该 县 一 手 抓 农 业…...

【LinuxC语言】utime函数

文章目录 前言函数原型参数`struct utimbuf`返回值示例代码总结前言 utime函数在C语言中用于更改文件的访问时间(access time, atime)和修改时间(modification time, mtime)。这是一个POSIX标准的函数,常用于更新文件的时间戳,而不必实际修改文件的内容。 函数原型 #in…...

Cannot invoke an object which is possibly ‘undefined‘

这是ts中的错误提示: Cannot invoke an object which is possibly undefined 报错场景: 定义interface接口的时候sayHi方法使用的是可选属性,可以有可以没有, 当在实际方法中调用sayHi方法的时候报错了, 问&#xff…...

C++ 计时器

文章目录 一、简介二、实现代码2.1 windows平台2.2 C标准库 三、实现效果 一、简介 有时候总是会用到一些计时的操作,这里也整理了一些代码,包括C标准库以及window自带的时间计算函数。 二、实现代码 2.1 windows平台 StopWatch.h #ifndef STOP_WATCH_H…...

notepad++ 批量转所有文件编码格式为UTF-8

1、安装notepad及PythonScript_3.0.18.0插件 建议两者都保持默认路径安装x64版本: 阿里云盘分享https://www.alipan.com/s/xVUDpY8v5QL安装好后如下图: 2、new Script,新建脚本,文件名为ConvertEncoding 3、自动打开脚本&#xff…...

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-16讲 EPIT定时器

前言: 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM(MX6U)裸机篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…...

【只会for循环? 来看下, Nodejs中典型的5种循环方式】

Nodejs中的,除了经典的for循环 , 其实还有几种好用的循环方式, 并有典型的使用场景。下面来一起看下👇🏻 5种循环用法 For Loop:这是最常见的循环方式,适用于你知道循环次数的情况。 for (let i 0; i &…...

Java基础(三)- 多线程、网络通信、单元测试、反射、注解、动态代理

多线程基础 线程:一个程序内部的一条执行流程,只有一条执行流程就是单线程 java.lang.Thread代表线程 主线程退出,子线程存在,进程不会退出 可以使用jconsole查看 创建线程 有多个方法可以创建线程 继承Thread类 优点&#x…...

WordPress建站公司模板免费下载

WordPress建站公司 适合提供WordPress建站服务的公司或个体(个人)工作室使用的WordPress建站公司主题模板。 演示 https://www.jianzhanpress.com/?p545 https://www.wpicu.com/jianzhan/ 下载 链接: https://pan.baidu.com/s/11trlwUJq_lW81R_acq4ilA 提取码: r19i...

金融信贷风控基础知识

一、所谓风控(What && Why) 所谓风控,可以拆解从2个方面看,即 风险和控制 风险(what) 风险 这里狭隘的特指互联网产品中存在的风险点,例如 账户风险 垃圾注册账号账号被泄露盗用 交易支付风险 刷单:为提升卖家店铺人气…...

Web Server项目实战4-服务器编程基本框架和2种高效的事件处理模式

服务器编程基本框架 虽然服务器程序种类繁多,但其基本框架都一样,不同之处在于逻辑处理 模块功能I/O处理单元处理客户连接,读写网络数据逻辑单元业务进程或线程网络存储单元数据库、文件或缓存请求队列各单元之间的通信方式 I/O 处理单元是…...

。。。。。

...

RPC原理技术

RPC原理技术 背景介绍起源组件实现工作原理 背景 本文内容大多基于网上其他参考文章及资料整理后所得,并非原创,目的是为了需要时方便查看。 介绍 RPC,Remote Procedure Call,远程过程调用,允许像调用本地方法一样调…...

开源大模型与闭源大模型:技术哲学的较量

目录 前言一、 开源大模型的优势1. 社区支持与合作1.1 全球协作网络1.2 快速迭代与创新1.3 共享最佳实践 2. 透明性与可信赖性2.1 审计与验证2.2 减少偏见与错误2.3 安全性提升 3. 低成本与易访问性3.1 降低研发成本3.2 易于定制化3.3 教育资源丰富 4. 促进标准化5. 推动技术进…...

buuctf的RSA(二)

1.RSA 知道 flag.enc 和 pub.key,典型的加密、解密 将pub,key 改为pub.txt 打开后发现公钥 在RSA公私钥分解 Exponent、Modulus,Rsa公私钥指数、系数(模数)分解--查错网 进行解密 得到e65537 n8693448229604811919066606200349480058890565…...

idm软件是做什么的 IDM是啥软件 idm软件怎么下载 idm软件怎么下载

一、IDM是啥软件 IDM 是由美国 Tonec 公司开发的 Windows 软件,该软件最初于 2005 年发布。IDM全称Internet Download Manager,是一款Windows平台老牌而功能强大的下载加速器,专注于互联网数据下载。这款软件是一款不错的轻量级下载工具&…...

基于springboot+vue的学生考勤管理系统

开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…...

Java——内部类

1.什么是内部类 在一个类的里面再定义一个类,新定义的这个类就是内部类 举例:在Outer类的里面定义一个Inter类 class Outer{class Inter{} } 在这里Outer叫外部类,Inter叫内部类 内部类的应用场景 定义一个汽车类: 属性&#xf…...

不用从头训练,通过知识融合创建强大的统一模型

在自然语言处理(NLP)领域,大型语言模型(LLMs)的开发和训练是一个复杂且成本高昂的过程。数据需求是一个主要问题,因为训练这些模型需要大量的标注数据来保证其准确性和泛化能力;计算资源也是一个…...

僵尸进程、孤儿进程、守护进程

【一】僵尸进程和孤儿进程 【1】引入 我们知道在unix/linux中,正常情况下,子进程是通过父进程创建的,子进程在创建新的进程。 子进程的结束和父进程的运行是一个异步过程,即父进程永远无法预测子进程 到底什么时候结束。 当一个 进程完成它…...

【工程化】CJS 和 ESM

common js require 函数的原理伪代码: function require(path) {if (该模块有缓存) {return 该模块的缓存}function _run(exports, require, module, __filename, __dirname) {// 模块代码}// module.exports 即为模块导出的对象var module { exports: {} };_run…...

记录:mac pro 16-inch,2019安装ubuntu双系统

需要的装备:u盘,扩展坞、有线键鼠、ext4硬盘 目的:编译aosp 11 1、首先是参照如下文章,分配空间,制作启动盘(测试ubuntu20.04不行,ubuntu22.04正常) https://blog.csdn.net/LBSGKD…...

WordPress主题 7B2 PRO 5.4.2 免授权开心版源码

本资源提供给大家学习及参考研究借鉴美工之用,请勿用于商业和非法用途,无任何技术支持! WordPress主题 7B2 PRO 5.4.2 免授权开心版源码 B2 PRO 5.4.2 最新免授权版不再需要改hosts,和正版一样上传安装就可以激活。 直接在Word…...

GPT‑4o普通账户也可以免费用

网址 https://chatgpt.com/ 试了一下,免费的确实显示GPT‑4o的模型,问了一下可以联网,不知道能不能通过插件出图 有兴趣的可以试试...

复制即用!纯htmlcss写的炫酷input输入框

一般我们写css样式都要用样式库,但是嫌麻烦,如果能找到现成的内容复制上去就很香了,下文是笔者觉得好看的纯html&css写的样式,可以直接复制到Vue等内,十分方便。 input组件 1) 下面这个很推荐&#…...

前端 CSS 经典:弧形边框选项卡

1. 效果图 2. 开始 准备一个元素&#xff0c;将元素左上角&#xff0c;右上角设为圆角。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, i…...

前端面试题日常练-day21 【面试题】

题目 希望这些选择题能够帮助您进行前端面试的准备&#xff0c;答案在文末。 AJAX 是什么的缩写&#xff1f; a) Asynchronous JavaScript and XMLb) Asynchronous JavaScript and XHTMLc) Asynchronous Java and XMLd) Asynchronous Java and XHTML使用 AJAX 可以实现以下哪…...

几起 Linux 问题解决分享

&#xff08;首发地址&#xff1a;学习日记 https://www.learndiary.com/2024/05/linux-problems/&#xff09; 朋友们&#xff0c;大家好&#xff01;我是淘宝网学习日记小店专注于Linux服务领域的 learndiary&#xff0c;今天很高兴能与大家分享近期处理的一些Linux故障案例&…...

LeetCode题解:9. 回文数,翻转一半数字,JavaScript,详细注释

原题链接 9. 回文数 解题思路 翻转数字 利用循环&#xff0c;每次将x右移一位将移出的数字存储到reversed的个位中每次存储前&#xff0c;需要将reversed左移一位 判断结果 当原x的长度为偶数&#xff0c;翻转后的结果相等当原x的长度为奇数&#xff0c;reversed一定比翻转后…...

微博:一季度运营利润9.11亿元,经营效率持续提升

5月23日&#xff0c;微博发布2024年第一季度财报。一季度微博总营收3.955亿美元&#xff0c;约合28.44亿元人民币&#xff0c;超华尔街预期。其中&#xff0c;广告营收达到3.39亿美元&#xff0c;约合24.39亿元人民币。一季度调整后运营利润达到1.258亿美元&#xff0c;约合9.1…...