NER 数据集格式转换
NER 数据集格式
格式一
某些地方的数据和标签拆成两个文件了
sentences.txt
如 何 解 决 足 球 界 长 期 存 在 的 诸 多 矛 盾 , 重 振 昔 日 津 门 足 球 的 雄 风 , 成 为 天 津 足 坛 上 下 内 外 到 处 议 论 的 话 题 。
该 县 一 手 抓 农 业 技 术 推 广 , 一 手 抓 农 民 科 技 教 育 和 农 技 水 平 的 提 高 。
而 创 新 的 关 键 就 是 知 识 和 信 息 的 生 产 、 传 播 、 使 用 。
联 合 国 秘 书 长 安 南 2 0 日 发 表 讲 话 , 敦 促 有 关 各 方 采 取 克 制 态 度 , 以 避 免 塞 岛 紧 张 局 势 进 一 步 升 级 。
他 出 任 总 理 后 因 怕 惹 怒 美 国 才 改 抽 多 米 尼 加 生 产 的 雪 茄 。
同 时 , 三 毛 集 团 自 身 也 快 速 扩 张 , 企 业 新 创 造 了 3 0 0 0 多 个 就 业 岗 位 , 安 置 了 一 大 批 下 岗 职 工 。
金 融 人 员 一 旦 犯 法 , 自 己 进 监 狱 不 说 , 上 司 也 要 受 惩 罚 , 而 且 所 在 公 司 名 誉 会 受 损 害 , 这 是 非 常 严 重 的 事 情 。
我 想 以 这 句 话 向 母 亲 说 明 女 儿 也 同 样 爱 她 , 同 样 在 远 方 思 念 着 她 , 虽 然 在 她 身 旁 时 , 我 总 违 心 地 说 我 不 想 家 。
韩 国 人 向 国 外 借 款 、 投 资 和 发 行 海 外 证 券 , 外 国 人 在 韩 国 投 资 和 购 买 不 动 产 , 原 则 上 将 不 予 限 制 。
现 在 , 全 球 经 济 逐 渐 融 合 , 世 界 性 的 知 识 经 济 时 代 已 经 来 临 , 在 新 的 经 济 形 势 下 , 乡 镇 企 业 更 应 抓 住 机 遇 , 开 拓 进 取 。
tags.txt
O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O
B-ORG I-ORG I-ORG O O O B-PER I-PER O O O O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O
O O O O O O O O O O B-LOC I-LOC O O O B-LOC I-LOC I-LOC I-LOC O O O O O O
O O O B-ORG I-ORG I-ORG I-ORG O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
B-LOC I-LOC O O O O O O O O O O O O O O O O O O O O O B-LOC I-LOC O O O O O O O O O O O O O O O O O O
O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O O
格式二
{"text": "如何解决足球界长期存在的诸多矛盾,重振昔日津门足球的雄风,成为天津足坛上下内外到处议论的话题。", "label": {"LOC": {"津门": [[21, 22]], "天津": [[31, 32]]}}}
{"text": "联合国秘书长安南20日发表讲话,敦促有关各方采取克制态度,以避免塞岛紧张局势进一步升级。", "label": {"ORG": {"联合国": [[0, 2]]}, "PER": {"安南": [[6, 7]]}, "LOC": {"塞岛": [[32, 33]]}}}
{"text": "他出任总理后因怕惹怒美国才改抽多米尼加生产的雪茄。", "label": {"LOC": {"美国": [[10, 11]], "多米尼加": [[15, 18]]}}}
{"text": "同时,三毛集团自身也快速扩张,企业新创造了3000多个就业岗位,安置了一大批下岗职工。", "label": {"ORG": {"三毛集团": [[3, 6]]}}}
{"text": "韩国人向国外借款、投资和发行海外证券,外国人在韩国投资和购买不动产,原则上将不予限制。", "label": {"LOC": {"韩国": [[0, 1], [23, 24]]}}}
{"text": "当有了一定的实力后,他就成立了武义县重点实用菌公司,不仅负责为菇农提供技术指导和菌种,而且负责原料代购,产品回收,经自己加工,或出口、或内销,从而使高温香菇栽培技术迅速扩散到浙西南山区的10多个县市,100多个乡镇,栽培规模由1991年的23万袋增加到1995年的3000万袋,仅此一项就使当地农民增加收入1亿多元。", "label": {"ORG": {"武义县重点实用菌公司": [[15, 24]]}, "LOC": {"浙": [[87, 87]]}}}
{"text": "四十九岁的田春美曾是老三届下乡知青,返城时已是二十七八岁的老姑娘,仓促成婚。", "label": {"PER": {"田春美": [[5, 7]]}}}
{"text": "阿巴查8日晨因心脏病突发在首都阿布贾去世。", "label": {"PER": {"阿巴查": [[0, 2]]}, "LOC": {"阿布贾": [[15, 17]]}}}
{"text": "例如,要对社会主义市场经济与公有制为主体、多种所有制经济共同发展的基本经济制度如何结合的问题,加强社会主义民主法制建设与政治体制改革问题,以及社会主义市场经济条件下的文化建设和价值观念问题,进行深入研究和剖析,为不断丰富我们对有中国特色社会主义发展规律的认识,避免盲目性和片面性,提供更有效的理论支持。", "label": {"LOC": {"中国": [[114, 115]]}}}
{"text": "”由于设备先进科技水平高、管理严格,天象生产的“文林”牌铅笔各项技术标准均达到国际先进水平,畅销近40个国家和地区。", "label": {"ORG": {"天象": [[18, 19]]}}}
我个人比较喜欢这种格式,json解析
格式1转格式2
import re
from collections import defaultdictwith open('sentences.txt', 'r') as f:sentences = f.readlines()sentences = [i.strip().split(' ') for i in sentences]with open('tags.txt', 'r') as f:tags = f.readlines()tags = [i.strip().split(' ') for i in tags]dataset = []
for s, t in zip(sentences,tags):assert(len(s) == len(t))text = ''.join(s)features = [i.split('-')[0] for i in t]entities = [i.split('-')[-1] for i in t]biotags = ''.join(features)pattern = re.compile('BI*')ne_label = re.finditer(pattern, biotags)ne_list = []label = {}for ne in ne_label:start, end = int(ne.start()), int(ne.end())entity_group = entities[start]words = text[start: end]if entity_group in label:if words in label[entity_group]:label[entity_group][words] += [[start, end-1]]else:label[entity_group][words] = [[start, end-1]]else:label[entity_group] = {words: [[start, end-1]]}if len(label) > 0:sample = {"text": text, "label": label}dataset.append(sample)import json
with open('msra.train.json', 'w') as file:for i in dataset:file.write(json.dumps(i, ensure_ascii=False))file.write('\n')
附
中文NER数据集:https://www.cluebenchmarks.com/dataSet_search_modify.html?keywords=ner
相关文章:
NER 数据集格式转换
NER 数据集格式 格式一 某些地方的数据和标签拆成两个文件了 sentences.txt 如 何 解 决 足 球 界 长 期 存 在 的 诸 多 矛 盾 , 重 振 昔 日 津 门 足 球 的 雄 风 , 成 为 天 津 足 坛 上 下 内 外 到 处 议 论 的 话 题 。 该 县 一 手 抓 农 业…...
【LinuxC语言】utime函数
文章目录 前言函数原型参数`struct utimbuf`返回值示例代码总结前言 utime函数在C语言中用于更改文件的访问时间(access time, atime)和修改时间(modification time, mtime)。这是一个POSIX标准的函数,常用于更新文件的时间戳,而不必实际修改文件的内容。 函数原型 #in…...
Cannot invoke an object which is possibly ‘undefined‘
这是ts中的错误提示: Cannot invoke an object which is possibly undefined 报错场景: 定义interface接口的时候sayHi方法使用的是可选属性,可以有可以没有, 当在实际方法中调用sayHi方法的时候报错了, 问ÿ…...
C++ 计时器
文章目录 一、简介二、实现代码2.1 windows平台2.2 C标准库 三、实现效果 一、简介 有时候总是会用到一些计时的操作,这里也整理了一些代码,包括C标准库以及window自带的时间计算函数。 二、实现代码 2.1 windows平台 StopWatch.h #ifndef STOP_WATCH_H…...
notepad++ 批量转所有文件编码格式为UTF-8
1、安装notepad及PythonScript_3.0.18.0插件 建议两者都保持默认路径安装x64版本: 阿里云盘分享https://www.alipan.com/s/xVUDpY8v5QL安装好后如下图: 2、new Script,新建脚本,文件名为ConvertEncoding 3、自动打开脚本ÿ…...
正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-16讲 EPIT定时器
前言: 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM(MX6U)裸机篇”视频的学习笔记,在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…...
【只会for循环? 来看下, Nodejs中典型的5种循环方式】
Nodejs中的,除了经典的for循环 , 其实还有几种好用的循环方式, 并有典型的使用场景。下面来一起看下👇🏻 5种循环用法 For Loop:这是最常见的循环方式,适用于你知道循环次数的情况。 for (let i 0; i &…...
Java基础(三)- 多线程、网络通信、单元测试、反射、注解、动态代理
多线程基础 线程:一个程序内部的一条执行流程,只有一条执行流程就是单线程 java.lang.Thread代表线程 主线程退出,子线程存在,进程不会退出 可以使用jconsole查看 创建线程 有多个方法可以创建线程 继承Thread类 优点&#x…...
WordPress建站公司模板免费下载
WordPress建站公司 适合提供WordPress建站服务的公司或个体(个人)工作室使用的WordPress建站公司主题模板。 演示 https://www.jianzhanpress.com/?p545 https://www.wpicu.com/jianzhan/ 下载 链接: https://pan.baidu.com/s/11trlwUJq_lW81R_acq4ilA 提取码: r19i...
金融信贷风控基础知识
一、所谓风控(What && Why) 所谓风控,可以拆解从2个方面看,即 风险和控制 风险(what) 风险 这里狭隘的特指互联网产品中存在的风险点,例如 账户风险 垃圾注册账号账号被泄露盗用 交易支付风险 刷单:为提升卖家店铺人气…...
Web Server项目实战4-服务器编程基本框架和2种高效的事件处理模式
服务器编程基本框架 虽然服务器程序种类繁多,但其基本框架都一样,不同之处在于逻辑处理 模块功能I/O处理单元处理客户连接,读写网络数据逻辑单元业务进程或线程网络存储单元数据库、文件或缓存请求队列各单元之间的通信方式 I/O 处理单元是…...
。。。。。
...
RPC原理技术
RPC原理技术 背景介绍起源组件实现工作原理 背景 本文内容大多基于网上其他参考文章及资料整理后所得,并非原创,目的是为了需要时方便查看。 介绍 RPC,Remote Procedure Call,远程过程调用,允许像调用本地方法一样调…...
开源大模型与闭源大模型:技术哲学的较量
目录 前言一、 开源大模型的优势1. 社区支持与合作1.1 全球协作网络1.2 快速迭代与创新1.3 共享最佳实践 2. 透明性与可信赖性2.1 审计与验证2.2 减少偏见与错误2.3 安全性提升 3. 低成本与易访问性3.1 降低研发成本3.2 易于定制化3.3 教育资源丰富 4. 促进标准化5. 推动技术进…...
buuctf的RSA(二)
1.RSA 知道 flag.enc 和 pub.key,典型的加密、解密 将pub,key 改为pub.txt 打开后发现公钥 在RSA公私钥分解 Exponent、Modulus,Rsa公私钥指数、系数(模数)分解--查错网 进行解密 得到e65537 n8693448229604811919066606200349480058890565…...
idm软件是做什么的 IDM是啥软件 idm软件怎么下载 idm软件怎么下载
一、IDM是啥软件 IDM 是由美国 Tonec 公司开发的 Windows 软件,该软件最初于 2005 年发布。IDM全称Internet Download Manager,是一款Windows平台老牌而功能强大的下载加速器,专注于互联网数据下载。这款软件是一款不错的轻量级下载工具&…...
基于springboot+vue的学生考勤管理系统
开发语言:Java框架:springbootJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:…...
Java——内部类
1.什么是内部类 在一个类的里面再定义一个类,新定义的这个类就是内部类 举例:在Outer类的里面定义一个Inter类 class Outer{class Inter{} } 在这里Outer叫外部类,Inter叫内部类 内部类的应用场景 定义一个汽车类: 属性…...
不用从头训练,通过知识融合创建强大的统一模型
在自然语言处理(NLP)领域,大型语言模型(LLMs)的开发和训练是一个复杂且成本高昂的过程。数据需求是一个主要问题,因为训练这些模型需要大量的标注数据来保证其准确性和泛化能力;计算资源也是一个…...
僵尸进程、孤儿进程、守护进程
【一】僵尸进程和孤儿进程 【1】引入 我们知道在unix/linux中,正常情况下,子进程是通过父进程创建的,子进程在创建新的进程。 子进程的结束和父进程的运行是一个异步过程,即父进程永远无法预测子进程 到底什么时候结束。 当一个 进程完成它…...
深入剖析AI大模型:大模型时代的 Prompt 工程全解析
今天聊的内容,我认为是AI开发里面非常重要的内容。它在AI开发里无处不在,当你对 AI 助手说 "用李白的风格写一首关于人工智能的诗",或者让翻译模型 "将这段合同翻译成商务日语" 时,输入的这句话就是 Prompt。…...
在rocky linux 9.5上在线安装 docker
前面是指南,后面是日志 sudo dnf config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo sudo dnf install docker-ce docker-ce-cli containerd.io -y docker version sudo systemctl start docker sudo systemctl status docker …...
江苏艾立泰跨国资源接力:废料变黄金的绿色供应链革命
在华东塑料包装行业面临限塑令深度调整的背景下,江苏艾立泰以一场跨国资源接力的创新实践,重新定义了绿色供应链的边界。 跨国回收网络:废料变黄金的全球棋局 艾立泰在欧洲、东南亚建立再生塑料回收点,将海外废弃包装箱通过标准…...
相机Camera日志分析之三十一:高通Camx HAL十种流程基础分析关键字汇总(后续持续更新中)
【关注我,后续持续新增专题博文,谢谢!!!】 上一篇我们讲了:有对最普通的场景进行各个日志注释讲解,但相机场景太多,日志差异也巨大。后面将展示各种场景下的日志。 通过notepad++打开场景下的日志,通过下列分类关键字搜索,即可清晰的分析不同场景的相机运行流程差异…...
实现弹窗随键盘上移居中
实现弹窗随键盘上移的核心思路 在Android中,可以通过监听键盘的显示和隐藏事件,动态调整弹窗的位置。关键点在于获取键盘高度,并计算剩余屏幕空间以重新定位弹窗。 // 在Activity或Fragment中设置键盘监听 val rootView findViewById<V…...
10-Oracle 23 ai Vector Search 概述和参数
一、Oracle AI Vector Search 概述 企业和个人都在尝试各种AI,使用客户端或是内部自己搭建集成大模型的终端,加速与大型语言模型(LLM)的结合,同时使用检索增强生成(Retrieval Augmented Generation &#…...
【7色560页】职场可视化逻辑图高级数据分析PPT模版
7种色调职场工作汇报PPT,橙蓝、黑红、红蓝、蓝橙灰、浅蓝、浅绿、深蓝七种色调模版 【7色560页】职场可视化逻辑图高级数据分析PPT模版:职场可视化逻辑图分析PPT模版https://pan.quark.cn/s/78aeabbd92d1...
Selenium常用函数介绍
目录 一,元素定位 1.1 cssSeector 1.2 xpath 二,操作测试对象 三,窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口 四,弹窗 五,等待 六,导航 七,文件上传 …...
python爬虫——气象数据爬取
一、导入库与全局配置 python 运行 import json import datetime import time import requests from sqlalchemy import create_engine import csv import pandas as pd作用: 引入数据解析、网络请求、时间处理、数据库操作等所需库。requests:发送 …...
深度学习之模型压缩三驾马车:模型剪枝、模型量化、知识蒸馏
一、引言 在深度学习中,我们训练出的神经网络往往非常庞大(比如像 ResNet、YOLOv8、Vision Transformer),虽然精度很高,但“太重”了,运行起来很慢,占用内存大,不适合部署到手机、摄…...
