当前位置: 首页 > news >正文

python-NLP常用数据集0.1.012

XNLI数据集

用户语言翻译和跨语言分类的语料库

  1. 官网地址:https://github.com/facebookresearch/XNLI
  2. 下载地址:https://dl.fbaipublicfiles.com/XNLI/XNLI-1.0.zip
  3. 注意事项:数据集有json格式的,和txt格式的
  4. 数据格式

txt格式

language	gold_label	sentence1_binary_parse	sentence2_binary_parse	sentence1_parse	sentence2_parse	sentence1	sentence2	promptID	pairID	genre	label1	label2	label3	label4	label5	sentence1_tokenized	sentence2_tokenized	match
ar	neutral					وقال، ماما، لقد عدت للمنزل.	اتصل بأمه حالما أوصلته حافلة المدرسية.	1	1	facetoface	neutral	contradiction	neutral	neutral	neutral	وقال ، ماما ، لقد عدت للمنزل .	اتصل بأمه حالما أوصلته حافلة المدرسية .	True
ar	contradiction					وقال، ماما، لقد عدت للمنزل.	لم ينطق ببنت شفة.	1	2	facetoface	contradiction	contradiction	contradiction	contradiction	contradiction	وقال ، ماما ، لقد عدت للمنزل .	لم ينطق ببنت شفة .	True
ar	entailment					وقال، ماما، لقد عدت للمنزل.	أخبر أمه أنه قد عاد للمنزل.	1	3	facetoface	entailment	entailment	neutral	entailment	entailment	وقال ، ماما ، لقد عدت للمنزل .	أخبر أمه أنه قد عاد للمنزل .	True
ar	neutral	

json格式

{"annotator_labels": ["neutral", "contradiction", "neutral", "neutral", "neutral"], "genre": "facetoface", "gold_label": "neutral", "language": "ar", "match": "True", "pairID": "1", "promptID": "1", "sentence1": "\u0648\u0642\u0627\u0644\u060c \u0645\u0627\u0645\u0627\u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644.", "sentence1_tokenized": "\u0648\u0642\u0627\u0644 \u060c \u0645\u0627\u0645\u0627 \u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644 .", "sentence2": "\u0627\u062a\u0635\u0644 \u0628\u0623\u0645\u0647 \u062d\u0627\u0644\u0645\u0627 \u0623\u0648\u0635\u0644\u062a\u0647 \u062d\u0627\u0641\u0644\u0629 \u0627\u0644\u0645\u062f\u0631\u0633\u064a\u0629.", "sentence2_tokenized": "\u0627\u062a\u0635\u0644 \u0628\u0623\u0645\u0647 \u062d\u0627\u0644\u0645\u0627 \u0623\u0648\u0635\u0644\u062a\u0647 \u062d\u0627\u0641\u0644\u0629 \u0627\u0644\u0645\u062f\u0631\u0633\u064a\u0629 ."}
{"annotator_labels": ["contradiction", "contradiction", "contradiction", "contradiction", "contradiction"], "genre": "facetoface", "gold_label": "contradiction", "language": "ar", "match": "True", "pairID": "2", "promptID": "1", "sentence1": "\u0648\u0642\u0627\u0644\u060c \u0645\u0627\u0645\u0627\u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644.", "sentence1_tokenized": "\u0648\u0642\u0627\u0644 \u060c \u0645\u0627\u0645\u0627 \u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644 .", "sentence2": "\u0644\u0645 \u064a\u0646\u0637\u0642 \u0628\u0628\u0646\u062a \u0634\u0641\u0629.", "sentence2_tokenized": "\u0644\u0645 \u064a\u0646\u0637\u0642 \u0628\u0628\u0646\u062a \u0634\u0641\u0629 ."}

SQuAD数据集

  1. 官网地址:https://rajpurkar.github.io/SQuAD-explorer/
  2. 下载地址:https://rajpurkar.github.io/SQuAD-explorer/
  3. 注意事项:测试集没有给出,需要在官网提交模型由平台对模型进行测试集的跑分
  4. 数据格式:点击https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json

数据由多篇文章组成
一个title就表示一篇文章
文章里由paragraphs组成
paragraphs由多个context组成
每一个context有answers和question

部分数据:

{"data": [{"title": "Super_Bowl_50","paragraphs": [{"context": "Super Bowl 50 was an American football game to determine the champion of the National Football League (NFL) for the 2015 season. The American Football Conference (AFC) champion Denver Broncos defeated the National Football Conference (NFC) champion Carolina Panthers 24\u201310 to earn their third Super Bowl title. The game was played on February 7, 2016, at Levi's Stadium in the San Francisco Bay Area at Santa Clara, California. As this was the 50th Super Bowl, the league emphasized the \"golden anniversary\" with various gold-themed initiatives, as well as temporarily suspending the tradition of naming each Super Bowl game with Roman numerals (under which the game would have been known as \"Super Bowl L\"), so that the logo could prominently feature the Arabic numerals 50.","qas": [{"answers": [{"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}],"question": "Which NFL team represented the AFC at Super Bowl 50?","id": "56be4db0acb8001400a502ec"}, {"answers": [{"answer_start": 249,"text": "Carolina Panthers"}, {"answer_start": 249,"text": "Carolina Panthers"}, {"answer_start": 249,"text": "Carolina Panthers"}],"question": "Which NFL team represented the NFC at Super Bowl 50?","id": "56be4db0acb8001400a502ed"}, {"answers": [{"answer_start": 403,"text": "Santa Clara, California"}, {"answer_start": 355,"text": "Levi's Stadium"}, {"answer_start": 355,"text": "Levi's Stadium in the San Francisco Bay Area at Santa Clara, California."}],"question": "Where did Super Bowl 50 take place?","id": "56be4db0acb8001400a502ee"}, {"answers": [{"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}],"question": "Which NFL team won Super Bowl 50?","id": "56be4db0acb8001400a502ef"}, {"answers": [{"answer_start": 488,"text": "gold"}, {"answer_start": 488,"text": "gold"}, {"answer_start": 521,"text": "gold"}],"question": "What color was used to emphasize the 50th anniversary of the Super Bowl?","id": "56be4db0acb8001400a502f0"}

相关文章:

python-NLP常用数据集0.1.012

XNLI数据集 用户语言翻译和跨语言分类的语料库 官网地址:https://github.com/facebookresearch/XNLI下载地址:https://dl.fbaipublicfiles.com/XNLI/XNLI-1.0.zip注意事项:数据集有json格式的,和txt格式的数据格式 txt格式 la…...

【大事件】docker可能无法使用了

今天本想继续学习docker的命令,突然发现官方网站的文档页面打不开了。 难道是被墙了? 我用同事的翻了一下,能进,果然! 正好手头的工作告一段落,将代码上传,然后通过jenkins将服务器自动部署到…...

探索Linux中的gzip命令:压缩与解压缩的艺术

探索Linux中的gzip命令:压缩与解压缩的艺术 在Linux世界中,文件压缩和解压缩是日常任务中不可或缺的一部分。gzip命令是这些任务中的佼佼者,它提供了高效的压缩和解压缩功能,广泛应用于各种场景。本文将带您深入了解gzip命令的工…...

Shell 输入/输出重定向

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…...

为什么RPC要比Http高效?

RPC和HTTP RPC(Remote Procedure Call)基于TCP连接通常比HTTP在性能上要高很多,原因如下: 1. 协议开销 HTTP开销: HTTP协议报文头部相对较大,包含大量的元数据(如方法、URI、头字段等&#x…...

局域网电脑监控软件是如何监控到内网电脑的?

在信息化快速发展的今天,局域网电脑监控软件成为许多企业、学校和机构重要的实用工具。这些软件的主要功能在于对局域网内的电脑进行实时监控,以确保网络的安全、员工的工作效率以及合规性。那么,局域网电脑监控软件是如何做到对内网电脑进行…...

精妙无比的App UI 风格

精妙无比的App UI 风格...

SQL优化系列-快速学会分析SQL执行效率(下)

1 show profile 分析慢查询 有时需要确定 SQL 到底慢在哪个环节,此时 explain 可能不好确定。在 MySQL 数据库中,通过 profile,能够更清楚地了解 SQL 执行过程的资源使用情况,能让我们知道到底慢在哪个环节。 知识扩展&#xff1…...

交流非线性RCD负载的核心功能

非线性RCD负载是一种广泛应用于电力系统中的电子元件,主要用于保护电路免受过电压和欠电压的影响。它的核心功能主要包括以下几个方面: 1. 过电压保护:当电路中的电压超过设定值时,非线性RCD负载会自动断开电路,防止电…...

英语学习笔记31——Where‘s Sally?

Where’s Sally? Sally在哪? 词汇 Vocabulary garden /ˈɡɑːrdn/ n. 花园,院子(属于私人) 区别:park n. 公园(公共的) 例句:我的花园非常大。    My garden is very big. 搭…...

【Unity脚本】使用脚本操作游戏对象的组件

【知识链】Unity -> Unity脚本 -> 游戏对象 -> 组件 【知识链】Unity -> Unity界面 -> Inspector【摘要】本文介绍如何使用脚本添加、删除组件,以及如何访问组件 文章目录 引言第一章 游戏对象与组件1.1 什么是组件?1.2 场景、游戏对象与…...

学习VUE3——组件(一)

组件注册 分为全局注册和局部注册两种。 全局注册: 在main.js或main.ts中,使用 Vue 应用实例的 .component() 方法,让组件在当前 Vue 应用中全局可用。 import { createApp } from vue import MyComponent from ./App.vueconst app crea…...

2024-6-6 石群电路-25

2024-6-6,星期四,15:56,天气:晴,心情:晴。今天又是阳光明媚的一天打印了毕业论文,准备了一些毕业&答辩的材料,感觉离毕业越来越近了,加油学习喽~ 今日观看了石群老师…...

vue 文件预览mp4、txt、pptx、xls、xlsx、docx、pdf、html、xml

vue 文件预览 图片、mp4、txt、pptx、xls、xlsx、docx、pdf、html、xml 最近公司要做一个类似电脑文件夹的功能,支持文件夹操作,文件操作,这里就不说文件夹操作了,说说文件预览操作,本人是后端java开发,前端vue&#…...

生活中优秀学习习惯

早起: 23点睡--4至6点起床(睡足7、8个钟头),起来第一件事是工作(或学习)。不是吃早餐,不是刷牙。(空腹工作一段时间)--做推理让头脑运作,不要背书&#xff0…...

什么是负载均衡?在网络中如何实现?

负载均衡(Load Balancing)是一种网络技术,用于将网络请求或数据传输任务分发到多个服务器或处理单元上,以实现更高效的资源利用、更高的处理能力和更好的系统可靠性。负载均衡的目标是优化资源使用、最大化吞吐量、减少响应时间&a…...

【YOLOv10改进[Backbone]】图像修复网络AirNet助力YOLOv10目标检测效果 + 含全部代码和详细修改方式 + 手撕结构图 + 全网首发

本文带来的是图像复原网络AirNet,它由基于对比度的退化编码器( CBDE )和退化引导的恢复网络( DGRN )两个模块组成。可以在一个网络中恢复各种退化图像。AirNet不受损坏类型和级别的先验限制,仅使用观察到的损坏图像进行推理。本文中将使用图像修复网络AirNet助力YOLOv10的目标…...

ubuntu22.04 gitleb服务器满了,扩容机器的磁盘的详细步骤

在Ubuntu 22.04上为GitLab服务器扩容磁盘可以分为以下几步进行:增加磁盘空间、扩展文件系统,并确保数据安全。这些步骤可以应用于物理服务器或虚拟机(包括云服务中的实例)。以下是详细步骤: 1. 添加新的磁盘空间 1.1…...

kafka-集群-主题创建

文章目录 1、集群主题创建1.1、查看 efak1.2、创建 主题 my_topic1 并建立6个分区并给每个分区建立3个副本1.2.1、查看 my_topic1 的详细信息 1.3、停止 kafka-01实例,端口号为 9095 1、集群主题创建 1.1、查看 efak 已经有三个kafka实例 1.2、创建 主题 my_topic1…...

Python 连接 MySQL 及 SQL增删改查(主要使用sqlalchemy)

一、环境 工作中需要用到python和mysql数据库,本次文档记录相关操作。 环境:windows10、python 3.11.7 mysql版本:5.7 二、MySQL的连接和使用 本人使用过的两种方式 2.1方式一:sql为主 2.1.1创建连接 import sqlalchemy fro…...

JAVAEE值网络编程(2)_TCP流套接字及通信模型、TCP网络编程及代码实例

前言 在上一节内容中,我们介绍了什么是套接字,以及使用UDP数据报套接字网络编程, 最后我们还介绍了Java数据报套接字通信模型以及相关代码实例。在这一节我们将会介绍TCP流套接字编程。 一、流套接字及通信模型 1.1 TCP套接字 TCP&#xff0…...

【MMU】——MMU 页命中/缺页

文章目录 MMU 页命中/缺页MMU 命中MMU 缺页 MMU 页命中/缺页 MMU 命中 处理器产生一个虚拟地址。MMU生成 PTE 地址,并从高速缓存/主存请求得到它。高速缓存/主存向 MMU 返回 PTE。MMU 构造物理地址,并把它传送给高速缓存/主存。高速缓存/主存返回所请求…...

Win32和c++11多线程

Win32和c11多线程 一、概念1.线程的特点线程内核对象线程控制块线程是独立调度和分派的基本单位共享进程的资源 2.线程的上下文切换引起上下文切换的原因 3.线程的状态 二、Windows多线程API1.CreateThread创建线程2.获取线程ID3.关闭线程句柄4.挂起线程5.恢复线程6.休眠线程的…...

关于python包导入问题的重思考

将顶层目录直接设置为一个包 像这样,每一个文件从顶层包开始导入 这样可以解决我的问题,但是要注意的时,要避免使用出现上下级出现同名包的情况,比如: AutoServer--AutoServer--__init__.py--__init__.py这种情况下…...

攻防世界---misc---津门杯2021-m1

1、题目描述,下载附件是一张bmp格式的图片 2、直觉告诉我这和图片的颜色通道有关 3、于是我就尝试用stegslove打开图片 4、将颜色通道都改为0,点击preview 5、然后发现一串base64编码 6、解码得flag flag{l5DGqF1pPzOb2LU919LMaBYS5B1G01FD}...

【计算机视觉(8)】

基于Python的OpenCV基础入门——图像直方图 直方图图像直方图 图像直方图代码以及实现效果 直方图 直方图是一种用于描述图像亮度分布的统计工具。它将图像的像素亮度值按照不同的亮度等级进行计数,并以直方图的形式呈现出来。图像直方图可以显示图像中每个亮度级别…...

Linux操作系统:Redis在虚拟环境下的安装与部署

Redis下载方法 最近部署项目的时候用到了Redis,自己在安装的时候也碰到了一些列问题最终安装成功,记录一下自己的安装历程。前期准备: 服务器Linux版本:Centos8.4 64位(http://isoredirect.centos.org/centos/8/isos/…...

哈希表和二维矩阵的结合-2352. 相等行列对(新思路、新解法)

题目链接及描述 . - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/equal-row-and-column-pairs/description/?envTypest…...

深度学习中无监督学习

深度学习中的无监督学习 无监督学习(Unsupervised Learning)是一种机器学习方法,在没有标签数据的情况下,从数据中提取有意义的模式和特征。无监督学习广泛应用于深度学习中,以解决数据标注困难和大量无标签数据存在的…...

JVM基础知识

一、JVM的内存区域划分 一个进程在运行的时候,会向操作系统申请到内存资源,从来存放程序运行的相关数据。 JVM本质上就是一个java进程,在运行的时候也会从操作系统那搞一块内存,供Java代码执行使用。 JVM又把申请的一块内存根据不同的用途划分出了不同区域。 每一…...