python-NLP常用数据集0.1.012
XNLI数据集
用户语言翻译和跨语言分类的语料库
- 官网地址:https://github.com/facebookresearch/XNLI
- 下载地址:https://dl.fbaipublicfiles.com/XNLI/XNLI-1.0.zip
- 注意事项:数据集有json格式的,和txt格式的
- 数据格式
txt格式
language gold_label sentence1_binary_parse sentence2_binary_parse sentence1_parse sentence2_parse sentence1 sentence2 promptID pairID genre label1 label2 label3 label4 label5 sentence1_tokenized sentence2_tokenized match
ar neutral وقال، ماما، لقد عدت للمنزل. اتصل بأمه حالما أوصلته حافلة المدرسية. 1 1 facetoface neutral contradiction neutral neutral neutral وقال ، ماما ، لقد عدت للمنزل . اتصل بأمه حالما أوصلته حافلة المدرسية . True
ar contradiction وقال، ماما، لقد عدت للمنزل. لم ينطق ببنت شفة. 1 2 facetoface contradiction contradiction contradiction contradiction contradiction وقال ، ماما ، لقد عدت للمنزل . لم ينطق ببنت شفة . True
ar entailment وقال، ماما، لقد عدت للمنزل. أخبر أمه أنه قد عاد للمنزل. 1 3 facetoface entailment entailment neutral entailment entailment وقال ، ماما ، لقد عدت للمنزل . أخبر أمه أنه قد عاد للمنزل . True
ar neutral
json格式
{"annotator_labels": ["neutral", "contradiction", "neutral", "neutral", "neutral"], "genre": "facetoface", "gold_label": "neutral", "language": "ar", "match": "True", "pairID": "1", "promptID": "1", "sentence1": "\u0648\u0642\u0627\u0644\u060c \u0645\u0627\u0645\u0627\u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644.", "sentence1_tokenized": "\u0648\u0642\u0627\u0644 \u060c \u0645\u0627\u0645\u0627 \u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644 .", "sentence2": "\u0627\u062a\u0635\u0644 \u0628\u0623\u0645\u0647 \u062d\u0627\u0644\u0645\u0627 \u0623\u0648\u0635\u0644\u062a\u0647 \u062d\u0627\u0641\u0644\u0629 \u0627\u0644\u0645\u062f\u0631\u0633\u064a\u0629.", "sentence2_tokenized": "\u0627\u062a\u0635\u0644 \u0628\u0623\u0645\u0647 \u062d\u0627\u0644\u0645\u0627 \u0623\u0648\u0635\u0644\u062a\u0647 \u062d\u0627\u0641\u0644\u0629 \u0627\u0644\u0645\u062f\u0631\u0633\u064a\u0629 ."}
{"annotator_labels": ["contradiction", "contradiction", "contradiction", "contradiction", "contradiction"], "genre": "facetoface", "gold_label": "contradiction", "language": "ar", "match": "True", "pairID": "2", "promptID": "1", "sentence1": "\u0648\u0642\u0627\u0644\u060c \u0645\u0627\u0645\u0627\u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644.", "sentence1_tokenized": "\u0648\u0642\u0627\u0644 \u060c \u0645\u0627\u0645\u0627 \u060c \u0644\u0642\u062f \u0639\u062f\u062a \u0644\u0644\u0645\u0646\u0632\u0644 .", "sentence2": "\u0644\u0645 \u064a\u0646\u0637\u0642 \u0628\u0628\u0646\u062a \u0634\u0641\u0629.", "sentence2_tokenized": "\u0644\u0645 \u064a\u0646\u0637\u0642 \u0628\u0628\u0646\u062a \u0634\u0641\u0629 ."}
SQuAD数据集
- 官网地址:https://rajpurkar.github.io/SQuAD-explorer/
- 下载地址:https://rajpurkar.github.io/SQuAD-explorer/
- 注意事项:测试集没有给出,需要在官网提交模型由平台对模型进行测试集的跑分
- 数据格式:点击https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json
数据由多篇文章组成
一个title就表示一篇文章
文章里由paragraphs组成
paragraphs由多个context组成
每一个context有answers和question
部分数据:
{"data": [{"title": "Super_Bowl_50","paragraphs": [{"context": "Super Bowl 50 was an American football game to determine the champion of the National Football League (NFL) for the 2015 season. The American Football Conference (AFC) champion Denver Broncos defeated the National Football Conference (NFC) champion Carolina Panthers 24\u201310 to earn their third Super Bowl title. The game was played on February 7, 2016, at Levi's Stadium in the San Francisco Bay Area at Santa Clara, California. As this was the 50th Super Bowl, the league emphasized the \"golden anniversary\" with various gold-themed initiatives, as well as temporarily suspending the tradition of naming each Super Bowl game with Roman numerals (under which the game would have been known as \"Super Bowl L\"), so that the logo could prominently feature the Arabic numerals 50.","qas": [{"answers": [{"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}],"question": "Which NFL team represented the AFC at Super Bowl 50?","id": "56be4db0acb8001400a502ec"}, {"answers": [{"answer_start": 249,"text": "Carolina Panthers"}, {"answer_start": 249,"text": "Carolina Panthers"}, {"answer_start": 249,"text": "Carolina Panthers"}],"question": "Which NFL team represented the NFC at Super Bowl 50?","id": "56be4db0acb8001400a502ed"}, {"answers": [{"answer_start": 403,"text": "Santa Clara, California"}, {"answer_start": 355,"text": "Levi's Stadium"}, {"answer_start": 355,"text": "Levi's Stadium in the San Francisco Bay Area at Santa Clara, California."}],"question": "Where did Super Bowl 50 take place?","id": "56be4db0acb8001400a502ee"}, {"answers": [{"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}, {"answer_start": 177,"text": "Denver Broncos"}],"question": "Which NFL team won Super Bowl 50?","id": "56be4db0acb8001400a502ef"}, {"answers": [{"answer_start": 488,"text": "gold"}, {"answer_start": 488,"text": "gold"}, {"answer_start": 521,"text": "gold"}],"question": "What color was used to emphasize the 50th anniversary of the Super Bowl?","id": "56be4db0acb8001400a502f0"}
相关文章:
python-NLP常用数据集0.1.012
XNLI数据集 用户语言翻译和跨语言分类的语料库 官网地址:https://github.com/facebookresearch/XNLI下载地址:https://dl.fbaipublicfiles.com/XNLI/XNLI-1.0.zip注意事项:数据集有json格式的,和txt格式的数据格式 txt格式 la…...
【大事件】docker可能无法使用了
今天本想继续学习docker的命令,突然发现官方网站的文档页面打不开了。 难道是被墙了? 我用同事的翻了一下,能进,果然! 正好手头的工作告一段落,将代码上传,然后通过jenkins将服务器自动部署到…...
探索Linux中的gzip命令:压缩与解压缩的艺术
探索Linux中的gzip命令:压缩与解压缩的艺术 在Linux世界中,文件压缩和解压缩是日常任务中不可或缺的一部分。gzip命令是这些任务中的佼佼者,它提供了高效的压缩和解压缩功能,广泛应用于各种场景。本文将带您深入了解gzip命令的工…...
Shell 输入/输出重定向
💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝Ὁ…...
为什么RPC要比Http高效?
RPC和HTTP RPC(Remote Procedure Call)基于TCP连接通常比HTTP在性能上要高很多,原因如下: 1. 协议开销 HTTP开销: HTTP协议报文头部相对较大,包含大量的元数据(如方法、URI、头字段等&#x…...
局域网电脑监控软件是如何监控到内网电脑的?
在信息化快速发展的今天,局域网电脑监控软件成为许多企业、学校和机构重要的实用工具。这些软件的主要功能在于对局域网内的电脑进行实时监控,以确保网络的安全、员工的工作效率以及合规性。那么,局域网电脑监控软件是如何做到对内网电脑进行…...
精妙无比的App UI 风格
精妙无比的App UI 风格...
SQL优化系列-快速学会分析SQL执行效率(下)
1 show profile 分析慢查询 有时需要确定 SQL 到底慢在哪个环节,此时 explain 可能不好确定。在 MySQL 数据库中,通过 profile,能够更清楚地了解 SQL 执行过程的资源使用情况,能让我们知道到底慢在哪个环节。 知识扩展࿱…...
交流非线性RCD负载的核心功能
非线性RCD负载是一种广泛应用于电力系统中的电子元件,主要用于保护电路免受过电压和欠电压的影响。它的核心功能主要包括以下几个方面: 1. 过电压保护:当电路中的电压超过设定值时,非线性RCD负载会自动断开电路,防止电…...
英语学习笔记31——Where‘s Sally?
Where’s Sally? Sally在哪? 词汇 Vocabulary garden /ˈɡɑːrdn/ n. 花园,院子(属于私人) 区别:park n. 公园(公共的) 例句:我的花园非常大。 My garden is very big. 搭…...
【Unity脚本】使用脚本操作游戏对象的组件
【知识链】Unity -> Unity脚本 -> 游戏对象 -> 组件 【知识链】Unity -> Unity界面 -> Inspector【摘要】本文介绍如何使用脚本添加、删除组件,以及如何访问组件 文章目录 引言第一章 游戏对象与组件1.1 什么是组件?1.2 场景、游戏对象与…...
学习VUE3——组件(一)
组件注册 分为全局注册和局部注册两种。 全局注册: 在main.js或main.ts中,使用 Vue 应用实例的 .component() 方法,让组件在当前 Vue 应用中全局可用。 import { createApp } from vue import MyComponent from ./App.vueconst app crea…...
2024-6-6 石群电路-25
2024-6-6,星期四,15:56,天气:晴,心情:晴。今天又是阳光明媚的一天打印了毕业论文,准备了一些毕业&答辩的材料,感觉离毕业越来越近了,加油学习喽~ 今日观看了石群老师…...
vue 文件预览mp4、txt、pptx、xls、xlsx、docx、pdf、html、xml
vue 文件预览 图片、mp4、txt、pptx、xls、xlsx、docx、pdf、html、xml 最近公司要做一个类似电脑文件夹的功能,支持文件夹操作,文件操作,这里就不说文件夹操作了,说说文件预览操作,本人是后端java开发,前端vue&#…...
生活中优秀学习习惯
早起: 23点睡--4至6点起床(睡足7、8个钟头),起来第一件事是工作(或学习)。不是吃早餐,不是刷牙。(空腹工作一段时间)--做推理让头脑运作,不要背书࿰…...
什么是负载均衡?在网络中如何实现?
负载均衡(Load Balancing)是一种网络技术,用于将网络请求或数据传输任务分发到多个服务器或处理单元上,以实现更高效的资源利用、更高的处理能力和更好的系统可靠性。负载均衡的目标是优化资源使用、最大化吞吐量、减少响应时间&a…...
【YOLOv10改进[Backbone]】图像修复网络AirNet助力YOLOv10目标检测效果 + 含全部代码和详细修改方式 + 手撕结构图 + 全网首发
本文带来的是图像复原网络AirNet,它由基于对比度的退化编码器( CBDE )和退化引导的恢复网络( DGRN )两个模块组成。可以在一个网络中恢复各种退化图像。AirNet不受损坏类型和级别的先验限制,仅使用观察到的损坏图像进行推理。本文中将使用图像修复网络AirNet助力YOLOv10的目标…...
ubuntu22.04 gitleb服务器满了,扩容机器的磁盘的详细步骤
在Ubuntu 22.04上为GitLab服务器扩容磁盘可以分为以下几步进行:增加磁盘空间、扩展文件系统,并确保数据安全。这些步骤可以应用于物理服务器或虚拟机(包括云服务中的实例)。以下是详细步骤: 1. 添加新的磁盘空间 1.1…...
kafka-集群-主题创建
文章目录 1、集群主题创建1.1、查看 efak1.2、创建 主题 my_topic1 并建立6个分区并给每个分区建立3个副本1.2.1、查看 my_topic1 的详细信息 1.3、停止 kafka-01实例,端口号为 9095 1、集群主题创建 1.1、查看 efak 已经有三个kafka实例 1.2、创建 主题 my_topic1…...
Python 连接 MySQL 及 SQL增删改查(主要使用sqlalchemy)
一、环境 工作中需要用到python和mysql数据库,本次文档记录相关操作。 环境:windows10、python 3.11.7 mysql版本:5.7 二、MySQL的连接和使用 本人使用过的两种方式 2.1方式一:sql为主 2.1.1创建连接 import sqlalchemy fro…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个医院挂号小程序
一、开发准备 环境搭建: 安装DevEco Studio 3.0或更高版本配置HarmonyOS SDK申请开发者账号 项目创建: File > New > Create Project > Application (选择"Empty Ability") 二、核心功能实现 1. 医院科室展示 /…...
测试markdown--肇兴
day1: 1、去程:7:04 --11:32高铁 高铁右转上售票大厅2楼,穿过候车厅下一楼,上大巴车 ¥10/人 **2、到达:**12点多到达寨子,买门票,美团/抖音:¥78人 3、中饭&a…...
微服务商城-商品微服务
数据表 CREATE TABLE product (id bigint(20) UNSIGNED NOT NULL AUTO_INCREMENT COMMENT 商品id,cateid smallint(6) UNSIGNED NOT NULL DEFAULT 0 COMMENT 类别Id,name varchar(100) NOT NULL DEFAULT COMMENT 商品名称,subtitle varchar(200) NOT NULL DEFAULT COMMENT 商…...
Spring AI与Spring Modulith核心技术解析
Spring AI核心架构解析 Spring AI(https://spring.io/projects/spring-ai)作为Spring生态中的AI集成框架,其核心设计理念是通过模块化架构降低AI应用的开发复杂度。与Python生态中的LangChain/LlamaIndex等工具类似,但特别为多语…...
今日学习:Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存
文章目录 优雅版线程池ThreadPoolTaskExecutor和ThreadPoolTaskExecutor的装饰器并发修改异常并发修改异常简介实现机制设计原因及意义 使用线程池造成的链路丢失问题线程池导致的链路丢失问题发生原因 常见解决方法更好的解决方法设计精妙之处 登录续期登录续期常见实现方式特…...
稳定币的深度剖析与展望
一、引言 在当今数字化浪潮席卷全球的时代,加密货币作为一种新兴的金融现象,正以前所未有的速度改变着我们对传统货币和金融体系的认知。然而,加密货币市场的高度波动性却成为了其广泛应用和普及的一大障碍。在这样的背景下,稳定…...
初探Service服务发现机制
1.Service简介 Service是将运行在一组Pod上的应用程序发布为网络服务的抽象方法。 主要功能:服务发现和负载均衡。 Service类型的包括ClusterIP类型、NodePort类型、LoadBalancer类型、ExternalName类型 2.Endpoints简介 Endpoints是一种Kubernetes资源…...
使用Spring AI和MCP协议构建图片搜索服务
目录 使用Spring AI和MCP协议构建图片搜索服务 引言 技术栈概览 项目架构设计 架构图 服务端开发 1. 创建Spring Boot项目 2. 实现图片搜索工具 3. 配置传输模式 Stdio模式(本地调用) SSE模式(远程调用) 4. 注册工具提…...
深入浅出深度学习基础:从感知机到全连接神经网络的核心原理与应用
文章目录 前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么?1.1.2 感知机的工作原理 1.2 感知机的简单应用:基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...
vulnyx Blogger writeup
信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...
