当前位置: 首页 > news >正文

【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark

论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

⭐⭐⭐⭐

arXiv:1804.07461, ICLR 2019

Site: https://gluebenchmark.com/

文章目录

    • 一、论文速读
    • 二、GLUE 任务列表
      • 2.1 CoLA(Corpus of Linguistic Acceptability)
      • 2.2 SST-2(The Stanford Sentiment Treebank)
      • 2.3 MRPC(The Microsoft Research Paraphrase Corpus)
      • 2.4 STSB(The Semantic Textual Similarity Benchmark)
      • 2.5 QQP(The Quora Question Pairs)
      • 2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
      • 2.7 QNLI(Qusetion-answering NLI)
      • 2.8 RTE(The Recognizing Textual Entailment datasets)
      • 2.9 WNLI(Winograd NLI)

一、论文速读

GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。

二、GLUE 任务列表

下图是各个任务的一个统计:

在这里插入图片描述

2.1 CoLA(Corpus of Linguistic Acceptability)

单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列,是一个二分类任务。

样本个数:训练集 8551 个,开发集 1043 个,测试集 1063 个。

label = 1(合乎语法) 的 examples:

  • She is proud.
  • she is the mother.
  • Will John not go to school?

label = 0(不合乎语法) 的 examples:

  • Mary wonders for Bill to come.
  • Yes, she used.
  • Mary sent.

注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。

2.2 SST-2(The Stanford Sentiment Treebank)

单句子分类任务:给定一个 sentence(电影评论中的句子),预测其情感是 positive 还是 negative,是一个二分类任务。

样本个数:训练集 67350 个,开发集 873 个,测试集 1821 个。

label = 1(positive)的 examples:

  • two central performances
  • against shimmering cinematography that lends the setting the ethereal beauty of an asian landscape
  • a better movie

label = 0(negative)的 examples:

  • so pat it makes your teeth hurt
  • eastwood 's dirty harry period .
  • faced with the possibility that her life is meaningless , vapid and devoid of substance , in a movie that is definitely meaningless , vapid and devoid of substance

注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐。

2.3 MRPC(The Microsoft Research Paraphrase Corpus)

相似性和释义任务:给定两个 sentence(来自于在线新闻),判断两个句子在语义上是否等效。

样本个数:训练集 3668 个,开发集 408 个,测试集 1725 个。

label = 1(正样本,两个 sentence 语义相同)的 examples:

  • Example 1:
    • The largest gains were seen in prices, new orders, inventories and exports.
    • Sub-indexes measuring prices, new orders, inventories and exports increased.
  • Example 2:
    • Trading in Loral was halted yesterday; the shares closed on Monday at $ 3.01.
    • The New York Stock Exchange suspended trading yesterday in Loral, which closed at $ 3.01 Friday.

label = 2(负样本,两个 sentence 语义不同)的 examples:

  • Example 1:
    • Earnings per share from recurring operations will be 13 cents to 14 cents.
    • That beat the company 's April earnings forecast of 8 to 9 cents a share.
  • Example 2:
    • He beat testicular cancer that had spread to his lungs and brain.
    • Armstrong, 31, battled testicular cancer that spread to his brain.

本任务的数据集,包含两句话,每个样本的句子长度都非常长,且数据不均衡,正样本占比 68%,负样本仅占 32%。

2.4 STSB(The Semantic Textual Similarity Benchmark)

相似性和释义任务。预测两个 sentence 的相似性得分,评分为 0~5 的一个 float。

样本个数:训练集 5749 个,开发集 1379 个,测试集 1377 个。

  • Example 1:
    • A plane is taking off.
    • An air plane is taking off.
    • score:5.000
  • Example 2:
    • A man is playing a large flute.
    • A man is playing a flute.
    • score:3.800

整体句子长度适中偏短,且均衡。

2.5 QQP(The Quora Question Pairs)

相似性和释义任务。预测两个 question 在语义上是否等效,是二分类任务。

样本个数:训练集 363,870 个,开发集 40,431 个,测试集 390,965 个。

label = 1(positive,等效)的 Examples:

  • Example 1:
    • How can I improve my communication and verbal skills?
    • What should we do to improve communication skills?
  • Example 2:
    • What has Hillary Clinton done that makes her trustworthy?
    • Why do Democrats consider Hillary Clinton trustworthy?

label = 0(negative,不等效):

  • Example 1:
    • Why are you so sexy?
    • How sexy are you?
  • Example 2:
    • Which programming languages are common to develop in the area of gamification?
    • Who is the worst Director in the history of MNIT/MREC?

任务类似于 MRPC,这个任务的正负样本也不均衡,负样本占 63%,正样本是 37%,而且这个训练集、测试集都非常大,这里的测试集比其他训练集都要多好几倍。

2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)

自然语言推断任务。给定 premise 和 hypothesis 两个 sentence,预测两者关系:entailment or condradiction or neutral。

样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。

  • Example 1:
    • premise:The man is playing a guitar.
    • hypothesis:The man is singing while playing the guitar.
    • label:neutral
    • 前提描述了一个男人正在弹吉他,而假设则进一步提出这个男人在弹吉他的同时还在唱歌。由于前提没有提及唱歌这一行为,所以我们不能从前提直接推断出假设是正确的(非蕴含),同时也不能断定它是错误的(非矛盾)。因此,这个文本对的关系被标记为中立。

总体训练集很充足,GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。

2.7 QNLI(Qusetion-answering NLI)

自然语言推断任务。给定一个 question 和来自 Wikipedia 的 sentence,判断两者关系:蕴含 or 不蕴含。

数据是从 SQuAD 1.0(The Stanford Question Answering Dataset)中转换而来。

样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。

Example:

  • Which collection of minor poems are sometimes attributed to Virgil?
  • A number of minor poems, collected in the Appendix Vergiliana, are sometimes attributed to him.
  • label: 1(蕴含)

总体就是问答句子组成的问答对,一个是问题,一个是句子信息,后者包含前者的答案就是蕴含,不包含就是不蕴含,是一个二分类。

2.8 RTE(The Recognizing Textual Entailment datasets)

自然语言推断任务。判断两个 sentence 是否互为蕴含,二分类任务。

数据来源于一系列的年度文本蕴含挑战赛。

样本个数:训练集2, 491个,开发集277个,测试集3, 000个。

Example:

  • Herceptin was already approved to treat the sickest breast cancer patients, and the company said, Monday, it will discuss with federal regulators the possibility of prescribing the drug for more breast cancer patients.
  • Herceptin can be used to treat breast cancer.
  • label: 1(蕴含)

2.9 WNLI(Winograd NLI)

自然语言推断任务。预测两个句子对是否有关(蕴含、不蕴含),二分类任务。

数据来源于指代消解比赛。训练集两个类别是均衡的,测试集是不均衡的,65% 是不蕴含。

样本个数:训练集635个,开发集71个,测试集146个。

Example:

  • Bill passed the half-empty plate to John because he was hungry.
  • Bill was hungry.
  • label: 0(不愿韩)

这个数据集是数量最少,训练集600多个,测试集才100多个。同时目前GLUE上这个数据集还有些问题。

参考文章:

  • GLUE 基准数据集介绍 | 知乎

相关文章:

【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark

论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding ⭐⭐⭐⭐ arXiv:1804.07461, ICLR 2019 Site: https://gluebenchmark.com/ 文章目录 一、论文速读二、GLUE 任务列表2.1 CoLA(Corpus of Linguistic Accep…...

Go线程调度器

基本结构 字段gcwaiting、stopwait和stopnoted都是串行运行时任务执行前后的辅助协调手段 gcwaiting字段的值用于表示是否需要停止调度 在停止调度前,该值会被设置为1在恢复调度之前,该值会被设置为0这样做的作用是,一些调度任务在执行时只…...

使用 fvm 管理 Flutter 版本

文章目录 Github官网fvm 安装Mac/Linux 环境Windows 环境 fvm 环境变量fvm 基本命令 Github https://github.com/leoafarias/fvmhttps://github.com/flutter/flutter 官网 https://fvm.app/ fvm 安装 Mac/Linux 环境 Install.sh curl -fsSL https://fvm.app/install.sh …...

若依-前后端分离项目学习

★★★★★省流 直接看第一集和最后一集★★★★★ 第一天(6.24) 具体参考视频 b站 楠哥教你学Java 【【开源项目学习】若依前后端分离版,通俗易懂,快速上手】 https://www.bilibili.com/video/BV1HT4y1d7oA/?shar…...

使用adb shell getprop命令获取Android设备的属性

常用属性获取: adb shell getprop ro.build.version.emui —查询EMUI版本 adb shell getprop ro.product.brand —查询手机品牌 adb shell getprop ro.product.name --查询设备名称 adb shell getprop ro.serialno —查询设备序列号 获取手机系统信息( CPU,厂商…...

LNMP环境部署指南

本文档将指导您在CentOS 6.5上部署LNMP(Linux、Nginx、MySQL、PHP)环境。 系统环境 系统平台:CentOS release 6.5 安装前准备 在安装LNMP之前,您需要安装一些编译器和依赖包。 必备编译器和工具 #安装gcc、gcc-c编译器&#…...

[stm32]温湿度采集与OLED显示

一、I2C总线协议 I2C(Inter-integrated circuit )是一种允许从不同的芯片或电路与不同的主芯片通信的协议。它仅用于短距离通信,是一种用于两个或多个设备之间进行数据传输的串行总线技术,它可以让你在微处理器、传感器、存储器、…...

大模型知识库的使用

大模型知识库的使用通常涉及以下几个方面,使用大模型知识库可以提高信息检索的准确性和效率,促进知识的传播和应用。同时,也需要关注知识库的质量和更新,以确保提供的知识是准确和可靠的。北京木奇移动技术有限公司,专…...

Docker - Oracle Database 23ai Free

博文目录 文章目录 说明命令NavicatSYSTEMPDBADMIN 扩展公共用户本地用户 说明 Oracle 官方镜像仓库 Database 23ai Free | Oracle Docker 官方没有提供 Oracle Database 相关镜像, 但是 Oracle 官方镜像仓库有提供, 打开上面的链接, 选择 Database, 选择合适的版本, 如 enter…...

spring常用方法

1. 读取配置文件信息 方式一: // 获取文件路径 String fileName "application.yaml"; String filePath this.getClass().getClassLoader().getResource(fileName).getPath();BufferedReader bufferedReader new BufferedReader(new FileReader(path)…...

虚拟机能装在移动硬盘里吗安全吗 PD虚拟机迁移到移动硬盘的方法

虚拟机技术的迅速发展为用户提供了更为灵活的跨系统办公方案。许多用户希望在不同的电脑设备上运行相同的虚拟机,同时带来的也有一个问题:虚拟机能否装在移动硬盘里?针对用户的疑问,接下来给大家介绍虚拟机能装在移动硬盘里吗&…...

刷算法Leetcode---7(二叉树篇)(前中后序遍历)

前言 本文是跟着代码随想录的栈与队列顺序进行刷题并编写的 代码随想录 好久没刷算法了,最近又开始继续刷,果然还是要坚持。 二叉树的题目比之前多了好多,就多分几次写啦~ 这是力扣刷算法的其他文章链接:刷算法Leetcode文章汇总 …...

AliyunOS安装Node.js

方法1:dnf软件包安装工具自动安装 最方便的安装方式是通过系统的dnf工具,我测试使用的AliyunOS的版本是Alibaba Cloud Linux 3.2104,具体流程如下: dnf module list nodejs #列出服务器中可以使用的所有nodejs版本确定下来希望安…...

three.js - MeshPhongMaterial材质(实现玻璃水晶球效果)

1、概念 phong网格材质:Mesh - Phong - Material 一种用于具有镜面高光的光泽表面的材质。 它可以模拟,具有镜面高光的光泽表面,提供镜面反射效果。 MeshPhongMaterial: MeshPhongMaterial是一种基于Phong光照模型的材质&#…...

笔记本电脑安装CentOS

正文共:1234 字 24 图,预估阅读时间:2 分钟 前面我们对VPP进行了多次介绍(羡慕!大佬的VPP能达到180G性能,而我的却只有13.5G),可以发现他的很多优点,但是我们也可以发现它…...

ssh转发功能入门

端口转发概述 端口转发,能够将其他TCP端口的网络数据通过SSH链路转发,并且提供了ssh的加密和解密的服务。 ssh端口转发有如下这些优点: 提供了ssh的加密传输,利于安全能够突破防火墙限制 目前ssh端口转发有如下几种方式&#x…...

Listary(Windows 文件搜索工具)专业版值得购买吗?

说到经典的国货软件,有一款 Win 软件是一定绕不过去的。它就是知名的本地文件搜索工具 Listary! 便捷的文件搜索窗口;快捷操作的体验;与系统更匹配的外观设计;更智能的排序和更可靠的索引。 便捷的文件搜索窗口 紧凑…...

面试突击指南:Java基础面试题2

面向对象和集合 1. 面向对象和面向过程的区别 面向过程:面向过程的编程方式是分析解决问题的步骤,然后用函数把这些步骤一步一步地实现,并在使用的时候逐个调用。这种方式性能较高,因此在单片机和嵌入式开发中经常采用面向过程开发。 面向对象:面向对象的编程方式是把问…...

MySQL快速安装(mysql8.0.30区别之前yum安装)

目录 一.初始化环境并解压 二.创建程序用户管理 三.修改mysql目录和配置文件的权限 四.修改配置文件 五.设置环境变量,申明/宣告mysql命令便于系统识别 六.初始化数据库 七.设置系统识别,进行操作 八.初始化数据库密码 九.用户并设置密码 十.赋…...

俄罗斯防空系统

俄罗斯的S系列防空系统是一系列先进的地对空导弹系统,旨在防御各类空中威胁,包括飞机、无人机、巡航导弹和弹道导弹。以下是几种主要的S系列防空系统: 1. **S-300系统**: - **S-300P**:最早期的版本,用…...

XCTF-web-easyupload

试了试php,php7,pht,phtml等,都没有用 尝试.user.ini 抓包修改将.user.ini修改为jpg图片 在上传一个123.jpg 用蚁剑连接,得到flag...

51c自动驾驶~合集58

我自己的原文哦~ https://blog.51cto.com/whaosoft/13967107 #CCA-Attention 全局池化局部保留,CCA-Attention为LLM长文本建模带来突破性进展 琶洲实验室、华南理工大学联合推出关键上下文感知注意力机制(CCA-Attention),…...

如何在看板中体现优先级变化

在看板中有效体现优先级变化的关键措施包括:采用颜色或标签标识优先级、设置任务排序规则、使用独立的优先级列或泳道、结合自动化规则同步优先级变化、建立定期的优先级审查流程。其中,设置任务排序规则尤其重要,因为它让看板视觉上直观地体…...

C++ 基础特性深度解析

目录 引言 一、命名空间(namespace) C 中的命名空间​ 与 C 语言的对比​ 二、缺省参数​ C 中的缺省参数​ 与 C 语言的对比​ 三、引用(reference)​ C 中的引用​ 与 C 语言的对比​ 四、inline(内联函数…...

关于 WASM:1. WASM 基础原理

一、WASM 简介 1.1 WebAssembly 是什么? WebAssembly(WASM) 是一种能在现代浏览器中高效运行的二进制指令格式,它不是传统的编程语言,而是一种 低级字节码格式,可由高级语言(如 C、C、Rust&am…...

C++ Visual Studio 2017厂商给的源码没有.sln文件 易兆微芯片下载工具加开机动画下载。

1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj,再用Visual Studio 2022打开。再保侟就有.sln文件了。 易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…...

3-11单元格区域边界定位(End属性)学习笔记

返回一个Range 对象,只读。该对象代表包含源区域的区域上端下端左端右端的最后一个单元格。等同于按键 End 向上键(End(xlUp))、End向下键(End(xlDown))、End向左键(End(xlToLeft)End向右键(End(xlToRight)) 注意:它移动的位置必须是相连的有内容的单元格…...

html-<abbr> 缩写或首字母缩略词

定义与作用 <abbr> 标签用于表示缩写或首字母缩略词&#xff0c;它可以帮助用户更好地理解缩写的含义&#xff0c;尤其是对于那些不熟悉该缩写的用户。 title 属性的内容提供了缩写的详细说明。当用户将鼠标悬停在缩写上时&#xff0c;会显示一个提示框。 示例&#x…...

LabVIEW双光子成像系统技术

双光子成像技术的核心特性 双光子成像通过双低能量光子协同激发机制&#xff0c;展现出显著的技术优势&#xff1a; 深层组织穿透能力&#xff1a;适用于活体组织深度成像 高分辨率观测性能&#xff1a;满足微观结构的精细研究需求 低光毒性特点&#xff1a;减少对样本的损伤…...

华为OD机试-最短木板长度-二分法(A卷,100分)

此题是一个最大化最小值的典型例题&#xff0c; 因为搜索范围是有界的&#xff0c;上界最大木板长度补充的全部木料长度&#xff0c;下界最小木板长度&#xff1b; 即left0,right10^6; 我们可以设置一个候选值x(mid)&#xff0c;将木板的长度全部都补充到x&#xff0c;如果成功…...