【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark
论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding
⭐⭐⭐⭐
arXiv:1804.07461, ICLR 2019
Site: https://gluebenchmark.com/
文章目录
- 一、论文速读
- 二、GLUE 任务列表
- 2.1 CoLA(Corpus of Linguistic Acceptability)
- 2.2 SST-2(The Stanford Sentiment Treebank)
- 2.3 MRPC(The Microsoft Research Paraphrase Corpus)
- 2.4 STSB(The Semantic Textual Similarity Benchmark)
- 2.5 QQP(The Quora Question Pairs)
- 2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
- 2.7 QNLI(Qusetion-answering NLI)
- 2.8 RTE(The Recognizing Textual Entailment datasets)
- 2.9 WNLI(Winograd NLI)
一、论文速读
GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。
二、GLUE 任务列表
下图是各个任务的一个统计:

2.1 CoLA(Corpus of Linguistic Acceptability)
单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列,是一个二分类任务。
样本个数:训练集 8551 个,开发集 1043 个,测试集 1063 个。
label = 1(合乎语法) 的 examples:
- She is proud.
- she is the mother.
- Will John not go to school?
label = 0(不合乎语法) 的 examples:
- Mary wonders for Bill to come.
- Yes, she used.
- Mary sent.
注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。
2.2 SST-2(The Stanford Sentiment Treebank)
单句子分类任务:给定一个 sentence(电影评论中的句子),预测其情感是 positive 还是 negative,是一个二分类任务。
样本个数:训练集 67350 个,开发集 873 个,测试集 1821 个。
label = 1(positive)的 examples:
- two central performances
- against shimmering cinematography that lends the setting the ethereal beauty of an asian landscape
- a better movie
label = 0(negative)的 examples:
- so pat it makes your teeth hurt
- eastwood 's dirty harry period .
- faced with the possibility that her life is meaningless , vapid and devoid of substance , in a movie that is definitely meaningless , vapid and devoid of substance
注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐。
2.3 MRPC(The Microsoft Research Paraphrase Corpus)
相似性和释义任务:给定两个 sentence(来自于在线新闻),判断两个句子在语义上是否等效。
样本个数:训练集 3668 个,开发集 408 个,测试集 1725 个。
label = 1(正样本,两个 sentence 语义相同)的 examples:
- Example 1:
- The largest gains were seen in prices, new orders, inventories and exports.
- Sub-indexes measuring prices, new orders, inventories and exports increased.
- Example 2:
- Trading in Loral was halted yesterday; the shares closed on Monday at $ 3.01.
- The New York Stock Exchange suspended trading yesterday in Loral, which closed at $ 3.01 Friday.
label = 2(负样本,两个 sentence 语义不同)的 examples:
- Example 1:
- Earnings per share from recurring operations will be 13 cents to 14 cents.
- That beat the company 's April earnings forecast of 8 to 9 cents a share.
- Example 2:
- He beat testicular cancer that had spread to his lungs and brain.
- Armstrong, 31, battled testicular cancer that spread to his brain.
本任务的数据集,包含两句话,每个样本的句子长度都非常长,且数据不均衡,正样本占比 68%,负样本仅占 32%。
2.4 STSB(The Semantic Textual Similarity Benchmark)
相似性和释义任务。预测两个 sentence 的相似性得分,评分为 0~5 的一个 float。
样本个数:训练集 5749 个,开发集 1379 个,测试集 1377 个。
- Example 1:
- A plane is taking off.
- An air plane is taking off.
- score:5.000
- Example 2:
- A man is playing a large flute.
- A man is playing a flute.
- score:3.800
整体句子长度适中偏短,且均衡。
2.5 QQP(The Quora Question Pairs)
相似性和释义任务。预测两个 question 在语义上是否等效,是二分类任务。
样本个数:训练集 363,870 个,开发集 40,431 个,测试集 390,965 个。
label = 1(positive,等效)的 Examples:
- Example 1:
- How can I improve my communication and verbal skills?
- What should we do to improve communication skills?
- Example 2:
- What has Hillary Clinton done that makes her trustworthy?
- Why do Democrats consider Hillary Clinton trustworthy?
label = 0(negative,不等效):
- Example 1:
- Why are you so sexy?
- How sexy are you?
- Example 2:
- Which programming languages are common to develop in the area of gamification?
- Who is the worst Director in the history of MNIT/MREC?
任务类似于 MRPC,这个任务的正负样本也不均衡,负样本占 63%,正样本是 37%,而且这个训练集、测试集都非常大,这里的测试集比其他训练集都要多好几倍。
2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
自然语言推断任务。给定 premise 和 hypothesis 两个 sentence,预测两者关系:entailment or condradiction or neutral。
样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。
- Example 1:
- premise:The man is playing a guitar.
- hypothesis:The man is singing while playing the guitar.
- label:neutral
- 前提描述了一个男人正在弹吉他,而假设则进一步提出这个男人在弹吉他的同时还在唱歌。由于前提没有提及唱歌这一行为,所以我们不能从前提直接推断出假设是正确的(非蕴含),同时也不能断定它是错误的(非矛盾)。因此,这个文本对的关系被标记为中立。
总体训练集很充足,GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。
2.7 QNLI(Qusetion-answering NLI)
自然语言推断任务。给定一个 question 和来自 Wikipedia 的 sentence,判断两者关系:蕴含 or 不蕴含。
数据是从 SQuAD 1.0(The Stanford Question Answering Dataset)中转换而来。
样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。
Example:
- Which collection of minor poems are sometimes attributed to Virgil?
- A number of minor poems, collected in the Appendix Vergiliana, are sometimes attributed to him.
- label: 1(蕴含)
总体就是问答句子组成的问答对,一个是问题,一个是句子信息,后者包含前者的答案就是蕴含,不包含就是不蕴含,是一个二分类。
2.8 RTE(The Recognizing Textual Entailment datasets)
自然语言推断任务。判断两个 sentence 是否互为蕴含,二分类任务。
数据来源于一系列的年度文本蕴含挑战赛。
样本个数:训练集2, 491个,开发集277个,测试集3, 000个。
Example:
- Herceptin was already approved to treat the sickest breast cancer patients, and the company said, Monday, it will discuss with federal regulators the possibility of prescribing the drug for more breast cancer patients.
- Herceptin can be used to treat breast cancer.
- label: 1(蕴含)
2.9 WNLI(Winograd NLI)
自然语言推断任务。预测两个句子对是否有关(蕴含、不蕴含),二分类任务。
数据来源于指代消解比赛。训练集两个类别是均衡的,测试集是不均衡的,65% 是不蕴含。
样本个数:训练集635个,开发集71个,测试集146个。
Example:
- Bill passed the half-empty plate to John because he was hungry.
- Bill was hungry.
- label: 0(不愿韩)
这个数据集是数量最少,训练集600多个,测试集才100多个。同时目前GLUE上这个数据集还有些问题。
参考文章:
- GLUE 基准数据集介绍 | 知乎
相关文章:
【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark
论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding ⭐⭐⭐⭐ arXiv:1804.07461, ICLR 2019 Site: https://gluebenchmark.com/ 文章目录 一、论文速读二、GLUE 任务列表2.1 CoLA(Corpus of Linguistic Accep…...
Go线程调度器
基本结构 字段gcwaiting、stopwait和stopnoted都是串行运行时任务执行前后的辅助协调手段 gcwaiting字段的值用于表示是否需要停止调度 在停止调度前,该值会被设置为1在恢复调度之前,该值会被设置为0这样做的作用是,一些调度任务在执行时只…...
使用 fvm 管理 Flutter 版本
文章目录 Github官网fvm 安装Mac/Linux 环境Windows 环境 fvm 环境变量fvm 基本命令 Github https://github.com/leoafarias/fvmhttps://github.com/flutter/flutter 官网 https://fvm.app/ fvm 安装 Mac/Linux 环境 Install.sh curl -fsSL https://fvm.app/install.sh …...
若依-前后端分离项目学习
★★★★★省流 直接看第一集和最后一集★★★★★ 第一天(6.24) 具体参考视频 b站 楠哥教你学Java 【【开源项目学习】若依前后端分离版,通俗易懂,快速上手】 https://www.bilibili.com/video/BV1HT4y1d7oA/?shar…...
使用adb shell getprop命令获取Android设备的属性
常用属性获取: adb shell getprop ro.build.version.emui —查询EMUI版本 adb shell getprop ro.product.brand —查询手机品牌 adb shell getprop ro.product.name --查询设备名称 adb shell getprop ro.serialno —查询设备序列号 获取手机系统信息( CPU,厂商…...
LNMP环境部署指南
本文档将指导您在CentOS 6.5上部署LNMP(Linux、Nginx、MySQL、PHP)环境。 系统环境 系统平台:CentOS release 6.5 安装前准备 在安装LNMP之前,您需要安装一些编译器和依赖包。 必备编译器和工具 #安装gcc、gcc-c编译器&#…...
[stm32]温湿度采集与OLED显示
一、I2C总线协议 I2C(Inter-integrated circuit )是一种允许从不同的芯片或电路与不同的主芯片通信的协议。它仅用于短距离通信,是一种用于两个或多个设备之间进行数据传输的串行总线技术,它可以让你在微处理器、传感器、存储器、…...
大模型知识库的使用
大模型知识库的使用通常涉及以下几个方面,使用大模型知识库可以提高信息检索的准确性和效率,促进知识的传播和应用。同时,也需要关注知识库的质量和更新,以确保提供的知识是准确和可靠的。北京木奇移动技术有限公司,专…...
Docker - Oracle Database 23ai Free
博文目录 文章目录 说明命令NavicatSYSTEMPDBADMIN 扩展公共用户本地用户 说明 Oracle 官方镜像仓库 Database 23ai Free | Oracle Docker 官方没有提供 Oracle Database 相关镜像, 但是 Oracle 官方镜像仓库有提供, 打开上面的链接, 选择 Database, 选择合适的版本, 如 enter…...
spring常用方法
1. 读取配置文件信息 方式一: // 获取文件路径 String fileName "application.yaml"; String filePath this.getClass().getClassLoader().getResource(fileName).getPath();BufferedReader bufferedReader new BufferedReader(new FileReader(path)…...
虚拟机能装在移动硬盘里吗安全吗 PD虚拟机迁移到移动硬盘的方法
虚拟机技术的迅速发展为用户提供了更为灵活的跨系统办公方案。许多用户希望在不同的电脑设备上运行相同的虚拟机,同时带来的也有一个问题:虚拟机能否装在移动硬盘里?针对用户的疑问,接下来给大家介绍虚拟机能装在移动硬盘里吗&…...
刷算法Leetcode---7(二叉树篇)(前中后序遍历)
前言 本文是跟着代码随想录的栈与队列顺序进行刷题并编写的 代码随想录 好久没刷算法了,最近又开始继续刷,果然还是要坚持。 二叉树的题目比之前多了好多,就多分几次写啦~ 这是力扣刷算法的其他文章链接:刷算法Leetcode文章汇总 …...
AliyunOS安装Node.js
方法1:dnf软件包安装工具自动安装 最方便的安装方式是通过系统的dnf工具,我测试使用的AliyunOS的版本是Alibaba Cloud Linux 3.2104,具体流程如下: dnf module list nodejs #列出服务器中可以使用的所有nodejs版本确定下来希望安…...
three.js - MeshPhongMaterial材质(实现玻璃水晶球效果)
1、概念 phong网格材质:Mesh - Phong - Material 一种用于具有镜面高光的光泽表面的材质。 它可以模拟,具有镜面高光的光泽表面,提供镜面反射效果。 MeshPhongMaterial: MeshPhongMaterial是一种基于Phong光照模型的材质&#…...
笔记本电脑安装CentOS
正文共:1234 字 24 图,预估阅读时间:2 分钟 前面我们对VPP进行了多次介绍(羡慕!大佬的VPP能达到180G性能,而我的却只有13.5G),可以发现他的很多优点,但是我们也可以发现它…...
ssh转发功能入门
端口转发概述 端口转发,能够将其他TCP端口的网络数据通过SSH链路转发,并且提供了ssh的加密和解密的服务。 ssh端口转发有如下这些优点: 提供了ssh的加密传输,利于安全能够突破防火墙限制 目前ssh端口转发有如下几种方式&#x…...
Listary(Windows 文件搜索工具)专业版值得购买吗?
说到经典的国货软件,有一款 Win 软件是一定绕不过去的。它就是知名的本地文件搜索工具 Listary! 便捷的文件搜索窗口;快捷操作的体验;与系统更匹配的外观设计;更智能的排序和更可靠的索引。 便捷的文件搜索窗口 紧凑…...
面试突击指南:Java基础面试题2
面向对象和集合 1. 面向对象和面向过程的区别 面向过程:面向过程的编程方式是分析解决问题的步骤,然后用函数把这些步骤一步一步地实现,并在使用的时候逐个调用。这种方式性能较高,因此在单片机和嵌入式开发中经常采用面向过程开发。 面向对象:面向对象的编程方式是把问…...
MySQL快速安装(mysql8.0.30区别之前yum安装)
目录 一.初始化环境并解压 二.创建程序用户管理 三.修改mysql目录和配置文件的权限 四.修改配置文件 五.设置环境变量,申明/宣告mysql命令便于系统识别 六.初始化数据库 七.设置系统识别,进行操作 八.初始化数据库密码 九.用户并设置密码 十.赋…...
俄罗斯防空系统
俄罗斯的S系列防空系统是一系列先进的地对空导弹系统,旨在防御各类空中威胁,包括飞机、无人机、巡航导弹和弹道导弹。以下是几种主要的S系列防空系统: 1. **S-300系统**: - **S-300P**:最早期的版本,用…...
Mybatis逆向工程,动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件
今天呢,博主的学习进度也是步入了Java Mybatis 框架,目前正在逐步杨帆旗航。 那么接下来就给大家出一期有关 Mybatis 逆向工程的教学,希望能对大家有所帮助,也特别欢迎大家指点不足之处,小生很乐意接受正确的建议&…...
使用Matplotlib创建炫酷的3D散点图:数据可视化的新维度
文章目录 基础实现代码代码解析进阶技巧1. 自定义点的大小和颜色2. 添加图例和样式美化3. 真实数据应用示例实用技巧与注意事项完整示例(带样式)应用场景在数据科学和可视化领域,三维图形能为我们提供更丰富的数据洞察。本文将手把手教你如何使用Python的Matplotlib库创建引…...
保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek
文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...
PHP 8.5 即将发布:管道操作符、强力调试
前不久,PHP宣布了即将在 2025 年 11 月 20 日 正式发布的 PHP 8.5!作为 PHP 语言的又一次重要迭代,PHP 8.5 承诺带来一系列旨在提升代码可读性、健壮性以及开发者效率的改进。而更令人兴奋的是,借助强大的本地开发环境 ServBay&am…...
Unity UGUI Button事件流程
场景结构 测试代码 public class TestBtn : MonoBehaviour {void Start(){var btn GetComponent<Button>();btn.onClick.AddListener(OnClick);}private void OnClick(){Debug.Log("666");}}当添加事件时 // 实例化一个ButtonClickedEvent的事件 [Formerl…...
嵌入式常见 CPU 架构
架构类型架构厂商芯片厂商典型芯片特点与应用场景PICRISC (8/16 位)MicrochipMicrochipPIC16F877A、PIC18F4550简化指令集,单周期执行;低功耗、CIP 独立外设;用于家电、小电机控制、安防面板等嵌入式场景8051CISC (8 位)Intel(原始…...
抽象类和接口(全)
一、抽象类 1.概念:如果⼀个类中没有包含⾜够的信息来描绘⼀个具体的对象,这样的类就是抽象类。 像是没有实际⼯作的⽅法,我们可以把它设计成⼀个抽象⽅法,包含抽象⽅法的类我们称为抽象类。 2.语法 在Java中,⼀个类如果被 abs…...
水泥厂自动化升级利器:Devicenet转Modbus rtu协议转换网关
在水泥厂的生产流程中,工业自动化网关起着至关重要的作用,尤其是JH-DVN-RTU疆鸿智能Devicenet转Modbus rtu协议转换网关,为水泥厂实现高效生产与精准控制提供了有力支持。 水泥厂设备众多,其中不少设备采用Devicenet协议。Devicen…...
【Post-process】【VBA】ETABS VBA FrameObj.GetNameList and write to EXCEL
ETABS API实战:导出框架元素数据到Excel 在结构工程师的日常工作中,经常需要从ETABS模型中提取框架元素信息进行后续分析。手动复制粘贴不仅耗时,还容易出错。今天我们来用简单的VBA代码实现自动化导出。 🎯 我们要实现什么? 一键点击,就能将ETABS中所有框架元素的基…...
【Linux】Linux安装并配置RabbitMQ
目录 1. 安装 Erlang 2. 安装 RabbitMQ 2.1.添加 RabbitMQ 仓库 2.2.安装 RabbitMQ 3.配置 3.1.启动和管理服务 4. 访问管理界面 5.安装问题 6.修改密码 7.修改端口 7.1.找到文件 7.2.修改文件 1. 安装 Erlang 由于 RabbitMQ 是用 Erlang 编写的,需要先安…...
