当前位置: 首页 > news >正文

【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark

论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding

⭐⭐⭐⭐

arXiv:1804.07461, ICLR 2019

Site: https://gluebenchmark.com/

文章目录

    • 一、论文速读
    • 二、GLUE 任务列表
      • 2.1 CoLA(Corpus of Linguistic Acceptability)
      • 2.2 SST-2(The Stanford Sentiment Treebank)
      • 2.3 MRPC(The Microsoft Research Paraphrase Corpus)
      • 2.4 STSB(The Semantic Textual Similarity Benchmark)
      • 2.5 QQP(The Quora Question Pairs)
      • 2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)
      • 2.7 QNLI(Qusetion-answering NLI)
      • 2.8 RTE(The Recognizing Textual Entailment datasets)
      • 2.9 WNLI(Winograd NLI)

一、论文速读

GLUE benchmark 包含 9 个 NLU 任务来评估 NLP 模型的语义理解能力。这些任务均为 sentence or sentence-pair NLU tasks,语言均为英语。

二、GLUE 任务列表

下图是各个任务的一个统计:

在这里插入图片描述

2.1 CoLA(Corpus of Linguistic Acceptability)

单句子分类任务。每个 sentence 被标注为是否合乎语法的单词序列,是一个二分类任务。

样本个数:训练集 8551 个,开发集 1043 个,测试集 1063 个。

label = 1(合乎语法) 的 examples:

  • She is proud.
  • she is the mother.
  • Will John not go to school?

label = 0(不合乎语法) 的 examples:

  • Mary wonders for Bill to come.
  • Yes, she used.
  • Mary sent.

注意到,这里面的句子看起来不是很长,有些错误是性别不符,有些是缺词、少词,有些是加s不加s的情况,各种语法错误。但我也注意到,有一些看起来错误并没有那么严重,甚至在某些情况还是可以说的通的。

2.2 SST-2(The Stanford Sentiment Treebank)

单句子分类任务:给定一个 sentence(电影评论中的句子),预测其情感是 positive 还是 negative,是一个二分类任务。

样本个数:训练集 67350 个,开发集 873 个,测试集 1821 个。

label = 1(positive)的 examples:

  • two central performances
  • against shimmering cinematography that lends the setting the ethereal beauty of an asian landscape
  • a better movie

label = 0(negative)的 examples:

  • so pat it makes your teeth hurt
  • eastwood 's dirty harry period .
  • faced with the possibility that her life is meaningless , vapid and devoid of substance , in a movie that is definitely meaningless , vapid and devoid of substance

注意到,由于句子来源于电影评论,又有它们情感的人类注释,不同于CoLA的整体偏短,有些句子很长,有些句子很短,长短并不整齐。

2.3 MRPC(The Microsoft Research Paraphrase Corpus)

相似性和释义任务:给定两个 sentence(来自于在线新闻),判断两个句子在语义上是否等效。

样本个数:训练集 3668 个,开发集 408 个,测试集 1725 个。

label = 1(正样本,两个 sentence 语义相同)的 examples:

  • Example 1:
    • The largest gains were seen in prices, new orders, inventories and exports.
    • Sub-indexes measuring prices, new orders, inventories and exports increased.
  • Example 2:
    • Trading in Loral was halted yesterday; the shares closed on Monday at $ 3.01.
    • The New York Stock Exchange suspended trading yesterday in Loral, which closed at $ 3.01 Friday.

label = 2(负样本,两个 sentence 语义不同)的 examples:

  • Example 1:
    • Earnings per share from recurring operations will be 13 cents to 14 cents.
    • That beat the company 's April earnings forecast of 8 to 9 cents a share.
  • Example 2:
    • He beat testicular cancer that had spread to his lungs and brain.
    • Armstrong, 31, battled testicular cancer that spread to his brain.

本任务的数据集,包含两句话,每个样本的句子长度都非常长,且数据不均衡,正样本占比 68%,负样本仅占 32%。

2.4 STSB(The Semantic Textual Similarity Benchmark)

相似性和释义任务。预测两个 sentence 的相似性得分,评分为 0~5 的一个 float。

样本个数:训练集 5749 个,开发集 1379 个,测试集 1377 个。

  • Example 1:
    • A plane is taking off.
    • An air plane is taking off.
    • score:5.000
  • Example 2:
    • A man is playing a large flute.
    • A man is playing a flute.
    • score:3.800

整体句子长度适中偏短,且均衡。

2.5 QQP(The Quora Question Pairs)

相似性和释义任务。预测两个 question 在语义上是否等效,是二分类任务。

样本个数:训练集 363,870 个,开发集 40,431 个,测试集 390,965 个。

label = 1(positive,等效)的 Examples:

  • Example 1:
    • How can I improve my communication and verbal skills?
    • What should we do to improve communication skills?
  • Example 2:
    • What has Hillary Clinton done that makes her trustworthy?
    • Why do Democrats consider Hillary Clinton trustworthy?

label = 0(negative,不等效):

  • Example 1:
    • Why are you so sexy?
    • How sexy are you?
  • Example 2:
    • Which programming languages are common to develop in the area of gamification?
    • Who is the worst Director in the history of MNIT/MREC?

任务类似于 MRPC,这个任务的正负样本也不均衡,负样本占 63%,正样本是 37%,而且这个训练集、测试集都非常大,这里的测试集比其他训练集都要多好几倍。

2.6 MNLI(The Multi-Genre Natural Language Inference Corpus)

自然语言推断任务。给定 premise 和 hypothesis 两个 sentence,预测两者关系:entailment or condradiction or neutral。

样本个数:训练集392, 702个,开发集dev-matched 9, 815个,开发集dev-mismatched9, 832个,测试集test-matched 9, 796个,测试集test-dismatched9, 847个。因为MNLI是集合了许多不同领域风格的文本,所以又分为了matched和mismatched两个版本的数据集,matched指的是训练集和测试集的数据来源一致,mismached指的是训练集和测试集来源不一致。

  • Example 1:
    • premise:The man is playing a guitar.
    • hypothesis:The man is singing while playing the guitar.
    • label:neutral
    • 前提描述了一个男人正在弹吉他,而假设则进一步提出这个男人在弹吉他的同时还在唱歌。由于前提没有提及唱歌这一行为,所以我们不能从前提直接推断出假设是正确的(非蕴含),同时也不能断定它是错误的(非矛盾)。因此,这个文本对的关系被标记为中立。

总体训练集很充足,GLUE 论文作者使用并推荐 SNLI 数据集作为辅助训练数据。

2.7 QNLI(Qusetion-answering NLI)

自然语言推断任务。给定一个 question 和来自 Wikipedia 的 sentence,判断两者关系:蕴含 or 不蕴含。

数据是从 SQuAD 1.0(The Stanford Question Answering Dataset)中转换而来。

样本个数:训练集104, 743个,开发集5, 463个,测试集5, 461个。

Example:

  • Which collection of minor poems are sometimes attributed to Virgil?
  • A number of minor poems, collected in the Appendix Vergiliana, are sometimes attributed to him.
  • label: 1(蕴含)

总体就是问答句子组成的问答对,一个是问题,一个是句子信息,后者包含前者的答案就是蕴含,不包含就是不蕴含,是一个二分类。

2.8 RTE(The Recognizing Textual Entailment datasets)

自然语言推断任务。判断两个 sentence 是否互为蕴含,二分类任务。

数据来源于一系列的年度文本蕴含挑战赛。

样本个数:训练集2, 491个,开发集277个,测试集3, 000个。

Example:

  • Herceptin was already approved to treat the sickest breast cancer patients, and the company said, Monday, it will discuss with federal regulators the possibility of prescribing the drug for more breast cancer patients.
  • Herceptin can be used to treat breast cancer.
  • label: 1(蕴含)

2.9 WNLI(Winograd NLI)

自然语言推断任务。预测两个句子对是否有关(蕴含、不蕴含),二分类任务。

数据来源于指代消解比赛。训练集两个类别是均衡的,测试集是不均衡的,65% 是不蕴含。

样本个数:训练集635个,开发集71个,测试集146个。

Example:

  • Bill passed the half-empty plate to John because he was hungry.
  • Bill was hungry.
  • label: 0(不愿韩)

这个数据集是数量最少,训练集600多个,测试集才100多个。同时目前GLUE上这个数据集还有些问题。

参考文章:

  • GLUE 基准数据集介绍 | 知乎

相关文章:

【LLM 评估】GLUE benchmark:NLU 的多任务 benchmark

论文:GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding ⭐⭐⭐⭐ arXiv:1804.07461, ICLR 2019 Site: https://gluebenchmark.com/ 文章目录 一、论文速读二、GLUE 任务列表2.1 CoLA(Corpus of Linguistic Accep…...

Go线程调度器

基本结构 字段gcwaiting、stopwait和stopnoted都是串行运行时任务执行前后的辅助协调手段 gcwaiting字段的值用于表示是否需要停止调度 在停止调度前,该值会被设置为1在恢复调度之前,该值会被设置为0这样做的作用是,一些调度任务在执行时只…...

使用 fvm 管理 Flutter 版本

文章目录 Github官网fvm 安装Mac/Linux 环境Windows 环境 fvm 环境变量fvm 基本命令 Github https://github.com/leoafarias/fvmhttps://github.com/flutter/flutter 官网 https://fvm.app/ fvm 安装 Mac/Linux 环境 Install.sh curl -fsSL https://fvm.app/install.sh …...

若依-前后端分离项目学习

★★★★★省流 直接看第一集和最后一集★★★★★ 第一天(6.24) 具体参考视频 b站 楠哥教你学Java 【【开源项目学习】若依前后端分离版,通俗易懂,快速上手】 https://www.bilibili.com/video/BV1HT4y1d7oA/?shar…...

使用adb shell getprop命令获取Android设备的属性

常用属性获取: adb shell getprop ro.build.version.emui —查询EMUI版本 adb shell getprop ro.product.brand —查询手机品牌 adb shell getprop ro.product.name --查询设备名称 adb shell getprop ro.serialno —查询设备序列号 获取手机系统信息( CPU,厂商…...

LNMP环境部署指南

本文档将指导您在CentOS 6.5上部署LNMP(Linux、Nginx、MySQL、PHP)环境。 系统环境 系统平台:CentOS release 6.5 安装前准备 在安装LNMP之前,您需要安装一些编译器和依赖包。 必备编译器和工具 #安装gcc、gcc-c编译器&#…...

[stm32]温湿度采集与OLED显示

一、I2C总线协议 I2C(Inter-integrated circuit )是一种允许从不同的芯片或电路与不同的主芯片通信的协议。它仅用于短距离通信,是一种用于两个或多个设备之间进行数据传输的串行总线技术,它可以让你在微处理器、传感器、存储器、…...

大模型知识库的使用

大模型知识库的使用通常涉及以下几个方面,使用大模型知识库可以提高信息检索的准确性和效率,促进知识的传播和应用。同时,也需要关注知识库的质量和更新,以确保提供的知识是准确和可靠的。北京木奇移动技术有限公司,专…...

Docker - Oracle Database 23ai Free

博文目录 文章目录 说明命令NavicatSYSTEMPDBADMIN 扩展公共用户本地用户 说明 Oracle 官方镜像仓库 Database 23ai Free | Oracle Docker 官方没有提供 Oracle Database 相关镜像, 但是 Oracle 官方镜像仓库有提供, 打开上面的链接, 选择 Database, 选择合适的版本, 如 enter…...

spring常用方法

1. 读取配置文件信息 方式一: // 获取文件路径 String fileName "application.yaml"; String filePath this.getClass().getClassLoader().getResource(fileName).getPath();BufferedReader bufferedReader new BufferedReader(new FileReader(path)…...

虚拟机能装在移动硬盘里吗安全吗 PD虚拟机迁移到移动硬盘的方法

虚拟机技术的迅速发展为用户提供了更为灵活的跨系统办公方案。许多用户希望在不同的电脑设备上运行相同的虚拟机,同时带来的也有一个问题:虚拟机能否装在移动硬盘里?针对用户的疑问,接下来给大家介绍虚拟机能装在移动硬盘里吗&…...

刷算法Leetcode---7(二叉树篇)(前中后序遍历)

前言 本文是跟着代码随想录的栈与队列顺序进行刷题并编写的 代码随想录 好久没刷算法了,最近又开始继续刷,果然还是要坚持。 二叉树的题目比之前多了好多,就多分几次写啦~ 这是力扣刷算法的其他文章链接:刷算法Leetcode文章汇总 …...

AliyunOS安装Node.js

方法1:dnf软件包安装工具自动安装 最方便的安装方式是通过系统的dnf工具,我测试使用的AliyunOS的版本是Alibaba Cloud Linux 3.2104,具体流程如下: dnf module list nodejs #列出服务器中可以使用的所有nodejs版本确定下来希望安…...

three.js - MeshPhongMaterial材质(实现玻璃水晶球效果)

1、概念 phong网格材质:Mesh - Phong - Material 一种用于具有镜面高光的光泽表面的材质。 它可以模拟,具有镜面高光的光泽表面,提供镜面反射效果。 MeshPhongMaterial: MeshPhongMaterial是一种基于Phong光照模型的材质&#…...

笔记本电脑安装CentOS

正文共:1234 字 24 图,预估阅读时间:2 分钟 前面我们对VPP进行了多次介绍(羡慕!大佬的VPP能达到180G性能,而我的却只有13.5G),可以发现他的很多优点,但是我们也可以发现它…...

ssh转发功能入门

端口转发概述 端口转发,能够将其他TCP端口的网络数据通过SSH链路转发,并且提供了ssh的加密和解密的服务。 ssh端口转发有如下这些优点: 提供了ssh的加密传输,利于安全能够突破防火墙限制 目前ssh端口转发有如下几种方式&#x…...

Listary(Windows 文件搜索工具)专业版值得购买吗?

说到经典的国货软件,有一款 Win 软件是一定绕不过去的。它就是知名的本地文件搜索工具 Listary! 便捷的文件搜索窗口;快捷操作的体验;与系统更匹配的外观设计;更智能的排序和更可靠的索引。 便捷的文件搜索窗口 紧凑…...

面试突击指南:Java基础面试题2

面向对象和集合 1. 面向对象和面向过程的区别 面向过程:面向过程的编程方式是分析解决问题的步骤,然后用函数把这些步骤一步一步地实现,并在使用的时候逐个调用。这种方式性能较高,因此在单片机和嵌入式开发中经常采用面向过程开发。 面向对象:面向对象的编程方式是把问…...

MySQL快速安装(mysql8.0.30区别之前yum安装)

目录 一.初始化环境并解压 二.创建程序用户管理 三.修改mysql目录和配置文件的权限 四.修改配置文件 五.设置环境变量,申明/宣告mysql命令便于系统识别 六.初始化数据库 七.设置系统识别,进行操作 八.初始化数据库密码 九.用户并设置密码 十.赋…...

俄罗斯防空系统

俄罗斯的S系列防空系统是一系列先进的地对空导弹系统,旨在防御各类空中威胁,包括飞机、无人机、巡航导弹和弹道导弹。以下是几种主要的S系列防空系统: 1. **S-300系统**: - **S-300P**:最早期的版本,用…...

iOS 26 携众系统重磅更新,但“苹果智能”仍与国行无缘

美国西海岸的夏天,再次被苹果点燃。一年一度的全球开发者大会 WWDC25 如期而至,这不仅是开发者的盛宴,更是全球数亿苹果用户翘首以盼的科技春晚。今年,苹果依旧为我们带来了全家桶式的系统更新,包括 iOS 26、iPadOS 26…...

简易版抽奖活动的设计技术方案

1.前言 本技术方案旨在设计一套完整且可靠的抽奖活动逻辑,确保抽奖活动能够公平、公正、公开地进行,同时满足高并发访问、数据安全存储与高效处理等需求,为用户提供流畅的抽奖体验,助力业务顺利开展。本方案将涵盖抽奖活动的整体架构设计、核心流程逻辑、关键功能实现以及…...

土地利用/土地覆盖遥感解译与基于CLUE模型未来变化情景预测;从基础到高级,涵盖ArcGIS数据处理、ENVI遥感解译与CLUE模型情景模拟等

🔍 土地利用/土地覆盖数据是生态、环境和气象等诸多领域模型的关键输入参数。通过遥感影像解译技术,可以精准获取历史或当前任何一个区域的土地利用/土地覆盖情况。这些数据不仅能够用于评估区域生态环境的变化趋势,还能有效评价重大生态工程…...

【服务器压力测试】本地PC电脑作为服务器运行时出现卡顿和资源紧张(Windows/Linux)

要让本地PC电脑作为服务器运行时出现卡顿和资源紧张的情况,可以通过以下几种方式模拟或触发: 1. 增加CPU负载 运行大量计算密集型任务,例如: 使用多线程循环执行复杂计算(如数学运算、加密解密等)。运行图…...

聊一聊接口测试的意义有哪些?

目录 一、隔离性 & 早期测试 二、保障系统集成质量 三、验证业务逻辑的核心层 四、提升测试效率与覆盖度 五、系统稳定性的守护者 六、驱动团队协作与契约管理 七、性能与扩展性的前置评估 八、持续交付的核心支撑 接口测试的意义可以从四个维度展开,首…...

网络编程(UDP编程)

思维导图 UDP基础编程(单播) 1.流程图 服务器:短信的接收方 创建套接字 (socket)-----------------------------------------》有手机指定网络信息-----------------------------------------------》有号码绑定套接字 (bind)--------------…...

全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比

目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...

图表类系列各种样式PPT模版分享

图标图表系列PPT模版,柱状图PPT模版,线状图PPT模版,折线图PPT模版,饼状图PPT模版,雷达图PPT模版,树状图PPT模版 图表类系列各种样式PPT模版分享:图表系列PPT模板https://pan.quark.cn/s/20d40aa…...

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材)

推荐 github 项目:GeminiImageApp(图片生成方向,可以做一定的素材) 这个项目能干嘛? 使用 gemini 2.0 的 api 和 google 其他的 api 来做衍生处理 简化和优化了文生图和图生图的行为(我的最主要) 并且有一些目标检测和切割(我用不到) 视频和 imagefx 因为没 a…...

安全突围:重塑内生安全体系:齐向东在2025年BCS大会的演讲

文章目录 前言第一部分:体系力量是突围之钥第一重困境是体系思想落地不畅。第二重困境是大小体系融合瓶颈。第三重困境是“小体系”运营梗阻。 第二部分:体系矛盾是突围之障一是数据孤岛的障碍。二是投入不足的障碍。三是新旧兼容难的障碍。 第三部分&am…...