当前位置: 首页 > news >正文

A Close Look into the Calibration of Pre-trained Language Models

本文是LLM系列文章,针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。

预训练语言模型的校准研究

  • 摘要
  • 1 引言
  • 2 背景
  • 3 评测指标
  • 4 PLM是否学会了校准?
  • 5 现有方法的效果如何?
  • 6 结论
  • 局限性与未来工作

摘要

预训练语言模型(plm)可能无法给出预测不确定性的可靠估计。我们仔细研究了这个问题,旨在回答两个问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?对于第一个问题,我们进行细粒度控制实验,研究PLMs在训练过程中校准性能的动态变化。我们考虑六个因素作为控制变量,包括数据集难度、可用训练样本、训练步骤、可调参数数量、模型规模和预训练。我们观察到校准性能在六个因素中的一致变化。我们发现,无论预测是否正确,plm都不会在训练中学会校准,这可以通过信心的持续增长来证明。我们强调,我们的发现在某种程度上与两个既定结论相矛盾:(a)更大的plm更精确;(b)预训练改进了模型校准。接下来,我们研究了现有校准方法在缓解过度置信度问题方面的有效性。除了不可学习的校准方法(如标签平滑),我们改编并扩展了最近提出的两种可学习的方法,直接收集数据来训练模型以获得合理的置信度估计。实验结果表明,可学习方法显著降低了PLMs对错误预测的置信度。代码可在https://github.com/lifan-yuan/PLMCalibration上获得。

1 引言

2 背景

3 评测指标

4 PLM是否学会了校准?

5 现有方法的效果如何?

6 结论

我们仔细研究了plm的校准,激励我们回答两个核心问题:(1)plm是否在训练过程中学会了校准?(2)现有校准方法的有效性如何?我们进行了全面的实证研究,包括各种决定性因素的分析和具体的校准方法。除了支持现有结论的发现外,我们还提供了扩展或矛盾的发现对某些既定结论的论证。

局限性与未来工作

我们在工作中发现了两个需要进一步调查和改进的局限性。首先,在我们的工作中只提出了实证结果。对PLMs校准的理论认识仍然缺乏。展望未来,我们有动力从特征学习的角度来研究这个问题。从特征学习的角度来看,我们看到了将人工智能安全中的几个问题统一起来的巨大潜力,包括虚假相关性,鲁棒性,后门学习和校准。其次,在现有标定方法的基础上,提出了三种简单的扩展标定方法。在我们的实验中,我们评估了现有的校准方法和我们的校准方法的校准性能。我们假设我们有一个大型的验证集,可以用作校准任务的训练数据集。在这种理想情况下,我们证明了可学习校准方法的有效性。然而,在实践中,在给定有限的训练样本的情况下,我们需要决定如何分配主任务和校准任务的数据。

相关文章:

A Close Look into the Calibration of Pre-trained Language Models

本文是LLM系列文章,针对《A Close Look into the Calibration of Pre-trained Language Models》的翻译。 预训练语言模型的校准研究 摘要1 引言2 背景3 评测指标4 PLM是否学会了校准?5 现有方法的效果如何?6 结论局限性与未来工作 摘要 预…...

【控制台】报错:Uncaught ReferenceError: process is not defined

文章目录 报错示例: 解决方法参考文献:https://github.com/vfile/vfile/issues/38...

Android自定义AppGlideModule,DataFetcher ,ModelLoaderFactory,ModelLoader,Kotlin(1)

Android自定义AppGlideModule,DataFetcher ,ModelLoaderFactory,ModelLoader,Kotlin(1) 假设实现一个简单的功能,对传入要加载的path路径增加一定的筛选、容错或“重定向”,需要自定义一个模型,基于这个模型,让Glide自动匹配模型…...

uni-app--》基于小程序开发的电商平台项目实战(五)

🏍️作者简介:大家好,我是亦世凡华、渴望知识储备自己的一名在校大学生 🛵个人主页:亦世凡华、 🛺系列专栏:uni-app 🚲座右铭:人生亦可燃烧,亦可腐败&#xf…...

新型的终端复用器 tmux

以前遇到长时间执行任务时,一般是使用nohup加后台运行,但是涉及到少量代码编写。 同事介绍了一个screen命令,根据文档,此命令已经过时,最新的命令是tmux。 tmux的介绍文档,RedHat的这一篇非常不错。 在文…...

标准化后端向前端传来的Json数据

后端响应固定格式给前端: 1,创建一个专门存储数据的类;分别存储响应状态码code,响应数据,传输的消息。 public class CommonData {int code;Object data;String message;public CommonData(int code, String message…...

java 两个list比较,删除相同的元素

概述 在Java开发中,经常需要比较两个List并删除相同的元素。本文将介绍整个流程,并提供相应的代码示例,帮助新手开发者完成这个任务。 流程 下面是比较两个List并删除相同元素的流程: 代码示例 创建两个List 我们首先需要创建两…...

7-3 zust-sy4-10 回文诗

7-3 zust-sy4-10 回文诗 分数 10 作者 张银南 单位 浙江科技学院 回文诗是汉语特有的一种使用词序回环往复的修辞方法,正着读反着读都可以。明末浙江才女吴绛雪作《四时山水诗》,如夏景诗:香莲碧水动风凉,水动风凉夏日长。长日夏凉风动水&…...

【数据结构】排序--插入排序(希尔排序)

目录 一 基本思想 二 直接插入排序 三 希尔排序 一 基本思想 把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中,直到所有的记录插入完为 止,得到一个新的有序序列 。 实际中我们玩扑克牌时,就用了插入排序的思想 二…...

“探寻服务器的无限潜能:从创意项目到在线社区,你会做什么?”

文章目录 每日一句正能量前言什么是服务器?服务器能做什么?服务器怎么用?部署创意项目,还是在线社区亦或做其他的?后记 每日一句正能量 未知的下一秒,千万不要轻言放弃。 前言 在数字化时代,服…...

5年经验之谈 —— 深入了解性能测试:方法、工具和最佳实践!

性能测试是软件开发生命周期中至关重要的一部分,它有助于确保应用程序在不同负载条件下都能够高效运行。在竞争激烈的市场中,性能问题可能导致用户流失,损害声誉,并损害业务。本文将深入探讨性能测试的方法、工具和最佳实践&#…...

动态加载sprite是multiple模式(即该sprite包含了很多小图)里的小图

在Unity中,Resources.Load()方法可以用来加载资源。如果要加载Sprite下的multiple模式的图片,你需要知道这些图片的路径。 首先,你需要把你想要加载的资源放在一个名为"Resources"的文件夹内。然后,你可以使用以下代码…...

大数据 DataX 详细安装教程

目录 一、环境准备 二、安装部署 2.1 二进制安装 2.2 python 3 支持 三、Data X 初体验 3.1 配置示例 3.1.1. 生成配置模板 3.1.2 创建配置文件 3.1.3 运行 DataX 3.1.4 结果显示 3.2 动态传参 3.2.1. 动态传参的介绍 3.2.2. 动态传参的案例 3.3 迸发设置 …...

微信小程序开发之会议oa(首页搭建)

前言: 上一篇我们掌握了关于小程序的框架,这篇博客带你完成小程序版的会议OA首页。效果如下: 一, 1.1先创建OA首页页面: 首先我们先建一个新项目,在app.json中编写代码 {"pages": ["pages/…...

了解主启动类怎么运行

//SpringBootApplication 标注这个类是spring boot的应用,启动类下的所有资源都会被导入 SpringBootApplication public class SpringbootApplication { public static void main(String[] args) { //以为是启动了一个方法,没想到启动了一个服务 SpringA…...

【LeetCode】31. 下一个排列

1 问题 整数数组的一个 排列 就是将其所有成员以序列或线性顺序排列。 例如,arr [1,2,3] ,以下这些都可以视作 arr 的排列:[1,2,3]、[1,3,2]、[3,1,2]、[2,3,1] 。 整数数组的 下一个排列 是指其整数的下一个字典序更大的排列。更正式地&a…...

支持语音与视频即时通讯项目杂记(一)

第一部分解释服务端的实现。 (服务端结构) 下面一个用于实现TCP服务器的代码,包括消息服务器(TcpMsgServer)和文件中转服务器(TcpFileServer)。 首先,TcpServer是TcpMsgServer和Tcp…...

文档:htm格式转txt

꧂ 两个地方都保存꧁ import os import codecs from bs4 import BeautifulSoupdef generate_output_filename(file_path, save_path):# 获取文件名(不包含扩展名)file_name os.path.splitext(os.path.basename(file_path))[0]# 构造保存路径和文件名ou…...

电子邮件地址注册过程详解

许多人可能对如何注册电子邮件地址感到困惑,本文将详细解析电子邮件地址的注册过程:确定邮箱厂商、创建邮箱账户、设置电子邮件地址。 1、确定要注册的邮箱厂商 首先我们需要确定要注册哪种类型的电子邮件服务。目前市场上有许多不同的电子邮件服务提供商…...

深度学习——卷积神经网络(CNN)基础二

深度学习——卷积神经网络(CNN)基础二 文章目录 前言三、填充和步幅3.1. 填充3.2. 步幅3.3. 小结 四、多输入多输出通道4.1. 多输入通道4.2. 多输出通道4.3. 11卷积层4.4. 小结 总结 前言 上文对卷积有了初步的认识,其实卷积操作就是通过卷积…...

Java二分查找(笔记、(25))

在 Java 中,二分查找(Binary Search) 是一种在有序数组中快速查找目标值的算法。它的核心思想是每次将查找范围缩小一半,时间复杂度为 O(log n),相比顺序查找的 O(n) 效率高很多。下面我会从原理、迭代实现、递归实现、…...

分离调试文件完整指南:为什么构建ID验证对Bloaty二进制分析至关重要

分离调试文件完整指南:为什么构建ID验证对Bloaty二进制分析至关重要 【免费下载链接】bloaty Bloaty: a size profiler for binaries 项目地址: https://gitcode.com/gh_mirrors/bl/bloaty 作为专业的二进制大小分析工具,Bloaty能够深入剖析ELF、…...

3分钟彻底移除Windows Edge浏览器:系统优化终极指南

3分钟彻底移除Windows Edge浏览器:系统优化终极指南 【免费下载链接】EdgeRemover A PowerShell script that correctly uninstalls or reinstalls Microsoft Edge on Windows 10 & 11. 项目地址: https://gitcode.com/gh_mirrors/ed/EdgeRemover 你是否…...

BHVCC AI人工智能大鼠八臂视频迷宫实验步骤 八臂迷宫刺激器

八臂迷宫是一种用于研究动物空间记忆的迷宫模型。它由一个中心区和其周围连接的八条臂组成,在其中一些臂的末端放入食饵或将一些臂施以电击,根据动物的取食或逃避策略(进入每个臂的次数、时间、错能(如动物活动路径、各种时间、次…...

.au域名注册后如何进行SEO优化

.au域名注册后如何进行SEO优化 在全球互联网市场中,一个高效的搜索引擎优化(SEO)策略是网站成功的关键。对于在澳大利亚市场运营的网站而言,.au域名注册后的SEO优化尤为重要。本文将详细探讨在.au域名注册后如何进行SEO优化&…...

如何快速永久保存QQ空间历史说说?GetQzonehistory终极备份解决方案

如何快速永久保存QQ空间历史说说?GetQzonehistory终极备份解决方案 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 你是否担心QQ空间里那些珍贵的青春记忆会随着时间流逝而消…...

RLC串联谐振电路实验:从理论到实践的深度解析

1. RLC串联谐振电路的核心概念 第一次接触RLC串联谐振电路时,我被那些专业术语搞得晕头转向。后来在实际调试收音机电路时才发现,原来谐振现象就在我们身边。简单来说,RLC电路就是由电阻(R)、电感(L&#x…...

交通运输部关于印发《交通运输综合应急预案》等5项突发事件应急预案的通知

交通运输部于 2026 年印发的《交通运输综合应急预案》等五项突发事件应急预案,构建起总领统筹、分领域专项、全链条衔接的交通运输应急管理体系,分别从综合协同、公路设施、水路运行、道路运输、工程建设五个维度,明确了突发事件预防、预警、…...

利用快马平台快速构建c++学生成绩管理系统原型

最近在尝试用C快速验证一个学生成绩管理系统的原型设计,发现用InsCode(快马)平台可以省去很多环境配置的麻烦。这里记录下实现过程和一些实用技巧,特别适合需要快速验证算法思路的场景。 数据结构设计 首先需要确定如何存储学生信息。我选择用结构体来定…...

4个步骤掌握系统字体定制:No!! MeiryoUI的无限制个性化解决方案

4个步骤掌握系统字体定制:No!! MeiryoUI的无限制个性化解决方案 【免费下载链接】noMeiryoUI No!! MeiryoUI is Windows system font setting tool on Windows 8.1/10/11. 项目地址: https://gitcode.com/gh_mirrors/no/noMeiryoUI 告别系统字体枷锁 → 零基…...