当前位置：首页 > news >正文

文献阅读：Scaling Instruction-Finetuned Language Models

news 2026/2/8 19:48:23

文献阅读：Scaling Instruction-Finetuned Language Models
- 1. 文章简介
- 2. 实验
  - 1. 数据集 & 模型
    - 1. 数据集考察
    - 2. 使用模型
  - 2. scale up对模型效果的影响
  - 3. CoT对模型效果的影响
  - 4. 不同模型下Flan的影响
  - 5. 开放接口人工标注指标
- 3. 结论

文献链接：https://arxiv.org/abs/2210.11416

1. 文章简介

这篇文章同样是Google在上年发表的一篇同样关于大模型的工作。

在这篇文章当中，作者对Flan进行了更加细致的考察。

在这里插入图片描述

具体来说，在Flan最开始提出的时候，Flan只是用在了预训练语言模型上，但是这篇文章当中对Flan的适用范围以及使用的数据集等做了进一步的扩展研究，具体来说：

在Palm以及T5模型上测试了Flan的效果；
将Flan的数据任务进行了scale up；
将模型的size进一步进行了scale up；
加入CoT数据考察效果。

基于此，文章获得了更好的整体指标表达以及一些case如下：

在这里插入图片描述

下面，我们来具体看看文中的实验结果。

2. 实验

1. 数据集 & 模型

首先，我们来看一下文中使用的数据集以及模型进行一下整理。

1. 数据集考察

我们首先看一下文中使用的数据集：

在这里插入图片描述

可以看到，相较于前作Flan的62个训练任务，本文对任务进行了大幅的扩充，扩展至146个任务类型中的473个数据集以及合计1836个任务。

其中，关于CoT数据集的使用方式如下：

在这里插入图片描述

可以看到，其实就是加上引导词“by reasoning step-by-step”，然后答案当中加入推理过程。

2. 使用模型

而文中使用的模型则如下表所示：

在这里插入图片描述

可以看到，文中同时考察了自回归语言模型以及Transformer架构的T5模型，比对了不同的预训练方式以及不同的模型size下Flan的效果。

2. scale up对模型效果的影响

下面，我们首先来看一下scale up对模型效果的影响，具体包括：

模型size的scale up对模型效果的影响；
训练任务的scale up对模型效果的影响；

给出文中的实验结果如下：

在这里插入图片描述

可以看到：

随着模型size的增大，模型效果不断提升；
随着模型使用的finetune数据集的增多，模型效果也是不断提升的。

更直观的，文中还给出了上述结果的图表形式：

在这里插入图片描述

3. CoT对模型效果的影响

然后，我们来看一下CoT数据集对模型效果的影响。

同样，我们首先给出文中的实验结果表格如下：

在这里插入图片描述

可以看到：

CoT数据集对于LLM的效果总是正向的。

而在不同的benchmarks下，可以看到：

对于CoT benchmarks，CoT数据集对效果提升很明显，而对于non-CoT benchmarks，CoT数据集对于模型效果并没有太大的影响。

在这里插入图片描述

另外文中还在BBH数据集上考察了CoT对于Zero-Shot的影响，得到结果如下图所示：

在这里插入图片描述

可以看到：

对于不加入Flan训练的Palm模型，CoT文本的加入并不能够带来效果的提升；
对于Flan之后的Palm模型，CoT能够明显的提升模型的效果；
Flan本身也能够给模型带来足够的效果提升。

最后，文中还给了几个具体的case如下：

在这里插入图片描述

4. 不同模型下Flan的影响

除了在自回归语言模型的情况下，文中还对T5进行了考察，看了一下T5这种完形填空式的预训练方式得到的大模型对于Flan以及CoT数据集的兼容性，得到结果如下：

在这里插入图片描述

5. 开放接口人工标注指标

最后，文章使用人工标注结果对比了Flan-PaLM以及PaLM模型的效果，得到结果如下：

在这里插入图片描述

可以看到：

Flan-PaLM的效果确实是优于PaLM的。

3. 结论

综上，文章进一步考察了Flan以及CoT在大模型中的效果，整体上可以看到：

Flan和CoT对于模型效果都是正向的影响，且目前看起来还没有到顶；
Flan以及CoT除了在自回归模型上有效之外，在T5上面同样有效，但是前者似乎效果更好。

不过还是那个说法，大模型现在真就是看着玩玩了，完全不可本地服务化，也不可能自己去跑这看效果，这能通过外部接口访问了，大概就只能作为旁观者看他们玩了……

文献阅读：Scaling Instruction-Finetuned Language Models

文献阅读：Scaling Instruction-Finetuned Language Models 1. 文章简介2. 实验 1. 数据集 & 模型 1. 数据集考察2. 使用模型 2. scale up对模型效果的影响3. CoT对模型效果的影响4. 不同模型下Flan的影响5. 开放接口人工标注指标 3. 结论文献链接：…...

编程日记 2023/2/13 3:52:21

gpt草稿

ChatgptWhatChatGPT（全名：Chat Generative Pre-trained Transformer [2]）是由OpenAI开发的一个人工智能聊天机器人程序，于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型并通过强化学习进行训练。ChatGPT里面有两个词&…...

编程日记 2023/2/13 3:51:15

mysal第三次作业

1、显示所有职工的基本信息。 2、查询所有职工所属部门的部门号，不显示重复的部门号。 3、求出所有职工的人数。 4、列出最高工和最低工资。 5、列出职工的平均工资和总工资。 6、创建一个只有职工号、姓名和参加工作的新表，名为工作日期表…...

编程日记 2023/2/13 3:50:09

分页和mmap

文章目录一、内存分页1、基本概念2、分页机制下，虚拟地址和物理地址是如何映射的？3、快表(TLB)二、mmap基本原理和分类一、内存分页 1、基本概念 CPU并不是直接访问物理内存地址，而是通过虚拟地址空间来间接的访问物理内存地址。页&#x…...

编程日记 2023/2/13 3:47:55

C++之异常处理

异常异常是面向对象语言处理错误的一种方式。当一个函数出现自己无法处理的错误时，可以抛出异常，然后输的直接或者间接调用者处理这个错误。语法捕获全部的异常try {//可能抛出异常的代码//throw异常对象 } catch(...) {//不管什么异常，都在这…...

编程日记 2023/2/13 3:46:48

牛客寒假集训营6 E 阿宁的生成树

E-阿宁的生成树_2023牛客寒假算法基础集训营6 (nowcoder.com)开始慢慢补牛牛的题题意：最小生成树质数距离思路：最小生成树一共就两种算法，我们考虑Prim的过程初始连通块是1，然后考虑拿1和其他的结点连边当j-i<k时边权是gcd&…...

编程日记 2023/2/13 3:44:34

嵌入式C基础知识（10）

C语言如何实现一个频繁使用短小函数，C如何实现？C语言可以使用宏定义实现一个短小函数，如下面例子所示。但是宏定义语句不会进行检查，并且对书写格式有过分的讲究。比如MAX和括号之间不能有空格，每个参数都要放在括号里…...

编程日记 2023/2/13 3:43:27

TC3xx FlexRay™ 协议控制器 (E-Ray)-01

1 FlexRay™ 协议控制器 (E-Ray) E-Ray IP 模块根据为汽车应用开发的 FlexRay™ 协议规范 v2.1 执行通信【performs communication according to the FlexRay™ 1) protocol specification v2.1】。使用最大指定时钟，比特率可以编程为高达 10 Mbit/s 的值。连接到物…...

编程日记 2023/2/13 3:42:22

优劣解距离法TOPSIS——清风老师

TOPSIS法是一种常用的综合评价方法，能充分利用原始数据的信息，其结果能精确地反映各评价方案之间的差距。基本过程为先将原始数据矩阵统一指标类型（一般正向化处理）得到正向化的矩阵，再对正向化的矩阵进行标准化处理…...

编程日记 2023/2/13 3:41:16

$M^{-1} = M^T$

【Unity3D】Shader常量、变量、结构体、函数

1 源码路径 Unity Shader 常量、变量、结构体、函数一般可以在 Unity Editor 安装目录下面的【Editor\Data\CGIncludes\UnityShader】目录下查看源码，主要源码文件如下： UnityCG.cgincUnityShaderUtilities.cgincUnityShaderVariables.cginc 2 Shader 常…...

编程日记 2023/2/13 3:40:07

LeetCode 刷题系列 -- 496. 下一个更大元素 I

nums1 中数字 x 的下一个更大元素是指 x 在 nums2 中对应位置右侧的第一个比 x 大的元素。给你两个没有重复元素的数组 nums1 和 nums2 ，下标从 0 开始计数，其中nums1 是 nums2 的子集。对于每个 0 < i < nums1.length ，找出满…...

编程日记 2023/2/13 3:39:01

Docker 搭建本地私有仓库

一、搭建本地私有仓库有时候使用Docker Hub这样的公共仓库可能不方便，这种情况下用户可以使用registry创建一个本地仓库供私人使用，这点跟Maven的管理类似。使用私有仓库有许多优点：1）节省网络带宽，针对于每个镜像不用…...

编程日记 2023/2/13 3:35:39

XML中的CDATA且mybatis中特殊字符转义

如果想看如果CDATA在mybatis的xml文件中使用的可以直接跳转。 CDATA1 XML中的CDATA1.1 为什么叫CDATA1.2 CDATA在XML中的语法1.3 CDATA在XML中的例子1.4 CDATA规则2 Mybatis中的CDATA2.1 Mybatis中使用XML转义序列转义2.2 Mybatis中使用CDATA转义2.3 mybatis中使用CDATA需注意的…...

编程日记 2023/2/13 3:34:33

位运算 | 1356. 根据数字二进制下 1 的数目排序

LeetCode 1356. 根据数字二进制下 1 的数目排序给你一个整数数组 arr 。请你将数组中的元素按照其二进制表示中数字 1 的数目升序排序。如果存在多个数字二进制中 1 的数目相同，则必须将它们按照数值大小升序排列。文章讲解https://www.programmercarl.com/1356.%…...

编程日记 2023/2/13 3:33:27

React Hooks之useState详解

1. 什么是Hooks？ React官方简介：Hook 是 React 16.8 的新增特性。它可以让你在不编写 class 的情况下使用 state 以及其他的 React 特性。本文中讲解的useState就是React中的其中一个Hook。 2. useState useState 通过在函数组件里调用它来满足给组件添…...

编程日记 2023/2/13 3:32:22

选购交换机的参数依据和主要的参数指标详解

如何选购交换机？用什么交换机？在选购交换机时交换机的优劣无疑十分的重要，而交换机的优劣要从总体构架、性能和功能三方面入手。交换机选购时。性能方面除了要满足RFC2544建议的基本标准，即吞吐量、时延、丢包率外，随着…...

编程日记 2023/2/13 3:31:16

Connext DDS属性配置参考大全（1）

介绍属性QoS策略存储名称/值（字符串）对，可用于配置Connext DDS的某些参数，这些参数未通过正式的QoS策略公开。属性QoS策略存储实体的名称/值对。名称和值都是字符串。在核心库用户手册的“Property QosPolicy（DDS Extension）”部分中找到有关RTI Connext DDS属性QoS的更…...

编程日记 2023/2/13 3:30:06

Docker安全

容器的安全性问题的根源在于容器和宿主机共享内核。如果容器里的应用导致Linux内核崩溃，那么整个系统可能都会崩溃。与虚拟机是不同的，虚拟机并没有与主机共享内核，虚拟机崩溃一般不会导致宿主机崩溃一、Docker 容器与虚拟机的区别 1、隔…...

编程日记 2023/2/13 3:29:00

刷题记录:牛客NC20279[SCOI2010]序列操作

传送门:牛客题目描述: lxhgww最近收到了一个01序列，序列里面包含了n个数，这些数要么是0，要么是1，现在对于这个序列有五种变换操作和询问操作： 0 a b 把[a, b]区间内的所有数全变成0 1 a b 把[a, b]区间内的所有数全…...

编程日记 2023/2/13 3:27:47

Fluent Python 笔记第 6 章使用一等函数实现设计模式

虽然设计模式与语言无关，但这并不意味着每一个模式都能在每一门语言中使用。1996 年，Peter Norvig 在题为“Design Patterns in Dynamic Languages”(http://norvig.com/design- patterns/)的演讲中指出，Gamma 等人合著的《设计模式:可复用面…...

编程日记 2023/2/13 3:26:40

调用支付宝接口响应40004 SYSTEM_ERROR问题排查

在对接支付宝API的时候，遇到了一些问题，记录一下排查过程。 Body:{"datadigital_fincloud_generalsaas_face_certify_initialize_response":{"msg":"Business Failed","code":"40004","sub_msg…...

编程新知 2026/2/4 16:30:39

Spring Boot 实现流式响应（兼容 2.7.x）

在实际开发中，我们可能会遇到一些流式数据处理的场景，比如接收来自上游接口的 Server-Sent Events（SSE） 或流式 JSON 内容，并将其原样中转给前端页面或客户端。这种情况下，传统的 RestTemplate 缓存机制会…...

编程新知 2025/8/11 8:18:44

1 查询数据库中所有的表空间以及表空间所占空间的大小 SELECTtablespace_name,sum( bytes ) / 1024 / 1024 FROMdba_data_files GROUP BYtablespace_name; 2 Oracle查询表空间大小及每个表所占空间的大小 SELECTtablespace_name,file_id,file_name,round( bytes / ( 1024 …...

编程新知 2025/11/8 0:24:13

蓝桥杯 2024 15届国赛 A组儿童节快乐

P10576 [蓝桥杯 2024 国 A] 儿童节快乐题目描述五彩斑斓的气球在蓝天下悠然飘荡，轻快的音乐在耳边持续回荡，小朋友们手牵着手一同畅快欢笑。在这样一片安乐祥和的氛围下，六一来了。今天是六一儿童节，小蓝老师为了让大家在节…...

编程新知 2025/12/5 2:40:04

linux arm系统烧录

1、打开瑞芯微程序 2、按住linux arm 的 recover按键插入电源 3、当瑞芯微检测到有设备 4、松开recover按键 5、选择升级固件 6、点击固件选择本地刷机的linux arm 镜像 7、点击升级 （忘了有没有这步了估计有） 刷机程序和镜像就不提供了。要刷的时…...

编程新知 2026/2/6 20:07:35

VTK如何让部分单位不可见

最近遇到一个需求，需要让一个vtkDataSet中的部分单元不可见，查阅了一些资料大概有以下几种方式 1.通过颜色映射表来进行，是最正规的做法 vtkNew<vtkLookupTable> lut; //值为0不显示，主要是最后一个参数，透明度…...

编程新知 2025/12/12 4:55:21

什么是EULA和DPA

文章目录 EULA（End User License Agreement）DPA（Data Protection Agreement）一、定义与背景二、核心内容三、法律效力与责任四、实际应用与意义 EULA（End User License Agreement） 定义： EULA即…...

编程新知 2025/10/18 7:13:10

重启Eureka集群中的节点，对已经注册的服务有什么影响

先看答案，如果正确地操作，重启Eureka集群中的节点，对已经注册的服务影响非常小，甚至可以做到无感知。但如果操作不当，可能会引发短暂的服务发现问题。下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

编程新知 2025/9/24 3:38:34

#Uniapp篇：chrome调试unapp适配

chrome调试设备----使用Android模拟机开发调试移动端页面 Chrome://inspect/#devices MuMu模拟器Edge浏览器：Android原生APP嵌入的H5页面元素定位 chrome://inspect/#devices uniapp单位适配根路径下 postcss.config.js 需要装这些插件 “postcss”: “^8.5.…...

编程新知 2026/1/4 21:36:42

深入浅出深度学习基础：从感知机到全连接神经网络的核心原理与应用

文章目录前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么？1.1.2 感知机的工作原理 1.2 感知机的简单应用：基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...

编程新知 2026/1/26 13:29:00

1. 文章简介

2. 实验

1. 数据集 & 模型

1. 数据集考察

2. 使用模型

2. scale up对模型效果的影响

3. CoT对模型效果的影响

4. 不同模型下Flan的影响

5. 开放接口人工标注指标

3. 结论

相关文章：