当前位置: 首页 > news >正文

openai 论文Scaling Laws for Neural Language Models学习

2001.08361 (arxiv.org)

论文研究语言模型在交叉熵损失下的性能经验缩放定律:模型损失(性能)随模型大小、数据集大小和用于训练的计算量呈现缩放为幂律的关系,有些趋势跨越超过 7 个数量级。其他模型架构细节 (如网络宽度或深度) 在很宽的范围内影响最小,使用简单方程来控制过拟合对模型/数据集大小的依赖性以及训练速度对模型大小的依赖性,这些依赖关系使我们能够计算预算固定的情况下确定最佳分配方案。较大的模型明显具有更高的样本效率,因此最佳计算效率的训练需要在相对少量的数据上训练非常大的模型,并在收敛之前显著停止。

主要发现如下:
性能高度取决于规模,弱于模型形状: 模型性能最强依赖于规模,规模由三个因素组成:模型参数的数量 N (不包括 embeddings),数据集的大小 D,以及计算量 C 用于训练。在合理的范围内,性能对其他架构超参数(如深度与宽度)的依赖性非常弱。(第3)

平滑幂律: 性能与三个比例因子中的每一个都有幂律关系 N, D, C 当不被其他两个瓶颈所限制时,趋势跨度超过 6 个数量级 (见图1)。我们没有观察到上端偏离这些趋势的迹象,尽管业绩在达到零损失之前最终必须趋于平稳。(第3)
过拟合的普遍性: 只要我们扩大规模,性能就会得到可预期的改善 N 和 D 同时,但进入收益递减的制度,如果其中之一 N 或 D 是固定的,而另一个是增加的。性能损失可预测地取决于比率N0.74/D 意味着每当我们将模型大小增加 8 倍时,我们只需要将数据增加大约 5 倍就可以避免损失。(第4)
培训的普遍性: 训练曲线遵循可预测的幂律,其参数大致与模型大小无关。通过外推训练曲线的早期部分,我们可以大致预测如果我们训练更长的时间,将获得的损失。(第5)
传输性能随测试性能的提高而提高: 当我们在文本上评估模型的分布不同于它们在其上训练的分布时,结果与训练验证集上的结果强相关,损失的偏移大致恒定——换句话说,转移到不同的分布会招致恒定的惩罚,但其他方面的改进大致与训练集上的性能一致。(第3.2.2)
样品效率: 大模型比小模型的样本效率更高,只需更少的优化步骤就能达到相同的性能水平 (图2)和使用较少的数据点 (图4).
收敛效率低: 在固定计算预算范围内工作时 C 但对模型大小没有任何其他限制 N 或可用数据D,我们通过训练获得最佳性能非常大的模型并停止收敛性明显不足 (参见图3)。因此,最大计算效率的训练将远比基于训练小模型收敛的预期的样本效率要高得多,数据需求增长非常缓慢,随着D ∼ C0.27 使用训练计算。(第6)
最佳批量: 训练这些模型的理想批量大小大致是损失的幂,并且可以通过测量梯度噪声规模来确定 [MKAT18]对于我们可以训练的最大模型,它在收敛时大约是 1-2 百万个令牌。(第5.1)
综上所述,这些结果表明,随着我们适当地扩大模型大小、数据和计算,语言建模性能可以平滑和可预测地提高。我们预计,与当前模型相比,更大的语言模型将表现更好,并具有更高的样本效率。

1.2 标度定律总结
当性能仅受非嵌入参数数量的限制时,可以使用幂律预测训练为自回归模型语言的 Transformer 的测试损失 N,数据集大小 D,或最佳分配的计算预算 Cmin (参见图1):
1. 对于参数数量有限的模型,在足够大的数据集上训练为收敛:

2. 对于使用有限数据集训练的大型模型,提前停止:

3. 当使用有限的计算量进行训练时,一个足够大的数据集、一个最优大小的模型和一个足够小
的批处理大小 (使最优3 计算的使用):

等式(1.1) 和(1.2) 建议当我们增加模型大小时,我们应该根据 事实上,我们发现
有一个单一的方程结合(1.1) 和(1.2) 控制着同时依赖 N 和 D 并控制过拟合的程度:

与图中左图所示的配合4. 我们推测,这种函数形式也可以参数化其他生成式建模任务的训练对数似然。
当对给定模型进行有限数量的参数更新步骤训练时 S 在无限大的数据极限中,经过一个初始的瞬态周期后,学习曲线可以通过(见右图)精确拟合4)

其中是优化步骤(参数更新)的最小可能数量使用等式估算(5.4).  在固定计算预算范围内进行培训时 C,但没有其他约束,方程(1.6) 导致预测最优模型大小 N,最佳批量大小 B,最佳步数 S 和数据集大小 D 应生长为

这与经验上的最优结果非常吻合  作为计算预算 C 增加,它应该主要用于更大的模型,而不会大幅增加训练时间或数据集大小 (见图3)。这也意味着,随着模型的规模越来越大,它们的样本效率越来越高。在实践中,由于硬件限制,研究人员通常训练较小的模型的时间比最大计算效率要长。最佳性能取决于作为幂律的总计算量 (参见等式(1.3)).   我们为方程提供了一些基本的理论动因(1.5)、对学习曲线拟合及其对训练时间的影响的分析,以及对每个 token 的结果的细分。我们还对 LSTM 和 Rejection Transformer 做了一些简单的比较 [DGV+18].

相关文章:

openai 论文Scaling Laws for Neural Language Models学习

2001.08361 (arxiv.org) 论文研究语言模型在交叉熵损失下的性能经验缩放定律:模型损失(性能)随模型大小、数据集大小和用于训练的计算量呈现缩放为幂律的关系,有些趋势跨越超过 7 个数量级。其他模型架构细节 (如网络…...

__VUE_PROD_HYDRATION_MISMATCH_DETAILS__ is not explicitly defined

VUE_PROD_HYDRATION_MISMATCH_DETAILS 未明确定义。您正在运行 Vue 的 esm-bundler 构建,它期望这些编译时功能标志通过捆绑器配置全局注入,以便在生产捆绑包中获得更好的tree-shaking优化。 Vue.js应用程序正在使用ESM(ECMAScript模块&#…...

基于PHP技术的校园站的设计与实现

毕业论文(基于PHP技术的校园站的设计与实现) 基于PHP技术的校园网站的设计与实现校园网作为教育、教学、科研、管理等工作的平台和基础设施,它的建立有助于加强师生之间的交流,改变传统的教学模式和教育管理方式,对促…...

JVM回收机制与算法

jvm基本结构 JVM(Java虚拟机)是Java程序可以跨平台运行的关键。它负责将Java字节码转换为特定平台的机器码,使Java程序能够在不同的硬件和操作系统上运行而无需重新编译。JVM的基本结构主要包括以下几个核心部分: ‌类加载器&…...

24/11/14 算法笔记 GMM高斯混合模型

高斯混合模型(Gaussian Mixture Model,简称 GMM)是一种概率模型,用于表示具有多个子群体的数据集,其中每个子群体的数据分布可以用高斯分布(正态分布)来描述。GMM 是一种软聚类方法,…...

Linux下编译安装Nginx

以下是在Linux下编译安装Nginx的详细步骤: 一、安装依赖库 安装基本编译工具和库 在Debian/Ubuntu系统中,使用以下命令安装:sudo apt -y update sudo apt -y install build - essential libpcre3 - dev zlib1g - dev libssl - dev在CentOS/…...

算力100问☞第4问:算力的构成元素有哪些?

算力的构成元素是一个多维度且相互交织的体系,它融合了硬件基础设施、软件优化策略、数据处理效能以及分布式计算技术等多个层面,共同塑造了强大的计算能力。具体如下: 1、硬件基础设施 中央处理器(CPU):…...

安装paddle

网址:飞桨PaddlePaddle-源于产业实践的开源深度学习平台 或者找对应python和cuda版本的paddle下载后安装: https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html 你想要安装paddlepaddle - gpu2.6.1.post112版本。在你提供的文件列表中&am…...

飞凌嵌入式RK3576核心板已适配Android 14系统

在今年3月举办的RKDC2024大会上,飞凌嵌入式FET3576-C核心板作为瑞芯微RK3576处理器的行业首秀方案重磅亮相,并于今年6月率先量产发货,为客户持续稳定地供应,得到了众多合作伙伴的认可。 FET3576-C核心板此前已提供了Linux 6.1.57…...

SpringBoot+MyBatis+MySQL的Point实现范围查找

前言 最近做了一个功能,需要通过用户当前位置点获取指定范围内的数据。由于后端存储用的是 MySQL,故选择使用 MySQL 中的 Point 实现范围查找功能。ORM 框架用的是 MyBatis,MyBatis 原生并不支持 Point 字段与 POJO 的映射,需要自…...

【Apache Paimon】-- 1 -- Apache Paimon 是什么?

目录 1、简介 2、概览 3、哪些场景可以使用 Paimon 4、周边生态 5、小结 6、参考 1、简介 我们听说过数据仓库、数据湖、数据湖仓,那你听说过流式数据仓库(Stream warehouse,简称:Streamhouse)吗?那我们今天就来解锁看看他们之中的新秀: Apache paimon 到底是什么…...

解决VsCode无法跳转问题

在settings.json中加入以下代码 { "files.associations": { "*.c":"c", "*.h":"c", "*.s":"masm" }, "includePath":[ "${workspaceFold…...

优化C++设计模式:用模板代替虚函数与多态机制

文章目录 0. 引言1. 模板编程替换虚函数和多态的必要性1.1. MISRA C对类型转换和虚函数的规定1.2. 虚函数与多态问题的影响及如何适应MISRA C要求1.3. 模板编程的优势:替代虚函数和多态机制 2. 设计模式改进2.1. 单例模式的改进与静态局部变量的对比(第二种实现) 2.…...

浪浪云轻量服务器搭建vulfocus网络安全靶场

什么是网络安全靶场 网络安全靶场是一个模拟真实网络环境的训练平台,旨在为网络安全专业人员提供一个安全的环境来测试和提高他们的技能。靶场通常包括各种网络设备、操作系统、应用程序和安全工具,允许用户在其中进行攻击和防御练习。以下是网络安全靶…...

C++builder中的人工智能(23):在现代C++ Windows上轻松录制声音

在这篇文章中,我们将探讨如何在现代C Windows上轻松录制声音。声音以波形和数字形式存在,其音量随时间变化。在C Builder中,使用Windows设备进行录音非常简单。要录制声音,在多设备应用程序中,必须使用FMX.Media.hpp头…...

避免误差!Android 中正确计算时间差的方式

在 Android 开发中,计时和计算时间差异是非常常见的需求,比如记录事件发生的间隔、统计应用启动时间、测量网络请求的响应时间等。在实现这些功能时,我们通常需要一个可靠的时间源来确保计时的准确性。那么为什么 Android 推荐使用 SystemClo…...

unity3d————Resources异步加载

知识点一:Resources异步加载是什么? 在Unity中,资源加载可以分为同步加载和异步加载两种方式。同步加载会在主线程中直接进行,如果加载的资源过大,可能会导致程序卡顿,因为从硬盘读取数据到内存并进行处理…...

YOLOv11改进,YOLOv11添加GnConv递归门控卷积,二次创新C3k2结构

摘要 视觉 Transformer 在多种任务中取得了显著的成功,这得益于基于点积自注意力的新空间建模机制。视觉 Transformer 中的关键因素——即输入自适应、长距离和高阶空间交互——也可以通过卷积框架高效实现。作者提出了递归门控卷积(Recursive Gated Convolution,简称 gnCo…...

如何选择国产化CMS来建设政务网站?

在介绍CMS之前,我们先了解国家为什么要网站为什么要完成国产化改造? 1、信创国产化网站建站响应了国家的信息安全战略,支持自主可控的信息技术产业的发展,减少对进口软硬件的依赖,保障国家信息安全。 2、国产替代&…...

C/C++语言基础--initializer_list表达式、tuple元组、pair对组简介

本专栏目的 更新C/C的基础语法,包括C的一些新特性 前言 initializer_list表达式、tuple元组、pair对组再C日常还是比较常用的,尤其是对组在刷算法还是挺好用的,这里做一个简介;这三个语法结合C17的结构化绑定会更好用&#xff…...

基于算法竞赛的c++编程(28)结构体的进阶应用

结构体的嵌套与复杂数据组织 在C中,结构体可以嵌套使用,形成更复杂的数据结构。例如,可以通过嵌套结构体描述多层级数据关系: struct Address {string city;string street;int zipCode; };struct Employee {string name;int id;…...

基于大模型的 UI 自动化系统

基于大模型的 UI 自动化系统 下面是一个完整的 Python 系统,利用大模型实现智能 UI 自动化,结合计算机视觉和自然语言处理技术,实现"看屏操作"的能力。 系统架构设计 #mermaid-svg-2gn2GRvh5WCP2ktF {font-family:"trebuchet ms",verdana,arial,sans-…...

K8S认证|CKS题库+答案| 11. AppArmor

目录 11. AppArmor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作: 1)、切换集群 2)、切换节点 3)、切换到 apparmor 的目录 4)、执行 apparmor 策略模块 5)、修改 pod 文件 6)、…...

MongoDB学习和应用(高效的非关系型数据库)

一丶 MongoDB简介 对于社交类软件的功能,我们需要对它的功能特点进行分析: 数据量会随着用户数增大而增大读多写少价值较低非好友看不到其动态信息地理位置的查询… 针对以上特点进行分析各大存储工具: mysql:关系型数据库&am…...

MFC内存泄露

1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)

目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...

大语言模型(LLM)中的KV缓存压缩与动态稀疏注意力机制设计

随着大语言模型(LLM)参数规模的增长,推理阶段的内存占用和计算复杂度成为核心挑战。传统注意力机制的计算复杂度随序列长度呈二次方增长,而KV缓存的内存消耗可能高达数十GB(例如Llama2-7B处理100K token时需50GB内存&a…...

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件,所以得把软件用docker打包起来,大部分功能都没问题,出了一个奇怪的事情。同样的代码,在本机上用vscode可以运行起来,但是打包之后在docker里出现了问题。使用的是dialog组件,…...

Xen Server服务器释放磁盘空间

disk.sh #!/bin/bashcd /run/sr-mount/e54f0646-ae11-0457-b64f-eba4673b824c # 全部虚拟机物理磁盘文件存储 a$(ls -l | awk {print $NF} | cut -d. -f1) # 使用中的虚拟机物理磁盘文件 b$(xe vm-disk-list --multiple | grep uuid | awk {print $NF})printf "%s\n"…...

保姆级教程:在无网络无显卡的Windows电脑的vscode本地部署deepseek

文章目录 1 前言2 部署流程2.1 准备工作2.2 Ollama2.2.1 使用有网络的电脑下载Ollama2.2.2 安装Ollama(有网络的电脑)2.2.3 安装Ollama(无网络的电脑)2.2.4 安装验证2.2.5 修改大模型安装位置2.2.6 下载Deepseek模型 2.3 将deepse…...