当前位置：首页 > news >正文

LLM：Training Compute-Optimal Large Language Models

news 2026/5/23 5:13:36

论文：https://arxiv.org/pdf/2203.15556.pdf

发表：2022

前文回顾：

OpenAI在2020年提出《Scaling Laws for Neural Language Models》：Scaling Laws(缩放法则）也一直影响了后续大模型的训练。其给出的结论是最佳计算效率训练涉及在相对适中的数据量上训练非常大的模型并在收敛之前early stopping。所以后续的工作都专注于提升参数规模，设计越来越大的模型，而不是在更多的数据上训练较小的模型。每个人都认为模型大小比数据大小重要的多得多！但DeepMind在2022年提出了不同的看法。

摘要

1：目前的LLM大模型训练都不够充分，原因是：大部分精力主要花费在扩大模型尺寸上，训练数据却没有同步增长。（这个主要是受OpenAI论文观点的影响）

2：DeepMind团队发现：最优的训练是模型尺寸和训练的Token数量应该是等比例增长。如果模型尺寸翻倍，token数量也应该翻倍。

简介

DeepMind得到了与OpenAI相同的结论：大模型在训练到loss最低前已经到算力最优了，即在收敛前进行early stopping。尽管得出了同样的结论，但DeepMind认为：大型模型应训练更多的token，远超过OPenAI作者推荐的数量。具体来说，给定计算预算增加10倍，OpenAI建议模型大小应增加5.5倍，而训练token数量只应增加1.8倍。相反，DeepMind认为模型大小和训练令牌数量应该以相同的比例增长。

相关工作

OpenAI首先观测到了scale law法则，DeepMind也采用了相同的技术手段：训练不同尺寸的模型，然后进行观测。但他们存在以下不同点。

1：OpenAI固定了训练的token数目以及学习率方案，这阻止了他们研究这些超参数对损失的影响。相反，DeepMind发现将学习率调度设置为大约匹配训练token数量可以导致最好的最终损失，无论模型大小如何。作者举例：130B token，使用cosine学习率。因为会在收敛前进行早停，所以观测到的都是中间状态（即训练token数量还没有到130B token 时候的loss），使用这些中间损失观测，导致对训练模型在小于130B token的数据上的有效性的低估，并最终导致了一个结论，即模型大小应比训练数据大小增长得更快。DeepMind的观点是同比例缩放。

2：OpenAI使用的模型参数量比较小，DeepMind观测的范围更广。

3 估计最优的参数 / 训练token数目

首先训练一系列模型：模型大小和训练数据数量两方面都有所不同，然后使用所得到的训练曲线来拟合他们应该满足的经验规律。

训练70M到10B的一系列模型大小，每个模型大小针对四个不同的余弦周期长度进行训练。从这些曲线中，提取了每FLOP最小损失的包络，并用这些点来估计给定计算量条件下最优模型大小以及最优训练token数。（此处的scale law 实践与OpenAI一致）。从上图不难看出：模型越大，需要的算力越大，需要的token也越多。

左图可以看到计算量与模型性能呈现幂律关系（可以认为数据和模型都不受限制），根据中图和右图，可以发现 $N_{opt}\propto C^{a }$ ， $D_{opt}\propto C^{b }$ ，即计算效率最优时，模型的参数与计算量的幂次成线性关系，数据量的大小也与计算量的幂次成线性关系。

根据C=6ND，可以推算出a+b=1，但是a,b分别是多少存在分歧。

OpenAI：认为模型规模更重要，即a=0.73, b=0.27，

DeepMind在Chinchilla工作和Google在PaLM工作中都验证了 a=b=0.5 ，即模型和数据同等重要。

所以假定计算量整体放大10倍，OpenAI认为模型参数更重要，模型应放大 $10^{0.73}$ (5.32)倍，数据放大 $10^{0.27}$ (1.86)倍；后来DeepMind和Google认为模型参数量与数据同等重要，两者都应该分别放大 $10^{0.5}$ (3.16)倍。

3.1 方案1：固定模型，训练不同的token数目

通过方案1，得到N、D与C的幂次关系：模型尺寸和数据量同等重要，缩放比例相同，均为0.5。

3.2 方案2：固定FLOP

选取9种不同的计算量：e18−e21 ，观测不同参数量模型的训练情况：

在每条曲线的最小值的左侧，模型太小——在较少数据上训练的较大模型将是一种改进。

在每条曲线的最小值的右侧，模型太大——在更多数据上训练的较小模型将是一种改进。

最好的模型处于最小值。

这个是DeepMind推荐的模型参数N、训练数据D、训练算力C的配比。可以发现和OpenAI的推荐是不一样的。也与BaiChuan2中7B/13B训练需要2.6T的数据量对不上。

LLM：Training Compute-Optimal Large Language Models

相关文章：

LLM：Training Compute-Optimal Large Language Models

http跟https有什么区别？

python flask学生管理系统

IDC机房服务器搬迁之运行了几年的服务器没关过机，今天关机下架，再上架突然起不来了，怎么快速处理？

基于位的权限系统

[AIGC] Spring Boot Docker 部署指南

图像处理------亮度

LeetCode刷题---基本计算器

Kafka生产消费流程

c 小熊猫 c++ IDE编译ffmpeg 设置

【Java】十年老司机转开发语言，新小白从学习路线图开始

5.3 Verilog 带参数例化

边缘计算的挑战和机遇

Mybatis基础---------增删查改

CentOS查看修改时间

Kafka消费流程

RPC原理介绍与使用（@RpcServiceAnnotation）

力扣labuladong——一刷day94

Vim 是一款强大的文本编辑器，广泛用于 Linux 和其他 Unix 系统。以下是 Vim 的一些基本用法

软件工程：黑盒测试等价分类法相关知识和多实例分析

深入了解指针（3）

GPT-4稀疏激活真相：2%参数如何实现高效推理

【NotebookLM显著性判断实战指南】：20年AI架构师亲授5大误判陷阱与3步精准验证法

终极RPG Maker游戏资源解密工具：无需安装的浏览器解决方案

基于瑞萨R8C MCU的180度电角度无感FOC BLDC电机控制方案详解

MASA模组汉化包技术解析：构建高效中文游戏体验的技术解决方案

【ElevenLabs云南话语音落地实战】：20年语音AI专家亲授3步适配方言模型，避开92%开发者踩过的声学对齐陷阱

稀疏记忆微调：面向边缘设备的持续学习落地方法

【参数辨识】经典Prandtl–Ishlinskii（PI）迟滞模型及其PSO算法参数辨识【含Matlab源码 15544期】

明日方舟智能基建管理终极指南：Arknights-Mower 完整使用教程