从loss角度理解LLM涌现能力
如今的很多研究都表明小模型也能出现涌现能力,本文的作者团队通过大量实验发现模型的涌现能力与模型大小、训练计算量无关,只与预训练loss相关。
作者团队惊奇地发现,不管任何下游任务,不管模型大小,模型出现涌现能力都不约而同地是在预训练loss降低到 2.2 以下后。

在 2.2 之前,模型的表现跟一般模型无异。在 2.2 之后,模型的性能显著上升。
数学建模
模型涌现能力与预训练loss的关系,公式化如下:
{ f ( L ) if L < η 0 otherwise \begin{cases}f(L) & \text { if } L<\eta \\ 0 & \text { otherwise }\end{cases} {f(L)0 if L<η otherwise
f ( L ) f(L) f(L) 是个单调递减函数, L L L 越大,其值越小。 η \eta η 是个loss阈值,比如 2.2 。
预训练loss与模型大小 N N N 关系如下:
L ( N ) = L ∞ + ( N 0 N ) α N L(N)=L_{\infty}+\left(\frac{N_0}{N}\right)^{\alpha_N} L(N)=L∞+(NN0)αN
因此涌现能力与模型大小的关系如下:
{ f ( L ∞ + ( N 0 N ) α N ) if N ≥ N 0 ⋅ ( η − L ∞ ) − 1 α N 0 otherwise \begin{cases}f\left(L_{\infty}+\left(\frac{N_0}{N}\right)^{\alpha_N}\right) & \text { if } N \geq N_0 \cdot\left(\eta-L_{\infty}\right)^{-\frac{1}{\alpha_N}} \\ 0 & \text { otherwise }\end{cases} {f(L∞+(NN0)αN)0 if N≥N0⋅(η−L∞)−αN1 otherwise
当模型大小超过 N 0 ⋅ ( η − L ∞ ) − 1 α N N_0 \cdot\left(\eta-L_{\infty}\right)^{-\frac{1}{\alpha_N}} N0⋅(η−L∞)−αN1,才会出现涌现能力,否则与普通模型无异。随着模型尺寸变大,预训练loss减少,则模型性能提升。
总结
本文从预训练loss角度观察了模型涌现能力是如何发生的。其结论也给业界评估模型在下游任务上的性能提供了全新的视角,即预训练loss,而不是模型参数量、数据量、训练计算量。
但本文并未从理论角度解释loss与涌现能力的关系,更多地是根据后验进行启发式分析,也未给出 2.2 的合理说明。但DL一直这么玄学,不是吗?
参考
- Understanding Emergent Abilities of Language Models from the Loss Perspective
相关文章:
从loss角度理解LLM涌现能力
如今的很多研究都表明小模型也能出现涌现能力,本文的作者团队通过大量实验发现模型的涌现能力与模型大小、训练计算量无关,只与预训练loss相关。 作者团队惊奇地发现,不管任何下游任务,不管模型大小,模型出现涌现能力…...
debian apt 更改阿里源
1. 备份文件 cp /etc/apt/sources.list /etc/apt/sources.list.bak 2. 更改 sources.list文件内容为: deb http://mirrors.aliyun.com/debian/ buster main non-free contrib deb-src http://mirrors.aliyun.com/debian/ buster main non-free contrib deb htt…...
Spring Cloud | “微服务“ 架构 与 Spring Cloud
“微服务” 架构 与 Spring Cloud 目录: "微服务" 架构 与 Spring Cloud1. 认识架构"单体" 架构"SOA" 架构"微服务" 架构 2. "微服务架构" 的功能 :① 微服务架构的 "自动化部署"② 服务 "集中化管理"③…...
win10禁止自动更新的终极方法
添加注册表值 1.运行,输入regedit 2.打开注册表编辑器依次进入以下路径“计算机\HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\WindowsUpdate\UX\Settings”。 3.在Settings项中,新建DWORD(32位)值(D),重命名为以下命名“Fl…...
笨方法自学python(二)-注释
注释和#号 程序里的注释是很重要的。它们可以用自然语言告诉你某段代码的功能是什么。在你想要临时移除一段代码时,你还可以用注解的方式将这段代码临时禁用。 # A comment, this is so you can read your program later. # Anything after the # is ignored by py…...
wireshark的安装使用及相关UDP、TCP、 ARP
初步了解: 进入wireshark后如图: 从图中可以看到很多网络连接在操作的时候我们需要监测哪些 我们可以直接在本地的运行框中输入ipconfig来查看 如图: 从以上图片中我们可以清楚地看到哪些网络连接已经连接的我们只需要按需监测他们即可 但…...
【软考】模拟考卷错题本2024-05-11
1 设计模式- 适配器模式 基本上上述的图解已经涵盖了绝大多数主流的设计模式和其特点。理解记忆下即可,这里对下午的考题也有帮助的。 2 计算机组成原理 cpu 访问速度 这个真的是憨憨咯~看到内存就选内存,题目都没审好。这里的速度比cpu内部的要比外部的…...
VMware虚拟机提示内存不足
VMware虚拟机,k8s集群搭建内存不足的问题 疑问:我的电脑是8G8G双通道的内存,当我在搭建k8s集群时给master-2G内存,node1-3G内存,node2-3G内存; 当依次打开虚拟机到node2时VM提示“物理内存不足,…...
视频批量剪辑指南:一键合并视频并添加背景音乐,高效便捷
在数字化时代,视频剪辑已经成为了一项常见且重要的技能。无论是制作家庭影片、工作展示还是社交媒体内容,掌握高效的视频剪辑技巧都能极大地提升我们的工作效率和创作质量。本文将为您介绍云炫AI智剪中高效的视频批量剪辑方法,让您能够一键合…...
讲讲C++四种类型转换
在C中,类型转换(或称为类型转换运算符)是用来将一个数据类型转换为另一个数据类型的机制。C提供了四种类型转换:静态类型转换(Static Cast)、动态类型转换(Dynamic Cast)、重新解释类…...
探索LLM在广告领域的应用——大语言模型的新商业模式和新个性化广告的潜力
概述 在网络搜索引擎的领域中,广告不仅仅是一个补充元素,而是构成了数字体验的核心部分。随着互联网经济的蓬勃发展,广告市场的规模已经达到了数万亿美元,并且还在持续扩张。广告的经济价值不断上升,它已经成为支撑大…...
MBR与GPT分区表
文章目录 MBR分区表MBR分区表结构MBR分区表项查看U盘的分区表信息查看系统中所有磁盘的分区类型获取分区表信息 GPT分区表保护性MBRGPT分区表头格式GPT分区表项格式分区类型分区属性分区表项内容 MBR分区表 CHS :磁头(Heads)、柱面(Cylinder…...
OGG几何内核开发-BRepAlgoAPI_Fuse与BRep_Builder.MakeCompound比较
最近在与同事讨论BRepAlgoAPI_Fuse与BRep_Builder.MakeCompound有什么区别。 一、从直觉上来说,BRepAlgoAPI_Fuse会对两个实体相交处理,相交的部分会重新的生成相关的曲面。而BRep_Builder.MakeCompound仅仅是把两个实体组合成一个新的实体,…...
C语言 | Leetcode C语言题解之第67题二进制求和
题目: 题解: void reserve(char* s) {int len strlen(s);for (int i 0; i < len / 2; i) {char t s[i];s[i] s[len - i - 1], s[len - i - 1] t;} }char* addBinary(char* a, char* b) {reserve(a);reserve(b);int len_a strlen(a), len_b st…...
油泼辣子在食品类别可以申请成商标不!
前阵韩国人在美国申请“chili crunch”油泼辣子作为商标,还准备禁止华人餐馆使用投诉侵权并索赔,普推知产老杨在USPTO上面检索发现,这个人申请的主要是30类方便食品的调味品,商标分类是全球通用的。 商标名称不能申请本类所属的通…...
深入探索MySQL视图
前言 在数据库的世界里,MySQL视图作为数据抽象的一把利剑,为我们提供了一种灵活而高效的方式来管理和查询数据。它不仅能够简化复杂的查询逻辑,还能在不改动底层数据结构的前提下,实现数据的定制化展示与访问控制。本文旨在深入解…...
C语言逻辑语句
叠甲:以下文章主要是依靠我的实际编码学习中总结出来的经验之谈,求逻辑自洽,不能百分百保证正确,有错误、未定义、不合适的内容请尽情指出! 文章目录 1.何为控制语句2.控制语句-分支语句2.1.if2.2.switch 3.控制语句-循…...
C++青少年简明教程:基础知识
C青少年简明教程:基础知识 电脑程序设计(Computer programming),或称程序设计(programming),是给出解决特定问题程序的过程,程序设计往往以某种程序设计语言为工具,给出这…...
[AutoSar]lauterbach_001_ORTI_CPUload_Trace
目录 关键词平台说明一、ORTI概述二、ORTI文件的生成三、ORTI文件的导入四、Trace 功能4.1 Trace 功能菜单介绍4.2 Trace功能的配置4.3 Trace MCDS 设置4.4 Task Switches断点的设置4.5 Trace 数据的录取4.6 CPU 负载和Task调度的查看 关键词 嵌入式、C语言、autosar、OS、BSW…...
课程设计 大学生竞赛系统
课程设计 大学生竞赛系统 wx:help-assignment 学生用户: wx:help-assignment 首页:推荐一些竞赛,热门活动等; 广场:用户可以通过广场来发表动态,同时也可以查看别人发布的动态,并且可以 关注…...
Stable Diffusion像素艺术工作站实战:Pixel Fashion Atelier Forge Scale调优指南
Stable Diffusion像素艺术工作站实战:Pixel Fashion Atelier Forge Scale调优指南 1. 像素时装锻造坊简介 Pixel Fashion Atelier是一款基于Stable Diffusion与Anything-v5的图像生成工作站,专为像素艺术创作而设计。与传统AI工具不同,它采…...
右键菜单太乱?ContextMenuManager让Windows操作效率提升300%
右键菜单太乱?ContextMenuManager让Windows操作效率提升300% 【免费下载链接】ContextMenuManager 🖱️ 纯粹的Windows右键菜单管理程序 项目地址: https://gitcode.com/gh_mirrors/co/ContextMenuManager ContextMenuManager是一款纯粹的Windows…...
7.企业级开发
一.软件开发的流程二.系统开发环境三.分支设计规范Git Flow模型四.企业级项目管理https://gitee.com/enterprises1.创建项目2.创建项目对应的仓库3.添加成员还可以进行(项目/仓库)成员管理五.开发实战场景1.创建仓库时,一般选生产和开发模型,其他的分支自己创建2.创建新分支:3.…...
Python从入门到精通(03章):变量、数据类型与类型转换
Python从入门到精通(第03章):变量、数据类型与类型转换 开头导语 这是本系列第03章。本文采用“知识点讲解 错误示例 正确写法 自测清单”的结构,目标是让你不仅能看懂,还能独立写出可运行代码。建议你边看边敲&…...
OpenClaw多端同步:GLM-4.7-Flash任务跨设备执行方案
OpenClaw多端同步:GLM-4.7-Flash任务跨设备执行方案 1. 为什么需要多端同步? 去年冬天的一次出差经历让我深刻体会到设备割裂的痛苦。当时我正在用OpenClaw处理一个数据分析项目,笔记本上运行着GLM-4.7-Flash模型生成的自动化脚本。突然接到…...
Superpowers 系统学习笔记:AI编程Agent的完整开发方法论
Superpowers 系统学习笔记:AI编程Agent的完整开发方法论 声明: 📝 作者:甜城瑞庄的核桃(ZMJ) 原创学习笔记,欢迎分享,但请保留作者信息及原文链接哦~ 项目地址:https://github.com/obra/superpowers Star数:36.6K+(持续增长中) 工具作者:Jesse Vincent (@obra) …...
Ventoy进阶玩法:给你的万能启动盘加上‘软件商店’和自动菜单(附配置脚本)
Ventoy终极定制指南:打造智能启动盘的进阶技巧 每次面对一堆零散的ISO文件时,你是否也幻想过能有一个像手机应用商店那样井井有条的启动盘?Ventoy作为开源启动盘解决方案,其潜力远不止于"扔进去就能用"的基础功能。本文…...
FireRedASR Pro Java集成开发指南:SpringBoot微服务语音处理实战
FireRedASR Pro Java集成开发指南:SpringBoot微服务语音处理实战 如果你是一个Java后端开发者,最近接到了要给系统加上语音识别功能的需求,比如处理用户上传的客服录音,或者分析会议纪要,那你可能正在寻找一个既稳定又…...
Qwen3-0.6B-FP8部署与Git工作流结合:AI代码审查助手
Qwen3-0.6B-FP8部署与Git工作流结合:AI代码审查助手 你有没有遇到过这种情况?团队里新来的小伙伴提交了一段代码,语法上挑不出大毛病,但总觉得逻辑有点绕,或者命名风格不太统一。你作为资深开发,想提点建议…...
Spring AI智能客服多轮问答实战:从架构设计到生产环境部署
最近在做一个智能客服项目,客户反馈最集中的问题就是“机器人聊着聊着就忘了前面说过什么”。比如用户想订机票,先问了“明天北京到上海的航班”,接着问“下午的呢?”,机器人很可能就懵了,因为它丢失了“北…...
