当前位置: 首页 > article >正文

AI语言模型学习新技能的顺序,竟然惊人地相似

这项由卡内基梅隆大学语言技术研究所、约翰斯·霍普金斯大学计算机系、东北大学Khoury计算机学院以及南加州大学计算机系联合完成的研究于2026年4月发布在arXiv预印本平台论文编号为arXiv:2604.08510。感兴趣的读者可通过该编号查阅完整原文。**一个困扰研究者多年的谜题**每当一个孩子学语言我们会发现他们几乎总是先学会叫妈妈然后学会说简单名词再学会造句最后才能讲述复杂的故事。这个学习顺序不是随机的而是有内在规律的。那么人工智能语言模型呢它们在接受大量文字训练时是否也存在这样一个固定的学习成长顺序卡内基梅隆大学等高校的研究团队对这个问题展开了深入研究并提出了一个令人兴奋的猜想他们将其命名为隐性课程假说Implicit Curriculum Hypothesis。简单来说他们猜测不同的AI语言模型即使来自不同的公司、用不同的数据训练在学习各种技能的顺序上会呈现出出人意料的一致性——就像不同国家的孩子虽然学的是不同的母语但都会先学简单词汇再学复杂语法一样。这个问题之所以重要是因为现代AI语言模型的训练极其昂贵有时甚至需要耗资数百万美元。然而工程师们监控模型训练进展的方式一直停留在观察一个叫做交叉熵损失的数字上——这个数字虽然会随着训练持续下降但它就像只告诉你学生总分提高了多少而完全无法告诉你这个学生现在会不会做加减法、会不会写作文。研究团队希望填补这一空白找到一套更精细的方法来理解AI究竟在什么时候学会了什么。**一、给AI设计一套能力测试题**要研究AI学习技能的顺序首先需要一套设计精良的测试题。研究团队设计了一套共91道测试任务涵盖了从极简单到相对复杂的各类技能。这些任务分为两大类。第一类叫做基础任务共53个每个任务只考查一种特定能力。比如复制任务就是把输入的文字原样输出大写任务是把输入的小写字母变成大写翻译英译法任务是把英文单词翻译成法文提取数字任务是从一段文字描述中找出数字。这些任务涵盖了字符串操作比如倒序、取首字母、词形变换比如把动词变成进行时形式、知识检索比如回答某个国家的首都是哪里、翻译、算术计算以及逻辑推理等多个维度。第二类叫做组合任务共38个是将多个基础任务串联起来完成的。比如动词进行时大写这个任务要求先把输入的动词变成进行时形式再把结果全部大写——输入run正确答案是RUNNING。再比如法译英倒序任务需要先把法语单词翻译成英语再把英语单词的字母倒序排列——输入bonjour正确答案是olleh。这种设计的妙处在于每个组合任务的先决条件是已知的要完成动词进行时大写模型必须先会动词进行时和大写这两个基础任务。这套测试的评分方式也很简洁完全匹配才算正确没有模糊地带。这让研究者能够精确地追踪每个模型在每个训练时间点上到底有没有掌握某项技能。**二、横跨四个模型家族的追踪实验**测试题有了接下来需要被测者。研究团队选择了9个不同的AI语言模型来自4个不同的模型家族参数规模从4亿到130亿不等。这4个家族分别是OLMo-2系列包含10亿、70亿和130亿参数的三个版本可以研究同一家族内规模变化的影响OLMo-3系列有一个70亿参数版本可以与OLMo-2进行跨代比较LLM360系列包含Crystal7B和Amber7B两个模型它们的特别之处在于训练数据完全不同——Crystal偏向代码数据Amber偏向自然语言数据这让研究者可以在控制模型架构的同时研究数据组成对学习顺序的影响以及Pythia系列包含4亿、14亿和120亿参数三个版本这是一个较早期的模型系列用不同于前三者的数据训练。每个模型都提供了训练过程中保存的中间检查点——可以把它们理解为模型成长过程中不同时间点的快照。研究团队聚焦于每个模型训练的前1万亿个词元token阶段并在这段时间内大约均匀采样20个检查点相当于每隔200亿词元拍一张照。通过对这些快照逐一进行91道测试题的测评就可以描绘出每个技能在每个模型中随时间变化的成长曲线。**三、技能出现的顺序跨模型高度一致**研究的第一个核心发现是对隐性课程假说第一个预测的验证不同模型学习技能的顺序高度相似。研究团队定义了一个技能出现时间点当某个模型在某项任务上的准确率首次超过80%时认为该模型掌握了这项技能。然后他们比较不同模型的技能掌握顺序是否一致。结果令人印象深刻。在所有45对模型的两两比较中技能掌握顺序的斯皮尔曼秩相关系数一种衡量两个排名序列是否相似的统计指标平均高达0.81最低也有0.64最高达到0.93且所有相关系数的统计显著性都极高p值远小于10的负7次方。换句话说如果你知道了某个模型掌握各项技能的顺序你就能以相当高的准确度预测另一个完全不同的模型的掌握顺序——哪怕这两个模型来自不同的公司、用不同的数据训练、参数量相差数倍。那么这个顺序具体是什么样的最先被所有模型掌握的技能是复制即把输入原样输出。这也许并不令人惊讶因为这是最简单的信息传递任务。紧随其后的是各类简单的字符串操作比如大写、小写、提取首字母等。然后是词形变换比如把动词变成进行时形式把单数名词变成复数。接下来是知识检索类任务比如翻译和回答简单事实性问题。再往后简单的逻辑推断开始出现。最后才出现的是多步骤算术计算和更复杂的推理任务。同族模型之间的相关性尤其高比如OLMo-2的7B和13B版本相关系数高达0.93。但即便是跨越家族、跨越数据类型、跨越年代的比较相关性也依然显著——比如Amber与OLMo-2系列的相关系数在0.82到0.88之间即便是最风格迥异的组合比如仅有4亿参数的Pythia-410M与130亿参数的OLMo-2-13B相关系数也达到了0.60。这里有一个重要的细节这种高度一致性只在使用绝对准确率阈值比如固定在80%时成立。如果改用相对阈值比如达到该模型在该任务上历史最高分的80%跨模型的相关性就会大幅下降平均只有0.50左右。研究团队对此给出了合理的解释相对阈值依赖于每个模型自己的天花板一个能力较弱的模型可能在某项任务上永远无法达到有意义的准确率却可能因为偶然性较早触发了相对阈值而绝对阈值更接近这个模型真正学会了这件事这个概念因此能更准确地捕捉技能出现这一事件。**四、复杂任务总是在其组成部分之后出现**研究的第二个核心发现验证了假说的第二个预测组合任务通常在其组成的基础任务之后才被模型掌握。在总共76对组合任务-基础任务的比较中有54对符合预期——组合任务确实在基础任务之后出现。这个比例大约是71%算不上完美但已经提供了相当强的支持证据。剩余的违反情况可以分为两类。其中19个属于弱违反——组合任务的出现时间比其中一个基础任务早但另一个基础任务还是先出现了另外只有3个属于强违反——组合任务比它的所有基础任务都更早出现。有意思的是这3个强违反的案例全都涉及同一个基础任务提取首字母。这个发现暗示提取首字母这个任务虽然在测试框架中被设计为其他任务的组成部分但它在实际训练动态中的位置可能与其他基础任务不太一样——可能是因为直接取首字母这个操作在现实中往往会和更复杂的任务同时出现在训练数据里从而让模型在学会单独做这件事之前就在组合情境下见过它了。这个发现的意义在于它将我们对AI学习的理解从AI只是在随机学习推向了AI的学习遵循一种结构性的从简到难的顺序。当你理解了这种顺序就可以用它来诊断模型训练是否正常如果模型在某个复杂任务上表现差劲你可以检查它的先决技能是否都已经掌握了如果连先决技能都没学好那就找到问题的根源了。**五、技能的形状决定了它的命运**研究的第三个也是最令人着迷的发现涉及到模型内部的表示空间。在AI语言模型内部每个任务都可以被表示为一个高维空间中的方向向量——研究团队把这些向量称为功能向量function vector。你可以把它理解为模型内部对如何完成这个任务的一种压缩摘要。两个任务的功能向量越相似就像两个指向差不多方向的箭头说明模型执行这两个任务时用到的内部机制越相似。研究团队提出了第三个预测内部表示相似的任务学习轨迹也应该相似。通俗地说如果模型处理法译英和西译英的方式在内部高度相似那么这两项技能的成长曲线也应该高度相似——比如都在训练到大约200亿词元时开始明显提升都在600亿词元时趋于稳定。为了验证这个预测研究团队设计了一个精巧的实验。他们把38个组合任务一个一个地藏起来假装自己从来没有观测过那个任务的训练轨迹然后只用其他任务的功能向量和训练轨迹信息来预测那个被藏起来的任务的训练轨迹——整个过程不用对那个任务做任何实际测试完全依赖表示空间中的邻居关系来推断。这个实验的结果出乎意料地好。在包含所有任务基础任务和其他组合任务作为参考的条件下预测质量的R?判定系数越接近1说明预测越准确在不同模型上介于0.68到0.84之间其中部分单个任务的预测精度甚至超过了0.95。以OLMo-2 7B为例对法译英再大写这个组合任务的预测R?高达0.99平均绝对误差只有0.017——几乎与真实轨迹完全重合。对复数再小写的预测R?也达到了0.89。当然也有预测效果较差的案例比如英译法再大写的R?只有0.51说明这个任务的训练轨迹与它在表示空间中的邻居不够相似或者邻居本身的轨迹也比较杂乱。更有趣的是研究团队还比较了两种参考条件用所有任务作为参考还是只用基础任务作为参考。结果发现一旦把组合任务从参考集中移除预测误差MAE平均绝对误差在所有模型上都显著增加平均增加了0.135。这说明组合任务之间共享的某种特殊结构是无法完全用基础任务来替代的——也就是说组合本身这件事在模型的内部表示中也留下了独特的痕迹。研究者把这种现象称为组合瓶颈意指学习如何将技能组合起来是一种超越了单独学习每项技能的额外能力。**六、这套发现意味着什么**归根结底这项研究揭示了一件很有意思的事AI语言模型的训练并不像表面上看起来那么混乱和不可预测。在平滑下降的损失曲线背后隐藏着一个有序的技能习得过程这个过程在不同模型、不同数据、不同规模上保持着令人惊讶的一致性。这对AI研究和应用来说有几层实际意义。其一这为AI训练监控提供了一种新思路。以往工程师只能盯着损失曲线看不出模型到底学到了什么。而这套任务测试体系可以作为一组能力里程碑帮助工程师判断模型是否在以正常节奏发展各项能力。如果某个预期早出现的技能迟迟没有出现这可能是一个需要排查的异常信号。其二这为理解AI的能力瓶颈提供了新工具。当一个AI在某个复杂任务比如数学应用题上表现不佳时研究者现在可以系统地检查该任务所依赖的先决技能链而不是面对一个黑盒手足无措。这就像是给了医生一套完整的症状-病因图谱而不是只有一个患者病得很重的诊断结论。其三技能习得顺序与功能向量空间之间的关联暗示了AI内部表示的几何结构本身就携带了关于学习动态的信息。换句话说通过分析一个充分训练好的模型的内部结构我们或许可以推断出它在训练过程中经历了怎样的发展路径。这开辟了一个用解剖学来倒推发育史的研究方向。当然这项研究也有其局限性。研究选取的任务整体上还是比较简单、结构清晰的与现实世界中复杂的语言理解和生成任务之间存在一定距离。此外研究仅覆盖了训练前1万亿词元的阶段对于更后期的训练动态是否同样规律依然成立还有待进一步探索。研究使用的模型参数量上限为130亿当代最大的前沿模型动辄千亿参数这套规律在超大规模模型上是否仍然适用同样是一个开放问题。这就像我们发现了儿童语言习得有固定顺序一样——这个发现本身很重要但它只是更宏大的、关于智能如何发展这一问题的一个开端。那些更大的模型、更复杂的技能组合、更长的训练周期都在等待着后续研究的探索。---QAQ1隐性课程假说是什么意思它和真正的课程有什么关系A隐性课程假说说的是AI语言模型在用大量文字训练时并没有人为设计学习顺序但模型自发地会先学简单技能、后学复杂技能而且不同模型的这种学习顺序高度相似。这里的课程是个比喻指学习的先后安排隐性则是说这个顺序不是人刻意设定的而是训练过程自然涌现出来的。Q2为什么用绝对准确率阈值来定义技能出现而不是相对阈值A用相对阈值比如达到模型自身历史最高分的80%时跨模型的顺序一致性会大幅下降。原因是不同模型的天花板差异很大——弱模型可能在某项任务上永远达不到有意义的水平但可能因为随机波动较早触发了相对阈值。绝对阈值固定在80%准确率更准确地反映了模型真正学会了这件事所以能更清楚地捕捉技能出现的时间点。Q3功能向量是怎么提取出来的它真的能代表模型如何理解一项任务吗A功能向量是通过让模型完成某项任务的示例题目然后记录模型内部特定位置注意力头的输出或残差流的隐藏状态的激活值再对多个例题的激活值取平均来得到的。研究中只使用了模型答对的例题确保提取的是成功执行任务时的内部状态。这个向量能在一定程度上代表模型执行该任务的内部机制因为它能预测任务的学习轨迹但它并不是对模型内部机制的完整描述更像是一种有用的近似表示。

相关文章:

AI语言模型学习新技能的顺序,竟然惊人地相似

这项由卡内基梅隆大学语言技术研究所、约翰斯霍普金斯大学计算机系、东北大学Khoury计算机学院以及南加州大学计算机系联合完成的研究,于2026年4月发布在arXiv预印本平台,论文编号为arXiv:2604.08510。感兴趣的读者可通过该编号查阅完整原文。**一个困扰…...

EVA-02在Java微服务中的应用:SpringBoot集成与文本处理API开发

EVA-02在Java微服务中的应用:SpringBoot集成与文本处理API开发 最近在做一个智能客服项目,需要处理大量用户输入的模糊、口语化文本,把它们转换成结构清晰、语义准确的表达。一开始我们尝试用规则引擎,但面对千变万化的用户语言&…...

NCM解密工具终极指南:一键破解网易云音乐加密文件

NCM解密工具终极指南:一键破解网易云音乐加密文件 【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 还在为网易云音乐下载的NCM加密文件无法在其他播放器播放而烦恼吗?ncmdump是一款专业的NCM解密工具&#xff…...

用人体类比讲透芯片:CPU是大脑,PLL是心脏,总线是大动脉

提到芯片,很多人第一反应是“高精尖”“看不懂”,满脑子都是密密麻麻的电路和晦涩的专业术语。其实芯片并没有那么神秘,它就像一个高度精密的“微型人体”——每个部件都有明确的分工,各司其职、协同工作,才能让整个系…...

Hunyuan-OCR-WEBUI优化升级:vLLM加速推理,性能提升实测

Hunyuan-OCR-WEBUI优化升级:vLLM加速推理,性能提升实测 1. 引言:OCR推理加速的新选择 在AI应用落地的过程中,推理速度往往是决定用户体验的关键因素。腾讯混元OCR(Hunyuan-OCR)作为一款轻量级多模态OCR模…...

Phi-3.5-mini-instruct企业应用案例:客服知识库问答、内部技术文档智能检索落地

Phi-3.5-mini-instruct企业应用案例:客服知识库问答、内部技术文档智能检索落地 1. 模型简介与部署验证 Phi-3.5-mini-instruct是一个轻量级的开放模型,基于高质量数据集构建,特别适合企业级应用场景。该模型支持128K令牌的上下文长度&…...

InstructPix2Pix实战:三步搞定‘给他戴上眼镜’等图片编辑

InstructPix2Pix实战:三步搞定‘给他戴上眼镜’等图片编辑 1. 认识这位AI修图师 想象一下:你有一张完美的照片,只是主角忘了戴眼镜。传统方法需要打开Photoshop,小心翼翼地选择工具、调整图层,稍有不慎就会破坏原图。…...

3步掌握微信聊天记录导出:免费备份的终极方案

3步掌握微信聊天记录导出:免费备份的终极方案 【免费下载链接】WeChatExporter 一个可以快速导出、查看你的微信聊天记录的工具 项目地址: https://gitcode.com/gh_mirrors/wec/WeChatExporter 你是否曾为无法备份珍贵的微信聊天记录而烦恼?WeCha…...

RWKV-7 (1.5B World)快速部署教程:WSL2+Windows本地GPU开发环境搭建

RWKV-7 (1.5B World)快速部署教程:WSL2Windows本地GPU开发环境搭建 1. 项目简介 本教程将带你在Windows系统上通过WSL2搭建本地GPU开发环境,快速部署RWKV-7 1.5B World轻量级大模型。这个专为单卡GPU优化的对话工具,完美适配RWKV架构特性&a…...

AI爬虫合规指南:从robots.txt到ai.robots.txt的演进与实践

1. 项目概述:当AI爬虫遇上“谢绝入内”的告示牌最近在折腾一个个人项目,需要从公开网页上收集一些特定领域的文本数据来做分析。在写爬虫脚本的时候,我习惯性地先检查目标网站的robots.txt文件,看看有没有什么访问限制。这一查&am…...

Phi-mini-MoE-instruct轻量级MoE模型快速部署教程:3步完成Ubuntu环境搭建

Phi-mini-MoE-instruct轻量级MoE模型快速部署教程:3步完成Ubuntu环境搭建 1. 开篇:为什么选择Phi-mini-MoE-instruct 如果你正在寻找一个既轻量又强大的语言模型,Phi-mini-MoE-instruct绝对值得一试。这个基于混合专家(MoE)架构的模型&…...

网络流量监测系统:为什么监控能看到异常,却还是很难定位根因?

网络流量监测系统:为什么监控能看到异常,却还是很难定位根因? 很多团队第一次搜索“网络流量监测系统”,并不是想买一个“能看大盘的屏幕”,而是因为线上已经出现了更棘手的问题: 监控告警已经响了&#…...

B站视频下载终极指南:免费获取大会员4K视频的完整教程

B站视频下载终极指南:免费获取大会员4K视频的完整教程 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 还在为无法离线观看…...

终极指南:如何用网盘直链下载助手快速突破八大网盘下载限制

终极指南:如何用网盘直链下载助手快速突破八大网盘下载限制 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 /…...

C++基础(九)——类与对象(超详细)

家人们好呀!!! 前面,我们带着计算机一路闯关,你的编程工具箱已经塞得满满当当,但不知你有没有察觉到一丝烦恼:当程序越写越大,变量和函数散落一地,像极了一个堆满杂物的车库——什么都有,但找起来费劲,改起来更费劲。 有没有办法把相关的数据和操作“打包”在一起…...

Fastboot Enhance技术指南:Windows平台图形化Fastboot工具箱深度解析

Fastboot Enhance技术指南:Windows平台图形化Fastboot工具箱深度解析 【免费下载链接】FastbootEnhance A user-friendly Fastboot ToolBox & Payload Dumper for Windows 项目地址: https://gitcode.com/gh_mirrors/fa/FastbootEnhance Fastboot Enhanc…...

FLUX.2-Klein-9B实战体验:亲测电商换装全流程效果

FLUX.2-Klein-9B实战体验:亲测电商换装全流程效果 1. 为什么选择FLUX.2-Klein-9B进行电商换装 1.1 电商视觉痛点与AI解决方案 在电商运营中,商品展示图的制作一直是个耗时耗力的环节。传统方式需要模特拍摄、后期修图、换装换背景等复杂流程&#xff…...

SuperDesign:企业级中后台前端解决方案的设计理念与实战指南

1. 项目概述与核心价值最近在和一些做企业级应用开发的朋友聊天时,发现大家普遍面临一个痛点:从零开始搭建一个功能完善、界面美观、权限清晰的后台管理系统,实在是太耗费时间了。UI组件要选型、权限模型要设计、路由要配置、状态管理要集成……...

Spring Boot整合MyBatis时,你的Mapper.xml真的被扫描到了吗?一个配置引发的BindingException

Spring Boot整合MyBatis时,你的Mapper.xml真的被扫描到了吗?一个配置引发的BindingException 当你在Spring Boot项目中整合MyBatis时,是否遇到过这样的场景:在IDE中运行一切正常,但打包部署后却突然抛出BindingExcepti…...

开源应用平台Budibase:从低代码到企业级自托管部署全解析

1. 项目概述:从“低代码”到“开源应用平台”的认知跃迁第一次听说Budibase,很多人会下意识地把它归类到“又一个低代码工具”的范畴里。毕竟,市面上打着“拖拽式开发”、“快速构建应用”旗号的产品实在太多了。但当你真正深入使用Budibase&…...

ROC与PR曲线:分类模型评估的核心技术与Python实现

1. 分类模型评估的核心工具解析在机器学习分类任务中,准确率(Accuracy)常常被新手作为首要评估指标,但真实业务场景往往需要更精细的评估维度。想象一个信用卡欺诈检测系统:当欺诈交易仅占全部交易的0.1%时,即使模型将所有交易都预…...

AIGC求职实战指南:从Transformer到扩散模型,系统构建面试知识体系

1. 项目概述:一本面向AIGC求职者的实战指南最近几年,AIGC(人工智能生成内容)领域的热度可以说是现象级的。从Midjourney、Stable Diffusion在图像生成领域的惊艳表现,到ChatGPT、Claude等大语言模型彻底改变了人机交互…...

深度学习中批归一化技术的原理与实践

1. 深度神经网络加速训练的核心挑战在训练深度神经网络时,我们经常会遇到一个令人头疼的现象:随着网络层数的增加,训练过程变得越来越不稳定。这种现象在2015年之前尤为明显,当时的研究者们发现,当网络深度超过某个临界…...

XGBoost决策树数量与深度调优实战指南

1. XGBoost决策树数量与深度调优实战指南在机器学习项目中,XGBoost因其出色的表现成为许多数据科学家的首选工具。但要让XGBoost发挥最佳性能,关键在于合理配置两个核心参数:决策树的数量(n_estimators)和决策树的深度(max_depth)。这两个参数…...

Qwen3.5-9B-AWQ-4bit实战案例:工厂巡检表单图→填写规范检查+异常项标红

Qwen3.5-9B-AWQ-4bit实战案例:工厂巡检表单图→填写规范检查异常项标红 1. 项目背景与需求分析 在工业生产环境中,每日巡检是保障设备安全运行的重要环节。传统的人工巡检表单检查存在以下痛点: 效率低下:质检员需要逐项核对数…...

5分钟搞定!图图的嗨丝造相-Z-Image-Turbo开箱即用,生成你的第一个渔网袜AI作品

5分钟搞定!图图的嗨丝造相-Z-Image-Turbo开箱即用,生成你的第一个渔网袜AI作品 1. 快速了解镜像功能 1.1 镜像是什么? 图图的嗨丝造相-Z-Image-Turbo是一个专门用于生成穿着大网眼渔网袜人物图像的AI模型。它基于Z-Image-Turbo基础模型&am…...

ASP.NET Core 性能优化实战

云原生时代,响应速度直接影响成本与用户留存,性能优化已成为业务稳定运行的刚需。用户通常3秒内决定是否离开页面,一个慢接口就可能引发系统雪崩。 ASP.NET Core 默认性能优异,但低效 LINQ 查询、不当内存分配、冗余中间件等问题,会快速侵蚀其性能优势,尤其在云环境中,…...

【VS Code MCP插件生态搭建权威指南】:20年IDE架构师亲授7大核心组件选型逻辑与避坑清单

更多请点击: https://intelliparadigm.com 第一章:VS Code MCP 插件生态搭建手册对比评测报告全景概览 MCP 协议与 VS Code 集成背景 MCP(Model Communication Protocol)作为新兴的 AI 工具链通信标准,正快速被主流开…...

MediaCrawler:5大社交平台数据采集神器,让数据获取变得简单高效

MediaCrawler:5大社交平台数据采集神器,让数据获取变得简单高效 【免费下载链接】MediaCrawler-new 项目地址: https://gitcode.com/GitHub_Trending/me/MediaCrawler-new 在当今数据驱动的决策时代,社交媒体数据已成为市场洞察、用户…...

2026届最火的AI科研网站横评

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 把AIGC(人工智能生成内容)痕迹予以降低,其核心之处在于将…...