当前位置: 首页 > article >正文

论文解读:Adam定律揭示大模型最爱高频词

AI性能的天花板是由数据决定的。这句话每个人都知道。但好数据的定义长期以来只有三个维度准确、丰富、无噪声。没有人认真追问过第四个维度——当数据语义完全相同只是措辞不同时哪个更好这个问题被整个社区沉默地忽视了好几年。直到一支来自FaceMind Corporation和香港中文大学的团队把它做成了一篇有理论、有实验、有完整系统的工作命名为Adams Law——亚当定律。他们的核心发现用一句话说完就是把同一道数学题换成更常见的说法LlaMA3.3-70B的准确率从80.49%涨到了88.75%。不改模型不改题目只改措辞。1. 数据质量的一个盲区你有没有想过Prompt的措辞会影响大模型的推理结果不是指令是否清晰的问题——是在指令语义完全一致的前提下用常见词汇写成的提示和用生僻词汇写成的提示会让模型产生不同的输出。这件事Cao等人2024在NeurIPS上发过一篇关于最差提示性能的研究证明了它真实存在。但那篇工作揭示的是现象没有给出为什么更没有给出怎么系统性地解决它。同样Oh等人2024发现大模型更擅长预测常见词——罕见词对模型来说是更难的预测任务。但这个发现停留在词级别没有延伸到句子级别更没有变成可操作的方法论。这就是这篇研究要填补的缺口。它提出的框架由三个组件构成TFL文本频率定律语义相同时高频表达的文本应该优先选用TFD文本频率蒸馏用目标LLM自身来校准频率估计CTFT课程式文本频率训练按频率从低到高的顺序对数据排序微调三个缩写一个核心命题是AI更喜欢、熟悉的语言。研究团队由FaceMind Corporation的Hongyuan Adam Lu第一作者带领联合香港中文大学信息工程系的Bowen Cao和Wai Lam完成。Wai Lam在自然语言处理领域深耕多年Bowen Cao本人就曾深入研究过提示措辞对LLM性能的影响——这个选题对这支团队来说是一次有机的延伸而不是偶然的跨界。全局框架示意图2. 频率怎么定义——从词到句的估计框架先把最基础的问题回答清楚句子频率是什么怎么算直觉上你能感受到The cat sat on the mat和The feline reposed upon the textile floor covering之间的差距——前者用的全是高频常见词后者像在写学术论文。这篇研究把这种直觉形式化句子频率 句子中每个词频率的几何平均。公式写出来是其中 wfreq 是词级频率K 是句子的词数D 是参考语料。这个公式的关键设计是几何平均而不是算术平均——因为几何平均对极低频词更敏感一个超生僻词会把整个句子的频率拉低一大截。就像一根木桶的短板决定了整桶水的高度。更重要的是这个计算不需要目标LLM的训练数据。用开源词频资源这篇研究用的是基于Zipf分布的wordfreq工具背后有ParaCrawl等大规模语料支撑就能完成估计。这解决了一个实践中的巨大障碍——GPT-4o-mini、DeepSeek-V3的训练数据是闭源的你根本不知道它们见过什么。但词级频率的估计不依赖这些一样可以用。当然这只是估计不是精确测量。公开词频资源和目标模型的真实训练分布之间存在偏差。于是有了第二个组件——TFD。3. 文本频率蒸馏让模型告诉你它更熟悉什么TFDTextual Frequency Distillation文本频率蒸馏的思路非常直接既然我们不知道目标LLM的训练数据那就让目标LLM用自己的语言风格生成数据把生成的文本作为新的参考语料来校准频率估计。这就像你想搞清楚一个人平时爱说什么话——与其翻遍他的所有聊天记录不如直接让他自由发言录一段音分析他开口说的词就行了。具体操作给模型一段数据集中的文本让它做故事补全story completion——生成一段延续。这些模型自发产生的续写天然反映了模型更习惯使用的词汇分布。把补全生成的文本组成新语料D重新计算频率最终频率是原始估计和蒸馏估计的加权组合这里的ζ是一个强化系数——当某个词在原始估计里频率接近零时说明它几乎没出现过这时候就把蒸馏估计的权重额外放大弥补原始估计的失灵区域。TFD的效果随数据量单调递增。图1图1展示了这一规律在5种低资源语言上用20%的数据做TFD时提升最弱用100%时提升最强。没有出现边际递减的迹象——在这篇研究测试的范围内数据越多TFD就越准。消融实验给出了更直接的数字。在DeepSeek-V3上使用TFD vs 不使用TFDBLEU胜率96.7% vs 3.3%chrF胜率100.0% vs 0.0%COMET胜率100.0% vs 0.0%TFD不是可选项是框架效果的关键来源。4. 课程式文本频率训练排序也是一门学问解决了选哪个接下来的问题是微调时数据按什么顺序喂给模型CTFTCurriculum Textual Frequency Training课程式文本频率训练给出的答案反直觉——从低频到高频。等等不应该是从简单到难吗这里有一个微妙的区别。传统课程学习Easy-to-Hard里的简单指的是任务复杂度——比如句子句法结构的复杂程度。CTFT里的低频指的是词汇使用的罕见程度。低频词汇更多样、更不确定——对模型来说它们确实是难的高频词汇是模型最熟悉的领域在这里表现最稳定。先让模型见识多样性再强化熟悉地带。这个思路在机器翻译的微调实验上给出了惊人的结果。图2展示了在四个低资源语言上的翻译实验kea_Latn卡布维尔迪语、kik_Latn基库尤语、pag_Latn邦板牙语、lvs_Latn拉脱维亚语图2方案pag_Latn BLEU原始模型1.23普通微调原始数据4.51高频微调无CTFT3.78高频微调有CTFT4.91高频数据配合CTFT从3.78到4.91——提升**29.96%**。对比之下反向排序高频→低频的基线比CTFT差但也比随机顺序稍好。这说明排序方向是有意义的——不是随意选的而是有规律可循的。8项实验指标4个语言 × 2个评测中CTFT拿下全部8项最优。这不是运气这是一致的规律。5. TFPD一个从零开始构建的配对数据集做这些实验首先面临一个问题根本没有现成的数据集——每道题同时有高频版本和低频版本且语义严格一致的那种。研究团队从三个主流数据集出发GSM8K数学推理1319个测试样本FLORES-200机器翻译1012个dev-test样本CommonsenseQA常识推理用GPT-4o-mini给每个样本生成20个改写版本——10个更常见的表达10个更生僻的表达。从中选出最高频和最低频各一个送给三位有英语语言学背景的专业标注员做人工审核只保留三人都认定语义相同的样本对。最终得到738对数学推理样本、526对翻译样本、575对常识推理样本、114对工具调用样本统称TFPDTextual Frequency Paired Dataset。图3图3的统计数据显示高频和低频版本的平均句子长度差异很小数学推理25.86词 vs 25.28词翻译21.70词 vs 24.78词——排除了句子长度这个混淆变量。这个数据集本身就是这篇研究对社区的贡献之一。6. 实验结果跨任务、跨模型、跨语言的全面验证一句话概括在所有任务、所有模型、所有语言上高频文本输入都更好。数学推理图4图4是最直观的一张图。三个主流模型高频vs低频分区的准确率对比DeepSeek-V363.55% → **71.54%**7.99ppGPT-4o-mini60.70% → **68.70%**8.00ppLlaMA3.3-70B-Instruct80.49% → **88.75%**8.26pp还有一个细节更值得注意研究者计算了两个版本都答对的交集。发现当低频版本答对时高频版本必然也答对。换句话说高频输入只挽救了原本答错的样本没有损坏任何原本正确的答案。这是净收益不是此消彼长的零和游戏。图5图5验证了规律的鲁棒性从0.5b到72b规模的全系列qwen2.5模型高频分区一致优于低频分区。规律不随模型大小失效。机器翻译100个语言对这是这篇研究规模最大的实验——在100个语言对上用两个翻译模型DeepSeek-V3和GPT-4o-mini、三个评测指标BLEU、chrF、COMET做全面测试。DeepSeek-V3在BLEU分机器翻译的词匹配精度评分上99/100个语言对得到改善改善超过3分的有31个超过5分的有12个。唯一下降的那一个下降幅度不到1分。chrF分基于字符n-gram的评分比BLEU对词形变化更鲁棒的结果更强DeepSeek-V3 100/100语言对全部改善。COMET基于神经网络的评测模型更贴近人工判断支持37种语言DeepSeek-V3全胜GPT-4o-mini 36/37改善。GPT-4o-mini的BLEU结果略弱但方向一致95/100改善5个下降均不超过1分。100个语言里超过一半是低资源语言class 0或class 1。TFL在资源匮乏语言上同样有效——这是这条定律跨越语言壁垒的重要信号。常识推理和工具调用图6图7图6常识推理和图7工具调用同样支持TFL常识推理GPT-4o-mini 67.47% → 69.74%LlaMA3.3-70B 75.30% → 77.04%工具调用工具选择准确率GPT-4o-mini 60.53% → 66.67%DeepSeek-V3 61.40% → 64.04%规律覆盖数学推理、翻译、常识问答、工具调用——四类任务无一例外。7. 这不是简单文本更好的老结论一个合理的质疑TFL的效果是不是本质上等于简单文本效果更好高频词汇通常就是更简单的词这有什么新鲜的表5给出了明确回答不是。研究者计算了三个文本复杂度指标最大依存树深度、平均依存距离、Flesch-Kincaid可读性等级然后测量了它们与翻译最终性能的相关性。结果Pearson相关系数最高才0.27多数情况下低于0.1。而文本频率与最终性能的相关性在部分语言上高达1.0。频率的预测力远超文本复杂度。两者不是同一个维度。表6的控制实验进一步确认了这一点把高频和低频样本按句法树深度差异分组控制复杂度变量之后在绝大多数分组里高频Prompt依然更好。只有一个例外区间[50%-55%]低频稍好——但这个区间只有21个样本而且仅在BLEU和chrF上COMET不支持这一结论。统计噪声的嫌疑大于规律性的反例。频率是独立于复杂度之外的第四个数据维度。8. 数学证明定律背后的理论基础这篇研究没有满足于实验说明一切。附录里作者给出了一个形式化的数学证明把TFL从经验观察提升为有理论根基的定律。证明分两层Token级别定理1先从一个基础事实出发——自然语言里词的出现频率遵循Zipf定律一种幂律分布排名第1的词频率是排名第2的词的2倍是第3的词的3倍……以此类推高频词极少低频词极多。基于这个分布每个token的NLL损失——负对数似然Negative Log-Likelihood也就是模型预测某个词时的不确定性用负的对数概率来衡量——与其频率排名之间存在半对数线性关系。公式写出来, 其中其中s是Zipf指数r是词的频率排名C是常数ε(r)是模型的逼近误差。排名越高r越大频率越低损失越大——这是单调递增的关系。高频词r小的误差项ε(r)也更小因为训练时见过的样例更多梯度信号更充分模型预测得更稳。句子级别定理3、4对句子的平均条件NLL损失做分解可以证明其中误差总量当高频句和低频句的频率比足够大超过两者误差项之和时高频句的损失严格更低——这就是文本频率定律的充分条件。这个证明最有意思的地方在于误差项在句子的K个token平均后会以√K的速度缩小。实际需要的频率差距远小于理论上的充分条件——定律在实践中比理论更容易满足。有了理论支撑TFL就不只是我们发现了一个有趣现象——它是Zipf定律在语言模型训练中的自然推论。9. 项目总结过去我们理解AI训练数据看的是三件事准不准、够不够多、噪声多不多。文本频率定律打开了第四扇门表达多常见。这意味着什么意味着同样的训练预算选高频表达的数据能免费获得额外提升。意味着Prompt工程不只是把指令写清楚还包括把措辞写常见。意味着从数学推理到机器翻译从英语到百余种语言都有一个此前被遗忘的性能空间等待挖掘。未来值得关注的方向有三个第一实时高频改写系统——把用户输入自动转换为高频表达无感嵌入现有应用提升所有下游任务的准确率。第二极低资源语言的深度探索——100个语言的实验已经验证了TFL的跨语言稳定性但对于class 0类语言几乎没有数字化资源频率估计的准确性本身就是挑战。第三TFL与对齐方法的结合——RLHF、DPO等对齐训练阶段高频数据选择能否同样发挥作用这是一个尚未触碰的开放问题。如果说过去我们对AI训练数据的理解是好数据就是对的数据那么这篇研究展示的是好数据还要是熟悉的数据——第一块揭开数据频率维度的基石。论文标题 Adams Law: Textual Frequency Law on Large Language Models论文地址 https://arxiv.org/pdf/2604.02176作者简介 本文由FaceMind Corporation与香港中文大学The Chinese University of Hong Kong联合完成。第一作者为FaceMind Corporation的Hongyuan Adam Lu与Z.L.同列等贡献Equal Contribution共同作者还包括FaceMind Corporation的Victor Wei、Zefan Zhang、Zhao Hong、Qiqi Xiang以及来自香港中文大学的Bowen Cao和Wai Lam。

相关文章:

论文解读:Adam定律揭示大模型最爱高频词

AI性能的天花板,是由数据决定的。这句话,每个人都知道。但"好数据"的定义,长期以来只有三个维度:准确、丰富、无噪声。没有人认真追问过第四个维度——当数据语义完全相同,只是措辞不同时,哪个更…...

Taskbar11:3个步骤解锁Windows 11任务栏完全自定义能力

Taskbar11:3个步骤解锁Windows 11任务栏完全自定义能力 【免费下载链接】Taskbar11 Change the position and size of the Taskbar in Windows 11 项目地址: https://gitcode.com/gh_mirrors/ta/Taskbar11 你是否厌倦了Windows 11默认的任务栏布局&#xff1…...

浙江金华车间酷热难挡?蒸发冷省电空调能否解决降温难题?

浙江金华的夏季,车间内酷热难挡是许多企业面临的难题。高温不仅让员工工作体验变差,还可能影响生产效率。这时,蒸发冷省电空调成为备受关注的解决方案。蒸发冷省电空调的制冷原理有其独特之处。它需要压缩机、制冷剂进行内循环制冷。压缩机作…...

DDD难落地?就让AI干吧! - cleanddd-skills介绍槐

AI训练存储选型的演进路线 第一阶段:单机直连时代 早期的深度学习数据集较小,模型训练通常在单台服务器或单张GPU卡上完成。此时直接将数据存储在训练机器的本地NVMe SSD/HDD上。 其优势在于IO延迟最低,吞吐量极高,也就是“数据离…...

吃灰安卓机变身 OpenClaw 服务器 — 完整手册乙

前言 在使用 kubectl get $KIND -o yaml 查看 k8s 资源时,输出结果中包含大量由集群自动生成的元数据(如 managedFields、resourceVersion、uid 等)。这些信息在实际复用 yaml 清单时需要手动清理,增加了额外的工作量。 使用 kube…...

2026年主流会议录音转写工具大横评全场景准确率实测对比,谁才是职场人首选的效率王者?

作为折腾过几十款效率工具的老油条,最近为了搞定自媒体团队的访谈整理、视频转字幕需求,我把2026年市面上主流的5款录音转写工具全测了一遍,踩了一堆坑之后可以明明白白说:听脑AI是同类工具中综合体验最好的,不管是准确…...

nomic-embed-text-v2-moe GPU算力利用:A10单卡并发16路请求的稳定性压测报告

nomic-embed-text-v2-moe GPU算力利用:A10单卡并发16路请求的稳定性压测报告 1. 引言:当嵌入模型遇上高并发挑战 最近在折腾一个多语言检索项目,需要找一个既强大又高效的文本嵌入模型。试了一圈,最终锁定了nomic-embed-text-v2…...

VideoAgentTrek-ScreenFilter API接口全解析:参数、返回值与错误码指南

VideoAgentTrek-ScreenFilter API接口全解析:参数、返回值与错误码指南 最近在折腾一个视频内容审核的项目,需要自动过滤掉一些不合适的画面。找了一圈,发现VideoAgentTrek-ScreenFilter这个模型挺对路,它专门用来分析视频内容&a…...

CMIP6实战指南:AI驱动的降尺度技术与区域气候影响深度解析

1. CMIP6与AI降尺度技术入门指南 当我们需要研究某个城市未来50年的气温变化时,全球气候模型(GCM)给出的数据往往像一张模糊的低像素照片——你能看出大概轮廓,但看不清细节。这就是CMIP6数据面临的典型问题:它的空间分…...

如何构建个人数字图书馆:知识星球内容永久保存完整方案

如何构建个人数字图书馆:知识星球内容永久保存完整方案 【免费下载链接】zsxq-spider 爬取知识星球内容,并制作 PDF 电子书。 项目地址: https://gitcode.com/gh_mirrors/zs/zsxq-spider 你是否曾经为知识星球上的优质内容无法永久保存而焦虑&…...

Xinference-v1.17.1在嵌入式开发中的应用:基于Keil5的AI模型部署

Xinference-v1.17.1在嵌入式开发中的应用:基于Keil5的AI模型部署 1. 引言 嵌入式设备越来越需要AI能力,但传统方法往往受限于计算资源和内存大小。Xinference-v1.17.1作为一个高效的AI推理框架,为嵌入式开发带来了新的可能。通过Keil5这样的…...

数据摄取构建模块简介(预览版)(二)僬

Qt是一个跨平台C图形界面开发库,利用Qt可以快速开发跨平台窗体应用程序,在Qt中我们可以通过拖拽的方式将不同组件放到指定的位置,实现图形化开发极大的方便了开发效率,本笔记将重点介绍QSpinBox数值微调组件的常用方法及灵活应用。…...

如何在5分钟内为视频自动生成专业字幕:VideoSrt开源工具深度指南

如何在5分钟内为视频自动生成专业字幕:VideoSrt开源工具深度指南 【免费下载链接】video-srt-windows 这是一个可以识别视频语音自动生成字幕SRT文件的开源 Windows-GUI 软件工具。 项目地址: https://gitcode.com/gh_mirrors/vi/video-srt-windows 还在为视…...

RabbitMQ消费者处理失败

1. 原生 RabbitMQ 机制:依赖 Ack 和“丢回去”(Requeue) RabbitMQ 服务端本身没有内置“最多重试 N 次然后丢弃”这种复杂的本地计数机制。它主要依赖**消息确认机制(ACK)**来保证消息不丢失。 当消费者处理失败时&…...

高效CAJ转PDF工具:一站式解决学术文献格式转换难题

高效CAJ转PDF工具:一站式解决学术文献格式转换难题 【免费下载链接】caj2pdf Convert CAJ (China Academic Journals) files to PDF. 转换中国知网 CAJ 格式文献为 PDF。佛系转换,成功与否,皆是玄学。 项目地址: https://gitcode.com/gh_mi…...

Wonder3D终极指南:如何用一张图片快速创建专业3D模型

Wonder3D终极指南:如何用一张图片快速创建专业3D模型 【免费下载链接】Wonder3D Single Image to 3D using Cross-Domain Diffusion for 3D Generation 项目地址: https://gitcode.com/gh_mirrors/wo/Wonder3D 还在为复杂的3D建模软件而烦恼吗?Wo…...

AI原生研发能力评估体系(2026权威实测版):覆盖LLM编译器、Agent工作流、RAG-Native架构等9大新兴栈

第一章:AI原生软件研发技术雷达图2026版全景概览 2026奇点智能技术大会(https://ml-summit.org) 2026版AI原生软件研发技术雷达图基于全球327个生产级AI应用项目、18家头部云厂商平台能力评估及41项开源工具链实测数据构建,覆盖模型即服务(M…...

fre:ac音频转换器:你的数字音乐整理终极方案

fre:ac音频转换器:你的数字音乐整理终极方案 【免费下载链接】freac The fre:ac audio converter project 项目地址: https://gitcode.com/gh_mirrors/fr/freac 你是否曾为杂乱无章的音乐文件而烦恼?或是面对不同设备间的格式兼容问题束手无策&am…...

深入探索Linux Test Project:专业级Linux系统测试框架完全指南

深入探索Linux Test Project:专业级Linux系统测试框架完全指南 【免费下载链接】ltp Linux Test Project (mailing list: https://lists.linux.it/listinfo/ltp) 项目地址: https://gitcode.com/gh_mirrors/ltp/ltp Linux Test Project(LTP&#…...

BR实用操作

文章目录B&R 4.3下载安装B&R 4.3下载开始安装安装结束注意点Upgrdate 安装注册授权Could not find Automation Runtime direcotry N3.34 报错B&R 修改模拟ip删除temp文件默认连接虚拟 onine修改ipBR冗余配置BR模拟配置BR模拟BR授权OPC UA开启和端口设置OPC UA上传配…...

密码学-背包密码举例说明

题目 超递增的背包:(3,5,10,23)将此作为私钥,模数n 47,乘数逆元m - 1 6。 (乘数m 8, 8*6 mod 47 1) 以二进制方式解密文C1 20,C2 29。 解题 发送方 公钥是常规包&a…...

golang 开发环境搭建

环境变量 export GOROOT/usr/local/go export GOPATH$HOME/go export PATH$PATH:$GOROOT/bin:$GOPATH/bin打成Linux可执行的包 ## SET GOOSlinux SET GOARCHamd64 go build -o abc-demo-linux ....

AXI基础知识学习

1、AXI通道主从之间5个通信通道:写操作使用如下通道:(1)主——>从,主使用AW通道发送写地址,主使用W通道发送数据;(2)从——>主,写操作完成之后&#xf…...

告别定时器中断!用RTA-OS硬件计数器实现超低功耗任务调度(AUTOSAR OS实战)

汽车电子低功耗革命:基于RTA-OS硬件计数器的精准调度实战 在汽车电子控制单元(ECU)开发中,静态功耗优化一直是工程师面临的棘手难题。传统基于SysTick的周期性中断方案就像一盏永不熄灭的指示灯,即使系统处于空闲状态也…...

MambaOut部署指南:本地、云端和边缘设备的完整解决方案

MambaOut部署指南:本地、云端和边缘设备的完整解决方案 【免费下载链接】MambaOut MambaOut: Do We Really Need Mamba for Vision? (CVPR 2025) 项目地址: https://gitcode.com/gh_mirrors/ma/MambaOut MambaOut是一个高效的计算机视觉模型,它通…...

3分钟解锁B站缓存视频:m4s-converter无损转换指南

3分钟解锁B站缓存视频:m4s-converter无损转换指南 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾为B站下架的视频感到惋惜&…...

BilibiliDown终极指南:如何简单快速批量下载B站高清视频

BilibiliDown终极指南:如何简单快速批量下载B站高清视频 【免费下载链接】BilibiliDown (GUI-多平台支持) B站 哔哩哔哩 视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors…...

Elasticsearch分词查询实战:match_phrase与term的5个关键区别(附真实案例)

Elasticsearch分词查询实战:match_phrase与term的5个关键区别(附真实案例) 在构建搜索功能时,Elasticsearch的分词查询是开发者必须掌握的核心技能。面对match_phrase和term这两种看似相似实则差异显著的查询方式,许多…...

深入理解Strudel核心组件:从模式语法到音频处理

深入理解Strudel核心组件:从模式语法到音频处理 【免费下载链接】strudel MOVED TO CODEBERG - Web-based environment for live coding algorithmic patterns, incorporating a faithful port of TidalCycles to JavaScript 项目地址: https://gitcode.com/gh_mi…...

PS4手柄Windows完全指南:用DS4Windows解锁专业级游戏体验

PS4手柄Windows完全指南:用DS4Windows解锁专业级游戏体验 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 想在Windows电脑上完美使用PS4手柄吗?DS4Windows为你提供…...