当前位置：首页 > article >正文

QWen 3.5plus总结的总结基准测试结果的正确方法

article 2026/3/28 9:50:32

原文地址https://dl.acm.org/doi/epdf/10.1145/5666.5673如何用统计撒谎总结基准测试结果的正确方法作者PHILIP J. FLEMING 和 JOHN J. WALLACE在文献中性能结果经常使用性能比率的算术平均值来总结在某些情况下导致错误的结论参见文献[2]中的表2和表3或者至少是不恰当的统计参见文献[3]中的表12和13。我们希望通过指出为什么不应该使用算术平均值来总结归一化的性能数字并说明为什么几何平均值是更合适的度量来阐明在报告结果时这种对统计的无意误用。我们以一些简单规则的形式来做这件事以改进性能基准测试结果的统计分析。总结性能基准测试结果的三条规则在根据某些指标如目标代码大小、运行时间或吞吐量比较计算机时通常的做法是运行基准测试将结果归一化到一台已知机器然后对这些归一化的量求平均。希望用一个数字来表示相对系统性能当然是可以理解的因为我们想要对一台机器相对于其他机器的价值得出简单的结论。然而为了使这些结论有意义和有用应该遵守以下三条规则。规则1不要使用算术平均值来平均归一化的数字N个数字的算术平均值是这些数字的和除以N。当从归一化的数字计算算术平均值时结果是毫无意义的。在表I中源自文献[2]中报告的一个例子所有运行时间都归一化到机器R。然后对这些归一化的数字求平均得出的结论是机器M比R慢1%机器Z慢7%。然而如果我们归一化到机器M而不是R如表II所示我们必须得出结论R现在比M慢32%。这怎么可能这是不可能的。问题在于算术平均值它对归一化的数字给出毫无意义的结果。用一个简单的例子来说明算术平均值的问题考虑三台机器其基准测试运行时间如表III所示。对于基准测试1机器Y的速度是机器X的两倍但对于基准测试2速度是X的一半。同样对于基准测试1机器Z的速度是机器X的一半但对于基准测试2速度是X的两倍。直观上这三台机器具有等效的性能每台机器在一个基准测试上比其他机器慢但在另一个基准测试上以相同的比率更快。然而如果我们归一化到机器X并计算算术平均值我们发现机器Y和Z比X慢25%。更糟糕的是如果我们归一化到机器Y并计算算术平均值表IV我们发现机器Y现在比X快25%比Z快两倍以上尽管X和Z的总基准测试运行时间少于Y。显然在这种情况下算术平均值是毫无价值的当不加区别地使用时它会导致非常错误的结论。作为已经讨论内容的推论现在引入规则1.1是相关的归一化数字的和也是毫无意义的。这是相当明显的因为和仅仅是算术平均值的N倍。规则2使用几何平均值来平均归一化的数字N个数字的几何平均值是这些数字的乘积的1/N次方。与算术平均值不同几何平均值在应用于归一化的数字时是有意义的。在表V中重复了我们简单的XYZ例子中的数字但这次使用几何平均值。现在结论更有用显示这些机器大致相等。即使我们归一化到机器Y而不是X结果也是一样的表VI。如果像表VII那样我们对表I中呈现的结果使用几何平均值而不是算术平均值那么我们得出结论机器M比机器R快14%机器Z快16%——与原论文中提出的结论非常不同。在表VIII中得出了相同的结果其中运行时间归一化到机器M而不是机器R因为1.17是0.86的倒数。此外通过直接从几何平均值比较机器M和机器Z而不重新归一化我们看到对于这些基准测试机器M比机器Z慢2%0.86/0.84 1.02。能够不考虑归一化而比较平均值是一个重要的性质并且是几何平均值所独有的如证明几何平均值是归一化测量唯一正确的平均值一节所示。为了总结这个讨论我们提出规则2的两个推论规则2.1无论数字如何归一化都可以使用几何平均值。规则2.2即使数字没有归一化也可以使用几何平均值然后可以对得到的平均值进行归一化。规则3每当这个总和有意义时使用原始的、未归一化结果的和或算术平均值有时基准测试结果的和是有意义的例如一组基准测试的总运行时间。然而重要的是使用原始的、未归一化的数据来计算这个和因为我们已经表明对归一化的数字求和或取算术平均值会给出毫无价值的结果。然后可以取这些未归一化和的比率来确定相对性能。当对原始结果求和或取算术平均值时隐含的意思是每个单独的基准测试具有同等的重要性。然而典型情况下你想要加权每个基准测试结果以模拟真实负载。例如在表IX中重复了我们简单的XYZ例子基准测试1消耗我们负载混合的60%基准测试2消耗40%。这意味着机器X现在比Z快14%比Y快36%。这个结论成立无论我们如何归一化算术平均值因为我们从原始的未归一化的数据开始。证明几何平均值是归一化测量唯一正确的平均值早些时候我们展示了使用算术平均值来平均归一化的测量如何导致不一致而使用几何平均值则不会。在本节中我们提供一个证明说明几何平均值是唯一具有乘法性质的平均值因此是当前上下文中唯一合适的平均值度量。虽然这个结果不代表原创数学即通过对数变换等价于文献[1]中的定理4但为了方便读者这里进行了展示。乘法性质可以简单地表述为乘积的平均值等于平均值的乘积。更准确地说假设我们有N个感兴趣的基准测试β₁,…,βN以及三台机器X、Y和Z我们想要比较它们的性能。在这些机器上运行基准测试后我们发现βi在机器X上运行了xi秒在机器Y上运行了yi秒在机器Z上运行了zi秒。然后我们形成比率ai yi/xi和bi zi/yi。习惯上说机器X运行βi的速度是机器Y的ai倍同样机器Y运行βi的速度是机器Z的bi倍。我们也可以得出结论机器X运行βi的速度是机器Z的aibi倍机器Y运行βi的速度是机器X的ai⁻¹倍。通过选择一个数字比如A来总结机器X和机器Y之间的整体性能比较我们现在可以转到这样的陈述总体而言机器X在β₁,…,βN上的速度是机器Y的A倍。如果我们现在选择一个数字B并断言总体而言机器Y的速度是机器Z的B倍那么常识将规定机器X的速度应该是机器Z的AB倍。这就是乘法性质A和B的乘积应该等于a₁b₁,…,aNbN的平均值。数值示例参见第220页的表V、VI和VII。为了用数学公式表述这个问题令A f(a₁,…,aN)。换句话说A是a₁,…,aN的某个未知函数f。我们假设ai 0。由于A是无权重的期望值或平均值函数f必须满足以下三个性质性质1自反性质f(a,…,a) a性质2对称性质f(a₁,…,an) f(aσ(1),…,aσ(n)) 对于数字1,…,n的所有排列σ。这第二个性质保持f的参数顺序不影响A。性质3乘法性质f(a₁b₁,…,anbn) f(a₁,…,an)f(b₁,…,bn)我们声称性质1到3唯一地刻画了几何平均值。要看到这一点首先注意几何平均值确实满足性质1到3。我们现在证明如果f满足性质1到3那么f(a₁,…,an)是几何平均值。观察到对于任何r 0r f(r,…,r) f(r,1,…,1)f(1,r,…,1)…f(1,…,1,r) f(r,1,…,1)^n第一个等式来自性质1第二个是通过重复应用性质3得到的最后一个是性质2。因此对于任何r 0f(r,1,…,1) r^(1/n)。最后我们注意到性质2和3连同上面的计算意味着f(a₁,…,an) f(a₁,1,…,1)f(1,a₂,1,…,1)…f(1,…,1,an) Π(i1到n) f(ai,1,…,1) Π(i1到n) ai^(1/n)现在可以看出满足性质1到3的A的唯一选择是几何平均值。作为最后的说明注意加权几何平均值它也满足乘法性质可以如下计算令w₁,…,wN是权重使得w₁…wN 1。然后加权平均值是Π(i1到N) ai^wi无权重的平均值是情况wi 1/Ni 1,…,N。结论在本文中我们已经证明了为什么几何平均值适合总结归一化的基准测试结果以及为什么在这种情况下使用算术平均值会导致严重错误的结论。然而应该明确指出当存在大方差时任何数据平均值的度量都是误导性的。因此我们认为任何有意义的数据总结都应该包括对数据的最小值和最大值以及平均值的某种提及。这提供了关于相对于所选基准测试集的相对性能的保证的上下界。参考文献Aczel, J. Functional Equations. Academic Press, New York, 1966, p. 239. 关于函数方程的综合教科书。Heath, J.L. Re-evaluation of RISC I. Comput. Archit. News 12, 1 (Mar. 1984), 3-10. RISC与CISC的性能比较。Patterson, D.A., and Sequin, C.H. A VLSI RISC. Computer 15, 9 (Sept. 1982), 6-21. 正式向计算机架构引入RISC方法的里程碑式论文。CR类别和主题描述符C.4 [系统性能]测量技术性能属性通用术语测量性能其他关键词和短语基准测试几何平均值收稿日期1985年5月接受日期1985年8月作者当前地址Philip J. Fleming, ATT信息系统1100 East Warrenville Road, Naperville, IL 60566John J. Wallace, The Foxboro公司Foxboro, MA 02035电子邮件foxvax!jjw版权说明允许免费复制本材料的全部或部分条件是复制品不是为了直接商业利益而制作或分发ACM版权声明和出版物标题及其日期出现并且声明复制是经计算机协会许可的。否则复制或重新发布需要费用和/或特别许可。表 I. 归一化数据上算术平均值的错误使用处理器基准测试RMZE417(1.00)244(0.59)134(0.32)F83(1.00)70(0.84)70(0.85)H66(1.00)153(2.32)135(2.05)I39,449(1.00)33,527(0.85)66,000(1.67)K772(1.00)368(0.48)369(0.45)算术平均值(1.00)(1.01)(1.07)括号中的数字已归一化到机器R。表 II. 相同的原始数据但结果不同处理器基准测试RMZE417(1.71)244(1.00)134(0.55)F83(1.19)70(1.00)70(1.00)H66(0.43)153(1.00)135(0.88)I39,449(1.18)33,527(1.00)66,000(1.97)K772(2.10)368(1.00)369(1.00)算术平均值(1.32)(1.00)(1.08)括号中的数字已归一化到机器M。表 III. 归一化数据上算术平均值的另一个错误使用处理器基准测试XYZ120(1.00)10(0.50)40(2.00)240(1.00)80(2.00)20(0.50)算术平均值(1.00)(1.25)(1.25)括号中的数字已归一化到机器X。表 IV. 算术平均值正在快速下沉处理器基准测试XYZ120(2.00)10(1.00)40(4.00)240(0.50)80(1.00)20(0.25)算术平均值(1.25)(1.00)(2.13)括号中的数字已归一化到机器Y。表 V. 几何平均值的正确使用处理器基准测试XYZ120(1.00)10(0.50)40(2.00)240(1.00)80(2.00)20(0.50)几何平均值(1.00)(1.00)(1.00)括号中的数字已归一化到机器X。表 VI. 几何平均值与归一化无关处理器基准测试XYZ120(2.00)10(1.00)40(4.00)240(0.50)80(1.00)20(0.25)几何平均值(1.00)(1.00)(1.00)括号中的数字已归一化到机器Y。表 VII. 几何平均值的另一个正确使用基准测试处理器RMZE417(1.00)244(0.59)134(0.32)F83(1.00)70(0.84)70(0.85)H66(1.00)153(2.32)135(2.05)I39,449(1.00)33,527(0.85)66,000(1.67)K772(1.00)368(0.48)369(0.45)几何平均值(1.00)(0.86)(0.84)括号中的数字已归一化到机器R。表 VIII. 不同的归一化处理器基准测试RMZE417(1.71)244(1.00)134(0.55)F83(1.19)70(1.00)70(1.00)H66(0.43)153(1.00)135(0.88)I39,449(1.18)33,527(1.00)66,000(1.97)K772(2.10)368(1.00)369(1.00)几何平均值(1.17)(1.00)(0.99)括号中的数字已归一化到机器M。表 IX. 原始数据的总和可能有意义基准测试权重处理器 X处理器 Y处理器 Z10.620104020.4408020加权算术平均值283832归一化到X1.001.361.14

QWen 3.5plus总结的总结基准测试结果的正确方法

相关文章：

QWen 3.5plus总结的总结基准测试结果的正确方法

从软件到硬件：Taalas ASIC如何让AI成为“物理基础设施”

新手避坑指南：用Arduino Uno和CNC Shield V3驱动42步进电机（附完整代码与接线图）

探索照片转3D模型：用Meshroom实现7步从2D到3D的蜕变

标签噪声鲁棒训练：从理论到实践，构建深度学习模型的抗噪防线

FPGA时序优化全攻略：Vivado 2019.2中的建立与保持时间问题解决

JAVA集成CAS客户端总结

AI辅助创作：Krita智能选区工具效率提升指南

AI选型与配置：让快马智能推荐npm包并生成个人博客系统前端代码

文墨共鸣大模型生成技术教程：以“计算机组成原理”为例的课件与习题制作

职场生存暗规则 DAY5：同事抢你功劳？用这 1 招让他偷鸡不成蚀把米｜乐想屋

Ansys与Adams刚柔耦合仿真实战：从模态分析到MNF文件生成全流程解析

Qwen-Image-Layered场景实战：用AI图层技术为你的产品图换背景

WebGIS驱动的智慧校园导航系统：架构设计与功能实现全解析

WorkshopDL：跨平台资源获取的开源工具解决方案

OpenFeign性能优化最全实战

MacBook上5分钟搞定Jmeter接口压测：从下载到脚本自动保存结果（附BeanShell代码）

保姆级教程：用Halcon的cooc_feature_image算子搞定LCD屏幕缺陷检测（附完整代码）

AI转PSD终极指南：快速实现矢量图到Photoshop分层文件的完美转换

ComfyUI-VideoHelperSuite解决VHS_VideoCombine节点缺失的4阶段实战方案

工业Python网关性能断崖式下降？实测发现：asyncio在ARM Cortex-A9上协程切换开销超预期237%，3种轻量替代架构对比报告

别急着扔！用Windows虚拟内存和这几招，让老电脑再战三年（附SSD选购建议）

KV STUDIO Ver.12 梯形图编程实战：从入门到精通的5个关键步骤

AI赋能开发：让快马智能分析并优化你的openclaw101风格网站代码与体验

从无人机航拍到手机扫描：聊聊SfM（运动恢复结构）在实际项目中的选型与避坑指南

Source Han Serif CN：终极开源中文字体深度技术指南

Qwen2.5-VL-7B-Instruct详细步骤：GPTQ量化模型加载与推理加速技巧

5V低压开环FOC驱动器：低成本实现微型电机流畅控制

NVIDIA GPU监控效能深度解析：nvitop如何破解多用户环境资源管理难题

从PID控制器到语义分割：手把手教你复现PIDNet（附PyTorch代码与Cityscapes实战）