当前位置: 首页 > article >正文

QWen 3.5plus总结的总结基准测试结果的正确方法

原文地址https://dl.acm.org/doi/epdf/10.1145/5666.5673如何用统计撒谎总结基准测试结果的正确方法作者PHILIP J. FLEMING 和 JOHN J. WALLACE在文献中性能结果经常使用性能比率的算术平均值来总结在某些情况下导致错误的结论参见文献[2]中的表2和表3或者至少是不恰当的统计参见文献[3]中的表12和13。我们希望通过指出为什么不应该使用算术平均值来总结归一化的性能数字并说明为什么几何平均值是更合适的度量来阐明在报告结果时这种对统计的无意误用。我们以一些简单规则的形式来做这件事以改进性能基准测试结果的统计分析。总结性能基准测试结果的三条规则在根据某些指标如目标代码大小、运行时间或吞吐量比较计算机时通常的做法是运行基准测试将结果归一化到一台已知机器然后对这些归一化的量求平均。希望用一个数字来表示相对系统性能当然是可以理解的因为我们想要对一台机器相对于其他机器的价值得出简单的结论。然而为了使这些结论有意义和有用应该遵守以下三条规则。规则1不要使用算术平均值来平均归一化的数字N个数字的算术平均值是这些数字的和除以N。当从归一化的数字计算算术平均值时结果是毫无意义的。在表I中源自文献[2]中报告的一个例子所有运行时间都归一化到机器R。然后对这些归一化的数字求平均得出的结论是机器M比R慢1%机器Z慢7%。然而如果我们归一化到机器M而不是R如表II所示我们必须得出结论R现在比M慢32%。这怎么可能这是不可能的。问题在于算术平均值它对归一化的数字给出毫无意义的结果。用一个简单的例子来说明算术平均值的问题考虑三台机器其基准测试运行时间如表III所示。对于基准测试1机器Y的速度是机器X的两倍但对于基准测试2速度是X的一半。同样对于基准测试1机器Z的速度是机器X的一半但对于基准测试2速度是X的两倍。直观上这三台机器具有等效的性能每台机器在一个基准测试上比其他机器慢但在另一个基准测试上以相同的比率更快。然而如果我们归一化到机器X并计算算术平均值我们发现机器Y和Z比X慢25%。更糟糕的是如果我们归一化到机器Y并计算算术平均值表IV我们发现机器Y现在比X快25%比Z快两倍以上尽管X和Z的总基准测试运行时间少于Y。显然在这种情况下算术平均值是毫无价值的当不加区别地使用时它会导致非常错误的结论。作为已经讨论内容的推论现在引入规则1.1是相关的归一化数字的和也是毫无意义的。这是相当明显的因为和仅仅是算术平均值的N倍。规则2使用几何平均值来平均归一化的数字N个数字的几何平均值是这些数字的乘积的1/N次方。与算术平均值不同几何平均值在应用于归一化的数字时是有意义的。在表V中重复了我们简单的XYZ例子中的数字但这次使用几何平均值。现在结论更有用显示这些机器大致相等。即使我们归一化到机器Y而不是X结果也是一样的表VI。如果像表VII那样我们对表I中呈现的结果使用几何平均值而不是算术平均值那么我们得出结论机器M比机器R快14%机器Z快16%——与原论文中提出的结论非常不同。在表VIII中得出了相同的结果其中运行时间归一化到机器M而不是机器R因为1.17是0.86的倒数。此外通过直接从几何平均值比较机器M和机器Z而不重新归一化我们看到对于这些基准测试机器M比机器Z慢2%0.86/0.84 1.02。能够不考虑归一化而比较平均值是一个重要的性质并且是几何平均值所独有的如证明几何平均值是归一化测量唯一正确的平均值一节所示。为了总结这个讨论我们提出规则2的两个推论规则2.1无论数字如何归一化都可以使用几何平均值。规则2.2即使数字没有归一化也可以使用几何平均值然后可以对得到的平均值进行归一化。规则3每当这个总和有意义时使用原始的、未归一化结果的和或算术平均值有时基准测试结果的和是有意义的例如一组基准测试的总运行时间。然而重要的是使用原始的、未归一化的数据来计算这个和因为我们已经表明对归一化的数字求和或取算术平均值会给出毫无价值的结果。然后可以取这些未归一化和的比率来确定相对性能。当对原始结果求和或取算术平均值时隐含的意思是每个单独的基准测试具有同等的重要性。然而典型情况下你想要加权每个基准测试结果以模拟真实负载。例如在表IX中重复了我们简单的XYZ例子基准测试1消耗我们负载混合的60%基准测试2消耗40%。这意味着机器X现在比Z快14%比Y快36%。这个结论成立无论我们如何归一化算术平均值因为我们从原始的未归一化的数据开始。证明几何平均值是归一化测量唯一正确的平均值早些时候我们展示了使用算术平均值来平均归一化的测量如何导致不一致而使用几何平均值则不会。在本节中我们提供一个证明说明几何平均值是唯一具有乘法性质的平均值因此是当前上下文中唯一合适的平均值度量。虽然这个结果不代表原创数学即通过对数变换等价于文献[1]中的定理4但为了方便读者这里进行了展示。乘法性质可以简单地表述为乘积的平均值等于平均值的乘积。更准确地说假设我们有N个感兴趣的基准测试β₁,…,βN以及三台机器X、Y和Z我们想要比较它们的性能。在这些机器上运行基准测试后我们发现βi在机器X上运行了xi秒在机器Y上运行了yi秒在机器Z上运行了zi秒。然后我们形成比率ai yi/xi和bi zi/yi。习惯上说机器X运行βi的速度是机器Y的ai倍同样机器Y运行βi的速度是机器Z的bi倍。我们也可以得出结论机器X运行βi的速度是机器Z的aibi倍机器Y运行βi的速度是机器X的ai⁻¹倍。通过选择一个数字比如A来总结机器X和机器Y之间的整体性能比较我们现在可以转到这样的陈述总体而言机器X在β₁,…,βN上的速度是机器Y的A倍。如果我们现在选择一个数字B并断言总体而言机器Y的速度是机器Z的B倍那么常识将规定机器X的速度应该是机器Z的AB倍。这就是乘法性质A和B的乘积应该等于a₁b₁,…,aNbN的平均值。数值示例参见第220页的表V、VI和VII。为了用数学公式表述这个问题令A f(a₁,…,aN)。换句话说A是a₁,…,aN的某个未知函数f。我们假设ai 0。由于A是无权重的期望值或平均值函数f必须满足以下三个性质性质1自反性质f(a,…,a) a性质2对称性质f(a₁,…,an) f(aσ(1),…,aσ(n)) 对于数字1,…,n的所有排列σ。这第二个性质保持f的参数顺序不影响A。性质3乘法性质f(a₁b₁,…,anbn) f(a₁,…,an)f(b₁,…,bn)我们声称性质1到3唯一地刻画了几何平均值。要看到这一点首先注意几何平均值确实满足性质1到3。我们现在证明如果f满足性质1到3那么f(a₁,…,an)是几何平均值。观察到对于任何r 0r f(r,…,r) f(r,1,…,1)f(1,r,…,1)…f(1,…,1,r) f(r,1,…,1)^n第一个等式来自性质1第二个是通过重复应用性质3得到的最后一个是性质2。因此对于任何r 0f(r,1,…,1) r^(1/n)。最后我们注意到性质2和3连同上面的计算意味着f(a₁,…,an) f(a₁,1,…,1)f(1,a₂,1,…,1)…f(1,…,1,an) Π(i1到n) f(ai,1,…,1) Π(i1到n) ai^(1/n)现在可以看出满足性质1到3的A的唯一选择是几何平均值。作为最后的说明注意加权几何平均值它也满足乘法性质可以如下计算令w₁,…,wN是权重使得w₁…wN 1。然后加权平均值是Π(i1到N) ai^wi无权重的平均值是情况wi 1/Ni 1,…,N。结论在本文中我们已经证明了为什么几何平均值适合总结归一化的基准测试结果以及为什么在这种情况下使用算术平均值会导致严重错误的结论。然而应该明确指出当存在大方差时任何数据平均值的度量都是误导性的。因此我们认为任何有意义的数据总结都应该包括对数据的最小值和最大值以及平均值的某种提及。这提供了关于相对于所选基准测试集的相对性能的保证的上下界。参考文献Aczel, J. Functional Equations. Academic Press, New York, 1966, p. 239. 关于函数方程的综合教科书。Heath, J.L. Re-evaluation of RISC I. Comput. Archit. News 12, 1 (Mar. 1984), 3-10. RISC与CISC的性能比较。Patterson, D.A., and Sequin, C.H. A VLSI RISC. Computer 15, 9 (Sept. 1982), 6-21. 正式向计算机架构引入RISC方法的里程碑式论文。CR类别和主题描述符C.4 [系统性能]测量技术性能属性通用术语测量性能其他关键词和短语基准测试几何平均值收稿日期1985年5月接受日期1985年8月作者当前地址Philip J. Fleming, ATT信息系统1100 East Warrenville Road, Naperville, IL 60566John J. Wallace, The Foxboro公司Foxboro, MA 02035电子邮件foxvax!jjw版权说明允许免费复制本材料的全部或部分条件是复制品不是为了直接商业利益而制作或分发ACM版权声明和出版物标题及其日期出现并且声明复制是经计算机协会许可的。否则复制或重新发布需要费用和/或特别许可。表 I. 归一化数据上算术平均值的错误使用处理器基准测试RMZE417(1.00)244(0.59)134(0.32)F83(1.00)70(0.84)70(0.85)H66(1.00)153(2.32)135(2.05)I39,449(1.00)33,527(0.85)66,000(1.67)K772(1.00)368(0.48)369(0.45)算术平均值(1.00)(1.01)(1.07)括号中的数字已归一化到机器R。表 II. 相同的原始数据但结果不同处理器基准测试RMZE417(1.71)244(1.00)134(0.55)F83(1.19)70(1.00)70(1.00)H66(0.43)153(1.00)135(0.88)I39,449(1.18)33,527(1.00)66,000(1.97)K772(2.10)368(1.00)369(1.00)算术平均值(1.32)(1.00)(1.08)括号中的数字已归一化到机器M。表 III. 归一化数据上算术平均值的另一个错误使用处理器基准测试XYZ120(1.00)10(0.50)40(2.00)240(1.00)80(2.00)20(0.50)算术平均值(1.00)(1.25)(1.25)括号中的数字已归一化到机器X。表 IV. 算术平均值正在快速下沉处理器基准测试XYZ120(2.00)10(1.00)40(4.00)240(0.50)80(1.00)20(0.25)算术平均值(1.25)(1.00)(2.13)括号中的数字已归一化到机器Y。表 V. 几何平均值的正确使用处理器基准测试XYZ120(1.00)10(0.50)40(2.00)240(1.00)80(2.00)20(0.50)几何平均值(1.00)(1.00)(1.00)括号中的数字已归一化到机器X。表 VI. 几何平均值与归一化无关处理器基准测试XYZ120(2.00)10(1.00)40(4.00)240(0.50)80(1.00)20(0.25)几何平均值(1.00)(1.00)(1.00)括号中的数字已归一化到机器Y。表 VII. 几何平均值的另一个正确使用基准测试处理器RMZE417(1.00)244(0.59)134(0.32)F83(1.00)70(0.84)70(0.85)H66(1.00)153(2.32)135(2.05)I39,449(1.00)33,527(0.85)66,000(1.67)K772(1.00)368(0.48)369(0.45)几何平均值(1.00)(0.86)(0.84)括号中的数字已归一化到机器R。表 VIII. 不同的归一化处理器基准测试RMZE417(1.71)244(1.00)134(0.55)F83(1.19)70(1.00)70(1.00)H66(0.43)153(1.00)135(0.88)I39,449(1.18)33,527(1.00)66,000(1.97)K772(2.10)368(1.00)369(1.00)几何平均值(1.17)(1.00)(0.99)括号中的数字已归一化到机器M。表 IX. 原始数据的总和可能有意义基准测试权重处理器 X处理器 Y处理器 Z10.620104020.4408020加权算术平均值283832归一化到X1.001.361.14

相关文章:

QWen 3.5plus总结的总结基准测试结果的正确方法

原文地址:https://dl.acm.org/doi/epdf/10.1145/5666.5673 如何用统计撒谎:总结基准测试结果的正确方法 作者:PHILIP J. FLEMING 和 JOHN J. WALLACE 在文献中,性能结果经常使用性能比率的算术平均值来总结,在某些情况…...

从软件到硬件:Taalas ASIC如何让AI成为“物理基础设施”

当AI推理速度突破15000 tokens/秒,我们谈论的不再是“更快的服务”,而是“消失的延迟”。过去两年,大模型领域的竞争焦点高度集中在算力堆叠和参数规模上。GPU成为稀缺资源,英伟达H200、B200的发布一次次刷新算力上限,…...

新手避坑指南:用Arduino Uno和CNC Shield V3驱动42步进电机(附完整代码与接线图)

新手避坑指南:用Arduino Uno和CNC Shield V3驱动42步进电机(附完整代码与接线图) 刚拿到Arduino Uno和CNC Shield V3时,你可能迫不及待想驱动42步进电机完成第一个项目。但现实往往是:电机纹丝不动、发出奇怪噪音&…...

探索照片转3D模型:用Meshroom实现7步从2D到3D的蜕变

探索照片转3D模型:用Meshroom实现7步从2D到3D的蜕变 【免费下载链接】Meshroom 3D Reconstruction Software 项目地址: https://gitcode.com/gh_mirrors/me/Meshroom 定位3D重建价值:打破技术壁垒的开源方案 在数字创作领域,3D模型一…...

标签噪声鲁棒训练:从理论到实践,构建深度学习模型的抗噪防线

1. 标签噪声:深度学习中的隐形杀手 第一次用MNIST数据集跑分类模型时,我发现哪怕故意把20%的标签打乱,模型在测试集上依然能达到85%以上的准确率。这个结果让我误以为深度神经网络对标签噪声天然具有免疫力——直到后来在医疗影像分类项目里…...

FPGA时序优化全攻略:Vivado 2019.2中的建立与保持时间问题解决

FPGA时序优化全攻略:Vivado 2019.2中的建立与保持时间问题解决 在高速FPGA设计中,时序问题往往是工程师面临的最大挑战之一。当设计频率提升到200MHz甚至更高时,建立时间和保持时间的违例会频繁出现,导致设计无法正常工作。本文将…...

JAVA集成CAS客户端总结

一、依赖<dependency><groupId>org.jasig.cas.client</groupId><artifactId>cas-client-support-springboot</artifactId><version>3.6.4</version></dependency>二、yml配置cas:server-url-prefix: https://xxx.xxx:8443/cas…...

AI辅助创作:Krita智能选区工具效率提升指南

AI辅助创作&#xff1a;Krita智能选区工具效率提升指南 【免费下载链接】krita-vision-tools Krita plugin which adds selection tools to mask objects with a single click, or by drawing a bounding box. 项目地址: https://gitcode.com/gh_mirrors/kr/krita-vision-too…...

AI选型与配置:让快马智能推荐npm包并生成个人博客系统前端代码

最近在尝试用AI辅助开发个人博客系统&#xff0c;发现整个过程比想象中顺畅很多。特别是依赖管理和技术选型这个环节&#xff0c;AI能帮我们省去大量查文档和试错的时间。下面记录下我的实践过程&#xff0c;或许对同样想快速搭建博客的朋友有帮助。 需求明确化阶段 首先需要…...

文墨共鸣大模型生成技术教程:以“计算机组成原理”为例的课件与习题制作

文墨共鸣大模型生成技术教程&#xff1a;以“计算机组成原理”为例的课件与习题制作 作为一名在技术领域摸爬滚打了十多年的从业者&#xff0c;我见过太多优秀的工具因为“用起来太麻烦”而被束之高阁。今天&#xff0c;我想和你分享一个让我眼前一亮的“AI助教”——文墨共鸣…...

职场生存暗规则 DAY5:同事抢你功劳?用这 1 招让他偷鸡不成蚀把米|乐想屋

“本文来自「乐想屋」公众号&#xff0c;系列更新[职场反PUA30天觉醒计][职场生存暗规则]&#xff0c;读完你未必能立即升职加薪&#xff0c;但一定能避开那些让99%的人莫名出局的深坑。职场这场游戏&#xff0c;活下去&#xff0c;才能赢下去。”——————————————…...

Ansys与Adams刚柔耦合仿真实战:从模态分析到MNF文件生成全流程解析

1. 为什么需要刚柔耦合仿真&#xff1f; 刚接触机械系统仿真的朋友可能会有疑问&#xff1a;为什么不能直接用刚性体模型做动力学分析&#xff1f;这个问题我刚开始做项目时也纠结过。简单来说&#xff0c;现实世界中没有绝对的刚性体&#xff0c;所有物体在受力时都会发生形变…...

Qwen-Image-Layered场景实战:用AI图层技术为你的产品图换背景

Qwen-Image-Layered场景实战&#xff1a;用AI图层技术为你的产品图换背景 1. 引言 1.1 电商设计的痛点 在电商运营中&#xff0c;产品主图的质量直接影响转化率。传统换背景流程需要设计师手动抠图、调整边缘、匹配光影&#xff0c;一个产品图往往需要30分钟以上的处理时间。…...

WebGIS驱动的智慧校园导航系统:架构设计与功能实现全解析

1. WebGIS如何让校园导航更智能&#xff1f; 第一次接触校园导航系统是在三年前&#xff0c;当时某高校的IT部门负责人向我吐槽&#xff1a;学生们总在开学季迷路&#xff0c;传统纸质地图根本不够用。这让我意识到&#xff0c;基于WebGIS的智慧导航系统不是锦上添花&#xff0…...

WorkshopDL:跨平台资源获取的开源工具解决方案

WorkshopDL&#xff1a;跨平台资源获取的开源工具解决方案 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 在游戏模组生态中&#xff0c;跨平台资源访问与高效下载一直是技术爱…...

OpenFeign性能优化最全实战

Feign 就是动态代理 模板化 HTTP 请求&#xff0c;帮你把接口方法自动转成 HTTP 调用。 完整执行流程&#xff08;8 步&#xff09; 启动时&#xff1a;FeignClient 接口被 Feign 扫描&#xff0c;生成动态代理类 调用时&#xff1a;执行接口方法 → 进入代理类 解析注解&…...

MacBook上5分钟搞定Jmeter接口压测:从下载到脚本自动保存结果(附BeanShell代码)

MacBook高效接口压测指南&#xff1a;5分钟实现Jmeter自动化结果收集 每次遇到偶发性接口问题&#xff0c;手动点击上百次查看结果是不是让你抓狂&#xff1f;作为开发者&#xff0c;我们需要的不仅是工具&#xff0c;更是一套能自动完成脏活的解决方案。今天我们就来彻底解决…...

保姆级教程:用Halcon的cooc_feature_image算子搞定LCD屏幕缺陷检测(附完整代码)

工业级LCD屏幕缺陷检测实战&#xff1a;Halcon纹理特征分析与优化策略 在液晶显示屏&#xff08;LCD&#xff09;制造过程中&#xff0c;微米级的缺陷可能导致产品报废。传统人工检测不仅效率低下&#xff0c;且漏检率高达15%-30%。Halcon的cooc_feature_image算子通过灰度共生…...

AI转PSD终极指南:快速实现矢量图到Photoshop分层文件的完美转换

AI转PSD终极指南&#xff1a;快速实现矢量图到Photoshop分层文件的完美转换 【免费下载链接】ai-to-psd A script for prepare export of vector objects from Adobe Illustrator to Photoshop 项目地址: https://gitcode.com/gh_mirrors/ai/ai-to-psd 还在为Illustrato…...

ComfyUI-VideoHelperSuite解决VHS_VideoCombine节点缺失的4阶段实战方案

ComfyUI-VideoHelperSuite解决VHS_VideoCombine节点缺失的4阶段实战方案 【免费下载链接】ComfyUI-VideoHelperSuite Nodes related to video workflows 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-VideoHelperSuite 在ComfyUI视频工作流中&#xff0c;VHS_V…...

工业Python网关性能断崖式下降?实测发现:asyncio在ARM Cortex-A9上协程切换开销超预期237%,3种轻量替代架构对比报告

第一章&#xff1a;工业Python网关性能断崖式下降的现场诊断逻辑工业Python网关在连续运行数周后突发响应延迟激增、消息吞吐骤降50%以上&#xff0c;此类“断崖式”性能劣化往往非单一因素导致&#xff0c;需构建分层递进的现场诊断逻辑&#xff1a;从资源表象切入&#xff0c…...

别急着扔!用Windows虚拟内存和这几招,让老电脑再战三年(附SSD选购建议)

让老旧电脑重获新生的5个关键策略与SSD选购指南 老旧电脑卡顿到让人抓狂&#xff1f;先别急着换新机。我的邻居张叔上周还抱怨他那台2015年的联想笔记本"慢得像蜗牛"&#xff0c;经过一番优化后&#xff0c;现在居然能流畅运行Photoshop处理照片。本文将分享一套系统…...

KV STUDIO Ver.12 梯形图编程实战:从入门到精通的5个关键步骤

1. 环境配置&#xff1a;从零搭建KV STUDIO开发环境 第一次打开KV STUDIO Ver.12时&#xff0c;很多新手会被复杂的界面吓到。其实只要按照正确步骤配置&#xff0c;半小时就能搭建好开发环境。我去年给产线做自动化改造时&#xff0c;需要在三台不同型号的KV PLC上部署程序&a…...

AI赋能开发:让快马智能分析并优化你的openclaw101风格网站代码与体验

今天想和大家分享一个很有意思的发现&#xff1a;用AI辅助开发工具来优化技术博客网站&#xff0c;效果真的超出预期。就拿我最近在InsCode(快马)平台上体验的openclaw101风格网站优化来说&#xff0c;整个过程既高效又有趣。 网站分析阶段 首先&#xff0c;我让平台的AI模型…...

从无人机航拍到手机扫描:聊聊SfM(运动恢复结构)在实际项目中的选型与避坑指南

从无人机航拍到手机扫描&#xff1a;SfM技术实战选型与避坑指南 当我们需要将一座千年古刹数字化存档&#xff0c;或是为电商平台上的家具产品创建3D展示模型时&#xff0c;运动恢复结构&#xff08;SfM&#xff09;技术往往成为首选方案。这项能够从普通照片中重建三维场景的技…...

Source Han Serif CN:终极开源中文字体深度技术指南

Source Han Serif CN&#xff1a;终极开源中文字体深度技术指南 【免费下载链接】source-han-serif-ttf Source Han Serif TTF 项目地址: https://gitcode.com/gh_mirrors/so/source-han-serif-ttf Source Han Serif CN&#xff08;思源宋体&#xff09;是Google与Adobe…...

Qwen2.5-VL-7B-Instruct详细步骤:GPTQ量化模型加载与推理加速技巧

Qwen2.5-VL-7B-Instruct详细步骤&#xff1a;GPTQ量化模型加载与推理加速技巧 1. 项目概述 Qwen2.5-VL-7B-Instruct是一款强大的多模态视觉-语言模型&#xff0c;能够同时处理图像和文本输入&#xff0c;生成高质量的响应。本指南将详细介绍如何通过GPTQ量化技术来优化模型加…...

5V低压开环FOC驱动器:低成本实现微型电机流畅控制

1. 5V低压开环FOC驱动器的核心价值 对于很多电子爱好者和小型项目开发者来说&#xff0c;控制微型电机常常会遇到两个难题&#xff1a;要么控制方案太贵&#xff0c;要么效果不够理想。我自己在开发桌面旋转展示台时就深有体会——市面上的驱动器要么价格高昂&#xff0c;要么体…...

NVIDIA GPU监控效能深度解析:nvitop如何破解多用户环境资源管理难题

NVIDIA GPU监控效能深度解析&#xff1a;nvitop如何破解多用户环境资源管理难题 【免费下载链接】nvitop An interactive NVIDIA-GPU process viewer and beyond, the one-stop solution for GPU process management. 项目地址: https://gitcode.com/gh_mirrors/nv/nvitop …...

从PID控制器到语义分割:手把手教你复现PIDNet(附PyTorch代码与Cityscapes实战)

从PID控制器到语义分割&#xff1a;手把手教你复现PIDNet&#xff08;附PyTorch代码与Cityscapes实战&#xff09; 在计算机视觉领域&#xff0c;实时语义分割一直是个极具挑战性的任务。想象一下自动驾驶汽车需要在毫秒级时间内准确识别道路上的每个像素属于车辆、行人还是交通…...