【AI论文】10亿参数大语言模型能超越405亿参数大语言模型吗?重新思考测试时计算最优缩放

摘要:测试时缩放(Test-Time Scaling,TTS)是一种通过在推理阶段使用额外计算来提高大语言模型(LLMs)性能的重要方法。然而,目前的研究并未系统地分析策略模型、过程奖励模型(Process Reward Models,PRMs)以及问题难度如何影响TTS。这种分析的缺乏限制了人们对TTS方法的理解和实际应用。在本文中,我们聚焦于两个核心问题:(1)在不同策略模型、PRMs和问题难度水平下,扩展测试时计算的最优方法是什么?(2)通过增加计算,能在多大程度上提高LLMs在复杂任务上的性能,以及通过这种方法,较小的语言模型能否超越较大的语言模型?通过在MATH-500和具有挑战性的AIME24任务上进行全面实验,我们得出了以下观察结果:(1)计算最优的TTS策略高度依赖于策略模型、PRM和问题难度的选择。(2)采用我们的计算最优TTS策略,极小的策略模型可以超越较大的模型。例如,在MATH-500上,一个10亿参数的大语言模型可以超越一个405亿参数的大语言模型。此外,在MATH-500和AIME24上,一个5亿参数的大语言模型优于GPT-4o,一个30亿参数的大语言模型超越了405亿参数的大语言模型,而一个70亿参数的大语言模型则击败了o1和DeepSeek-R1,同时具有更高的推理效率。这些发现表明,根据每个任务和模型的具体特征调整TTS策略具有重要意义,并指出TTS是增强LLMs推理能力的一种有前景的方法。Huggingface链接:Paper page,论文链接:2502.06703
10亿参数大语言模型能超越405亿参数大语言模型吗?重新思考测试时计算最优缩放
引言
随着大语言模型(LLMs)在各个领域的显著进步,如何提高其性能成为了研究热点。测试时缩放(Test-Time Scaling,TTS)作为一种通过在推理阶段使用额外计算来提高LLMs性能的方法,逐渐受到关注。然而,当前的研究并未系统地分析策略模型、过程奖励模型(Process Reward Models,PRMs)以及问题难度如何影响TTS,这限制了人们对TTS方法的理解和实际应用。本文旨在填补这一空白,通过全面实验探讨TTS的最优策略,并评估其在提高LLMs复杂任务性能方面的潜力。
测试时缩放(TTS)概述
TTS方法主要分为两大类:内部TTS和外部TTS。内部TTS通过训练LLMs以“慢速”思考的方式生成长链式思维(Chain-of-Thought,CoT),从而提高推理能力。而外部TTS则通过采样或基于搜索的方法,在固定LLMs的基础上提高推理性能。外部TTS的关键挑战在于如何最优地分配计算资源,即为每个问题分配最佳的计算量。
在外部TTS中,过程奖励模型(PRMs)起着至关重要的作用。PRMs通过为LLMs生成的每个步骤分配奖励,指导生成过程并选择最终答案。然而,当前的研究缺乏对PRMs、策略模型和问题难度如何共同影响TTS效果的深入分析。
研究问题与贡献
本文聚焦于两个核心问题:
- 在不同策略模型、PRMs和问题难度水平下,扩展测试时计算的最优方法是什么?
- 通过增加计算,能在多大程度上提高LLMs在复杂任务上的性能,以及通过这种方法,较小的语言模型能否超越较大的语言模型?
针对上述问题,本文通过在MATH-500和具有挑战性的AIME24任务上进行全面实验,得出了以下主要贡献:
- 系统地评估了不同TTS方法在不同策略模型、PRMs和缩放方法下的性能。
- 强调了TTS过程中奖励信息的重要性,并提出了奖励感知的计算最优TTS策略。
- 展示了通过计算最优TTS策略,较小的语言模型可以在复杂任务上超越较大的语言模型。
实验设置与方法
数据集
本文在MATH-500和AIME24两个数据集上进行了实验。MATH-500包含500个具有代表性的数学问题,这些问题选自MATH测试集的难题部分。AIME24则是一个更具挑战性的数据集,包含了一系列需要高级数学推理能力的问题。
策略模型与PRMs
实验使用了来自Llama 3和Qwen 2.5系列的策略模型,这些模型的参数规模从0.5B到72B不等。同时,评估了多种开源PRMs,包括Math-Shepherd、RLHFlow系列、Skywork系列和Qwen2.5-Math系列。这些PRMs的参数规模从1.5B到72B不等,为实验提供了丰富的选择。
TTS方法
本文考虑了三种主要的TTS方法:Best-of-N(BoN)、Beam Search和Diverse Verifier Tree Search(DVTS)。这些方法在生成过程中采用不同的策略来选择最终答案,从而评估TTS策略的有效性。
实验结果与分析
TTS性能与策略模型、PRMs的关系
实验结果表明,TTS性能高度依赖于策略模型、PRM和问题难度的选择。对于不同的策略模型,最优的TTS方法各不相同。例如,对于较小的策略模型,搜索基方法(如Beam Search和DVTS)通常优于BoN方法;而对于较大的策略模型,BoN方法则表现出更好的性能。
此外,PRMs的泛化能力对TTS性能有显著影响。当PRMs与策略模型不匹配时(即PRMs是在不同的策略模型上训练的),TTS性能会显著下降。这表明,在实际应用中,为每个策略模型单独训练PRM可能是必要的,但这会增加计算成本。
TTS性能与问题难度的关系
实验还探讨了问题难度对TTS性能的影响。通过将问题难度分为易、中、难三个级别,本文发现对于不同难度的问题,最优的TTS方法也不同。对于较小规模的策略模型,BoN方法在简单问题上表现较好,而Beam Search方法在复杂问题上表现更佳。对于中等规模的策略模型,DVTS方法在简单和中等难度问题上表现出色,而Beam Search方法则更适合解决复杂问题。
小模型超越大模型的潜力
通过采用计算最优的TTS策略,本文展示了极小的策略模型(如1B LLM)可以在复杂任务上超越较大的模型(如405B LLM)。在MATH-500和AIME24任务上,0.5B LLM和3B LLM分别超越了GPT-4o和405B LLM,同时保持了较高的推理效率。这些发现表明,通过精心设计的TTS策略,较小的语言模型可以在资源有限的情况下实现卓越的性能。
TTS与长CoT方法的比较
本文还比较了TTS与长CoT方法在复杂任务上的性能。实验结果表明,虽然长CoT方法在一定程度上提高了LLMs的推理能力,但TTS方法在多数情况下表现更优。特别是在处理复杂问题时,TTS方法能够更有效地利用计算资源,提高推理效率和准确性。
讨论与未来工作
奖励感知的TTS策略
本文提出了奖励感知的计算最优TTS策略,该策略强调了在TTS过程中考虑奖励信息的重要性。未来的工作可以进一步探索如何更好地集成奖励信息到TTS策略中,以提高其性能和泛化能力。
PRMs的改进
尽管PRMs在TTS中起着关键作用,但当前的研究表明PRMs在泛化能力和对特定响应长度的偏好方面存在局限性。未来的工作可以致力于开发更强大、更通用的PRMs,以提高TTS的整体性能。
扩展到更多任务
本文的实验主要集中在数学推理任务上。未来的工作可以探索将TTS方法扩展到更多类型的任务上,如自然语言理解、代码生成等,以评估其普适性和有效性。
计算最优TTS策略的优化
当前的研究主要依赖于实验来探索计算最优的TTS策略。未来的工作可以探索更系统化的方法来优化TTS策略,如基于强化学习或贝叶斯优化等方法。
结论
本文通过全面实验评估了不同TTS方法在不同策略模型、PRMs和问题难度下的性能,并提出了奖励感知的计算最优TTS策略。实验结果表明,通过精心设计的TTS策略,较小的语言模型可以在复杂任务上超越较大的语言模型。这些发现不仅加深了对TTS方法的理解,还为未来LLMs性能的提升提供了新的思路和方法。同时,本文也指出了当前TTS研究中的局限性,并提出了未来的研究方向和挑战。
相关文章:
【AI论文】10亿参数大语言模型能超越405亿参数大语言模型吗?重新思考测试时计算最优缩放
摘要:测试时缩放(Test-Time Scaling,TTS)是一种通过在推理阶段使用额外计算来提高大语言模型(LLMs)性能的重要方法。然而,目前的研究并未系统地分析策略模型、过程奖励模型(Process …...
【设计模式】【行为型模式】状态模式(State)
👋hi,我不是一名外包公司的员工,也不会偷吃茶水间的零食,我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 📫 欢迎V: flzjcsg2,我们共同讨论Java深渊的奥秘 …...
PostgreSQL错误: 编码“UTF8“的字符0x0xe9 0x94 0x99在编码“WIN1252“没有相对应值
错误介绍 今天遇到一个错误,记录一下 2025-02-10 17:04:35.264 HKT [28816] 错误: 编码"WIN1252"的字符0x0x81在编码"UTF8"没有相对应值 2025-02-10 17:04:35.264 HKT [28816] 错误: 编码"UTF8"的字符0x0xe9 0x94 0x99在编码&quo…...
Mac ARM 架构的命令行(终端)中,删除整行的快捷键是:Ctrl + U
在 Mac ARM 架构的命令行(终端)中,删除整行的快捷键是: Ctrl U这个快捷键会删除光标所在位置到行首之间的所有内容。如果你想删除光标后面的所有内容,可以使用: Ctrl K这两个快捷键可以帮助你快速清除当…...
Vue2下判断有新消息来时以站内信方式在页面右下角弹出
以下是完整的Vue2全局通知组件实现方案,包含自动挂载和全局调用方法: 第一步:创建通知组件 <!-- src/components/Notification/index.vue --> <template><div class"notification-container"><transition-g…...
AI语言模型的技术之争:DeepSeek与ChatGPT的架构与训练揭秘
云边有个稻草人-CSDN博客 目录 第一章:DeepSeek与ChatGPT的基础概述 1.1 DeepSeek简介 1.2 ChatGPT简介 第二章:模型架构对比 2.1 Transformer架构:核心相似性 2.2 模型规模与参数 第三章:训练方法与技术 3.1 预训练与微调…...
网络安全中的account和audit区别
一、AWD介绍 AWD:Attack With Defence,即攻防对抗,比赛中每个队伍维护多台服务器(一般两三台,视小组参赛人数而定),服务器中存在多个漏洞(web层、系统层、中间件层等)&a…...
Visual Studio 使用 “Ctrl + /”键设置注释和取消注释
问题:在默认的Visual Studio中,选择单行代码后,按下Ctrl /键会将代码注释掉,但再次按下Ctrl /键时,会进行双重注释,这不是我们想要的。 实现效果:当按下Ctrl /键会将代码注释掉,…...
【密评】 | 商用密码应用安全性评估从业人员考核题库(23)
在GM/T0048《智能密码钥匙密码检测规范》中,产品的对称算法性能应满足哪个标准中的要求()。 A.GM/T 0016《智能密码钥匙密码应用接口规范》 B.GM/T 0017《智能密码钥匙密码应用接口数据格式规范》 C.GM/T 0027《智能密码钥匙技术规范》 D.GM/T 0028《密码模块安全技术要求》…...
【MySQL】幻读 案例分析
目录 假设1:只在 id5 这一行加锁,其他行不加锁? 幻读的定义 幻读的场景 假设1 产生的问题:语义被破坏 假设1 产生的问题:数据一致性 结论: 假设1不成立 假设2:扫描过程中每一行都加上写锁…...
10bit VS 8bit 视频:色彩深度的较量,谁才是视觉盛宴的王者?
10bit 和 8bit 视频 10bit 视频和 8bit 视频的主要区别在于色彩深度和细节表现能力。10bit 视频具有更高的色彩深度和更丰富的细节表现,能够提供更平滑的色彩过渡和更真实的图像质量,但需要更多的存储空间和带宽。8bit 视频则在存储和传输方面更加高效,适合于对存储空间和带…...
讲解下MySql的外连接查询在SpringBoot中的使用情况
在Spring Boot中使用MySQL的外连接查询时,通常通过JPA、MyBatis或JDBC等持久层框架来实现。外连接查询主要用于从多个表中获取数据,即使某些表中没有匹配的记录。外连接分为左外连接(LEFT JOIN)、右外连接(RIGHT JOIN&…...
蓝桥杯试题:归并排序
一、问题描述 在一个神秘的岛屿上,有一支探险队发现了一批宝藏,这批宝藏是以整数数组的形式存在的。每个宝藏上都标有一个数字,代表了其珍贵程度。然而,由于某种神奇的力量,这批宝藏的顺序被打乱了,探险队…...
物联网(IoT)如何与人工智能(AI)的结合
物联网(IoT)与人工智能(AI)的结合是当前技术发展的重要趋势,通常被称为 AIoT(人工智能物联网)。这种结合通过将AI的计算能力和数据分析能力与物联网的海量设备连接能力相结合,实现了…...
一致性Hash算法延伸至Redis分片扩容使Lua脚本失效如何解决
文章部分内容来源:小林coding 问题场景:我们需要用Lua脚本,并且这个Lua脚本需要用到两个Key,但这两个Key必须命中同一台机器才可以,不然Lua脚本就会执行失败。如果集群扩容可能会导致两个Key落到不同的节点上导致Lua脚…...
Idea 插件 Quickly-Code-Toolkit
使用说明 (一)全局设置 Paging Wrapper Setting(分页设置) 功能:主要用于在方法写入时,为返回参数提供分页包装类。设置方式:需准确填写分页包装类的全限定名,例如:com…...
先进制造aps专题二十九 基于ai智能体的生产排程和工厂生产仿真引擎的设计
上文中,我们说,通常的做法是,可以先通过排产仿真引擎产生生产计划,再在工厂仿真引擎里仿真执行,这样可以预先分析计划和执行的差异情况并进行调整优化 这里的产生生产计划,仿真生产执行和数据分析都是人工…...
【Cocos TypeScript 零基础 15.1】
目录 见缝插针UI脚本针脚本球脚本心得_旋转心得_更改父节点心得_缓动动画成品展示图 见缝插针 本人只是看了老师的大纲,中途不明白不会的时候再去看的视频 所以代码可能与老师代码有出入 SIKI_学院_点击跳转 UI脚本 import { _decorator, Camera, color, Component, directo…...
利用邮件合并将Excel的信息转为Word(单个测试用例转Word)
利用邮件合并将Excel的信息转为Word 效果一览效果前效果后 场景及问题解决方案 一、准备工作准备Excel数据源准备Word模板 二、邮件合并操作步骤连接Excel数据源插入合并域预览并生成合并文档 效果一览 效果前 效果后 场景及问题 在执行项目时的验收阶段,对于测试…...
尚硅谷课程【笔记】——大数据之Hadoop【一】
课程视频链接:尚硅谷Hadoop2.x框架入门 一、大数据概论 1)大数据概念 大数据(Big Data):指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞…...
Python:操作 Excel 折叠
💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖 本博客的精华专栏: 【自动化测试】 【测试经验】 【人工智能】 【Python】 Python 操作 Excel 系列 读取单元格数据按行写入设置行高和列宽自动调整行高和列宽水平…...
电脑插入多块移动硬盘后经常出现卡顿和蓝屏
当电脑在插入多块移动硬盘后频繁出现卡顿和蓝屏问题时,可能涉及硬件资源冲突、驱动兼容性、供电不足或系统设置等多方面原因。以下是逐步排查和解决方案: 1. 检查电源供电问题 问题原因:多块移动硬盘同时运行可能导致USB接口供电不足&#x…...
el-switch文字内置
el-switch文字内置 效果 vue <div style"color:#ffffff;font-size:14px;float:left;margin-bottom:5px;margin-right:5px;">自动加载</div> <el-switch v-model"value" active-color"#3E99FB" inactive-color"#DCDFE6"…...
从零开始打造 OpenSTLinux 6.6 Yocto 系统(基于STM32CubeMX)(九)
设备树移植 和uboot设备树修改的内容同步到kernel将设备树stm32mp157d-stm32mp157daa1-mx.dts复制到内核源码目录下 源码修改及编译 修改arch/arm/boot/dts/st/Makefile,新增设备树编译 stm32mp157f-ev1-m4-examples.dtb \stm32mp157d-stm32mp157daa1-mx.dtb修改…...
HBuilderX安装(uni-app和小程序开发)
下载HBuilderX 访问官方网站:https://www.dcloud.io/hbuilderx.html 根据您的操作系统选择合适版本: Windows版(推荐下载标准版) Windows系统安装步骤 运行安装程序: 双击下载的.exe安装文件 如果出现安全提示&…...
Unity | AmplifyShaderEditor插件基础(第七集:平面波动shader)
目录 一、👋🏻前言 二、😈sinx波动的基本原理 三、😈波动起来 1.sinx节点介绍 2.vertexPosition 3.集成Vector3 a.节点Append b.连起来 4.波动起来 a.波动的原理 b.时间节点 c.sinx的处理 四、🌊波动优化…...
GC1808高性能24位立体声音频ADC芯片解析
1. 芯片概述 GC1808是一款24位立体声音频模数转换器(ADC),支持8kHz~96kHz采样率,集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器,适用于高保真音频采集场景。 2. 核心特性 高精度:24位分辨率,…...
IP如何挑?2025年海外专线IP如何购买?
你花了时间和预算买了IP,结果IP质量不佳,项目效率低下不说,还可能带来莫名的网络问题,是不是太闹心了?尤其是在面对海外专线IP时,到底怎么才能买到适合自己的呢?所以,挑IP绝对是个技…...
08. C#入门系列【类的基本概念】:开启编程世界的奇妙冒险
C#入门系列【类的基本概念】:开启编程世界的奇妙冒险 嘿,各位编程小白探险家!欢迎来到 C# 的奇幻大陆!今天咱们要深入探索这片大陆上至关重要的 “建筑”—— 类!别害怕,跟着我,保准让你轻松搞…...
day36-多路IO复用
一、基本概念 (服务器多客户端模型) 定义:单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力 作用:应用程序通常需要处理来自多条事件流中的事件,比如我现在用的电脑,需要同时处理键盘鼠标…...
