当前位置: 首页 > news >正文

【AI论文】10亿参数大语言模型能超越405亿参数大语言模型吗?重新思考测试时计算最优缩放

摘要:测试时缩放(Test-Time Scaling,TTS)是一种通过在推理阶段使用额外计算来提高大语言模型(LLMs)性能的重要方法。然而,目前的研究并未系统地分析策略模型、过程奖励模型(Process Reward Models,PRMs)以及问题难度如何影响TTS。这种分析的缺乏限制了人们对TTS方法的理解和实际应用。在本文中,我们聚焦于两个核心问题:(1)在不同策略模型、PRMs和问题难度水平下,扩展测试时计算的最优方法是什么?(2)通过增加计算,能在多大程度上提高LLMs在复杂任务上的性能,以及通过这种方法,较小的语言模型能否超越较大的语言模型?通过在MATH-500和具有挑战性的AIME24任务上进行全面实验,我们得出了以下观察结果:(1)计算最优的TTS策略高度依赖于策略模型、PRM和问题难度的选择。(2)采用我们的计算最优TTS策略,极小的策略模型可以超越较大的模型。例如,在MATH-500上,一个10亿参数的大语言模型可以超越一个405亿参数的大语言模型。此外,在MATH-500和AIME24上,一个5亿参数的大语言模型优于GPT-4o,一个30亿参数的大语言模型超越了405亿参数的大语言模型,而一个70亿参数的大语言模型则击败了o1和DeepSeek-R1,同时具有更高的推理效率。这些发现表明,根据每个任务和模型的具体特征调整TTS策略具有重要意义,并指出TTS是增强LLMs推理能力的一种有前景的方法。Huggingface链接:Paper page,论文链接:2502.06703

10亿参数大语言模型能超越405亿参数大语言模型吗?重新思考测试时计算最优缩放

引言

随着大语言模型(LLMs)在各个领域的显著进步,如何提高其性能成为了研究热点。测试时缩放(Test-Time Scaling,TTS)作为一种通过在推理阶段使用额外计算来提高LLMs性能的方法,逐渐受到关注。然而,当前的研究并未系统地分析策略模型、过程奖励模型(Process Reward Models,PRMs)以及问题难度如何影响TTS,这限制了人们对TTS方法的理解和实际应用。本文旨在填补这一空白,通过全面实验探讨TTS的最优策略,并评估其在提高LLMs复杂任务性能方面的潜力。

测试时缩放(TTS)概述

TTS方法主要分为两大类:内部TTS和外部TTS。内部TTS通过训练LLMs以“慢速”思考的方式生成长链式思维(Chain-of-Thought,CoT),从而提高推理能力。而外部TTS则通过采样或基于搜索的方法,在固定LLMs的基础上提高推理性能。外部TTS的关键挑战在于如何最优地分配计算资源,即为每个问题分配最佳的计算量。

在外部TTS中,过程奖励模型(PRMs)起着至关重要的作用。PRMs通过为LLMs生成的每个步骤分配奖励,指导生成过程并选择最终答案。然而,当前的研究缺乏对PRMs、策略模型和问题难度如何共同影响TTS效果的深入分析。

研究问题与贡献

本文聚焦于两个核心问题:

  1. 在不同策略模型、PRMs和问题难度水平下,扩展测试时计算的最优方法是什么?
  2. 通过增加计算,能在多大程度上提高LLMs在复杂任务上的性能,以及通过这种方法,较小的语言模型能否超越较大的语言模型?

针对上述问题,本文通过在MATH-500和具有挑战性的AIME24任务上进行全面实验,得出了以下主要贡献:

  • 系统地评估了不同TTS方法在不同策略模型、PRMs和缩放方法下的性能。
  • 强调了TTS过程中奖励信息的重要性,并提出了奖励感知的计算最优TTS策略。
  • 展示了通过计算最优TTS策略,较小的语言模型可以在复杂任务上超越较大的语言模型。

实验设置与方法

数据集

本文在MATH-500和AIME24两个数据集上进行了实验。MATH-500包含500个具有代表性的数学问题,这些问题选自MATH测试集的难题部分。AIME24则是一个更具挑战性的数据集,包含了一系列需要高级数学推理能力的问题。

策略模型与PRMs

实验使用了来自Llama 3和Qwen 2.5系列的策略模型,这些模型的参数规模从0.5B到72B不等。同时,评估了多种开源PRMs,包括Math-Shepherd、RLHFlow系列、Skywork系列和Qwen2.5-Math系列。这些PRMs的参数规模从1.5B到72B不等,为实验提供了丰富的选择。

TTS方法

本文考虑了三种主要的TTS方法:Best-of-N(BoN)、Beam Search和Diverse Verifier Tree Search(DVTS)。这些方法在生成过程中采用不同的策略来选择最终答案,从而评估TTS策略的有效性。

实验结果与分析

TTS性能与策略模型、PRMs的关系

实验结果表明,TTS性能高度依赖于策略模型、PRM和问题难度的选择。对于不同的策略模型,最优的TTS方法各不相同。例如,对于较小的策略模型,搜索基方法(如Beam Search和DVTS)通常优于BoN方法;而对于较大的策略模型,BoN方法则表现出更好的性能。

此外,PRMs的泛化能力对TTS性能有显著影响。当PRMs与策略模型不匹配时(即PRMs是在不同的策略模型上训练的),TTS性能会显著下降。这表明,在实际应用中,为每个策略模型单独训练PRM可能是必要的,但这会增加计算成本。

TTS性能与问题难度的关系

实验还探讨了问题难度对TTS性能的影响。通过将问题难度分为易、中、难三个级别,本文发现对于不同难度的问题,最优的TTS方法也不同。对于较小规模的策略模型,BoN方法在简单问题上表现较好,而Beam Search方法在复杂问题上表现更佳。对于中等规模的策略模型,DVTS方法在简单和中等难度问题上表现出色,而Beam Search方法则更适合解决复杂问题。

小模型超越大模型的潜力

通过采用计算最优的TTS策略,本文展示了极小的策略模型(如1B LLM)可以在复杂任务上超越较大的模型(如405B LLM)。在MATH-500和AIME24任务上,0.5B LLM和3B LLM分别超越了GPT-4o和405B LLM,同时保持了较高的推理效率。这些发现表明,通过精心设计的TTS策略,较小的语言模型可以在资源有限的情况下实现卓越的性能。

TTS与长CoT方法的比较

本文还比较了TTS与长CoT方法在复杂任务上的性能。实验结果表明,虽然长CoT方法在一定程度上提高了LLMs的推理能力,但TTS方法在多数情况下表现更优。特别是在处理复杂问题时,TTS方法能够更有效地利用计算资源,提高推理效率和准确性。

讨论与未来工作

奖励感知的TTS策略

本文提出了奖励感知的计算最优TTS策略,该策略强调了在TTS过程中考虑奖励信息的重要性。未来的工作可以进一步探索如何更好地集成奖励信息到TTS策略中,以提高其性能和泛化能力。

PRMs的改进

尽管PRMs在TTS中起着关键作用,但当前的研究表明PRMs在泛化能力和对特定响应长度的偏好方面存在局限性。未来的工作可以致力于开发更强大、更通用的PRMs,以提高TTS的整体性能。

扩展到更多任务

本文的实验主要集中在数学推理任务上。未来的工作可以探索将TTS方法扩展到更多类型的任务上,如自然语言理解、代码生成等,以评估其普适性和有效性。

计算最优TTS策略的优化

当前的研究主要依赖于实验来探索计算最优的TTS策略。未来的工作可以探索更系统化的方法来优化TTS策略,如基于强化学习或贝叶斯优化等方法。

结论

本文通过全面实验评估了不同TTS方法在不同策略模型、PRMs和问题难度下的性能,并提出了奖励感知的计算最优TTS策略。实验结果表明,通过精心设计的TTS策略,较小的语言模型可以在复杂任务上超越较大的语言模型。这些发现不仅加深了对TTS方法的理解,还为未来LLMs性能的提升提供了新的思路和方法。同时,本文也指出了当前TTS研究中的局限性,并提出了未来的研究方向和挑战。

相关文章:

【AI论文】10亿参数大语言模型能超越405亿参数大语言模型吗?重新思考测试时计算最优缩放

摘要:测试时缩放(Test-Time Scaling,TTS)是一种通过在推理阶段使用额外计算来提高大语言模型(LLMs)性能的重要方法。然而,目前的研究并未系统地分析策略模型、过程奖励模型(Process …...

【设计模式】【行为型模式】状态模式(State)

👋hi,我不是一名外包公司的员工,也不会偷吃茶水间的零食,我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 📫 欢迎V: flzjcsg2,我们共同讨论Java深渊的奥秘 &#x1f…...

PostgreSQL错误: 编码“UTF8“的字符0x0xe9 0x94 0x99在编码“WIN1252“没有相对应值

错误介绍 今天遇到一个错误,记录一下 2025-02-10 17:04:35.264 HKT [28816] 错误: 编码"WIN1252"的字符0x0x81在编码"UTF8"没有相对应值 2025-02-10 17:04:35.264 HKT [28816] 错误: 编码"UTF8"的字符0x0xe9 0x94 0x99在编码&quo…...

Mac ARM 架构的命令行(终端)中,删除整行的快捷键是:Ctrl + U

在 Mac ARM 架构的命令行(终端)中,删除整行的快捷键是: Ctrl U这个快捷键会删除光标所在位置到行首之间的所有内容。如果你想删除光标后面的所有内容,可以使用: Ctrl K这两个快捷键可以帮助你快速清除当…...

Vue2下判断有新消息来时以站内信方式在页面右下角弹出

以下是完整的Vue2全局通知组件实现方案&#xff0c;包含自动挂载和全局调用方法&#xff1a; 第一步&#xff1a;创建通知组件 <!-- src/components/Notification/index.vue --> <template><div class"notification-container"><transition-g…...

AI语言模型的技术之争:DeepSeek与ChatGPT的架构与训练揭秘

云边有个稻草人-CSDN博客 目录 第一章&#xff1a;DeepSeek与ChatGPT的基础概述 1.1 DeepSeek简介 1.2 ChatGPT简介 第二章&#xff1a;模型架构对比 2.1 Transformer架构&#xff1a;核心相似性 2.2 模型规模与参数 第三章&#xff1a;训练方法与技术 3.1 预训练与微调…...

网络安全中的account和audit区别

一、AWD介绍 AWD&#xff1a;Attack With Defence&#xff0c;即攻防对抗&#xff0c;比赛中每个队伍维护多台服务器&#xff08;一般两三台&#xff0c;视小组参赛人数而定&#xff09;&#xff0c;服务器中存在多个漏洞&#xff08;web层、系统层、中间件层等&#xff09;&a…...

Visual Studio 使用 “Ctrl + /”键设置注释和取消注释

问题&#xff1a;在默认的Visual Studio中&#xff0c;选择单行代码后&#xff0c;按下Ctrl /键会将代码注释掉&#xff0c;但再次按下Ctrl /键时&#xff0c;会进行双重注释&#xff0c;这不是我们想要的。 实现效果&#xff1a;当按下Ctrl /键会将代码注释掉&#xff0c;…...

【密评】 | 商用密码应用安全性评估从业人员考核题库(23)

在GM/T0048《智能密码钥匙密码检测规范》中,产品的对称算法性能应满足哪个标准中的要求()。 A.GM/T 0016《智能密码钥匙密码应用接口规范》 B.GM/T 0017《智能密码钥匙密码应用接口数据格式规范》 C.GM/T 0027《智能密码钥匙技术规范》 D.GM/T 0028《密码模块安全技术要求》…...

【MySQL】幻读 案例分析

目录 假设1&#xff1a;只在 id5 这一行加锁&#xff0c;其他行不加锁&#xff1f; 幻读的定义 幻读的场景 假设1 产生的问题&#xff1a;语义被破坏 假设1 产生的问题&#xff1a;数据一致性 结论&#xff1a; 假设1不成立 假设2&#xff1a;扫描过程中每一行都加上写锁…...

10bit VS 8bit 视频:色彩深度的较量,谁才是视觉盛宴的王者?

10bit 和 8bit 视频 10bit 视频和 8bit 视频的主要区别在于色彩深度和细节表现能力。10bit 视频具有更高的色彩深度和更丰富的细节表现,能够提供更平滑的色彩过渡和更真实的图像质量,但需要更多的存储空间和带宽。8bit 视频则在存储和传输方面更加高效,适合于对存储空间和带…...

讲解下MySql的外连接查询在SpringBoot中的使用情况

在Spring Boot中使用MySQL的外连接查询时&#xff0c;通常通过JPA、MyBatis或JDBC等持久层框架来实现。外连接查询主要用于从多个表中获取数据&#xff0c;即使某些表中没有匹配的记录。外连接分为左外连接&#xff08;LEFT JOIN&#xff09;、右外连接&#xff08;RIGHT JOIN&…...

蓝桥杯试题:归并排序

一、问题描述 在一个神秘的岛屿上&#xff0c;有一支探险队发现了一批宝藏&#xff0c;这批宝藏是以整数数组的形式存在的。每个宝藏上都标有一个数字&#xff0c;代表了其珍贵程度。然而&#xff0c;由于某种神奇的力量&#xff0c;这批宝藏的顺序被打乱了&#xff0c;探险队…...

物联网(IoT)如何与人工智能(AI)的结合

物联网&#xff08;IoT&#xff09;与人工智能&#xff08;AI&#xff09;的结合是当前技术发展的重要趋势&#xff0c;通常被称为 AIoT&#xff08;人工智能物联网&#xff09;。这种结合通过将AI的计算能力和数据分析能力与物联网的海量设备连接能力相结合&#xff0c;实现了…...

一致性Hash算法延伸至Redis分片扩容使Lua脚本失效如何解决

文章部分内容来源&#xff1a;小林coding 问题场景&#xff1a;我们需要用Lua脚本&#xff0c;并且这个Lua脚本需要用到两个Key&#xff0c;但这两个Key必须命中同一台机器才可以&#xff0c;不然Lua脚本就会执行失败。如果集群扩容可能会导致两个Key落到不同的节点上导致Lua脚…...

Idea 插件 Quickly-Code-Toolkit

使用说明 &#xff08;一&#xff09;全局设置 Paging Wrapper Setting&#xff08;分页设置&#xff09; 功能&#xff1a;主要用于在方法写入时&#xff0c;为返回参数提供分页包装类。设置方式&#xff1a;需准确填写分页包装类的全限定名&#xff0c;例如&#xff1a;com…...

先进制造aps专题二十九 基于ai智能体的生产排程和工厂生产仿真引擎的设计

上文中&#xff0c;我们说&#xff0c;通常的做法是&#xff0c;可以先通过排产仿真引擎产生生产计划&#xff0c;再在工厂仿真引擎里仿真执行&#xff0c;这样可以预先分析计划和执行的差异情况并进行调整优化 这里的产生生产计划&#xff0c;仿真生产执行和数据分析都是人工…...

【Cocos TypeScript 零基础 15.1】

目录 见缝插针UI脚本针脚本球脚本心得_旋转心得_更改父节点心得_缓动动画成品展示图 见缝插针 本人只是看了老师的大纲,中途不明白不会的时候再去看的视频 所以代码可能与老师代码有出入 SIKI_学院_点击跳转 UI脚本 import { _decorator, Camera, color, Component, directo…...

利用邮件合并将Excel的信息转为Word(单个测试用例转Word)

利用邮件合并将Excel的信息转为Word 效果一览效果前效果后 场景及问题解决方案 一、准备工作准备Excel数据源准备Word模板 二、邮件合并操作步骤连接Excel数据源插入合并域预览并生成合并文档 效果一览 效果前 效果后 场景及问题 在执行项目时的验收阶段&#xff0c;对于测试…...

尚硅谷课程【笔记】——大数据之Hadoop【一】

课程视频链接&#xff1a;尚硅谷Hadoop2.x框架入门 一、大数据概论 1&#xff09;大数据概念 大数据&#xff08;Big Data&#xff09;&#xff1a;指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合&#xff0c;是需要新处理模式才能具有更强的决策力、洞…...

KG与LLM:大模型时代的智能规划

这些文章给出的“推荐思路”可以浓缩成一句话 先用 Planner 产出 subgoal dependency acceptance criteria。再让 Router 判断每个子任务该走 向量RAG、KG、数据库还是工具。对需要关系、多跳、时序、因果的问题&#xff0c;用 KG / event graph 做结构化检索&#xff0c;而…...

从机械奇观到数字逻辑:FPGA设计中的状态机与系统思维

1. 项目概述&#xff1a;当鲁布戈德堡机械遇见数字逻辑的灵魂我的一位老朋友杰伊道林最近给我分享了两段视频&#xff0c;看完之后&#xff0c;我的第一反应是“袜子都要被震飞了”——这让我认真考虑&#xff0c;是不是该换双带松紧带的袜子。这两段视频&#xff0c;一段是森林…...

微信灰度测试状态浏览功能引热议,“已读”“访客”功能为何“焊死”不开发?

微信状态灰度测试功能揭秘5月12日&#xff0c;微信员工“客村小蒋”和腾讯公关总监张军先后就微信状态灰测访客功能表态。原来&#xff0c;此次小范围测试包含两个功能&#xff0c;一是状态浏览人数展示&#xff0c;发布状态后&#xff0c;在有效期内可在右下角看到浏览人数&am…...

保姆级教程:用MNN在Android上部署你的第一个图像分类App(从模型转换到实时摄像头识别)

从零构建Android端智能图像分类应用&#xff1a;MNN实战全流程解析 在移动互联网时代&#xff0c;将AI能力嵌入移动端应用已成为提升用户体验的关键。想象一下这样的场景&#xff1a;用户打开手机就能实时识别植物种类、辨别商品真伪&#xff0c;或是自动分类相册中的照片——这…...

基于本地LLM与多智能体架构的DD游戏引擎实现与优化

1. 项目概述&#xff1a;一个本地化、多智能体驱动的龙与地下城游戏引擎最近在折腾一个挺有意思的项目&#xff0c;叫 TD-LLM-DND。简单来说&#xff0c;这是一个让你能在自己电脑上&#xff0c;用本地运行的大语言模型&#xff08;LLM&#xff09;来跑一场“龙与地下城”&…...

MCP2MQTT 完全指南:用 AI 自然语言控制硬件设备的开源 MCP 工具

前言 2025年4月&#xff0c;MCP2Everything 团队正式开源MCP2MQTT&#xff0c;这是全球首个将 MCP&#xff08;模型上下文协议&#xff09;与 MQTT 物联网协议无缝桥接的开源工具&#xff0c;彻底打通了 AI 大模型与物理硬件之间的"最后一公里"。无需编写任何胶水代码…...

Go项目安全左移实践:集成Security-Shield实现自动化漏洞与密钥检测

1. 项目概述与核心价值 在当今的软件开发与运维实践中&#xff0c;应用安全已经从“附加题”变成了“必答题”。无论是个人开发者的小型项目&#xff0c;还是企业级的复杂系统&#xff0c;都面临着来自网络的各种潜在威胁。然而&#xff0c;安全工具的引入往往伴随着陡峭的学习…...

Python开发进阶之路:探索异步编程与高性能应用

在当今快节奏的软件开发环境中&#xff0c;构建高性能、可扩展的应用程序已成为开发者的首要任务。随着互联网应用的普及&#xff0c;用户对响应速度和并发处理能力的要求越来越高。Python&#xff0c;作为一种广泛使用的高级编程语言&#xff0c;凭借其简洁的语法和强大的生态…...

ClawSuite:模块化网络安全工具集在渗透测试中的实战应用

1. 项目概述&#xff1a;ClawSuite&#xff0c;一个被低估的网络安全工具集如果你在网络安全领域摸爬滚打了一段时间&#xff0c;尤其是在渗透测试或者红队评估的圈子里&#xff0c;你大概率听说过或者用过像 Metasploit、Nmap、Burp Suite 这些耳熟能详的“瑞士军刀”。但今天…...

抖音图片怎么去水印?2026实测去水印方法全整理,免费工具一并推荐

抖音图片怎么去水印&#xff1f;2026实测去水印方法全整理&#xff0c;免费工具一并推荐 每次在抖音刷到一张好看的图&#xff0c;长按保存下来却发现角落盖着一行"昵称抖音"水印&#xff0c;这种体验相信不少人都经历过。水印不影响欣赏还好&#xff0c;但如果想把图…...