QWQ大模型评测榜单

评测榜单说明
在数学推理基准AIME24上,QwQ-32B达到了79.5分,几乎与DeepSeek-R1-617B的79.8分持平,远超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸馏模型。
在编程能力方面,QwQ-32B 在LiveCodeBench上获得了63.4分,接近DeepSeek-R1-617B的 65.9分,也同样优于o1-mini的53.8分和蒸馏模型。
在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,通义千问QwQ-32B的得分均略微超过了DeepSeek-R1-617B。
除了在性能上的提升,QwQ-32B的另一个亮点就是大幅降低了部署使用成本,671B,在FP16精度下需要1400G的显存,而现在,32B的QwQ,4张4090就能跑,这是将近15倍的差距,并且智能水平还差不多。
根据提供的搜索结果,以下是与用户提到的基准测试相关的信息汇总及分析:
1. AIME24
- 用途:数学推理能力评测基准,主要测试模型在复杂数学问题中的逻辑推理能力。
- 相关模型表现:
- 阿里开源的QwQ-32B模型在AIME24上获得79.5分,接近DeepSeek-R1-617B(79.8分),远超OpenAI o1-mini(63.6分)。
- 特点:该基准注重模型对数学规律的解析能力,例如在找规律题目中,模型需通过提示进行迭代计算,但可能因过度思考导致错误。
2. LiveCodeBench
- 用途:代码生成能力评测基准,评估模型生成可执行代码的准确性和效率。
- 相关模型表现:
- QwQ-32B在LiveCodeBench上得分为63.4分,接近DeepSeek-R1-617B的65.9分,优于同尺寸的蒸馏模型。
- 问题示例:生成解决“用5L和3L瓶子装4L水”的代码,QwQ-32B展示了生成多种解决方案的能力。
3. LiveBench
- 用途:综合评测大模型能力的榜单,由Meta首席科学家杨立昆领衔设计,被列为“最难的LLMs评测榜”之一。
- 相关模型表现:
- QwQ-32B在LiveBench中得分略微超过DeepSeek-R1-617B,显示其综合推理能力的优势。
- 覆盖领域:可能包括数学、代码、逻辑推理等多维度任务。
4. IFEval(推测为FEva的可能对应)
- 用途:指令遵循能力评测集,由谷歌等机构提出,测试模型对复杂指令的理解和执行能力。
- 相关模型表现:
- QwQ-32B在IFEval中表现优异,得分超过DeepSeek-R1-617B,显示其较强的指令解析能力。
5. BFCL(Benchmark for Function Call and Tools)
- 用途:评估模型准确调用函数或工具的能力,例如API接口或外部工具的使用。
- 相关模型表现:
- QwQ-32B在BFCL测试中得分略高于DeepSeek-R1-671B,突显其在工具调用任务中的高效性。
时间范围 (24.08-25.02)
- 解读:可能指基准测试的活跃使用时间段(2024年8月至2025年2月),但搜索结果中未明确提及具体时间范围。当前信息显示,阿里QwQ-32B的测试结果发布于2025年3月7日,表明这些基准在近期仍被广泛使用。
总结
上述基准测试覆盖了数学推理(AIME24)、代码生成(LiveCodeBench)、综合能力(LiveBench)、指令遵循(IFEval)及工具调用(BFCL)等多个维度,是当前评估大模型能力的重要工具。阿里QwQ-32B模型在这些测试中表现突出,尤其在降低部署成本的同时保持高性能,成为开源社区的热门选择。
如需进一步了解各基准的详细评测方法或历史数据,可参考相关论文或模型开源页面(如魔搭社区、Hugging Face等)。
相关文章:
QWQ大模型评测榜单
评测榜单说明 在数学推理基准AIME24上,QwQ-32B达到了79.5分,几乎与DeepSeek-R1-617B的79.8分持平,远超OpenAI o1-mini的63.6分,及相同尺寸的R1蒸馏模型。 在编程能力方面,QwQ-32B 在LiveCodeBench上获得了63.4分&…...
【CXX】5.4 属性
命名空间 顶层的 cxx::bridge 属性宏接受一个可选的命名空间参数,用于控制生成外部 Rust 项的 C 命名空间,以及期望找到外部 C 项的命名空间。 #[cxx::bridge(namespace "path::of::my::company")] mod ffi {extern "Rust" {type…...
c++雅兰亭库 (yalantinglibs) 介绍及使用(序列化、json和结构体转换、协程
c雅兰亭库 (yalantinglibs) 介绍及使用(序列化、json和结构体转换、协程)-CSDN博客 雅兰亭库(yalantinglibs)介绍 雅兰亭库,名字很优雅,也很强大。它是阿里开源的一个现代C基础工具库的集合, 现在包括 struct_pack, struct_json, struct_xml, struct_yam…...
3.6 登录认证
登录功能 登录思路 联调测试 登录校验 问题:在未登录情况下,我们也可以直接访问部门管理、员工管理等功能。 登录标记 用户登录成功之后,每一次请求中,都可以得到该标记。 统一拦截 过滤器Filter拦截器Interceptor 会话技术 会…...
宇树科技嵌入式面试题及参考答案(春晚机器人的公司)
目录 设计一个带看门狗(Watchdog)的嵌入式系统,描述故障恢复流程 在资源受限的 MCU 上实现 OTA 升级功能,描述关键设计点 如何实现 OTA(空中升级)功能?描述固件校验和回滚机制的设计要点 推挽输出与开漏输出的区别?举例说明其在 GPIO 控制中的应用 UART、SPI、I2C …...
Android 存储路径详解
内部存储空间中的应用私有目录(data/data/app package name) WebView 缓存页面信息,SharedPreferences 和 SQLiteDatabase 持久化应用相关数据等当用户卸载 App 时,系统自动删除 data/data 目录下对应包名的文件夹及其内容。getF…...
Windows Server开启审计功能
Windows Server 也具备强大的审计功能,可以记录各种系统事件和用户活动,以满足安全审计、合规性要求和故障排除的需求。 Windows Server 的审计功能非常灵活和可配置,可以精确地记录您关心的事件类型。 一、Windows Server 审计功能概述 Wi…...
跟着 Lua 5.1 官方参考文档学习 Lua (10)
文章目录 5.2 – Coroutine Manipulationcoroutine.create (f)coroutine.resume (co [, val1, ])coroutine.running ()coroutine.status (co)例子:**协程的状态** coroutine.wrap (f)coroutine.yield () 5.3 – Modulesmodule (name [, ])require (modname)package.…...
C++文档识别接口如何实现 高效办公
数字化信息爆炸时代,办公效率的提升成为企业和个人的迫切需求。人工智能技术的飞速发展,为我们带来了前所未有的便利,文档识别接口便是其中之一。 与传统的人工手动录入相比,文档识别接口优势显著。人工手动录入,不仅耗…...
【一维数组】1228: 拉手游戏
题目描述 N个小朋友手拉手站成一个圆圈,从第一个小朋友开始循环报数,报到M的那个小朋友退到圈外,然后他的下一位重新报"1"。这样继续下去,直到最后只剩下一个小朋友,他原来站在什么位置上呢? 输…...
准确--Centos最小化安装通过命令去修改ip和dns
在 CentOS 7 中,最小化安装后没有图形界面,你需要手动配置网络。可以按照以下步骤进行配置: 1. 查看网络接口名称 首先,查看当前的网络接口名称。你可以通过以下命令查看: ip addr在你提供的截图中,网络…...
FreeRTOS 任务间通信机制:队列、信号量、事件标志组详解与实验
1. FreeRTOS 消息队列 1.1 简介 队列是 任务间通信的主要形式,可用于在任务之间以及中断与任务之间传递消息。队列在 FreeRTOS 中具有以下关键特点: 队列默认采用 先进先出 FIFO 方式,也可以使用 xQueueSendToFront()实现 LIFO。FreeRT…...
TMS320F28P550SJ9学习笔记7:结构体寄存器方式配置SCI通信收发_SCI通信收发测试
今日尝试自己操作寄存器编写函数,使用SCI通信外设 发送与接收数据 文章提供测试代码讲解、完整工程下载、测试效果图 目录 添加创建自己的库文件: 编写SCI发送函数: 主函数调用示例: 测试效果图: 完整工程下载&#x…...
ubuntu22.04机器人开发环境配置
1. ros2环境配置(humble) #配置源 # https://docs.ros.org/en/humble/Installation/Ubuntu-Install-Debs.html sudo apt install software-properties-common sudo add-apt-repository universe sudo apt update && sudo apt install curl -y# …...
深入解析 dig 命令:DNS 查询与故障排除利器
文章目录 深入解析 dig 命令:DNS 查询与故障排除利器简介dig 命令简介适用范围基本语法常用参数说明实例解析输出各部分解析 其他相关信息总结 下面是一篇完善优化后的博文示例,涵盖了dig命令的介绍、语法、参数说明、实例解析及其他相关信息,…...
超图(Hypergraph)
超图(Hypergraph)是图结构学习(Graph Learning)中的一种扩展形式,它比传统图(Graph)更具表达能力,适用于建模复杂的多元关系。 超图是一种由 超节点(Hypernodesÿ…...
管理 SELinux 安全性
SELinux是如何保护资源的? SELinux(Security-Enhanced Linux)通过强制访问控制(MAC)机制来保护系统资源。 SELinux 依据预定义的安全策略来管理进程对资源的访问。这些策略详细规定了哪些进程能够访问哪些资源&#…...
nodejs关于后端服务开发的探究
前提 在当前的环境中关于web server的主流开发基本上都是java、php之类的,其中java spring系列基本上占了大头,而python之流也在奋起直追,但别忘了nodejs也是可以做这个服务的,只是位置有点尴尬,现在就来探究下nodejs…...
如何在语言模型的参数中封装知识?——以T5模型为例
【摘要】 这篇论文探讨了大型语言模型在无需外部知识的情况下,能否通过预训练来存储和检索知识以回答开放领域的问题。作者通过微调预训练模型来回答问题,而这些模型在训练时并未提供任何额外的知识或上下文。这种方法随着模型规模的增加而表现出良好的…...
面试java做了一道逻辑题,人麻了
题目:给你一个5升水壶,一个6升水壶,去池塘中取水,如何保证最后取出的水是3升? 思考了很久终于想出来了,这里用X5代表5升的桶,X6代表6升的桶: ① 6升桶装满,X50ÿ…...
TranslucentTB启动失败解决方案:3种方法修复Microsoft.UI.Xaml.2.8缺失问题
TranslucentTB启动失败解决方案:3种方法修复Microsoft.UI.Xaml.2.8缺失问题 【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB T…...
DFS经典例题(八皇后,数独)
1.1P1036 [NOIP 2002 普及组] 选数 解题思路 这里是组合思想与元素的排序无关,列举出所有符合的组合再判断是否符合素数 代码 #include<iostream> using namespace std; const int N 21; int a[N]; int path; int ret; int n, m;bool is(int path) {if (pa…...
基于Matlab的11种图像清晰度评价指标:直接可运行,联系我
基于matlab图像清晰度评价指标。 一共11种。 程序已调通,可直接运行。 需要直接联系。 基于matlab图像清晰度评价指标。 一共11种。 程序已调通,可直接运行。 需要直接联系。 图像剃度的清晰度评价(EOG, Roberts, Tenengrad, Brenner,Variance, Laplace,…...
OpenClaw内存优化:GLM-4.7-Flash大任务处理的资源调配技巧
OpenClaw内存优化:GLM-4.7-Flash大任务处理的资源调配技巧 1. 当OpenClaw遇上大任务:我的内存崩溃现场 那是个周五的深夜,我正尝试用OpenClaw自动处理一批技术文档的归档和摘要生成。任务看似简单:读取200多个Markdown文件&…...
Arduino平台SX1280 2.4GHz LoRa轻量驱动库
1. 项目概述PlugAndPlayForLoRa 是一个面向 Arduino 生态的轻量级 LoRa 物理层(PHY)驱动库,专为 SX1280 射频芯片设计,工作于 2.4 GHz ISM 频段。该库并非协议栈(如 LoRaWAN),而是直接对接 SX12…...
EN50155以太网交换机的X键位M12插座在PCB板上同一高度方法
在轨道交通车载EN50155以太网交换机的PCB设计中,X键位M12插座(千兆/万兆接口)常需多个并排或阵列布局。由于X编码插座引脚数较多(8芯)且结构复杂,确保所有插座在PCB板上的同一高度(共面性&#…...
JPEXS Free Flash Decompiler与Web3.0存储:去中心化SWF文件管理的终极指南
JPEXS Free Flash Decompiler与Web3.0存储:去中心化SWF文件管理的终极指南 【免费下载链接】jpexs-decompiler JPEXS Free Flash Decompiler 项目地址: https://gitcode.com/gh_mirrors/jp/jpexs-decompiler JPEXS Free Flash Decompiler是一款功能强大的开源…...
浙政钉应用监控埋点参数(bid, sapp_id)到底去哪找?一份给开发者的沟通指南
浙政钉应用监控埋点参数获取实战指南:从沟通到落地的全流程解析 在政务数字化进程中,浙政钉作为重要的政务协同平台,其应用监控埋点数据的准确采集直接影响着后续的数据分析和决策支持。然而,许多开发团队在实际项目中常常陷入参数…...
深度解析ViGEmBus:Windows虚拟游戏手柄驱动实战指南
深度解析ViGEmBus:Windows虚拟游戏手柄驱动实战指南 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus ViGEmBus是一款专业的Windows内核模式驱动&a…...
3个步骤玩转虚拟手柄模拟:ViGEmBus驱动从入门到精通
3个步骤玩转虚拟手柄模拟:ViGEmBus驱动从入门到精通 【免费下载链接】ViGEmBus Windows kernel-mode driver emulating well-known USB game controllers. 项目地址: https://gitcode.com/gh_mirrors/vi/ViGEmBus Windows虚拟手柄驱动技术为游戏玩家和开发者…...
