当前位置：首页 > news >正文

配置Open-R1，评测第三方蒸馏模型的性能1

news 2026/5/7 19:53:35

年前DeepSeek不温不火，问题的响应极。一回车，就看模型如口吐莲花般，先是输出思维过程，虽然中间绕来绕去，但是输出回答时还是准确而简洁的。比如，用它来读当时出来的几篇文章，确实大大提升了效率。虽然搞科研这么多年，读文章还是比较快，但是遇到翻译长难句、生僻的概念，读起来还是磕磕绊绊，得做很足的心理建设才能克服困难读完。现在用DeepSeek，等它输出的时候，喝点水，刷刷新闻，发发呆，极好。

过年前后的一波发布，宣传，发酵，R1彻底火出了圈。1月25日后，再用的时候就开始出现服务器无响应了。俗话说，“由简入奢易，由奢入简难”。

短时间DeepSeek无法增加服务器，提供服务的情况下，除了反复提交外，还有什么办法呢？年后随着DeepSeek的热度持续增加，过年期间憋大招的工作都出来了，比如ktransformer、unsloth等相继支持DeepSeek满血版，知乎、三大运营商接入或提供DeepSeek访问。于是准备部署一个本地版本。

本地部署的话，可以用llama.cpp、vllm、ollama等，也可以使用LM studio这样的图像化界面工具。甚至可以用vllm、ollama为后端，写个restful服务，再包装个前端页面。对比后，还是用了最傻瓜化的LM studio。

模型参数方面，一开始看得眼花缭乱的，后面还是老实的根据显卡显存大小，选择了7B以下的模型，还得是量化后的。

最开始，就是问了个稍带歧义的问题，“there are a amount of apples，a monkey steals a half of them a day. On the ninth day，there is one apple left，how many apples are there”。1.5B模型根据字面意思，给出的答案是512。看思维过程，把另外一些可能排除了，其中最可能的一个以字面意思，偷不了0.5个苹果给否定了。7B的Q8，给出的结果一样。后面找了双卡机器，跑了32B的Q8，速度一下子慢了很多，结果还是512。

接下来，有意思的事情发生了。当我提示，题目是否可以按照剩下的一个苹果是偷之前和偷之后理解，是不是答案会不一样。1.5B是思维过程错误给否定了，甚至得出了128个。提示了半天，给出了256个。7B和32B还是比较好的理解了提示，认同了题目确实存在不准确性，分情况讨论合适。但是，32B在接受这个理解上表现得比较固执，可能是某种“自信”或者“对训练数据的过拟合形成了执念”。

在代码生成方面，总结，文献阅读方面，1.5B的思维过程明显简单，回答也比较简单。在速度方面，1.5B回复的速度真快，32B不优化的话慢的有点儿难以接受。

基于此，1.5B基本上应付简单问答是可以的，而且速度快，剩下的就是各种量化版本了。为了更好的、更加客观的观察量化的影响，准备用这些模型跑跑AIME24、MATH500等标准测试。

终于找回了题目，没想到遇到了大坑。首先，Huggingface在复现R1上是做的比较扎实的，Open-R1给出了比较详实的过程和代码，以及结果。因此，选用了这个代码库来跑evaluation。

按照流程，首先是搭个虚拟环境，不想用uv就还是用conda。结果conda只有3.10，没用3.11。最后查了查，得加点参数。

conda create -n openr1 python=3.11 -c conda-forge

然后是装vllm，下载了一堆包，编译了好久。

然后参考写了个AIME的测试脚本，结果爆了个CUDA版本问题。没办法，本来是不想动本地环境，又不想配docker。装了CUDA12.4，没装驱动，再跑测试脚本，还是报了几个包没用的问题，然后继续setup。

setup这步，编译到lighteval会自动降级到torch2.4.1。中断的话又和torch2.5.1不兼容，编译失败。还好是有解决方案。但是，下载的setup里面就是这个commit_tag，奇怪。后面又编译过去了，奇怪。接下来到了重头戏。fast_attn编译了半个小时没出来，我想着吃了饭怎么也好了。结果到睡觉前都没出来~才在网上翻了翻，原来我不是第一个等编译等到了睡觉的。

第二天一早，满心欢喜的发现编译完了，一堆包。再跑测试脚本，import vllm就报错，一个错误，vllm/_C.abi3.so: undefined symbol: cuTensorMapEncodeTiled。这大概了是残留的驱动的锅了。看来本地跑是彻底没戏了。没想到编译一个vllm跑evaluation这多么坑。

配置Open-R1，评测第三方蒸馏模型的性能1

相关文章：

配置Open-R1，评测第三方蒸馏模型的性能1

Chrome插件开发流程

物联网行业通识：从入门到深度解析

【做一个微信小程序】校园事件页面实现

C++基础系列【14】继承与多态

DeepSeek-R1 大模型本地部署指南

在conda环境下，安装Pytorch和CUDA

Java里int和Integer的区别？

【第13章：自监督学习与少样本学习—13.4 自监督学习与少样本学习的未来研究方向与挑战】

【NLP】文本预处理

deepseek r1从零搭建本地知识库10：嵌入模型和知识库建设

Linux-文件IO

3d pose 学习笔记2025

LC-随机链表的复制、排序链表、合并K个升序链表、LRU缓存

静态页面在安卓端可以正常显示,但是在ios打开这个页面就需要刷新才能显示全图片

四元数如何用于 3D 旋转（代替欧拉角和旋转矩阵）【ESP32指向鼠标】

JavaScript 内置对象-日期对象

本地大模型编程实战(19)RAG(Retrieval Augmented Generation,检索增强生成)(3)

DeepSeek与ChatGPT：AI语言模型的全面对决

2024年年终总结

AD8232开源心电监测终极指南：30分钟构建专业级生物信号采集系统

OBS多平台直播解决方案：obs-multi-rtmp技术实现与优化指南

无心剑中译阿尔弗雷德·布鲁斯·道格拉斯《冬日夕照》

GIMP Resynthesizer：解决图像编辑中纹理合成难题的智能插件套件

通达信缠论插件终极指南：3步实现自动化缠论技术分析

MAA助手终极指南：彻底解放双手的明日方舟全自动游戏解决方案

告别MQTT断线焦虑：paho.mqtt.c库的自动重连功能保姆级配置指南（附完整代码）

AlphaAvatar：构建全能型AI数字管家的插件化架构与实战部署指南

Windows 10系统优化终极指南：如何用Windows10Debloater一键清理预装垃圾应用

Java 8+ Base64 API 详解：从URL编码到MIME处理，不止是encodeToString