DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化
内容提要
刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究,接下来DeepSeek还有大招
文章正文

事情是这样的,2月1号,大年初四Daya Guo发了一条推文,透露了春节期间让他最兴奋的事情,亲眼见证了 R1-Zero 模型性能曲线的 “持续增长”,并且直言感受到了 强化学习(RL)的强大力量!这一下子就点燃了网友们的好奇心,大家纷纷跑去围观提问(太拼了,deepseek研究员过年都在爆肝训练模型)

以下我来帮大家还原一下Daya Guo与网友对话:
网友A @PseudoProphet: “大佬,想问下这个性能持续提升能持续多久呢?现在是早期阶段吗?感觉DeepSeek的RL模型是不是像语言模型里的GPT-2一样刚起步?还是说已经到GPT-3.5那种比较成熟的阶段,快要遇到瓶颈了?”
这个问题问的相当犀利啊,直接关系到DeepSeek RL技术的潜力!Daya Guo 的回复也十分坦诚:
Daya Guo : “我觉得我们还处于非常早期的阶段,RL 领域还有很长的路要探索。但我相信今年会看到显著的进展”
划重点! “非常早期”, “很长的路要探索”, “今年会有显著进展”!这几个关键词信息量巨大。这意味着,DeepSeek 认为他们在RL领域仍然有巨大的进步空间,R1 现在的成绩可能只是冰山一角,未来可期啊!
紧接着,另一位网友 @kaush_trip (Cheeku Tripathi)抛出了一个更专业的问题,直击模型能力的核心:
网友B @kaush_trip: “基于 R1-Zero 的性能,您如何评估模型是真的具备了 泛化能力,还是仅仅 记忆了状态转换和奖励 ?”
这个问题问的非常到位!毕竟现在很多模型看起来很强大,但实际上只是在训练数据上“死记硬背”,换个环境就拉胯。DeepSeek R1 到底是不是真材实料呢?
Daya Guo : “我们使用 RL prompt 未覆盖的领域的基准 来评估泛化能力。目前来看,它 似乎具备泛化能力”
“RL prompt 未覆盖的领域” 这句话是关键!这意味着 DeepSeek 不是用训练数据来“作弊”评估,而是用模型 从未见过 的新场景来测试,这才能真正体现模型的泛化水平。Daya Guo 用 “似乎具备” 这种严谨的措辞,也更显得真实可信
接下来,一位ID名为 @teortaxesTex 的网友,DeepSeek的忠实粉丝(备注里都写着“DeepSeek鲸鱼啦啦队”),他从DeepSeek V3 技术报告入手,提出了一个关于 模型训练时间 的问题:
网友C @teortaxesTex: “如果不是秘密的话:这次 RL 训练跑了多久?感觉你们早在 12 月 10 号就有了 R1 或者至少是 R1-Zero,因为 V3 技术报告里提到 V2.5 模型用了 R1 的知识蒸馏,而且 V2.5-1210 的分数和现在的模型一样。现在做的这个是那次训练的延续吗?”
这位网友观察力惊人啊!能从技术报告里抠出这么多细节。Daya Guo 也耐心解答了模型的迭代过程:
Daya Guo : “660B 参数的 R1-Zero 和 R1 是在 V3 发布之后才开始跑的,训练大约花了 2-3 周。之前我们提到的 R1 模型(比如在 V3 技术报告里),实际上是 R1-Lite 或者 R1-Lite-Zero”
原来如此!我们现在看到的 R1-Zero 和 R1 是 “全新升级版”,之前的 R1-Lite 系列是小规模版本。看来 DeepSeek 在背后默默迭代升级了不少版本啊
关于训练速度,网友 @jiayi_pirate (Jiayi Pan)和 网友B @kaush_trip 又接力提出了一个“灵魂拷问”:
网友D @jiayi_pirate: “3 周 1 万 RL steps,每个梯度传播 (grpo) 步骤要 ~ 3 分钟 ????”
网友B @kaush_trip: “如果每个梯度传播 (grpo) 步骤要 ~3 分钟,那大概每小时 5 步,每天 120 步,确实很慢。”
这算的是真够细致的!按照网友的计算,DeepSeek R1 的训练速度确实不算快。侧面也说明,这种高性能的 RL 模型,训练成本和时间投入都是巨大的。“慢工出细活” 用来形容 AI 模型训练,好像也挺合适的
最后,一位名叫 @davikrehalt (Andy Jiang)的网友,从更前沿的应用角度提了一个问题:
网友E @davikrehalt: “你们有没有尝试用 RL 来搞 形式化证明环境,而不是只做问答对?要是今年有个开源模型能在 IMO (国际数学奥林匹克) 拿金牌就好了!(以及更多希望!)”
形式化证明!IMO 金牌!这位网友的野心不小啊!不过,把 AI 应用到数学证明这种硬核领域,确实是未来趋势。Daya Guo 的回答再次让人惊喜:
Daya Guo : “我们也在尝试将 R1 应用于 Lean 这样的形式化证明环境。我们希望尽快向社区发布更好的模型”
听 Daya Guo 的意思,他们在这方面已经有进展,未来可能会有更重磅的模型发布!期待值拉满!
写在最后
从Daya Guo的回应中可提炼三大信号:
技术定位:RL尚处早期,性能提升远未见顶;
验证逻辑:跨领域测试泛化能力,拒绝“记忆投机”
应用边界:从语言模型到数学证明,RL正向高阶推理迈进
相关文章:
DeepSeek研究员在线爆料:R1训练仅用两到三周,春节期间观察到R1 zero强大进化
内容提要 刚刚我注意到DeepSeek研究员Daya Guo回复了网友有关DeepSeek R1的一些问题,以及接下来的公司的计划,只能说DeepSeek的R1仅仅只是开始,内部研究还在快速推进,DeepSeek 的研究员过年都没歇,一直在爆肝推进研究…...
Java进阶文件输入输出实操(图片拷贝)
Java进阶文件输入输出实操(图片拷贝) 把某个目录下的全部图片,全部拷贝到另外一个目录 package test; import domee.chapter6_7.B; import java.io.*; public class Ex10_10 { public static void main(String[] args) throws IOException { …...
Spring Boot统一异常拦截实践指南
Spring Boot统一异常拦截实践指南 一、为什么需要统一异常处理 在Web应用开发中,异常处理是保证系统健壮性和用户体验的重要环节。传统开发模式中常见的痛点包括: 异常处理逻辑分散在各个Controller中错误响应格式不统一敏感异常信息直接暴露给客户端…...
LLM推理--vLLM解读
主要参考: vLLM核心技术PagedAttention原理 总结一下 vLLM 的要点: Transformer decoder 结构推理时需要一个token一个token生成,且每个token需要跟前序所有内容做注意力计算(包括输入的prompt和该token之前生成的token…...
vscode软件操作界面UI布局@各个功能区域划分及其名称称呼
文章目录 abstract检查用户界面的主要区域官方文档关于UI的介绍 abstract 检查 Visual Studio Code 用户界面 - Training | Microsoft Learn 本质上,Visual Studio Code 是一个代码编辑器,其用户界面和布局与许多其他代码编辑器相似。 界面左侧是用于访…...
PyQt6/PySide6 的 QTreeView 类
QTreeView 是 PyQt6 或 PySide6 库中用于显示分层数据的控件。它适用于展示树形结构的数据,如文件系统、组织结构等。QTreeView 也是基于模型-视图架构的,通常与 QAbstractItemModel 的子类(如 QStandardItemModel 或自定义模型)一…...
一键开启/关闭deepseek
一键开启/关闭 Deepseek对应下载的模型一键开启 Deepseek,一键关闭Deepseek双击对应的bat,就可以启动https://mbd.pub/o/bread/Z56YmpZvbat 下载:https://mbd.pub/o/bread/Z56YmpZv 可以自己写下来,保存成bat文件,也可…...
单纯接入第三方模型就无需算法备案了么?
随着人工智能技术的快速发展,越来越多的企业开始接入第三方模型以提升自身业务能力。然而,关于算法备案的问题也引发了诸多讨论,尤其是单纯接入第三方模型是否需要备案这一问题,更是让不少企业感到困惑。 一、明确算法备案的主体…...
实现一个 LRU 风格的缓存类
实现一个缓存类 需求描述豆包解决思路:实现代码:优化11. std::list::remove 的时间复杂度问题2. 代码复用优化后的代码优化说明 优化21. 边界条件检查2. 异常处理3. 代码封装性4. 线程安全优化后的代码示例优化说明 DeepSeek(深度思考R1&…...
DS图(中)(19)
文章目录 前言一、图的遍历广度优先遍历深度优先遍历 二、最小生成树Kruskal算法Prim算法两种方法对比 总结 前言 承上启下,我们来学习下图的中篇!!! 一、图的遍历 图的遍历指的是遍历图中的顶点,主要有 广度优先遍历 …...
YK人工智能(六)——万字长文学会基于Torch模型网络可视化
1. 可视化网络结构 随着深度神经网络做的的发展,网络的结构越来越复杂,我们也很难确定每一层的输入结构,输出结构以及参数等信息,这样导致我们很难在短时间内完成debug。因此掌握一个可以用来可视化网络结构的工具是十分有必要的…...
使用 Swift 完成FFmpeg音频录制、播放和视频格式转换应用
使用 Swift 构建音频录制、播放和视频格式转换应用 在这篇博客中,我们介绍如何用ffmpeg在swift上实现音频录制、音频播放、通过ffmpeg命令实现视频格式转换 音频录制:通过 AVAudioRecorder 实现音频录制功能。音频播放:通过 AVAudioPlayer …...
Gitea+Gridea 创建个人博客
历史文档存档,该方法目前已经无法使用,部署方法可供参考 Gitea部分 1.关于Gitea Gitea 是一个面向开源及私有软件项目的托管平台,是全球最大的代码托管平台之一。它采用 Git 分布式版本控制系统,为开发者提供了代码托管、版本控…...
【Linux】一文带你入门了解线程和虚拟地址空间中页表映射的秘密(内附手绘底层逻辑图 通俗易懂)
绪论 每日激励:“努力去做自己该做的,但是不要期待回报,不是付出了就会有回报的,做了就不要后悔,不做才后悔。—Jack” 绪论: 本章是LInux中非常重要的线程部分,通过了解线程的基本概念&am…...
js面试some和every的区别
1.基础使用 some和every 都是数组的一个方法let num [1,2,3,4,5,6] let flag1 num.some((item,index,array)> item > 2)let flag2 num.every((item,index, array)> item > 2)1.some 遍历判断中是符合条件的值 一旦找到则不会继续迭代下去 直接返回 2.every 遍历…...
缓存类为啥使用 unordered_map 而不是 map
性能考虑: std::unordered_map 是基于哈希表实现的,而 std::map 是基于红黑树实现的。对于查找操作,std::unordered_map 的平均查找时间复杂度是 O ( 1 ) O(1) O(1),而 std::map 的查找时间复杂度是 O ( l o g n ) O(log n) O(l…...
ollama linux下载
实验室服务器(A6000)执行curl -fsSL https://ollama.com/install.sh | sh太慢了。 而sudo snap install ollama,容易爆cudalibrt.so12无法正常使用的bug。 发现 https://www.modelscope.cn/models/modelscope/ollama-linux 使用modelscope进…...
k8s服务发现有哪些方式?
在 Kubernetes 中,服务发现是指如何让应用程序在集群内互相找到并通信。Kubernetes 提供了多种服务发现的方式,适应不同的使用场景。以下是 Kubernetes 中常见的服务发现方式: 1. 环境变量(Environment Variables) 概…...
Flash Attention与Attention
原始Attention是: Flash Attention: 伪代码:4d(分别代表Q\K\V\O) Flash Attention2优化了...
vue 使用fetch-event-source 处理sse,实现ChatGpt逐字输出效果
1. 安装 npm install microsoft/fetch-event-source 2. 引用 import { fetchEventSource } from "microsoft/fetch-event-source"; 3. 使用 fetchEventSource(/api/chat, { method: POST,headers: {Content-Type: application/json,Accept: */*,Token: this.toke…...
JAVA进阶之线程
为神马有线程?这玩意儿在干嘛??? 回答这个问题,就先要知道一点点计算机的工作方式。 总所周知,计算机有五部分:输入输出、计算器、存储器、控制器。而在计算机内,CPU、内存、I/O之…...
机器学习专业毕设选题推荐合集 人工智能
目录 前言 毕设选题 开题指导建议 更多精选选题 选题帮助 最后 前言 大家好,这里是海浪学长毕设专题! 大四是整个大学期间最忙碌的时光,一边要忙着准备考研、考公、考教资或者实习为毕业后面临的升学就业做准备,一边要为毕业设计耗费大量精力。学长给大家整理…...
C++ 中的 `string` 类型:全面解析与高效操作
C 中的 string 类型:全面解析与高效操作 在 C 中,string 类型是对字符数组的高级封装,它提供了大量内置函数,使得字符串的处理变得更为简便和高效。与 C 风格的字符数组不同,string 类型不仅自动管理内存,…...
go语言中的Stringer的使用
Go 语言中的 Stringer 是一个非常有用的接口,它在标准库的 fmt 包中定义。Stringer 接口允许类型定义它们的字符串表示方式,这在格式化输出时特别有用。让我们深入了解一下: Stringer 接口定义: type Stringer interface {Strin…...
Java入门进阶
文章目录 1、常用API 1.1、Math1.2、System1.3、Object1.4、Arrays1.5、基本类型包装类 1.5.1、基本类型包装类概述1.5.2、Integer1.5.3、int和String相互转换1.5.4、自动装箱和拆箱 1.6、日期类 1.6.1、Date类1.6.2、SimpleDateFormat类 1.6.2.1、格式化(从Date到…...
【大数据技术】搭建完全分布式高可用大数据集群(Scala+Spark)
搭建完全分布式高可用大数据集群(Scala+Spark) scala-2.13.16.tgzspark-3.5.4-bin-without-hadoop.tgz注:请在阅读本篇文章前,将以上资源下载下来。 写在前面 本文主要介绍搭建完全分布式高可用集群Spark的详细步骤。 注意: 统一约定将软件安装包存放于虚拟机的/softwa…...
使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南
使用vLLM部署Qwen2.5-VL-7B-Instruct模型的详细指南 引言环境搭建安装vLLM安装依赖库下载模型启动vLLM服务器总结参考 引言 近年来,随着大规模语言模型(LLM)的快速发展,如何高效地进行模型推理成为了一个热门话题。vLLM作为一个专…...
AWS门店人流量数据分析项目的设计与实现
这是一个AWS的数据分析项目,关于快消公司门店手机各个门店进店人流量和各个产品柜台前逗留时间(利用IoT设备采集)和销售数据之间的统计分析,必须用到但不限于Amazon Kensis Data Stream,Spark Streaming,Sp…...
C#结合html2canvas生成切割图片并导出到PDF
目录 需求 开发运行环境 实现 生成HTML范例片断 HTML元素转BASE64 BASE64转图片 切割长图片 生成PDF文件 小结 需求 html2canvas 是一个 JavaScript 库,它可以把任意一个网页中的元素(包括整个网页)绘制到指定的 canvas 中…...
485网关数据收发测试
目录 1.UDP SERVER数据收发测试 使用产品: || ZQWL-GW1600NM 产品||【智嵌物联】智能网关型串口服务器 1.UDP SERVER数据收发测试 A(TX)连接RX B(RX)连接TX 打开1个网络调试助手,模拟用户的UDP客户端设…...
