DeepSeek-R1:强化学习驱动的推理模型

1月20日晚,DeepSeek正式发布了全新的推理模型DeepSeek-R1,引起了人工智能领域的广泛关注。该模型在数学、代码生成等高复杂度任务上表现出色,性能对标OpenAI的o1正式版。同时,DeepSeek宣布将DeepSeek-R1以及相关技术报告全面开源。
技术报告链接:
https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
在这篇技术报告中,DeepSeek团队推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1,通过强化学习(RL)显著增强了模型的推理能力,同时开创了无需监督微调(SFT)即可发展的新路径。
以下文章将对报告的核心内容进行解读。
DeepSeek-R1-Zero:无需监督微调的强化学习
DeepSeek-R1-Zero是一个通过强化学习训练的模型,不依赖于监督微调作为初步步骤。具体而言,DeepSeek-AI团队使用了DeepSeek-V3-Base作为基础模型,并使用群组相对策略优化算法 (Group Relative Policy Optimization,GRPO) 作为RL框架来提高模型在推理中的性能。
在训练过程中,DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为,例如自我验证、反思和生成长链推理(chain-of-thought,CoT)。这些行为的出现并非外部调整的结果,而是模型内部的自然发展。如图所示,随着RL训练的进行,DeepSeek-R1-Zero在推理任务中的平均响应长度逐渐增加。这表明模型通过扩展测试时的计算能力,自然地获得了解决越来越复杂的推理任务的能力。这种计算能力的范围从生成数百到数千个推理token,使模型能够更深入地探索和优化其思考过程。
在AIME 2024基准测试中,DeepSeek-R1-Zero的Pass@1得分从15.6%显著提升至71.0%,通过多数投票进一步提高到86.7%,与OpenAI-o1-0912的性能相当。这一成果证明了通过纯RL可以激励LLMs的推理能力,无需依赖SFT。
DeepSeek-R1:多阶段训练与冷启动数据
尽管DeepSeek-R1-Zero在推理任务上表现出色,但也存在一些问题,如可读性差和语言混用等。为了解决这些问题并进一步提升推理性能,DeepSeek-AI团队推出了DeepSeek-R1。该模型在RL之前引入了少量的冷启动数据,并采用了多阶段训练流程。
具体来说,团队首先收集了数千条冷启动数据来微调DeepSeek-V3-Base模型,然后执行面向推理的RL。在RL训练接近收敛时,通过拒绝采样生成新的SFT数据,并结合DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据,重新训练DeepSeek-V3-Base模型。最后,经过微调的新检查点再次进行RL训练,考虑所有场景的提示。经过这些步骤,DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。
在多个基准测试中,DeepSeek-R1模型的表现如下:
- 教育导向知识基准测试:DeepSeek-R1在MMLU、MMLU-Pro和GPQA Diamond上的表现优于DeepSeek-V3,分别达到了90.8%、84.0%和71.5%的Pass@1得分。
- 编码相关任务:DeepSeek-R1在Codeforces上的Elo评级达到了2029,超过了96.3%的参赛者,在LiveCodeBench上的Pass@1得分达到了65.9%。
- 数学任务:DeepSeek-R1在AIME 2024上的Pass@1得分达到了79.8%,在MATH-500上的Pass@1得分达到了97.3%,与OpenAI-o1-1217相当。
- 其他任务:DeepSeek-R1在AlpacaEval 2.0上的长度控制胜率达到了87.6%,在ArenaHard上的胜率达到了92.3%,显示出其在处理非考试导向查询方面的强大能力。
知识蒸馏:赋予小型模型推理能力
为了使更高效的小型模型具备类似DeepSeek-R1的推理能力,DeepSeek团队直接微调了Qwen和Llama等开源模型,使用DeepSeek-R1生成的推理数据进行训练。结果表明,这种简单的蒸馏方法显著提升了小型模型的推理能力。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的表现超过了QwQ-32B-Preview,而DeepSeek-R1-Distill-Qwen-32B在AIME 2024、MATH-500和LiveCodeBench上的表现明显优于以前的开源模型,并可与o1-mini相媲美。
局限性与未来方向
尽管DeepSeek-R1取得了显著成果,报告中也指出了其现存的挑战:
- 语言混用问题:DeepSeek-R1当前仅优化了中英双语,对于其他语言的支持有限,可能导致推理和回答时使用不同语言。
- 任务适应性:DeepSeek-R1在多轮对话、复杂角色扮演和特定格式输出任务中的表现不及DeepSeek-V3。未来研究将探索如何将长链推理扩展至这些任务。
- 提示敏感性:DeepSeek-R1对提示非常敏感,尤其在多样性较高的任务中,少样本(Few-shot)提示会显著降低模型表现。因此,团队建议用户直接描述问题并使用零样本设置(zero-shot setting)指定输出格式,以获得最佳结果。
- 软件工程任务的效率问题:由于评估时间长,影响了RL过程的效率,导致DeepSeek-R1并没有表现出比DeepSeek-V3有很大的改进。后续研究团队将计划通过拒绝采样等技术提升训练效率。
结论
DeepSeek-R1的研究展示了通过强化学习激发语言模型推理能力的巨大潜力。无论是依赖强化学习的自演化过程,还是通过蒸馏实现小模型的推理能力提升,DeepSeek-R1都为推动AI模型的智能化和普及化提供了重要启示。
未来,随着对多语言支持、任务广度和计算效率的进一步优化,DeepSeek-R1有望在更广泛的场景中发挥作用,为AI驱动的知识探索和决策提供更强大的工具。
相关文章:
DeepSeek-R1:强化学习驱动的推理模型
1月20日晚,DeepSeek正式发布了全新的推理模型DeepSeek-R1,引起了人工智能领域的广泛关注。该模型在数学、代码生成等高复杂度任务上表现出色,性能对标OpenAI的o1正式版。同时,DeepSeek宣布将DeepSeek-R1以及相关技术报告全面开源。…...
国内优秀的FPGA设计公司主要分布在哪些城市?
近年来,国内FPGA行业发展迅速,随着5G通信、人工智能、大数据等新兴技术的崛起,FPGA设计企业的需求也迎来了爆发式增长。很多技术人才在求职时都会考虑城市的行业分布和发展潜力。因此,国内优秀的FPGA设计公司主要分布在哪些城市&a…...
3.日常英语笔记
screening discrepancies 筛选差异 The team found some screening discrepancies in the data. 团队在数据筛选中发现了些差异。 Don’t tug at it ,or it will fall over and crush you. tug 拉,拽,拖 He tugged the door open with all his might…...
基于RIP的MGRE实验
实验拓扑 实验要求 按照图示配置IP地址配置静态路由协议,搞通公网配置MGRE VPNNHRP的配置配置RIP路由协议来传递两端私网路由测试全网通 实验配置 1、配置IP地址 [R1]int g0/0/0 [R1-GigabitEthernet0/0/0]ip add 15.0.0.1 24 [R1]int LoopBack 0 [R1-LoopBack0]i…...
【开源免费】基于Vue和SpringBoot的美食推荐商城(附论文)
本文项目编号 T 166 ,文末自助获取源码 \color{red}{T166,文末自助获取源码} T166,文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…...
Pandas DataFrame 拼接、合并和关联
拼接:使用 pd.concat(),可以沿着行或列方向拼接 DataFrame。 合并:使用 pd.merge(),可以根据一个或多个键进行不同类型的合并(左连接、右连接、全连接、内连接)。 关联:使用 join() 方法,通常在设置了索引的 DataFrame 上进行关联操作。 concat拼接 按列拼接 df1 = …...
【Redis】Redis修改连接数参数
1.重启操作背景 Redis数据库连接数上限,需要修改配置文件里maxclients参数,修改后需重启数据库 1.1、修改操作系统open files参数 1.2、修改redis连接数 2.登录操作系统 登录堡垒机 ssh {ip}3.查看当前状态 3.1、查看操作系统配置 ulimit -a3.2、…...
scratch变魔术 2024年12月scratch三级真题 中国电子学会 图形化编程 scratch三级真题和答案解析
目录 scratch变魔术 一、题目要求 1、准备工作 2、功能实现 二、案例分析 1、角色分析 2、背景分析 3、前期准备 三、解题思路 1、思路分析 2、详细过程 四、程序编写 五、考点分析 六、 推荐资料 1、入门基础 2、蓝桥杯比赛 3、考级资料 4、视频课程 5、py…...
51单片机开发:点阵屏显示数字
实验目标:在8x8的点阵屏上显示数字0。 点阵屏的原理图如下图所示,点阵屏的列接在P0端口,行接在74HC595扩展的DP端口上。 扩展口的使用详见:51单片机开发:IO扩展(串转并)实验-CSDN博客 要让点阵屏显示数字࿰…...
mysql DDL可重入讨论
mysql的bug:当执行 MySQL online DDL 时,期间如有其他并发的 DML 对相同的表进行增量修改,比如 update、insert、insert into … on duplicate key、replace into 等,且增量修改的数据违背唯一约束,那么 DDL 最后都会执…...
DAY01 面向对象回顾、继承、抽象类
学习目标 能够写出类的继承格式public class 子类 extends 父类{}public class Cat extends Animal{} 能够说出继承的特点子类继承父类,就会自动拥有父类非私有的成员 能够说出子类调用父类的成员特点1.子类有使用子类自己的2.子类没有使用,继承自父类的3.子类父类都没有编译报…...
127周一复盘 (165)玩法与难度思考
1.上午测试,小改了点东西, 基本等于啥也没干。 匆忙赶往车站。 从此进入春节期间,没有开发,而思考与设计。 2.火车上思考玩法与难度的问题。 目前的主流作法实际上并不完全符合不同玩家的需求, 对这方面还是要有自…...
【C语言常见概念详解】
目录 -----------------------------------------begin------------------------------------- 什么是C语言: 1. 基本数据类型 2. 变量与常量 3. 运算符与表达式 4. 控制结构 5. 函数 6. 指针 7. 数组与字符串 8. 结构体与联合体 9. 文件操作 结语 ----…...
弹性分组环——RPR技术
高频考点,考查20次: RPR与FDDI一样使用双环结构RPR环中的每一个节点都会执行SRP公平算法(非DPT、MPLS)传统的FDDI环,当源节点成功向目的结点发送一个数据帧后,这个数据帧由源结点从环中回收。但RPR环&#…...
定制Centos镜像
环境准备: 一台最小化安装的干净的系统,这里使用Centos7.9,一个Centos镜像,镜像也使用Centos7.9的。 [rootlocalhost ~]# cat /etc/system-release CentOS Linux release 7.9.2009 (Core) [rootlocalhost ~]# rpm -qa | wc -l 306 [rootloca…...
Java---判断素数的三种方法
我们首先先来了解一下什么是素数 素数:一个整数只能被1和自身整除 , 注意:0与1不是素数 目录 方法一:暴力法 方法二:除二法(优化) 方法三.根号法(最优法) 方法一:暴力法 最简单最暴力的方法就是根据定义,判断n是不是素数,让n除以2到n-1的所有数,只要遇到能除开…...
多级缓存(亿级并发解决方案)
多级缓存(亿级流量(并发)的缓存方案) 传统缓存的问题 传统缓存是请求到达tomcat后,先查询redis,如果未命中则查询数据库,问题如下: (1)请求要经过tomcat处…...
代理模式 - 代理模式的应用
引言 代理模式(Proxy Pattern)是一种结构型设计模式,它允许你提供一个代理对象来控制对另一个对象的访问。代理对象通常会在客户端和目标对象之间起到中介的作用,从而可以在不改变目标对象的情况下,增加额外的功能或控…...
编辑器Vim基本模式和指令 --【Linux基础开发工具】
文章目录 一、编辑器Vim 键盘布局二、Linux编辑器-vim使用三、vim的基本概念正常/普通/命令模式(Normal mode)插入模式(Insert mode)末行模式(last line mode) 四、vim的基本操作五、vim正常模式命令集插入模式从插入模式切换为命令模式移动光标删除文字复制替换撤销上一次操作…...
云计算如何与物联网(IoT)结合?
今天我们来聊一个既酷炫又实用的话题:云计算如何给物联网插上腾飞的翅膀。 智能时代的技术密码 想象一下,你家的冰箱会自动帮你订购即将用完的牛奶,工厂的机器能预测何时需要维修,城市的路灯会根据实时交通流量调整亮度。这些看…...
铭豹扩展坞 USB转网口 突然无法识别解决方法
当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…...
网络六边形受到攻击
大家读完觉得有帮助记得关注和点赞!!! 抽象 现代智能交通系统 (ITS) 的一个关键要求是能够以安全、可靠和匿名的方式从互联车辆和移动设备收集地理参考数据。Nexagon 协议建立在 IETF 定位器/ID 分离协议 (…...
8k长序列建模,蛋白质语言模型Prot42仅利用目标蛋白序列即可生成高亲和力结合剂
蛋白质结合剂(如抗体、抑制肽)在疾病诊断、成像分析及靶向药物递送等关键场景中发挥着不可替代的作用。传统上,高特异性蛋白质结合剂的开发高度依赖噬菌体展示、定向进化等实验技术,但这类方法普遍面临资源消耗巨大、研发周期冗长…...
基于Uniapp开发HarmonyOS 5.0旅游应用技术实践
一、技术选型背景 1.跨平台优势 Uniapp采用Vue.js框架,支持"一次开发,多端部署",可同步生成HarmonyOS、iOS、Android等多平台应用。 2.鸿蒙特性融合 HarmonyOS 5.0的分布式能力与原子化服务,为旅游应用带来…...
解决本地部署 SmolVLM2 大语言模型运行 flash-attn 报错
出现的问题 安装 flash-attn 会一直卡在 build 那一步或者运行报错 解决办法 是因为你安装的 flash-attn 版本没有对应上,所以报错,到 https://github.com/Dao-AILab/flash-attention/releases 下载对应版本,cu、torch、cp 的版本一定要对…...
EtherNet/IP转DeviceNet协议网关详解
一,设备主要功能 疆鸿智能JH-DVN-EIP本产品是自主研发的一款EtherNet/IP从站功能的通讯网关。该产品主要功能是连接DeviceNet总线和EtherNet/IP网络,本网关连接到EtherNet/IP总线中做为从站使用,连接到DeviceNet总线中做为从站使用。 在自动…...
【RockeMQ】第2节|RocketMQ快速实战以及核⼼概念详解(二)
升级Dledger高可用集群 一、主从架构的不足与Dledger的定位 主从架构缺陷 数据备份依赖Slave节点,但无自动故障转移能力,Master宕机后需人工切换,期间消息可能无法读取。Slave仅存储数据,无法主动升级为Master响应请求ÿ…...
CSS设置元素的宽度根据其内容自动调整
width: fit-content 是 CSS 中的一个属性值,用于设置元素的宽度根据其内容自动调整,确保宽度刚好容纳内容而不会超出。 效果对比 默认情况(width: auto): 块级元素(如 <div>)会占满父容器…...
JVM 内存结构 详解
内存结构 运行时数据区: Java虚拟机在运行Java程序过程中管理的内存区域。 程序计数器: 线程私有,程序控制流的指示器,分支、循环、跳转、异常处理、线程恢复等基础功能都依赖这个计数器完成。 每个线程都有一个程序计数…...
iview框架主题色的应用
1.下载 less要使用3.0.0以下的版本 npm install less2.7.3 npm install less-loader4.0.52./src/config/theme.js文件 module.exports {yellow: {theme-color: #FDCE04},blue: {theme-color: #547CE7} }在sass中使用theme配置的颜色主题,无需引入,直接可…...
