当前位置：首页 > news >正文

DeepSeek-R1：强化学习驱动的推理模型

news 2026/2/10 16:55:36

1月20日晚，DeepSeek正式发布了全新的推理模型DeepSeek-R1，引起了人工智能领域的广泛关注。该模型在数学、代码生成等高复杂度任务上表现出色，性能对标OpenAI的o1正式版。同时，DeepSeek宣布将DeepSeek-R1以及相关技术报告全面开源。

技术报告链接：

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

在这篇技术报告中，DeepSeek团队推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1，通过强化学习（RL）显著增强了模型的推理能力，同时开创了无需监督微调（SFT）即可发展的新路径。

以下文章将对报告的核心内容进行解读。

DeepSeek-R1-Zero：无需监督微调的强化学习

DeepSeek-R1-Zero是一个通过强化学习训练的模型，不依赖于监督微调作为初步步骤。具体而言，DeepSeek-AI团队使用了DeepSeek-V3-Base作为基础模型，并使用群组相对策略优化算法 (Group Relative Policy Optimization，GRPO) 作为RL框架来提高模型在推理中的性能。

在训练过程中，DeepSeek-R1-Zero自然涌现出许多强大且有趣的推理行为，例如自我验证、反思和生成长链推理（chain-of-thought，CoT）。这些行为的出现并非外部调整的结果，而是模型内部的自然发展。如图所示，随着RL训练的进行，DeepSeek-R1-Zero在推理任务中的平均响应长度逐渐增加。这表明模型通过扩展测试时的计算能力，自然地获得了解决越来越复杂的推理任务的能力。这种计算能力的范围从生成数百到数千个推理token，使模型能够更深入地探索和优化其思考过程。

在AIME 2024基准测试中，DeepSeek-R1-Zero的Pass@1得分从15.6%显著提升至71.0%，通过多数投票进一步提高到86.7%，与OpenAI-o1-0912的性能相当。这一成果证明了通过纯RL可以激励LLMs的推理能力，无需依赖SFT。

DeepSeek-R1：多阶段训练与冷启动数据

尽管DeepSeek-R1-Zero在推理任务上表现出色，但也存在一些问题，如可读性差和语言混用等。为了解决这些问题并进一步提升推理性能，DeepSeek-AI团队推出了DeepSeek-R1。该模型在RL之前引入了少量的冷启动数据，并采用了多阶段训练流程。

具体来说，团队首先收集了数千条冷启动数据来微调DeepSeek-V3-Base模型，然后执行面向推理的RL。在RL训练接近收敛时，通过拒绝采样生成新的SFT数据，并结合DeepSeek-V3在写作、事实问答和自我认知等领域的监督数据，重新训练DeepSeek-V3-Base模型。最后，经过微调的新检查点再次进行RL训练，考虑所有场景的提示。经过这些步骤，DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。

在多个基准测试中，DeepSeek-R1模型的表现如下：

教育导向知识基准测试：DeepSeek-R1在MMLU、MMLU-Pro和GPQA Diamond上的表现优于DeepSeek-V3，分别达到了90.8%、84.0%和71.5%的Pass@1得分。

编码相关任务：DeepSeek-R1在Codeforces上的Elo评级达到了2029，超过了96.3%的参赛者，在LiveCodeBench上的Pass@1得分达到了65.9%。

数学任务：DeepSeek-R1在AIME 2024上的Pass@1得分达到了79.8%，在MATH-500上的Pass@1得分达到了97.3%，与OpenAI-o1-1217相当。

其他任务：DeepSeek-R1在AlpacaEval 2.0上的长度控制胜率达到了87.6%，在ArenaHard上的胜率达到了92.3%，显示出其在处理非考试导向查询方面的强大能力。

知识蒸馏：赋予小型模型推理能力

为了使更高效的小型模型具备类似DeepSeek-R1的推理能力，DeepSeek团队直接微调了Qwen和Llama等开源模型，使用DeepSeek-R1生成的推理数据进行训练。结果表明，这种简单的蒸馏方法显著提升了小型模型的推理能力。例如，DeepSeek-R1-Distill-Qwen-7B在AIME 2024上的表现超过了QwQ-32B-Preview，而DeepSeek-R1-Distill-Qwen-32B在AIME 2024、MATH-500和LiveCodeBench上的表现明显优于以前的开源模型，并可与o1-mini相媲美。

局限性与未来方向

尽管DeepSeek-R1取得了显著成果，报告中也指出了其现存的挑战：

语言混用问题：DeepSeek-R1当前仅优化了中英双语，对于其他语言的支持有限，可能导致推理和回答时使用不同语言。

任务适应性：DeepSeek-R1在多轮对话、复杂角色扮演和特定格式输出任务中的表现不及DeepSeek-V3。未来研究将探索如何将长链推理扩展至这些任务。

提示敏感性：DeepSeek-R1对提示非常敏感，尤其在多样性较高的任务中，少样本（Few-shot）提示会显著降低模型表现。因此，团队建议用户直接描述问题并使用零样本设置（zero-shot setting）指定输出格式，以获得最佳结果。

软件工程任务的效率问题：由于评估时间长，影响了RL过程的效率，导致DeepSeek-R1并没有表现出比DeepSeek-V3有很大的改进。后续研究团队将计划通过拒绝采样等技术提升训练效率。

结论

DeepSeek-R1的研究展示了通过强化学习激发语言模型推理能力的巨大潜力。无论是依赖强化学习的自演化过程，还是通过蒸馏实现小模型的推理能力提升，DeepSeek-R1都为推动AI模型的智能化和普及化提供了重要启示。

未来，随着对多语言支持、任务广度和计算效率的进一步优化，DeepSeek-R1有望在更广泛的场景中发挥作用，为AI驱动的知识探索和决策提供更强大的工具。

DeepSeek-R1：强化学习驱动的推理模型

DeepSeek-R1-Zero：无需监督微调的强化学习

DeepSeek-R1：多阶段训练与冷启动数据

知识蒸馏：赋予小型模型推理能力

局限性与未来方向

结论

相关文章：

DeepSeek-R1：强化学习驱动的推理模型

国内优秀的FPGA设计公司主要分布在哪些城市？

3.日常英语笔记

基于RIP的MGRE实验

【开源免费】基于Vue和SpringBoot的美食推荐商城（附论文）

Pandas DataFrame 拼接、合并和关联

【Redis】Redis修改连接数参数

scratch变魔术 2024年12月scratch三级真题中国电子学会图形化编程 scratch三级真题和答案解析

51单片机开发：点阵屏显示数字

mysql DDL可重入讨论

DAY01 面向对象回顾、继承、抽象类

127周一复盘（165）玩法与难度思考

【C语言常见概念详解】

弹性分组环——RPR技术

定制Centos镜像

Java---判断素数的三种方法

多级缓存（亿级并发解决方案）

代理模式 - 代理模式的应用

编辑器Vim基本模式和指令 --【Linux基础开发工具】

云计算如何与物联网（IoT）结合？

Flask RESTful 示例

模型参数、模型存储精度、参数与显存

IGP（Interior Gateway Protocol，内部网关协议）

定时器任务——若依源码分析

大模型多显卡多服务器并行计算方法与实践指南

数据库分批入库

全面解析各类VPN技术：GRE、IPsec、L2TP、SSL与MPLS VPN对比

以光量子为例，详解量子获取方式

iOS性能调优实战：借助克魔(KeyMob)与常用工具深度洞察App瓶颈

C/C++ 中附加包含目录、附加库目录与附加依赖项详解