当前位置：首页 > news >正文

【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

news 2026/2/9 0:58:05

最近deepseek R1模型大火，正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
在这里插入图片描述

近年来，大型语言模型（LLM）在推理能力上取得了显著进展，但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepSeek-R1 论文，探索了**强化学习（RL）**在激发LLM推理潜力方面的新方法，并开源了模型和相关资源。

一、背景：后训练与推理能力提升（提出问题：如何超越openai的o1模型）

后训练已成为提升LLM推理能力的关键环节。OpenAI的o1系列模型通过推理时缩放和思维链（CoT），在推理任务上取得突破。然而，如何有效进行推理时缩放仍是开放问题。

此前研究探索了奖励模型、强化学习、搜索算法等方法，但通用推理性能仍有提升空间。DeepSeek-R1的目标是探索纯强化学习提升LLM推理能力的可能性，关注LLM在无监督数据下的自我进化。

二、DeepSeek-R1-Zero：从零开始的纯RL探索（利器1： RL引导V3模型出现自我进化）

DeepSeek-R1-Zero是DeepSeek-AI的首个纯RL推理模型，完全不依赖监督微调（SFT），直接在 DeepSeek-V3-Base 上应用RL。

RL算法：GRPO

DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法，节省RL训练成本。GRPO避免了传统的评论员模型，通过组得分估计基线，目标函数如下：

J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]

奖励模型：规则驱动

奖励模型采用规则驱动方式，包含：

准确率奖励：评估答案正确性，规则驱动验证。
格式奖励：强制模型思考过程置于<think>和</think>标签内。

训练模版：引导思考

训练模版引导模型先输出思考过程，再给出答案，结构如下：

A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

性能与自我进化

DeepSeek-R1-Zero展现了自我进化能力，推理能力随RL训练稳步提升。在AIME 2024测试中，pass@1分数从15.6%跃升至71.0%，媲美OpenAI-01-0912。训练中还出现**“顿悟时刻”**，模型学会分配更多思考时间，提升解题能力。

局限性

DeepSeek-R1-Zero存在可读性差和语言混合问题。

三、DeepSeek-R1：冷启动与多阶段RL（利器2：多阶段训练，推理能力起飞，瞬间兼顾通用能力）

DeepSeek-R1在Zero基础上，引入冷启动数据和多阶段训练，旨在提升性能并解决Zero的局限性。

冷启动

DeepSeek-R1收集少量高质量长CoT数据进行微调，作为RL初始actor，提升训练稳定性。冷启动数据强调可读性，采用格式 | special_token | <reasoning_process> | special_token | <summary>。

推理导向RL

在冷启动微调后，进行与Zero相同的RL训练，重点增强推理能力。引入语言一致性奖励，缓解语言混合问题，最终奖励结合准确率和语言一致性。

拒绝采样与SFT

RL收敛后，使用checkpoint收集SFT数据，扩展到写作、角色扮演等通用任务，提升模型泛化能力。SFT数据包括：

推理数据：拒绝采样生成，包含生成奖励模型辅助判断的数据，过滤低质量CoT。
非推理数据：复用DeepSeek-V3 pipeline和SFT数据，少量CoT用于复杂任务。

使用约80万SFT数据微调DeepSeek-V3-Base。

面向所有场景的RL

二次RL阶段，提升模型的helpfulness和harmlessness。结合规则驱动（推理数据）和奖励模型（通用数据），训练目标兼顾推理能力和安全对齐。

四、蒸馏：赋予小型模型推理能力（不止拉升自己模型推理能力，顺便提拉一下同行）

为使小型模型具备推理能力，DeepSeek-AI采用蒸馏技术，使用DeepSeek-R1数据微调Qwen和Llama系列。实验表明，蒸馏显著提升小型模型推理能力，例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI开源了蒸馏模型，仅SFT，未包含RL阶段，旨在展示蒸馏有效性。

实验评估

DeepSeek-R1在知识型、代码型和数学型基准上进行全面评估，并与主流模型对比。

DeepSeek-R1评估结果

知识型基准：优于DeepSeek-V3，STEM问题提升显著。
长文本QA (FRAMES)：表现出色，文档分析能力强。
事实性QA (SimpleQA)：优于DeepSeek-V3。
指令遵循 (IF-Eval)：表现出色，归功于SFT和RL阶段的指令数据。
开放域问答 (AlpacaEval & ArenaHard)：卓越性能，写作能力强，大规模RL提升泛化能力。
数学 & 代码任务：媲美OpenAI-01-1217，大幅超越其他模型。

蒸馏模型评估

DeepSeek-R1-Distill-Qwen-7B超越GPT-40-0513，DeepSeek-R1-14B超越QwQ-32B-Preview，DeepSeek-R1-32B/70B显著超越o1-mini，证明蒸馏潜力巨大。
在这里插入图片描述

讨论：蒸馏 vs. 强化学习

实验对比了蒸馏模型和RL训练模型。结果表明，蒸馏模型DeepSeek-R1-Distill-Qwen-32B优于RL训练模型DeepSeek-R1-Zero-Qwen-32B，即使后者经过大规模RL训练。

结论：

蒸馏更强大模型到小型模型效果显著，纯RL小型模型计算成本高，性能可能不及蒸馏。
蒸馏经济有效，但突破智能边界可能仍需更强基础模型和更大规模RL。

结论与创新贡献

DeepSeek-R1研究探索了RL提升LLM推理能力，DeepSeek-R1-Zero验证了纯RL潜力，DeepSeek-R1通过冷启动和多阶段训练进一步提升性能，并通过蒸馏赋予小型模型推理能力。

文章创新点和贡献：

公开纯RL如何提升LLM推理能力：首次公开验证纯RL无需SFT即可激励LLM推理能力，解开o1模型面纱。
更强的模型，更低的成本，还是开源的：多多少少有点针对openai，不不不，是close ai
核心点

DeepSeek-R1多阶段训练流程：有效提升推理能力、可读性和通用性。（DeepSeek来告诉世界，推理能力要怎么训出来）
证明蒸馏技术传递推理能力：蒸馏可高效赋予小型模型高性能推理能力。（普遍使用，老少兼宜）

【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

一、背景：后训练与推理能力提升（提出问题：如何超越openai的o1模型）

二、DeepSeek-R1-Zero：从零开始的纯RL探索（利器1： RL引导V3模型出现自我进化）

三、DeepSeek-R1：冷启动与多阶段RL（利器2：多阶段训练，推理能力起飞，瞬间兼顾通用能力）

四、蒸馏：赋予小型模型推理能力（不止拉升自己模型推理能力，顺便提拉一下同行）

实验评估

讨论：蒸馏 vs. 强化学习

结论与创新贡献

相关文章：

【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

arm linux下的中断处理过程。

C语言：指针详解

github用户名密码登陆失效了

【删除tomcat默认管理控制台】

动态库与静态库：深入解析与应用

【鱼眼镜头12】Scaramuzza的鱼眼相机模型实操，不依赖于具体的相机几何结构，直接从图像数据出发，因此更具灵活性。

LVS 负载均衡集群（NAT模式）

MATLAB中的APPdesigner绘制多图问题解析？与逻辑值转成十进制

9种慢慢被淘汰的编程语言...

vue知识点5

rdiff-backup备份

UE_C++ —— Metadata Specifiers

【算法与数据结构】并查集详解

deepseek多列数据对比，联想到excel的高级筛选功能

Windows操作系统部署Tomcat详细讲解

每日Attention学习23——KAN-Block

今日写题04work

Managed Lustre 和 WEKA：高性能文件系统的对比与应用

LeetCode541 反转字符串2

iOS 26 携众系统重磅更新，但“苹果智能”仍与国行无缘

vscode（仍待补充）

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

C++ 基础特性深度解析

【HarmonyOS 5 开发速记】如何获取用户信息（头像/昵称/手机号）

如何更改默认 Crontab 编辑器？

为什么要创建 Vue 实例

Golang——7、包与接口详解

破解路内监管盲区：免布线低位视频桩重塑停车管理新标准

针对药品仓库的效期管理问题，如何利用WMS系统“破局”