当前位置：首页 > article >正文

【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

article 2026/4/20 12:49:19

最近deepseek R1模型大火，正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
在这里插入图片描述

近年来，大型语言模型（LLM）在推理能力上取得了显著进展，但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepSeek-R1 论文，探索了**强化学习（RL）**在激发LLM推理潜力方面的新方法，并开源了模型和相关资源。

一、背景：后训练与推理能力提升（提出问题：如何超越openai的o1模型）

后训练已成为提升LLM推理能力的关键环节。OpenAI的o1系列模型通过推理时缩放和思维链（CoT），在推理任务上取得突破。然而，如何有效进行推理时缩放仍是开放问题。

此前研究探索了奖励模型、强化学习、搜索算法等方法，但通用推理性能仍有提升空间。DeepSeek-R1的目标是探索纯强化学习提升LLM推理能力的可能性，关注LLM在无监督数据下的自我进化。

二、DeepSeek-R1-Zero：从零开始的纯RL探索（利器1： RL引导V3模型出现自我进化）

DeepSeek-R1-Zero是DeepSeek-AI的首个纯RL推理模型，完全不依赖监督微调（SFT），直接在 DeepSeek-V3-Base 上应用RL。

RL算法：GRPO

DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法，节省RL训练成本。GRPO避免了传统的评论员模型，通过组得分估计基线，目标函数如下：

J_GRPO(θ) = E[q ~ P(Q), {o_i}_{i=1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i=1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1+ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]

奖励模型：规则驱动

奖励模型采用规则驱动方式，包含：

准确率奖励：评估答案正确性，规则驱动验证。
格式奖励：强制模型思考过程置于<think>和</think>标签内。

训练模版：引导思考

训练模版引导模型先输出思考过程，再给出答案，结构如下：

A conversation between User and Assistant... <think> reasoning process here </think> <answer> answer here </answer>. User: prompt. Assistant:

性能与自我进化

DeepSeek-R1-Zero展现了自我进化能力，推理能力随RL训练稳步提升。在AIME 2024测试中，pass@1分数从15.6%跃升至71.0%，媲美OpenAI-01-0912。训练中还出现**“顿悟时刻”**，模型学会分配更多思考时间，提升解题能力。

局限性

DeepSeek-R1-Zero存在可读性差和语言混合问题。

三、DeepSeek-R1：冷启动与多阶段RL（利器2：多阶段训练，推理能力起飞，瞬间兼顾通用能力）

DeepSeek-R1在Zero基础上，引入冷启动数据和多阶段训练，旨在提升性能并解决Zero的局限性。

冷启动

DeepSeek-R1收集少量高质量长CoT数据进行微调，作为RL初始actor，提升训练稳定性。冷启动数据强调可读性，采用格式 | special_token | <reasoning_process> | special_token | <summary>。

推理导向RL

在冷启动微调后，进行与Zero相同的RL训练，重点增强推理能力。引入语言一致性奖励，缓解语言混合问题，最终奖励结合准确率和语言一致性。

拒绝采样与SFT

RL收敛后，使用checkpoint收集SFT数据，扩展到写作、角色扮演等通用任务，提升模型泛化能力。SFT数据包括：

推理数据：拒绝采样生成，包含生成奖励模型辅助判断的数据，过滤低质量CoT。
非推理数据：复用DeepSeek-V3 pipeline和SFT数据，少量CoT用于复杂任务。

使用约80万SFT数据微调DeepSeek-V3-Base。

面向所有场景的RL

二次RL阶段，提升模型的helpfulness和harmlessness。结合规则驱动（推理数据）和奖励模型（通用数据），训练目标兼顾推理能力和安全对齐。

四、蒸馏：赋予小型模型推理能力（不止拉升自己模型推理能力，顺便提拉一下同行）

为使小型模型具备推理能力，DeepSeek-AI采用蒸馏技术，使用DeepSeek-R1数据微调Qwen和Llama系列。实验表明，蒸馏显著提升小型模型推理能力，例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI开源了蒸馏模型，仅SFT，未包含RL阶段，旨在展示蒸馏有效性。

实验评估

DeepSeek-R1在知识型、代码型和数学型基准上进行全面评估，并与主流模型对比。

DeepSeek-R1评估结果

知识型基准：优于DeepSeek-V3，STEM问题提升显著。
长文本QA (FRAMES)：表现出色，文档分析能力强。
事实性QA (SimpleQA)：优于DeepSeek-V3。
指令遵循 (IF-Eval)：表现出色，归功于SFT和RL阶段的指令数据。
开放域问答 (AlpacaEval & ArenaHard)：卓越性能，写作能力强，大规模RL提升泛化能力。
数学 & 代码任务：媲美OpenAI-01-1217，大幅超越其他模型。

蒸馏模型评估

DeepSeek-R1-Distill-Qwen-7B超越GPT-40-0513，DeepSeek-R1-14B超越QwQ-32B-Preview，DeepSeek-R1-32B/70B显著超越o1-mini，证明蒸馏潜力巨大。
在这里插入图片描述

讨论：蒸馏 vs. 强化学习

实验对比了蒸馏模型和RL训练模型。结果表明，蒸馏模型DeepSeek-R1-Distill-Qwen-32B优于RL训练模型DeepSeek-R1-Zero-Qwen-32B，即使后者经过大规模RL训练。

结论：

蒸馏更强大模型到小型模型效果显著，纯RL小型模型计算成本高，性能可能不及蒸馏。
蒸馏经济有效，但突破智能边界可能仍需更强基础模型和更大规模RL。

结论与创新贡献

DeepSeek-R1研究探索了RL提升LLM推理能力，DeepSeek-R1-Zero验证了纯RL潜力，DeepSeek-R1通过冷启动和多阶段训练进一步提升性能，并通过蒸馏赋予小型模型推理能力。

文章创新点和贡献：

公开纯RL如何提升LLM推理能力：首次公开验证纯RL无需SFT即可激励LLM推理能力，解开o1模型面纱。
更强的模型，更低的成本，还是开源的：多多少少有点针对openai，不不不，是close ai
核心点

DeepSeek-R1多阶段训练流程：有效提升推理能力、可读性和通用性。（DeepSeek来告诉世界，推理能力要怎么训出来）
证明蒸馏技术传递推理能力：蒸馏可高效赋予小型模型高性能推理能力。（普遍使用，老少兼宜）

【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

最近deepseek R1模型大火，正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948 近年来，大型语言模型（LLM）在推理能力上取得了显著进展，但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepS…...

编程日记 2026/4/8 7:10:48

从零搭建SpringBoot3+Vue3前后端分离项目基座，中小项目可用

文章目录 1. 后端项目搭建 1.1 环境准备1.2 数据表准备1.3 SpringBoot3项目创建1.4 MySql环境整合，使用druid连接池1.5 整合mybatis-plus 1.5.1 引入mybatis-plus1.5.2 配置代码生成器1.5.3 配置分页插件 1.6 整合swagger3（knife4j） 1.6.1 整…...

编程日记 2026/4/18 4:21:27

使用 Python 爬虫和 FFmpeg 爬取 B 站高清视频

以下是一个完整的 Python 爬虫代码示例，用于爬取 B 站视频并使用 FFmpeg 合成高清视频。 1. 准备工作确保安装了以下 Python 库和工具： bash复制 pip install requests moviepy2. 爬取视频和音频文件 B 站的视频和音频文件通常是分开存储的&#x…...

编程日记 2026/3/27 7:27:52

学习数据结构（9）栈和队列上

1.栈的概念栈是一种特殊的线性表，只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶，另一端称为栈底。栈中的数据元素遵守后进先出（先进先出）的原则栈的插入操作叫做进栈/压栈/入栈&#xff…...

编程日记 2026/4/10 16:24:28

【ESP32】ESP-IDF开发 | WiFi开发 | HTTP服务器

1. 简介 1.1 HTTP HTTP（Hyper Text Transfer Protocol），全称超文本传输协议，用于从网络服务器传输超文本到本地浏览器的传送协议。它可以使浏览器更加高效，使网络传输减少。它不仅保证计算机正确快速地传输超文本文档…...

编程日记 2026/4/10 16:30:42

hbase合并队列超长问题分析

问题现象 hbase集群合并队列超长，有节点上合并任务已经运行超过1天未结束，合并队列总长不断增加。问题分析参数配置：配置参数默认值含义hbase.hregion.memstore.flush.size128MMemStore达到该值会Flush成StoreFilehbase.hregion.memstore.block.multiplier4当region中…...

编程日记 2026/3/11 21:06:29

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

YOLOV11目标检测改进实例与创新改进专栏专栏地址：YOLOv11目标检测改进专栏，包括backbone、neck、loss、分配策略、组合改进、原创改进等本文介绍发paper，毕业皆可使用。本文给大家带来的改进内容是在YOLOv11中更换主干网络为CSWinTransformer，助力YOLOv11有效涨点，…...

编程日记 2026/4/14 16:47:18

滚动弹幕案例

滚动弹幕案例一、需求 1.页面上漂浮字体大小不一、颜色不一，从左向右滚动的弹幕； 2.底部中间有一个发送功能，可以发送新的弹幕； 3.底部的发送部分可以向下收起和弹出。二、html <div class"container"><…...

编程日记 2026/4/10 18:49:49

图像处理篇---基本OpenMV图像处理

文章目录前言1. 灰度化（Grayscale）2. 二值化（Thresholding）3. 掩膜（Mask）4. 腐蚀（Erosion）5. 膨胀（Dilation）6. 缩放（Scaling）7. 旋转…...

编程日记 2026/4/20 4:07:14

Linux软件编程（2）

一、标准IO 1.fread/fwrite size_t fwrite (const void *ptr,size_t size,size_t nmemb,FILE *stream); 功能：函数从指定的内存位置开始，将一块数据写入到指定的文件流中。参数： ptr:指向要写入文件的数据块的指针 size:要写入的每个数据…...

编程日记 2026/4/2 11:28:14

vue框架生命周期详细解析

Vue.js 的生命周期钩子函数是理解 Vue 组件行为的关键。每个 Vue 实例在创建、更新和销毁过程中都会经历一系列的生命周期阶段，每个阶段都有对应的钩子函数，开发者可以在这些钩子函数中执行特定的操作。 Vue 生命周期概述 Vue 的生命周期可以分为以下几…...

编程日记 2026/3/27 8:00:48

2010年下半年软件设计师考试上午真题的知识点整理（附真题及答案解析）

以下是2010年下半年软件设计师考试上午真题的知识点分类整理，涉及定义的详细解释，供背诵记忆。 1. 计算机组成原理 CPU与存储器的访问。 Cache的作用: 提高CPU访问主存数据的速度，减少访问延迟。存储器的层次结构: 包括寄存器、Cache、主存和…...

编程日记 2026/3/29 3:50:11

459重复的子字符串（substr）

1、题目描述给定一个非空的字符串 s ，检查是否可以通过由它的一个子串重复多次构成。 2、示例示例 1: 输入: s "abab" 输出: true 解释: 可由子串 "ab" 重复两次构成。示例 2: 输入: s "aba" 输出: false示例 3: 输入: s …...

编程日记 2026/4/5 19:53:19

腿足机器人之五- 粒子滤波

腿足机器人之五粒子滤波直方图滤波粒子滤波上一篇博客使用的是高斯分布结合贝叶斯准则来估计机器人状态，本篇是基于直方图和粒子滤波器这两种无参滤波器估计机器人状态。直方图方法将状态空间分解成有限多个区域，并用直方图表示后验概率。直方图为每个…...

编程日记 2026/4/10 9:12:09

OpenAI 快速入门

文章来源：OpenAI开发者平台 | OpenAI开发文档|OpenAI中文官方文档|ChatGPT中文版|ChatGPT教程开发人员快速入门了解如何发出您的第一个 API 请求。 OpenAI API 为最先进的 AI 模型提供了一个简单的接口，用于自然语言处理、图像生成、语义搜索和语音识…...

编程日记 2025/12/3 20:06:37

React通用登录/注销功能实现方案（基于shadcn/ui）

React通用登录/注销功能实现方案（基于shadcn/ui） 一、功能需求分析二、通用功能封装1. 通用登录表单组件2. 认证Hook封装三、功能使用示例1. 登录页面实现2. 用户菜单实现四、路由保护实现五、方案优势一、功能需求分析需要实现以下核心功能&#x…...

编程日记 2026/4/15 5:54:53

Django中数据库迁移命令

在 Django 中，数据库迁移是确保数据库结构与 Django 模型定义保持一致的重要过程。以下是 Django 中常用的数据库迁移命令： 1. python manage.py makemigrations 功能：此命令用于根据 Django 项目的模型文件（models.py&#xff…...

编程日记 2026/4/8 4:49:13

spring214

spring父子容器： 为什么会有spring父子容器，，因为一般大一点的项目都是分模块的，，不同的人开发不同的模块，，可以在两个不同的模块中，，使用相同的beanName，&a…...

编程日记 2026/3/26 0:48:22

AI 编程工具—Cursor 进阶篇数据分析

AI 编程工具—Cursor 进阶篇数据分析上一节课我们使用Cursor 生成了北京房产的销售数据，这一节我们使用Cursor对这些数据进行分析，也是我们尝试使用Cursor 去帮我们做数据分析，从而进一步发挥Cursor的能力，来帮助我们完成更多的事情案例一房产销售数据分析 @北京202…...

编程日记 2026/4/10 5:05:04

搭建Deepseek推理服务

概述： 本文介绍用Open webui ollama搭建一套Deepseek推理服务，可以在web页面上直接进行对话。作为体验搭建的是Deepseek 7b参数版本首先选择一个云厂商创建一台ubuntu系统的虚拟机，带公网IP，通过shell登录虚拟机完成以下操作&…...

编程日记 2026/4/10 19:17:14

GDB 调试入门教程 1. sample.cpp1.1. Compile and Run 2. GDB 调试3. GDB commandsReferences GDB is a command line debugger. It is a good choice on Linux or WSL. On macOS, use LLDB instead. 1. sample.cpp (base) yongqiangyongqiang:~/workspace/yongqiang$ ls -l …...

编程日记 2026/4/20 9:23:13

STM32的HAL库开发---ADC

一、ADC简介 1、ADC，全称：Analog-to-Digital Converter，指模拟/数字转换器把一些传感器的物理量转换成电压，使用ADC采集电压，然后转换成数字量，经过单片机处理，进行控制和显示。 2、常见的AD…...

编程日记 2026/4/10 5:30:11

6.编写正排索引切分字符串|倒排索引原理|引入jieba到项目(C++)

编写正排索引继续编写incde.hpp #pragma once#include <iostream> #include <string> #include <vector> #include <fstream> #include <unordered_map> #include "util.hpp"namespace ns_index{struct DocInfo{std::string title;…...

编程日记 2026/4/10 16:35:47

在Windows系统上测试safari浏览器的兼容性

文章目录前言手机端的safari浏览器能替代PC端吗在Windows上测试safari浏览器的兼容性的方法利用云服务使用虚拟机在Windows上下载虚拟机遇到的问题以及解决思路总结前言在测试网站的兼容性时需要用到safari浏览器，在没有Mac的情况下，又不想麻烦同事&…...

编程日记 2026/4/8 1:37:46

【设计模式】【结构型模式】桥接模式（Bridge）

👋hi，我不是一名外包公司的员工，也不会偷吃茶水间的零食，我的梦想是能写高端CRUD 🔥 2025本人正在沉淀中… 博客更新速度 👍 欢迎点赞、收藏、关注，跟上我的更新节奏 🎵 当你的天空突…...

编程日记 2026/4/9 18:00:20

惠普HP Color LaserJet CP1215/1210彩色打印机打印校准方法

执行校准 （用随机光盘安装驱动）完整安装打印机驱动程序。安装驱动程序的操作方法请参考以下文章： 惠普HP Color laserjet cp1215激光打印机在windows 7下使用随机光盘安装驱动程序，安装完成后； 依次点击“开始”→“所…...

编程日记 2026/4/16 12:45:54

【雅思博客02】Virus!

Elementary ‐ Virus! (C0007) A: Oh great! This stupid computer froze again! That’s the third time today! Hey Samuel, can you come take a look at my PC? It’s acting up again. It must have a virus or something. B: Just give me a second; I’ll be right …...

编程日记 2026/4/14 0:02:33

【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

一、背景：后训练与推理能力提升（提出问题：如何超越openai的o1模型）

二、DeepSeek-R1-Zero：从零开始的纯RL探索（利器1： RL引导V3模型出现自我进化）

三、DeepSeek-R1：冷启动与多阶段RL（利器2：多阶段训练，推理能力起飞，瞬间兼顾通用能力）

四、蒸馏：赋予小型模型推理能力（不止拉升自己模型推理能力，顺便提拉一下同行）

实验评估

讨论：蒸馏 vs. 强化学习

结论与创新贡献

相关文章：

【推理llm论文精度】DeepSeek-R1：强化学习驱动LLM推理能力飞跃

从零搭建SpringBoot3+Vue3前后端分离项目基座，中小项目可用

使用 Python 爬虫和 FFmpeg 爬取 B 站高清视频

学习数据结构（9）栈和队列上

【ESP32】ESP-IDF开发 | WiFi开发 | HTTP服务器

hbase合并队列超长问题分析

【YOLOv11改进- 主干网络】YOLOv11+CSWinTransformer: 交叉窗口注意力Transformer助力YOLOv11有效涨点；

滚动弹幕案例

图像处理篇---基本OpenMV图像处理

Linux软件编程（2）

vue框架生命周期详细解析

2010年下半年软件设计师考试上午真题的知识点整理（附真题及答案解析）

459重复的子字符串（substr）

腿足机器人之五- 粒子滤波

OpenAI 快速入门

React通用登录/注销功能实现方案（基于shadcn/ui）

Django中数据库迁移命令

spring214

AI 编程工具—Cursor 进阶篇数据分析

搭建Deepseek推理服务

GDB 调试入门教程

STM32的HAL库开发---ADC

6.编写正排索引切分字符串|倒排索引原理|引入jieba到项目(C++)

在Windows系统上测试safari浏览器的兼容性

【设计模式】【结构型模式】桥接模式（Bridge）

惠普HP Color LaserJet CP1215/1210彩色打印机打印校准方法

【雅思博客02】Virus!

模型GPU-＞NPU(Ascend)迁移训练简述

skywalking实现原理

sql语言语法的学习