当前位置：首页 > news >正文

DeepSeek-R1解读：纯强化学习，模型推理能力提升的新范式？

news 2026/2/8 23:20:41

DeepSeek-R1解读：纯强化学习，模型推理能力提升的新范式？

1. Impressive Points
2. 纯强化学习，LLM推理能力提升新范式？
- 2.1 DeepSeek-R1-Zero
- 2.2 DeepSeek-R1
3. 端侧模型能力提升：蒸馏>强化学习

1. Impressive Points

LLM模型推理能力提升
1. 在LLM模型post-training中，仅使用强化学习（reinforcement learning，RL） 提升模型推理能力，不再依赖有监督微调训练（supervised fine-tuning，SFT）。
2. 证明了LLM模型具有自行探索长思维链（chain-of-thought，COT） 的能力。
端侧模型（小模型）推理能力提升
1. 相对于使用RL进行训练，基于大模型进行蒸馏（Distillation）的方式，是提升端侧模型推理能力更有效的途径。

2. 纯强化学习，LLM推理能力提升新范式？

2.1 DeepSeek-R1-Zero

核心问题： 当前的post-training流程对于大量监督数据的依赖，监督数据的收集非常耗时：

当前模型推理性能的提升，需要大量监督数据进行SFT，以作为模型post-training的冷启动。
当前一些研究已经验证了强化学习在模型推理性能上的有效性，但也依赖监督数据。

解决方案： 探索在没有任何监督数据的情况下，提升LLM模型的推理能力：

为了节省RL的训练成本，采用群体相对策略优化（GRPO），这个这里就不再多说了，后面专门出一篇文章讲一下GRPO。
在RL训练过程中，采用Rule-based奖励，主要由两种奖励构成：
1. Accuracy rewards：评估模型的输出是否正确。
2. Format rewards：强制模型将其思考过程置于指定标签之间。
设计训练模版，指导基模型在训练过程中遵守设定的指令：

成果：

推出DeepSeek-R1-Zero模型，无需任何监督微调数据，仅通过RL进行模型的post-training，在AIME2024、MATH-500等多个Benchmark中达到并且超过OpenAI-o1-0912的水平。

DeepSeek-R1-Zero展示出了自我进化（self-evolution） 能力，在没有监督数据的情况下，随着强化学习训练进程的深入，模型的思考时间在增加，并自发出现了诸如reflectio（反射，模型重新审视和重新评估其先前步骤）以及探索解决问题的替代方法等更加复杂的行为：

在DeepSeek-R1-Zero的训练过程中出现了Aha Moment（顿悟时刻），代表RL有可能在人工系统中解锁新的智能水平，为未来更加自主和自适应的模型铺平道路。

2.2 DeepSeek-R1

核心问题：

相对于完全不使用有监督数据，使用少量高质量数据作为冷启动，是否可以进一步提高推理性能或加速收敛？
针对DeepSeek-R1-Zero存在的输出内容可读性差的问题进行优化。

解决方案：

冷启动数据： 使用下述方法构建少量的（约几千条）长COT数据，作为冷启动数据对DeepSeek-V3-Base进行微调：
1. 以few-shot的长COT prompt作为例子，让DeepSeek-R1-Zero通过反射和验证生成详细的答案；
2. 将DeepSeek-R1-Zero的结果进行格式化；
3. 让人工标注人员进行后处理。
Reasoning-oriented Reinforcement Learning： 完成冷启动数据微调后，采用与DeepSeek-R1-Zero一致的强化学习训练过程，同时针对DeepSeek-R1-Zero存在的语言混合，导致模型输出可读性差的问题，在RL训练期间引入语言一致性奖励（目标语言单词在 CoT 中的比例），将推理任务的准确性和语言一致性的奖励结合起来，直接相加作为最终的奖励。
Rejection Sampling and Supervised Fine-Tuning： 当2中的RL过程趋于收敛时，利用checkpoint生产用于下一轮训练的SFT数据。与1中的冷启动数据区别在于，冷启动数据针对推理能力提升，此阶段既包含用于推理能力提升的600k数据，也包含200k推理无关的数据。使用上述约800k样本的精选数据集继续对DeepSeek-V3-Base进行了两个epoch的微调。
Reinforcement Learning for all Scenarios： 为了进一步对齐模型和人类偏好，设计了二级强化学习阶段以同时提高模型的helpfulness（有用性） 和harmlessness（无害性）：
1. helpfulness（有用性）：只评估模型最终的结果，而不关注模型的推理过程。
2. harmlessness（无害性）：既评估模型最终的结果，也评估模型的推理过程。

3. 端侧模型能力提升：蒸馏>强化学习

基于DeekSeek-R1，文中仅使用SFT对小模型（Qwen、Llama等）进行蒸馏训练得到的模型，性能全面优于GPT-4o-0513等大参数量非推理模型：

同时，直接对小模型进行DeepSeek-R1-Zero同款的强化学习，得到的DeepSeek-R1-Zero-Qwen-32B模型性能弱于蒸馏模型：

Tips：文中提到将RL应用于蒸馏模型会产生显著的进一步收益，应用方法文中没有详细说明，留给学术界去进一步探索。

DeepSeek-R1解读：纯强化学习，模型推理能力提升的新范式？

DeepSeek-R1解读：纯强化学习，模型推理能力提升的新范式？ 1. Impressive Points2. 纯强化学习，LLM推理能力提升新范式？2.1 DeepSeek-R1-Zero2.2 DeepSeek-R1 3. 端侧模型能力提升：蒸馏>强化学习 1. Impre…...

编程日记 2025/1/27 8:05:27

深度解析：基于Vue 3的教育管理系统架构设计与优化实践

一、项目架构分析 1. 技术栈全景项目采用 Vue 3 TypeScript Tailwind CSS 技术组合，体现了现代前端开发的三大趋势： 响应式编程：通过Vue 3的Composition API实现细粒度响应类型安全：约60%的组件采用TypeScript编写原子化…...

编程日记 2025/1/27 8:04:25

【PyTorch】3.张量类型转换

个人主页：Icomi 在深度学习蓬勃发展的当下，PyTorch 是不可或缺的工具。它作为强大的深度学习框架，为构建和训练神经网络提供了高效且灵活的平台。神经网络作为人工智能的核心技术，能够处理复杂的数据模式。通过 PyTorch&#xff0…...

编程日记 2025/1/27 8:03:19

Spring Boot整合JavaMail实现邮件发送

一. 发送邮件原理发件人【设置授权码】 - SMTP协议【Simple Mail TransferProtocol - 是一种提供可靠且有效的电子邮件传输的协议】 - 收件人二. 获取授权码开通POP3/SMTP，获取授权码授权码是QQ邮箱推出的，用于登录第三方客户端的专用密码。适用…...

编程日记 2025/1/27 7:59:13

字节跳动发布UI-TARS，超越GPT-4o和Claude，能接管电脑完成复杂任务

每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领…...

编程日记 2025/1/27 7:55:09

数据的秘密：如何用大数据分析挖掘商业价值

数据的秘密：如何用大数据分析挖掘商业价值在这个数据爆炸的时代，我们每天都在产生、存储和处理着海量的数据。然而，仅仅拥有数据并不等于拥有价值。就像拥有一座金矿，不开采和提炼，最终只是一堆毫无用处的石头。如何…...

编程日记 2025/1/27 7:54:08

OAuth1和OAuth2授权协议

OAuth 1 授权协议 1. 概述 OAuth1 是 OAuth 标准的第一个正式版本，它通过签名和令牌的方式，实现用户授权第三方访问其资源的功能。在 OAuth1 中，安全性依赖于签名机制，无需传递用户密码。 2. 核心特性使用签名&#xff08…...

编程日记 2025/1/27 7:53:06

AI学习（vscode+deepseek+cline）

1、网页生成不成功时，直接根据提示让模型替你解决问题 2、http://localhost:3000 拒绝链接时，cmd输入命令InetMgr，网站右键新建-配置你的网页代码物理地址，这里我还输入本机登录名及密码了，并把端口地址由默认80修改为…...

编程日记 2025/1/27 7:52:04

04-机器学习-网页数据抓取

网络爬取（Web Scraping）深度指南 1. 网络爬取全流程设计一个完整的网络爬取项目通常包含以下步骤： 目标分析： 明确需求：需要哪些数据（如商品价格、评论、图片）？网站结构分析&…...

编程日记 2025/1/27 7:45:58

计网week1+2

计网一.概念 1.什么是Internet 节点：主机及其运行的应用程序、路由器、交换机边：通信链路，接入网链路主机连接到互联网的链路，光纤、网输电缆协议：对等层的实体之间通信要遵守的标准，规定了语法、语义…...

编程日记 2025/1/27 7:44:57

重定向与缓冲区

4种重定向我们有如下的代码： #include <stdio.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h> #include <unistd.h> #include <string.h>#define FILE_NAME "log.txt"int main() {close(1)…...

编程日记 2025/1/27 7:42:55

练习题 - Django 4.x File 文件上传使用示例和配置方法

在现代的 web 应用开发中，文件上传是一个常见的功能，无论是用户上传头像、上传文档，还是其他类型的文件，处理文件上传都是开发者必须掌握的技能之一。Django 作为一个流行的 Python web 框架，提供了便捷的文件上传功能和配置方法。学习如何在 Django 中实现文件上传，不仅…...

编程日记 2025/1/27 7:39:50

[VSCode] vscode下载安装及安装中文插件详解（附下载链接）

VSCode 是一款由微软开发且跨平台的免费源代码编辑器；该软件支持语法高亮、代码自动补全、代码重构、查看定义功能，并且内置了命令行工具和Git版本控制系统。下载链接：https://pan.quark.cn/s/3a90aef4b645 提取码：NFy5 通过上面…...

编程日记 2025/1/27 7:38:49

JVM常见知识点

在《深入理解Java虚拟机》一书中，介绍了JVM的相关特性。 1、JVM的内存区域划分在真实的操作系统中，对于地址空间进行了分区域的设计，由于JVM是仿照真实的机器进行设计的，那么也进行了分区域的设计。核心区域有四个，…...

编程日记 2025/1/27 7:35:45

深入探索 Vue 3 Markdown 编辑器：高级功能与实现

目录 1. 为什么选择 Markdown 编辑器？2. 选择合适的 Markdown 编辑器3. 安装与基本配置安装配置 Markdown 编辑器代码说明 4. 高级功能实现4.1 实时预览与双向绑定4.2 插入图片和图像上传安装图像上传插件配置图像上传插件 4.3 数学公式支持安装 KaTeX配置 KaTeX 插…...

编程日记 2025/1/27 7:32:40

vscode无法格式化go代码的问题

CTRLshiftp 点击Go:Install/Update Tools 点击全选，OK！...

编程日记 2025/1/27 7:30:37

《Java程序设计》课程考核试卷

一、单项选择题（本大题共10个小题，每小题2分，共20分） 1.下列用来编译Java源文件为字节码文件的工具是（ ）。 A.java B.javadoc C.jar D.javac 2…...

编程日记 2025/1/27 7:29:36

one-hot （独热编码）

一、目的假设我们现在需要对猫、狗、人这三个类别进行分类。若以 0 代表猫， 以 1 代表狗， 以 2 代表人，会发现那么猫和狗之间距离为 1， 狗和人之间距离为 1， 而猫和人之间距离为 2。假设真实标签是猫&#xff0…...

编程日记 2025/1/27 7:24:23

寒假1.23

题解 web：[极客大挑战 2019]Secret File（文件包含漏洞） 打开链接是一个普通的文字界面查看一下源代码发现一个链接，点进去看看再点一次看看，没什么用仔细看，有一个问题，当点击./action.ph…...

编程日记 2025/1/27 7:21:18

unity 粒子系统设置触发

1、勾选Triggers选项 2、将作为触发器的物体拉入队列当中，物体上必须挂载collider 3、将想要触发的方式（Inide、Outside、Enter和Exit）选择为”Callback“，其他默认为”Ignore“ 4、Collider Query Mode 设置为All&#xff1a…...

编程日记 2025/1/27 7:19:16

Java 语言特性(面试系列1)

一、面向对象编程 1. 封装（Encapsulation） 定义：将数据（属性）和操作数据的方法绑定在一起，通过访问控制符（private、protected、public）隐藏内部实现细节。示例： public …...

编程新知 2025/10/6 4:03:40

ubuntu搭建nfs服务centos挂载访问

在Ubuntu上设置NFS服务器在Ubuntu上，你可以使用apt包管理器来安装NFS服务器。打开终端并运行： sudo apt update sudo apt install nfs-kernel-server创建共享目录创建一个目录用于共享，例如/shared： sudo mkdir /shared sud…...

编程新知 2026/2/6 23:18:59

《从零掌握MIPI CSI-2: 协议精解与FPGA摄像头开发实战》-- CSI-2 协议详细解析 (一）

CSI-2 协议详细解析 (一） 1. CSI-2层定义（CSI-2 Layer Definitions） 分层结构 ：CSI-2协议分为6层： 物理层（PHY Layer） ： 定义电气特性、时钟机制和传输介质（导线&#…...

编程新知 2026/1/23 12:18:20

ESP32读取DHT11温湿度数据

芯片：ESP32 环境：Arduino 一、安装DHT11传感器库红框的库，别安装错了二、代码注意，DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...

编程新知 2026/1/30 8:46:45

深入浅出深度学习基础：从感知机到全连接神经网络的核心原理与应用

文章目录前言一、感知机 (Perceptron)1.1 基础介绍1.1.1 感知机是什么？1.1.2 感知机的工作原理 1.2 感知机的简单应用：基本逻辑门1.2.1 逻辑与 (Logic AND)1.2.2 逻辑或 (Logic OR)1.2.3 逻辑与非 (Logic NAND) 1.3 感知机的实现1.3.1 简单实现 (基于阈…...

编程新知 2026/1/26 13:29:00

Selenium常用函数介绍

目录一，元素定位 1.1 cssSeector 1.2 xpath 二，操作测试对象三，窗口 3.1 案例 3.2 窗口切换 3.3 窗口大小 3.4 屏幕截图 3.5 关闭窗口四，弹窗五，等待六，导航七，文件上传 …...

编程新知 2026/1/29 3:55:23

解读《网络安全法》最新修订，把握网络安全新趋势

《网络安全法》自2017年施行以来，在维护网络空间安全方面发挥了重要作用。但随着网络环境的日益复杂，网络攻击、数据泄露等事件频发，现行法律已难以完全适应新的风险挑战。 2025年3月28日，国家网信办会同相关部门起草了《网络安全…...

编程新知 2026/1/31 4:40:38

基于PHP的连锁酒店管理系统

有需要请加文章底部Q哦可远程调试基于PHP的连锁酒店管理系统一介绍连锁酒店管理系统基于原生PHP开发，数据库mysql，前端bootstrap。系统角色分为用户和管理员。技术栈 phpmysqlbootstrapphpstudyvscode 二功能用户 1 注册/登录/注销 2 个人中…...

编程新知 2026/1/31 6:20:15

Bean 作用域有哪些？如何答出技术深度？

导语： Spring 面试绕不开 Bean 的作用域问题，这是面试官考察候选人对 Spring 框架理解深度的常见方式。本文将围绕“Spring 中的 Bean 作用域”展开，结合典型面试题及实战场景，帮你厘清重点，打破模板式回答&#xff0c…...

编程新知 2025/11/12 21:44:33

OD 算法题 B卷【正整数到Excel编号之间的转换】

文章目录正整数到Excel编号之间的转换正整数到Excel编号之间的转换 excel的列编号是这样的：a b c … z aa ab ac… az ba bb bc…yz za zb zc …zz aaa aab aac…; 分别代表以下的编号1 2 3 … 26 27 28 29… 52 53 54 55… 676 677 678 679 … 702 703 704 705;…...

编程新知 2025/8/31 2:33:30

DeepSeek-R1解读：纯强化学习，模型推理能力提升的新范式？

1. Impressive Points

2. 纯强化学习，LLM推理能力提升新范式？

2.1 DeepSeek-R1-Zero

2.2 DeepSeek-R1

3. 端侧模型能力提升：蒸馏>强化学习

相关文章：