当前位置：首页 > news >正文

DeepSeek R1 训练策略4个阶段解析

news 2026/2/10 10:36:08

DeepSeek R1 训练策略解析

DeepSeek R1 训练策略解析
- 1. 冷启动监督微调（Cold Start SFT）
- - **该阶段的主要目标**：
- 2. 面向推理的强化学习（RL for Reasoning）
- - **该阶段的主要目标**：
- 3. 拒绝采样和监督微调（Rejection Sampling & SFT）
- - **该阶段的主要目标**：
- 4. 面向全部场景的强化学习（RL for All Scenarios）
- - **该阶段的主要目标**：
- **总结：DeepSeek R1 训练策略的价值**

DeepSeek R1 训练策略解析

DeepSeek R1 采用了一套完整的训练流程，以确保其在推理、生成、对齐等多个方面的能力达到最优水平。整个训练过程可以划分为以下 4 个关键阶段。

1. 冷启动监督微调（Cold Start SFT）

在强化学习（RL）训练之前，首先进行 监督微调（SFT），使用高质量的 长链式思维（Chain-of-Thought, CoT） 数据对模型进行初始训练。

该阶段的主要目标：

建立基本推理能力：确保模型能够进行连贯的逻辑推理，而不是简单的模式匹配。
提高语言表达的连贯性：保证回答逻辑清晰，减少语法错误。
避免强化学习前的模式崩溃：如果直接进行 RL 训练，可能导致模型收敛到次优解，而 SFT 提供了稳定的起点。

2. 面向推理的强化学习（RL for Reasoning）

在冷启动微调之后，模型已经具备一定的推理能力，此时采用强化学习方法进一步优化 长链推理（Long-Chain Reasoning），以提升逻辑严谨性。

该阶段的主要目标：

强化多步推理能力：避免模型在长链任务中犯错，提高数学、编程、逻辑等任务的准确性。
减少错误推理（Hallucination）：利用奖励建模（Reward Modeling, RM）来优化合理的推理路径。
提升答案稳定性：使模型在相同问题下能够保持一致的回答，减少随机性。

3. 拒绝采样和监督微调（Rejection Sampling & SFT）

在推理导向的强化学习收敛后，采用 拒绝采样（Rejection Sampling） 机制，筛选出高质量的回答，并构建新的 监督微调数据集。

该阶段的主要目标：

提升数据质量：通过从 RL 训练的模型中采样，过滤掉低质量答案，使模型学习更优的答案结构。
增强多领域能力：补充写作、对话、角色扮演等任务，使模型不仅擅长推理，也能完成更广泛的任务。
避免 RL 过拟合问题：强化学习可能会导致模型在某些任务上过拟合，而 SFT 结合高质量数据可保持模型的通用性。

4. 面向全部场景的强化学习（RL for All Scenarios）

在多领域数据增强后，进行最后一轮强化学习，使模型在所有任务上都符合人类偏好。

该阶段的主要目标：

提升泛化能力：确保模型不仅能推理，还能写作、对话，适用于多种应用场景。
减少极端情况下的失效：确保模型在复杂问题上不会产生错误或无意义回答。
优化用户体验：让模型回答更符合人类的语言习惯，提高对话流畅度和自然性。

总结：DeepSeek R1 训练策略的价值

训练步骤	主要优化方向	关键好处
冷启动监督微调（SFT）	基础推理能力、语言连贯性	避免直接 RL 导致的模式崩溃，确保模型能进行基本推理
面向推理的强化学习（RL）	长链式推理、逻辑严谨性	让模型学会更合理的推理方式，提高回答的正确性和稳定性
拒绝采样 + SFT	多任务能力、多领域适应性	结合 RL 的最佳回答进行新的监督微调，使模型更通用
面向全场景的强化学习（RL）	真实世界泛化能力、人类偏好对齐	让模型不仅能推理，还能安全、礼貌、高质量地完成各种任务

通过这 四个训练阶段，DeepSeek R1 实现了推理能力的优化、多任务能力的增强，并最终与人类偏好对齐，确保其在各种实际应用场景中的表现优异。

DeepSeek R1 训练策略4个阶段解析

DeepSeek R1 训练策略解析 DeepSeek R1 训练策略解析1. 冷启动监督微调（Cold Start SFT）**该阶段的主要目标**： 2. 面向推理的强化学习（RL for Reasoning）**该阶段的主要目标**： 3. 拒绝采样和监督微调&…...

编程日记 2025/2/28 17:39:02

【博资考4】网安学院-硕转博考试内容

【博资考4】硕转博考试内容 - 网络安全与基础理论写在最前面一. **21年硕转博面试内容回顾**网络、逆向、操作系统、攻防、漏洞1. **网络安全常见攻击方式及其防范措施**1.1 **DDoS攻击（分布式拒绝服务）**1.2 **SQL注入攻击**1.3 **XSS攻击（…...

编程日记 2025/2/28 17:37:59

30 分钟从零开始入门 CSS

HTML CSS JS 30分钟从零开始入门拿下 HTML_html教程-CSDN博客 30 分钟从零开始入门 CSS-CSDN博客 JavaScript 指南：从入门到实战开发-CSDN博客前言最近也是在复习，把之前没写的博客补起来，之前给大家介绍了 html，现在是 CSS 咯…...

编程日记 2025/2/28 17:32:52

C语言综合案例：学生成绩管理系统

C语言综合案例：学生成绩管理系统需求 1.存储最多50名学生的信息（不使用结构体） 2.每个学生包含： 学号（字符数组）姓名（字符数组）3门课程成绩（一维数组） …...

编程日记 2025/2/28 17:30:48

使用python做http代理请求

有这样一个需求现在有两台A，B两台电脑组成了一个局域网，在A电脑上开发webjava应用，需要调用第三方接口做http请求，但是这个请求只能在B电脑上请求。一种解决方案：自定义一个中间服务，在电脑B上运行一个简…...

编程日记 2025/2/28 17:29:46

数据库事务的基本要素（ACID）

数据库事务的基本要素（ACID） 在数据库管理系统（DBMS）中，事务（Transaction）是一个或多个数据库操作的集合，这些操作要么全部成功，要么全部失败。事务的目标是保证数据的一…...

编程日记 2025/2/28 17:25:39

DeepSeek R1满血+火山引擎详细教程

DeepSeek R1满血火山引擎详细教程一、安装Cherry Studio。 Cherry Studio AI 是一款强大的多模型 AI 助手,支持 iOS、macOS 和 Windows 平台。可以快速切换多个先进的 LLM 模型,提升工作学习效率。下载地址 https://cherry-ai.com/ 认准官网，无强制注册。这…...

编程日记 2025/2/28 17:23:36

大型语言模型技术对比：阿里Qwen qwq、DeepSeek R1、OpenAI o3与Grok 3

1. 引言在人工智能（AI）领域中，大型语言模型（Large Language Models，简称LLM）近年来取得了显著的突破。从早期的GPT-3到如今的各种高级模型，这些技术不仅推动了自然语言处理（NLP&am…...

编程日记 2025/2/28 17:22:33

ArcGIS Pro可见性分析：精通地形视线与视域分析

在地理信息系统（GIS）的广泛应用中，可见性分析作为一项关键技术，发挥着不可替代的作用。无论是城市规划、环境监测，还是军事侦察、景观设计，可见性分析都能提供精确的数据支持，帮助我们更好地理…...

编程日记 2025/2/28 17:20:27

计算机工具基础(五)——Vim

Vim MIT《Missing in CS Class(2020):Class 3》笔记 Vim是终端环境中常用的纯文本编辑器。Vim的默认配置文件位于~/.vimrc 模式 Vim有如下5种模式： 常规模式(Normal)：进入Vim后的默认模式，用于阅读文件。以Esc自其他模式中退至此模式插入模…...

编程日记 2025/2/28 17:17:22

Android应用app实现AI电话机器人接打电话

Android应用app实现AI电话机器人接打电话 --安卓AI电话机器人一、前言【Dialer3.0智能拨号器】Android版手机app，由于采用蓝牙电话的方式来调用手机SIM卡发起呼叫、接听来电，并接收和处理通话的声音，通常我们以“蓝牙电话方案”来称呼它。 …...

编程日记 2025/2/28 17:16:18

切换文件夹 cd path # for example, cd /gpu03/deeplearning/进入不同GPU ssh mgmt ssh gpu01 ssh gpu03寻找文件位置 find /path -name file_name #for example, find / -name lib #在根目录下搜寻名为lib文件 #for example, find /home/deeplearning -name "lib"…...

编程日记 2025/2/28 17:13:14

Android14窗口管理自适应投屏分辨率

环境 console:/ # cat /proc/version Linux version 6.1.57 (机密信息) (Android (10087095, pgo, bolt, lto, -mlgo, based on r487747c) clang version 17.0.2 (https://android.googlesource.com/toolchain/llvm-project d9f89f4d16663d5012e5c09495f3b30ece3d2362), LLD 17…...

编程日记 2025/2/28 17:12:11

Shot Studio for macOS 发布 1.0.2

Shot Studio 是一个 macOS 的 app，专门为开发者设计，主要用于各大 app 应用商店的预览图设计。提供了非常多的模板，也预设了很多尺寸。可以直接一键使用在 1.0.2 这个版本中新增了： 文本渐变图层：边框、颜色、圆…...

编程日记 2025/2/28 17:09:07

《深度学习实战》第4集：Transformer 架构与自然语言处理（NLP）

《深度学习实战》第4集：Transformer 架构与自然语言处理（NLP） 在自然语言处理（NLP）领域，Transformer 架构的出现彻底改变了传统的序列建模方法。它不仅成为现代 NLP 的核心，还推动了诸如 BERT、…...

编程日记 2025/2/28 17:03:58

Starrocks入门（二）

1、背景：考虑到Starrocks入门这篇文章，安装的是3.0.1版本的SR，参考：Starrocks入门-CSDN博客但是官网的文档，没有对应3.0.x版本的资料，却有3.2或者3.3或者3.4或者3.1或者2.5版本的资料，不要用较…...

编程日记 2025/2/28 16:57:46

银河麒麟高级服务器操作系统在线调整/pro/{PID}/limits文件中nofile的软限制和硬限制参数值操作方法

银河麒麟高级服务器操作系统在线调整/pro/{PID}/limits文件中nofile的软限制和硬限制参数值操作方法一系统环境二使用场景三操作步骤一系统环境 [rootlocalhost ~]# nkvers ############## Kylin Linux Version ################# Release: Kylin Linux Advanced Server…...

编程日记 2025/2/28 16:48:31

html css js网页制作成品——HTML+CSS甜品店网页设计（5页）附源码

目录一、👨‍🎓网站题目二、✍️网站描述三、📚网站介绍四、🌐网站效果五、🪓 代码实现 🧱HTML 六、🥇 如何让学习不再盲目七、🎁更多干货一、👨‍&#x1f…...

编程日记 2025/2/28 16:44:24

Open WebUI项目源码学习记录（从0开始基于纯CPU环境部署一个网页Chat服务）

感谢您点开这篇文章:D，鼠鼠我是一个代码小白，下文是学习开源项目Open WebUI过程中的一点笔记记录，希望能帮助到你～ 本人菜鸟，持续成长，能力不足有疏漏的地方欢迎一起探讨指正，比心心&#xff5e…...

编程日记 2025/2/28 16:41:20

【Python 入门基础】—— 人工智能“超级引擎”，AI界的“瑞士军刀”，

欢迎来到ZyyOvO的博客✨，一个关于探索技术的角落，记录学习的点滴📖，分享实用的技巧🛠️，偶尔还有一些奇思妙想💡 本文由ZyyOvO原创✍️，感谢支持❤️！请尊重原创&#x1…...

编程日记 2025/2/28 16:40:18

CVPR 2025 MIMO: 支持视觉指代和像素grounding 的医学视觉语言模型

CVPR 2025 | MIMO：支持视觉指代和像素对齐的医学视觉语言模型论文信息标题：MIMO: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output作者：Yanyuan Chen, Dexuan Xu, Yu Hu…...

编程新知 2025/10/6 14:17:21

基于服务器使用 apt 安装、配置 Nginx

🧾 一、查看可安装的 Nginx 版本首先，你可以运行以下命令查看可用版本： apt-cache madison nginx-core输出示例： nginx-core | 1.18.0-6ubuntu14.6 | http://archive.ubuntu.com/ubuntu focal-updates/main amd64 Packages ng…...

编程新知 2026/1/9 12:53:59

Python爬虫实战：研究feedparser库相关技术

1. 引言 1.1 研究背景与意义在当今信息爆炸的时代，互联网上存在着海量的信息资源。RSS（Really Simple Syndication）作为一种标准化的信息聚合技术，被广泛用于网站内容的发布和订阅。通过 RSS，用户可以方便地获取网站更新的内容，而无需频繁访问各个网站。然而，互联网…...

编程新知 2025/8/18 9:54:31

C# 类和继承(抽象类)

抽象类抽象类是指设计为被继承的类。抽象类只能被用作其他类的基类。不能创建抽象类的实例。抽象类使用abstract修饰符声明。抽象类可以包含抽象成员或普通的非抽象成员。抽象类的成员可以是抽象成员和普通带实现的成员的任意组合。抽象类自己可以派生自另一个抽象类。例…...

编程新知 2026/1/29 16:25:24

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/9/24 3:05:06

Hive 存储格式深度解析：从 TextFile 到 ORC，如何选对数据存储方案？

在大数据处理领域，Hive 作为 Hadoop 生态中重要的数据仓库工具，其存储格式的选择直接影响数据存储成本、查询效率和计算资源消耗。面对 TextFile、SequenceFile、Parquet、RCFile、ORC 等多种存储格式，很多开发者常常陷入选择困境。本文将从底…...

编程新知 2025/12/6 10:54:35

Windows安装Miniconda

一、下载 https://www.anaconda.com/download/success 二、安装三、配置镜像源 Anaconda/Miniconda pip 配置清华镜像源_anaconda配置清华源-CSDN博客四、常用操作命令 Anaconda/Miniconda 基本操作命令_miniconda创建环境命令-CSDN博客...

编程新知 2026/1/31 7:39:20

day36-多路IO复用

一、基本概念 （服务器多客户端模型） 定义：单线程或单进程同时监测若干个文件描述符是否可以执行IO操作的能力作用：应用程序通常需要处理来自多条事件流中的事件，比如我现在用的电脑，需要同时处理键盘鼠标…...

编程新知 2026/1/31 7:42:50

go 里面的指针

指针在 Go 中，指针（pointer）是一个变量的内存地址，就像 C 语言那样： a : 10 p : &a // p 是一个指向 a 的指针 fmt.Println(*p) // 输出 10，通过指针解引用• &a 表示获取变量 a 的地址 p 表示…...

编程新知 2025/8/18 12:09:07

SQL Server 触发器调用存储过程实现发送 HTTP 请求

文章目录需求分析解决第 1 步：前置条件，启用 OLE 自动化方式 1：使用 SQL 实现启用 OLE 自动化方式 2：Sql Server 2005启动OLE自动化方式 3：Sql Server 2008启动OLE自动化第 2 步：创建存储过程第 3 步：创建触发器扩展 - 如何调试？第 1 步：登录 SQL Server 2008第 2 步…...

编程新知 2025/9/11 6:56:11

DeepSeek R1 训练策略解析

DeepSeek R1 训练策略解析

1. 冷启动监督微调（Cold Start SFT）

该阶段的主要目标：

2. 面向推理的强化学习（RL for Reasoning）

该阶段的主要目标：

3. 拒绝采样和监督微调（Rejection Sampling & SFT）

该阶段的主要目标：

4. 面向全部场景的强化学习（RL for All Scenarios）

该阶段的主要目标：

总结：DeepSeek R1 训练策略的价值

相关文章：