当前位置：首页 > news >正文

【AI学习】关于 DeepSeek-R1的几个流程图

news 2026/2/8 17:06:38

遇见关于DeepSeek-R1的几个流程图，清晰易懂形象直观，记录于此。

流程图一

来自文章《Understanding Reasoning LLMs》，
文章链接：https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlag=af07b1a0954d90469bc6f6584075da3b

在这里插入图片描述
《以 DeepSeek R1 为例学习“推理型大语言模型》是翻译版。摘录其中对流程的描述：

DeepSeek-R1-Zero
该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习（RL）训练，并使用了两类奖励作为回报信号。由于没有进行监督微调（SFT），也就是常见“RLHF”流程中的 SFT 步骤被跳过，所以他们把这称为“冷启动”的方式（Cold Start）。
DeepSeek-R1
这是 DeepSeek 的主力推理模型，也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成，性能优于“冷启动”的 R1-Zero。
DeepSeek-R1-Distill
他们还用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型，以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”，但并不是传统意义上的知识蒸馏，更像是用大模型的输出数据去监督微调（SFT）小模型（包括 Llama 8B 和 70B，以及 Qwen 1.5B–30B）。

流程图二

下面的流程图非常详细，出处不详
在这里插入图片描述

Hugging Face的复刻流程图

Hugging Face推出Open R1，这是对DeepSeek-R1的开源复现项目，复刻流程如下：
在这里插入图片描述

图解DeepSeek-R1

来自@爱可可-爱生活
【一图解读DeepSeek-R1】
穿越DeepSeek的技术进化史，让我们看到了一个令人振奋的AI发展轨迹：从无监督起步，到结构化优化，再到轻量级蒸馏，每一步都彰显着AI大众化的曙光。
DeepSeek-R1-Zero像个天赋异禀的孩子，通过GRPO这个高效的强化学习框架，自主掌握了思考的艺术。它展现出自反思和结构化思维的能力，虽然初期表达还略显生涩，但这正是“会走”之前必经的阶段。
随后，DeepSeek-R1借助精心设计的Chain-of-Thought数据集进行“冷启动”训练，就像接受了系统的教育，不仅改善了表达，更习得了清晰的推理步骤。通过强化学习和巧妙的奖励机制，它在数学、编程等领域的表现更趋近人类思维。
最令人瞩目的是蒸馏技术的突破它让我们看到了AI普及的希望。就像优秀导师能让学生青出于蓝，DeepSeek团队成功将大模型的智慧浓缩进更小的架构（如Qwen-7B和Llama-8B），几乎不损失性能。这意味着，高质量的AI助手将可以运行在更普及的设备上，真正服务于图书推荐、在线辅导等实际应用场景。
在这里插入图片描述

通俗解读 DeepSeek-R1 训练过程

在这里插入图片描述

来自@爱可可-爱生活
【通俗解读 DeepSeek-R1 训练过程】
DeepSeek-R1 通过创新性地结合强化学习和监督学习，以低成本实现了与现有顶尖模型相当的推理能力，挑战了传统AI训练范式，并引发了对GPU市场未来需求的重新思考。

DeepSeek-R1的成本效益挑战英伟达的霸权地位： DeepSeek-R1 即使GPU资源有限，也能以极低的成本达到与OpenAI模型相当的性能，导致英伟达股价大幅下跌。这挑战了以往认为大规模GPU资源对于高级AI开发至关重要的传统观点。
杰文斯悖论与GPU需求的未来：文章探讨了杰文斯悖论的适用性，认为AI训练效率的提高可能导致GPU的整体需求增加，而不是减少。然而，文章也提出了反驳意见，认为转向微调和开源模型可能会降低对高端GPU的需求。
DeepSeek-R1非常规的训练方法： DeepSeek-R1采用了一种与传统的监督微调方法不同的新训练方法。它广泛利用强化学习（RL），首先使用DeepSeek-R1-Zero（纯RL），然后结合RL和监督微调的多阶段过程进行改进。
DeepSeek-R1-Zero：用于推理的纯强化学习： DeepSeek-R1-Zero作为DeepSeek-R1的前身，展示了纯强化学习在增强LLM推理能力方面的潜力，在各种基准测试中取得了最先进的（SOTA）性能。这与直觉相反，因为强化学习通常被认为在这种用途上不如监督学习有效。
DeepSeek-R1的多阶段训练过程： DeepSeek-R1的训练包括多阶段过程：冷启动微调以提高可读性，面向推理的强化学习，使用合成和非推理数据集进行微调，最后是结合人类偏好的强化学习。这种分层方法对模型的成功至关重要。
强化学习在推理中的局限性：作者对RL在提高一般推理能力方面的无限潜力表示怀疑，认为它可能主要增强对推理模式的记忆，而不是真正的理解。这意味着仅通过强化学习所能实现的性能提升可能存在上限。
通过强化学习生成合成数据集：一个关键创新是利用强化学习训练的模型生成大型合成推理数据集，然后用于监督微调。这巧妙地利用了RL和监督学习的优势。

思考：

强化学习的潜力与局限: 强化学习在特定任务上的高效性令人印象深刻，但其在通用推理能力上的提升可能存在瓶颈，需要结合其他方法才能发挥最大效用。
数据合成与模型训练: 利用强化学习模型生成合成数据，再结合监督学习进行微调，是一种值得借鉴的有效策略，可以降低数据标注成本并提升模型性能。
多阶段训练的价值: DeepSeek-R1的多阶段训练过程体现了模型训练策略的复杂性和精细化，这对于构建高性能模型至关重要。

‘The Layman’s Introduction to DeepSeek-R1 Training’
medium.com/thoughts-on-machine-learning/the-laymans-introduction-to-deepseek-r1-training-80d8ff7a887d

【AI学习】关于 DeepSeek-R1的几个流程图

流程图一

流程图二

Hugging Face的复刻流程图

图解DeepSeek-R1

通俗解读 DeepSeek-R1 训练过程

相关文章：

【AI学习】关于 DeepSeek-R1的几个流程图

C++ ——从C到C++

【图片转换PDF】多个文件夹里图片逐个批量转换成多个pdf软件，子文件夹单独合并转换，子文件夹单独批量转换，基于Py的解决方案

前端学习之Flex布局

游戏引擎学习第97天

Mysql中存储引擎各种介绍以及应用场景、优缺点

PHP 运算符

Vue全流程--Vue3.0与Vue2.0响应式原理对比

C语言学习笔记：子函数的调用实现各个位的累加和

【大模型】本地部署DeepSeek-R1:8b大模型及搭建Open-WebUI交互页面

Python 调用 Stabilityai API在本地生成图像

Python3中异常处理：try-finally语句的示例

Lua限流器的3种写法

基于 GEE 利用插值方法填补缺失影像

linux部署ollama+deepseek+dify

在微服务中，如何使用feign在各个微服务中进行远程调用

Kafka中的KRaft算法

vue3 -- 集成 amap（高德地图）

基于用户的协同过滤算法推荐

4.python+flask+SQLAlchemy+达梦数据库

铭豹扩展坞 USB转网口突然无法识别解决方法

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

Flask RESTful 示例

简易版抽奖活动的设计技术方案

VB.net复制Ntag213卡写入UID

汽车生产虚拟实训中的技能提升与生产优化

自然语言处理——Transformer

select、poll、epoll 与 Reactor 模式

【JavaWeb】Docker项目部署

dify打造数据可视化图表