当前位置: 首页 > article >正文

【AI学习】关于 DeepSeek-R1的几个流程图

遇见关于DeepSeek-R1的几个流程图,清晰易懂形象直观,记录于此。

流程图一

来自文章《Understanding Reasoning LLMs》,
文章链接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlag=af07b1a0954d90469bc6f6584075da3b

在这里插入图片描述
《以 DeepSeek R1 为例学习“推理型大语言模型》是翻译版。摘录其中对流程的描述:

  1. DeepSeek-R1-Zero
    该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习(RL)训练,并使用了两类奖励作为回报信号。由于没有进行监督微调(SFT),也就是常见“RLHF”流程中的 SFT 步骤被跳过,所以他们把这称为“冷启动”的方式(Cold Start)。
  2. DeepSeek-R1
    这是 DeepSeek 的主力推理模型,也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成,性能优于“冷启动”的 R1-Zero。
  3. DeepSeek-R1-Distill
    他们还用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型,以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”,但并不是传统意义上的知识蒸馏,更像是用大模型的输出数据去监督微调(SFT)小模型(包括 Llama 8B 和 70B,以及 Qwen 1.5B–30B)。

流程图二

下面的流程图非常详细,出处不详
在这里插入图片描述

Hugging Face的复刻流程图

Hugging Face推出Open R1,这是对DeepSeek-R1的开源复现项目,复刻流程如下:
在这里插入图片描述

图解DeepSeek-R1

来自@爱可可-爱生活
【一图解读DeepSeek-R1】
穿越DeepSeek的技术进化史,让我们看到了一个令人振奋的AI发展轨迹:从无监督起步,到结构化优化,再到轻量级蒸馏,每一步都彰显着AI大众化的曙光。
DeepSeek-R1-Zero像个天赋异禀的孩子,通过GRPO这个高效的强化学习框架,自主掌握了思考的艺术。它展现出自反思和结构化思维的能力,虽然初期表达还略显生涩,但这正是“会走”之前必经的阶段。
随后,DeepSeek-R1借助精心设计的Chain-of-Thought数据集进行“冷启动”训练,就像接受了系统的教育,不仅改善了表达,更习得了清晰的推理步骤。通过强化学习和巧妙的奖励机制,它在数学、编程等领域的表现更趋近人类思维。
最令人瞩目的是蒸馏技术的突破它让我们看到了AI普及的希望。就像优秀导师能让学生青出于蓝,DeepSeek团队成功将大模型的智慧浓缩进更小的架构(如Qwen-7B和Llama-8B),几乎不损失性能。这意味着,高质量的AI助手将可以运行在更普及的设备上,真正服务于图书推荐、在线辅导等实际应用场景。
在这里插入图片描述

通俗解读 DeepSeek-R1 训练过程

在这里插入图片描述

来自@爱可可-爱生活
【通俗解读 DeepSeek-R1 训练过程】
DeepSeek-R1 通过创新性地结合强化学习和监督学习,以低成本实现了与现有顶尖模型相当的推理能力,挑战了传统AI训练范式,并引发了对GPU市场未来需求的重新思考。

  • DeepSeek-R1的成本效益挑战英伟达的霸权地位: DeepSeek-R1 即使GPU资源有限,也能以极低的成本达到与OpenAI模型相当的性能,导致英伟达股价大幅下跌。这挑战了以往认为大规模GPU资源对于高级AI开发至关重要的传统观点。
  • 杰文斯悖论与GPU需求的未来: 文章探讨了杰文斯悖论的适用性,认为AI训练效率的提高可能导致GPU的整体需求增加,而不是减少。然而,文章也提出了反驳意见,认为转向微调和开源模型可能会降低对高端GPU的需求。
  • DeepSeek-R1非常规的训练方法: DeepSeek-R1采用了一种与传统的监督微调方法不同的新训练方法。它广泛利用强化学习(RL),首先使用DeepSeek-R1-Zero(纯RL),然后结合RL和监督微调的多阶段过程进行改进。
  • DeepSeek-R1-Zero:用于推理的纯强化学习: DeepSeek-R1-Zero作为DeepSeek-R1的前身,展示了纯强化学习在增强LLM推理能力方面的潜力,在各种基准测试中取得了最先进的(SOTA)性能。这与直觉相反,因为强化学习通常被认为在这种用途上不如监督学习有效。
  • DeepSeek-R1的多阶段训练过程: DeepSeek-R1的训练包括多阶段过程:冷启动微调以提高可读性,面向推理的强化学习,使用合成和非推理数据集进行微调,最后是结合人类偏好的强化学习。这种分层方法对模型的成功至关重要。
  • 强化学习在推理中的局限性: 作者对RL在提高一般推理能力方面的无限潜力表示怀疑,认为它可能主要增强对推理模式的记忆,而不是真正的理解。这意味着仅通过强化学习所能实现的性能提升可能存在上限。
  • 通过强化学习生成合成数据集: 一个关键创新是利用强化学习训练的模型生成大型合成推理数据集,然后用于监督微调。这巧妙地利用了RL和监督学习的优势。

思考:

  • 强化学习的潜力与局限: 强化学习在特定任务上的高效性令人印象深刻,但其在通用推理能力上的提升可能存在瓶颈,需要结合其他方法才能发挥最大效用。
  • 数据合成与模型训练: 利用强化学习模型生成合成数据,再结合监督学习进行微调,是一种值得借鉴的有效策略,可以降低数据标注成本并提升模型性能。
  • 多阶段训练的价值: DeepSeek-R1的多阶段训练过程体现了模型训练策略的复杂性和精细化,这对于构建高性能模型至关重要。

‘The Layman’s Introduction to DeepSeek-R1 Training’
medium.com/thoughts-on-machine-learning/the-laymans-introduction-to-deepseek-r1-training-80d8ff7a887d

相关文章:

【AI学习】关于 DeepSeek-R1的几个流程图

遇见关于DeepSeek-R1的几个流程图,清晰易懂形象直观,记录于此。 流程图一 来自文章《Understanding Reasoning LLMs》, 文章链接:https://magazine.sebastianraschka.com/p/understanding-reasoning-llms?continueFlagaf07b1a0…...

C++模板编程——typelist的实现

文章最后给出了汇总的代码,可直接运行 1. typelist是什么 typelist是一种用来操作类型的容器。和我们所熟知的vector、list、deque类似,只不过typelist存储的不是变量,而是类型。 typelist简单来说就是一个类型容器,能够提供一…...

Python3 ImportError: cannot import name ‘XXX‘ from ‘XXX‘

个人博客地址&#xff1a;Python3 ImportError: cannot import name XXX from XXX | 一张假钞的真实世界 例如如下错误&#xff1a; $ python3 git.py Traceback (most recent call last):File "git.py", line 1, in <module>from git import RepoFile &quo…...

数据可视化与交互融合:APP 界面设计的新维度

在数字化浪潮汹涌的当下&#xff0c;APP 已成为人们生活和工作中不可或缺的工具。如何在众多 APP 中脱颖而出&#xff0c;界面设计至关重要。而数据可视化与交互的融合&#xff0c;正为 APP 界面设计开辟了全新的维度。 数据可视化&#xff0c;简单来说&#xff0c;就是将复杂…...

502 Bad Gateway 错误详解:从表现推测原因,逐步排查直至解决

502 Bad Gateway 错误通常意味着服务器之间的通信失败&#xff0c;但导致的具体原因往往因场景而异。 场景一&#xff1a;高峰期频繁出现 502 错误 1.1 现象 在流量高峰期间&#xff08;如促销活动、直播发布等&#xff09;&#xff0c;页面访问变慢甚至出现 502 错误&#…...

控制论与信息论:维纳和香农的核心分歧在于对「信息本质」的理解

控制论与信息论&#xff1a;维纳和香农的核心分歧在于对「信息本质」的理解 核心结论 控制论是「系统的方向盘」&#xff0c;通过反馈调节实现目标信息论是「信息的尺子」&#xff0c;量化信息传输的精度与效率根本分歧&#xff1a;维纳认为信息是「系统维持秩序的工具」&…...

Baklib优化数字化内容管理用科技提升商业效率与增值潜力

内容概要 在当今数字化迅速发展的时代&#xff0c;数字化内容管理已成为企业提升竞争力的重要手段。Baklib作为一款强大的智能优化内容管理系统&#xff0c;通过先进的科技手段&#xff0c;帮助企业在内容管理和数据整合方面实现高效运作。Baklib 是什么类型的工具&#xff0c…...

一个基于ESP32S3和INMP441麦克风实现音频强度控制RGB灯带律动的代码及效果展示

一个基于ESP32S3和INMP441麦克风实现音频强度控制RGB灯带律动的代码示例&#xff0c;使用Arduino语言&#xff1a; 硬件连接 INMP441 VCC → ESP32的3.3VINMP441 GND → ESP32的GNDINMP441 SCK → ESP32的GPIO 17INMP441 WS → ESP32的GPIO 18INMP441 SD → ESP32的GPIO 16RG…...

利用二分法进行 SQL 时间盲注

什么是时间盲注&#xff1f; SQL 盲注&#xff08;Blind SQL Injection&#xff09;是一种常见的 Web 安全漏洞&#xff0c;其中时间盲注是基于查询延迟的 SQL 注入方式。当服务器不返回可见的错误信息时&#xff0c;我们可以利用 SLEEP() 函数来判断查询结果是否符合预期。 …...

Linux运维——用户管理

Linux用户管理 一、Linux用户管理要点二、常用命令2.1、groupadd2.2、groupdel2.3、groupmod2.4、groups2.5、useradd2.6、userdel2.7、passwd2.9、su2.10、sudo2.10.1、给普通用户授权 sudo2.10.2、 免密码授权 sudo 一、Linux用户管理要点 创建用户组 - 使用 groupadd删除用…...

基于STM32的声纹识别智能门锁

一、项目背景与意义 行业痛点&#xff1a;传统指纹锁存在表皮磨损识别失败风险&#xff0c;声纹具备活体检测特性 技术优势&#xff1a; - 采用MFCC&#xff08;梅尔频率倒谱系数&#xff09;替代传统FFT&#xff0c;提升说话人特征区分度 - 动态时间规整(DTW)算法解决语…...

【密评】 | 商用密码应用安全性评估从业人员考核题库(19)

在SM9数字签名的生成和验证过程之前,杂凑函数( )。 A.仅对待签名消息进行压缩 B.仅对待验证消息进行压缩 C.对待签名消息和待验证消息都要压缩 D.不起任何作用 SM9密钥封装机制封装的秘密密钥是( )生成的。 A.根据主公钥 B.根据接受者的用户标识 C.由随机数发生器 D.以上都…...

redis底层数据结构——链表

文章目录 定义内部实现总结 定义 链表提供了高效的节点重排能力&#xff0c;以及顺序性的节点访间方式&#xff0c;并且可以通过增删节点来灵活地调整链表的长度。 作为一种常用数据结构&#xff0c;链表内置在很多高级的编程语言里面&#xff0c;因为Redis使用的C语言并没有…...

在CT107D单片机综合训练平台上实现外部中断控制LED闪烁

引言 在单片机开发中&#xff0c;外部中断是一个非常重要的功能&#xff0c;它可以让单片机在检测到外部信号变化时立即做出响应。本文将详细介绍如何在CT107D单片机综合训练平台上使用外部中断来控制LED灯的闪烁。我们将使用两种不同的方式来实现这一功能&#xff1a;一种是在…...

C++ Primer 类型转换

欢迎阅读我的 【CPrimer】专栏 专栏简介&#xff1a;本专栏主要面向C初学者&#xff0c;解释C的一些基本概念和基础语言特性&#xff0c;涉及C标准库的用法&#xff0c;面向对象特性&#xff0c;泛型特性高级用法。通过使用标准库中定义的抽象设施&#xff0c;使你更加适应高级…...

芋道源码(无遮羞布版)Spring Boot 全景指南

芋道源码&#xff08;无遮羞布版&#xff09;Spring Boot 全景指南 项目地址:https://gitcode.com/gh_mirrors/ru/ruoyi-spring-boot-all 一、项目目录结构及介绍 芋道源码&#xff08;ruoyi-spring-boot-all&#xff09;项目基于Spring Boot构建&#xff0c;旨在提供一个全…...

Visual Studio Code中文出现黄色框子的解决办法

Visual Studio Code中文出现黄色框子的解决办法 一、vsCode中文出现黄色框子-如图二、解决办法 一、vsCode中文出现黄色框子-如图 二、解决办法 点击 “文件”点击 “首选项”点击 “设置” 搜索框直接搜索unicode选择“文本编辑器”&#xff0c;往下滑动&#xff0c;找到“Un…...

“可通过HTTP获取远端WWW服务信息”漏洞修复

环境说明&#xff1a;①操作系统&#xff1a;windows server&#xff1b;②nginx&#xff1a;1.27.1。 1.漏洞说明 “可通过HTTP获取远端WWW服务信息”。 修复前&#xff0c;在“响应标头”能看到Server信息&#xff0c;如下图所示&#xff1a; 修复后&#xff0c;“响应标头…...

CAD 屏幕进度条

参考鸿视频实现&#xff0c;代码如下&#xff1a; 主类 using System.IO.Ports; using System.Threading; using System.Windows.Controls; using static IFoxDemo.进度条class; using static System.Windows.Forms.VisualStyles.VisualStyleElement.TrackBar;//[assembly: C…...

小红书爬虫: 获取所需数据

小红书&#xff0c;又名 “小红书 ”或简称 “红”&#xff0c;已迅速成为中国社交和电子商务领域的重要参与者&#xff0c;成为一个不可或缺的平台。对于企业、营销人员和数据分析师来说&#xff0c;从小红书收集数据可以获得宝贵的洞察力&#xff0c;从而推动业务增长。虽然这…...

使用sunshine和moonlight串流时的音频输出问题

设备&#xff1a;电脑和平板串流&#xff0c;把平板当副屏使用 1.如果启用安装steam音频驱动程序&#xff0c;则平板有声&#xff0c;电脑无声&#xff0c;在moonlight端可以设置平板和电脑同时发声&#xff0c;但是有点卡 2.只想电脑发声&#xff0c;平板无声 禁用安装steam…...

Java网络编程学习(一)

网络相关概念 网络体系结构 OSI体系结构&#xff08;七层&#xff09; OSI&#xff08;Open Systems Interconnection&#xff0c;开放系统互联&#xff09;体系结构将整个计算机网络分为七层&#xff0c;从上到下依次为&#xff1a;应用层、表示层、会话层、传输层、网络层…...

SMTP和POP3协议

SMTP和POP3协议 SMTP&#xff08;简单邮件传输协议&#xff09;和POP3&#xff08;邮局协议版本3&#xff09;是电子邮件系统中用于发送和接收邮件的核心协议。以下是它们的详细说明&#xff1a; 1. SMTP&#xff08;Simple Mail Transfer Protocol&#xff09; SMTP和POP3分…...

DeepSeek-R1的量化版、蒸馏版和满血版区别

DeepSeek-R1的量化版、蒸馏版和满血版是三种不同的模型变体&#xff0c;主要区别在于参数规模、性能表现以及适用场景。以下是它们的具体对比&#xff1a; 1. 满血版 DeepSeek-R1 特点&#xff1a; 参数规模&#xff1a;6710亿参数&#xff0c;是DeepSeek-R1系列中最大的版本…...

活动预告 |【Part 2】Microsoft 安全在线技术公开课:通过扩展检测和响应抵御威胁

课程介绍 通过 Microsoft Learn 免费参加 Microsoft 安全在线技术公开课&#xff0c;掌握创造新机遇所需的技能&#xff0c;加快对 Microsoft Cloud 技术的了解。参加我们举办的“通过扩展检测和响应抵御威胁”技术公开课活动&#xff0c;了解如何更好地在 Microsoft 365 Defen…...

网络工程师 (26)TCP/IP体系结构

一、层次 四层&#xff1a; 网络接口层&#xff1a;TCP/IP协议的最底层&#xff0c;负责网络层与硬件设备间的联系。该层协议非常多&#xff0c;包括逻辑链路和媒体访问控制&#xff0c;负责与物理传输的连接媒介打交道&#xff0c;主要功能是接收数据报&#xff0c;并把接收到…...

GIS笔记之Shapefile与KML相互转换

在GIS应用中&#xff0c;各种不同类型数据的转换与使用是一个重要的环节。在这其中&#xff0c;Shapefile和KML是两种常见的数据形式&#xff0c;两者间的相互转换也是日常工作和学习绕不开的话题。在这里&#xff0c;我们将常用的几种数据转换方法整理如下。 1.Shapefile和KM…...

【UVM】寄存器模型

寄存器模型的优势 sequence复用性高&#xff0c;方便对 DUT 中寄存器进行读写&#xff1b;提供了后门访问方式&#xff0c;可以不耗时的获取寄存器的值&#xff1b;可以很方便的对寄存器的 coverage 验证点的收集 寄存器模型基本概念 寄存器模型概念作用uvm_reg_field寄存器模…...

WordPress博客在fnOS环境下的极简搭建与公网地址配置指南

文章目录 前言1. Docker下载源设置2. Docker下载WordPress3. Docker部署Mysql数据库4. WordPress 参数设置5. 飞牛云安装Cpolar工具6. 固定Cpolar公网地址7. 修改WordPress配置文件8. 公网域名访问WordPress 前言 你是否曾经为搭建自己的网站而头疼不已&#xff1f;是不是觉得…...

计算机毕业设计SpringBoot校园二手交易小程序 校园二手交易平台(websocket消息推送+云存储+双端+数据统计)(源码+文档+运行视频+讲解视频)

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…...