当前位置: 首页 > article >正文

白话DeepSeek-R1论文(二)| DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!

最近有不少朋友来询问Deepseek的核心技术,今天开始陆续针对DeepSeek-R1论文中的核心内容进行解读,并且用大家都能听懂的方式来解读。这是第二篇趣味解读。

DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!

还记得我们上次聊到的 DeepSeek-R1-Zero 吗? 那位纯靠“强化学习”就顿悟推理技能的 AI 奇才,是不是让你眼前一亮? 但就像 “偏科” 的天才,R1-Zero 虽然推理能力惊艳,但在实际应用中还有些“小瑕疵”,比如说话有点“口齿不清”(语言混合),推理过程也像个“黑箱”,让人摸不着头脑。

为了让这位“推理天才”更实用、更接地气,DeepSeek 团队又推出了它的“升级版” —— DeepSeek-R1! 这次,R1 不再是“闭门苦修”,而是“内外兼修”,就像学生从“自学”走向“系统学习”,能力更全面,表现更出色!

R1 的 “升级秘籍”: 冷启动数据 + 多阶段训练

如果说 R1-Zero 是“野蛮生长”,那么 R1 就是“精雕细琢”。 为了让 R1 更好用,研究人员给它准备了 “冷启动数据”,就像给孩子 “打好基础”,还设计了 “多阶段训练”,让它一步一个脚印,稳扎稳打地提升能力。

1. “冷启动数据”: 老师傅带入门,起跑线就领先!

想象一下,你想学一门新技能,是自己摸索着来,还是先找个老师傅带你入门? 肯定是有老师傅指导,上手更快,方向更准! DeepSeek-R1 的 “冷启动数据” 就相当于这位 “老师傅”。

研究人员精心准备了 少量但高质量的数据,里面包含了 人类专家编写的“思考链条”(CoT)样本。 这些样本就像“教科书”里的例题,一步步展示了如何进行高质量的推理。 通过学习这些 “例题”,R1 就好像 提前获得了推理的 “正确姿势”,不再像 R1-Zero 那样完全 “盲人摸象” 了。

举个例子: 就像教 AI 解数学题, “冷启动数据” 会告诉它: “遇到几何题,先画图;遇到应用题,先分析题意…” 这些都是人类总结出来的宝贵经验,能帮助 AI 更快地理解和掌握推理的 “套路”。

2. “多阶段训练”: 循序渐进,步步为营,打造全能 AI

光有 “入门指导” 还不够,想要成为高手,还需要系统地训练! DeepSeek-R1 采用了 “多阶段训练” 策略,就像学生要经历小学、中学、大学等不同阶段的学习,逐步提升能力。 R1 的训练过程也分为四个阶段:

  • 阶段一: “打基础” - 冷启动 SFT

    这个阶段就像 小学阶段,目标是 “入门”。 R1 使用前面提到的 “冷启动数据”,通过 监督微调 (SFT) 的方式,让模型 初步具备推理能力,并且让它的回答更流畅易懂。 就像小学生先学习基础的加减乘除和简单的语言表达。

  • 阶段二: “攻难题” - 推理导向的 RL

    进入 中学阶段,就要开始 “攻克难题” 了! 这个阶段,R1 沿用了 R1-Zero 的 强化学习 (RL) 方法,但更加 专注于提升数学、代码、科学、逻辑推理等核心能力。 同时,还加入了 “语言一致性奖励”,就像老师 “纠正发音”, 减少 R1-Zero 出现的 “语言混合” 问题,让它说更 “地道” 的话。

    举个例子: 这个阶段就像让 AI 大量刷 “奥数题”、“编程题” 和 “科学难题”, 并根据答案的正确性获得奖励, 从而不断提升解题能力。 同时,如果它在中文回答中突然冒出英文单词,就会受到 “惩罚”, 促使它使用更纯粹的中文。

  • 阶段三: “扩知识面” - 拒绝采样 + SFT

    到了 大学阶段,就要 “拓展知识面”, 学习更广泛的知识了! 这个阶段,R1 利用 阶段二训练出的模型,自己生成了 海量的推理训练样本 (约 60 万个)。 这就像让学霸自己出题给自己做,进一步巩固和提升推理能力。 同时,还加入了 约 20 万个非推理数据 (例如写作、问答等), 让 R1 不仅会 “解题”,还会 “写文章”、“回答问题”, 成为 “通才”

    “拒绝采样” 是一种筛选机制,就像 “优中选优”, 模型会生成很多答案,然后挑选出质量更高的答案进行学习, 从而提高训练效率。

  • 阶段四: “全面发展” - 全场景 RL

    最后,进入 “工作实习” 阶段, 要让 R1 “全面发展”,适应各种真实场景的需求! 这个阶段,R1 使用 更多样化的奖励信号 (推理任务用 “规则奖励”,通用任务用 “人类偏好奖励”) 和 更多样化的提示,进行强化学习训练。 目标是让 R1 不仅 推理能力强,还 “有用” (helpful) 且 “无害” (harmless), 真正成为一个可靠的 AI 助手。

    “人类偏好奖励” 就像让用户来 “打分”, 告诉 AI 哪些回答更符合人类的喜好, 哪些回答不够好, 从而让 AI 更懂 “人话”, 更贴近用户需求。

R1 的 “成绩单”: 实力全面提升,堪称 “学霸” !

经过 “冷启动数据” + “多阶段训练” 的 “魔鬼训练”, DeepSeek-R1 的能力实现了质的飞跃! 在各种 “考试” 中都取得了令人瞩目的成绩:

  • 推理能力更上一层楼:AIME 2024 数学竞赛中,R1 的 pass@1 得分高达 79.8%, 甚至 略超 OpenAI 最新的模型 gpt-4-0125! 在更难的 MATH-500 数据集上,也达到了 97.3% 的 pass@1 得分, 与 gpt-4-0125 持平! 这证明 R1 的数学推理能力已经达到了 世界顶尖水平

  • 代码能力突飞猛进:Codeforces 代码竞赛 中,R1 的表现 超越了 96.3% 的人类参赛者! 这意味着 R1 不仅能 “理解” 代码,还能 “创造” 代码, 解决复杂的编程问题!

  • 知识面更广,更 “博学”:MMLU、GPQA Diamond 等知识类任务中,R1 也表现出色, 说明它掌握了 更广泛的知识领域, 能够回答各种各样的问题。

  • 开放生成能力更强,更 “会说话”:AlpacaEval 2.0 和 ArenaHard 等开放式生成任务中,R1 也取得了显著提升, 这意味着它的 语言表达能力更强, 能生成更流畅、更自然的文本, 更像一个 “真人” 在和你交流。

总结: DeepSeek-R1, 从 “推理天才” 到 “全能学霸” 的华丽转身!

DeepSeek-R1 的出现, 再次证明了人工智能技术的巨大潜力。 它不仅继承了 R1-Zero 强大的推理能力, 还通过 “冷启动数据” 和 “多阶段训练” 等创新方法, 弥补了之前的不足, 实现了 能力上的 “全面开花”。 它就像一位 从 “偏科天才” 成长为 “全能学霸” 的学生, 不仅擅长 “解难题”, 还能 “写作文”、“搞科研”, 真正具备了在各种场景下 服务人类的能力

点赞并关注“明哲AI”,持续学习和更新AI知识!

相关文章:

白话DeepSeek-R1论文(二)| DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”!

最近有不少朋友来询问Deepseek的核心技术,今天开始陆续针对DeepSeek-R1论文中的核心内容进行解读,并且用大家都能听懂的方式来解读。这是第二篇趣味解读。 DeepSeek-R1:AI “升级打怪”,从“自学成才”到“全面发展”&#xff01…...

linux设置mysql远程连接

首先保证服务器开放了mysql的端口 然后输入 mysql -u root -p 输入密码后即可进入mysql 然后再 use mysql; select user,host from user; update user set host"%" where user"root"; flush privileges; 再执行 select user,host from user; 即可看到变…...

并发模式:驾驭多线程的艺术

并发模式:驾驭多线程的艺术 在并发编程中,不同的任务之间需要协作和通信,才能高效地完成工作。为了更好地组织和管理并发任务,软件工程师们总结出了一些经典的并发模式,例如生产者-消费者模式、发布-订阅模式等。本文将深入探讨这些常见的并发模式,并结合实例进行讲解,…...

Gurobi基础语法之 addConstr, addConstrs, addQConstr, addMQConstr

在新版本的 Gurobi 中,向 addConstr 这个方法中传入一个 TempConstr 对象,在模型中就会根据这个对象生成一个约束。更重要的是:TempConstr 对象可以传给所有addConstr系列方法,所以下面先介绍 TempConstr 对象 TempConstr TempC…...

va_list/va_start/va_end/var_arg可变参数的使用

个人随笔 (Owed by: 春夜喜雨 http://blog.csdn.net/chunyexiyu) 做日志打印或其它可变参数处理时,通常我们会想到使用va_list/va_start/va_end做可变参数的收集和处理。使用这种方式处理可变参数比较通用,同时适用于c与c中。 1. 关于va_list的理解 v…...

【linux网络(4)】传输层协议详解(上)

目录 前言1. UDP协议报文详解2. TCP协议的报文格式3. TCP的确认应答机制4. TCP的连接管理机制1. TCP三次握手的过程2. TCP四次挥手的过程 5. 总结 前言 上一篇文章介绍了应用层中最重要的http协议,本篇文章将讲解传输层的两个协议: TCP和UDP. 由于UDP是一种简洁的协…...

【Docker】dockerfile识别当前构建的镜像平台

在编写dockerfile的时候,可能会遇到需要针对不同平台进行不同操作的时候,这需要我们对dockerfile进行针对性修改。 比如opencv的依赖项libjasper-dev在ubuntu18.04上就需要根据不同的平台做不同的处理,关于这个库的安装在另外一篇博客里面有…...

【esp32-uniapp】uniapp小程序篇02——引入组件库

一、引入组件库(可自行选择其他组件库) 接下来介绍colorUI、uview plus的安装,其他的安装可自行查找教程 1.colorUI weilanwl/coloruicss: 鲜亮的高饱和色彩,专注视觉的小程序组件库 下载之后解压,将\coloruicss-ma…...

使用C# 如何获取本机连接的WIFI名称[C# ---1]

前言 楼主最近在写一个WLAN上位机,遇到了使用C#查询SSID 的问题。CSDN上很多文章都比较老了,而且代码过于复杂。楼主自己想了一个使用CMD来获得SSID的方法 C#本身是没有获得WINDOWS网路信息的能力,必须要用系统API,WMI什么的&…...

机器学习优化算法:从梯度下降到Adam及其实验改进

机器学习优化算法:从梯度下降到Adam及其实验改进 在机器学习和深度学习领域,模型的训练过程本质上是一个优化问题。优化算法的作用是通过调整模型参数,使得模型在给定的数据 集上实现最优性能。而优化算法的效率和效果直接决定了模型的收敛速度和最终表现。 一、优化算法的…...

K8s 中 Ingress-Nginx 结合负载均衡器(Ingress nginx combined with load balancer)

K8s 中 Ingress-Nginx 结合负载均衡器(LB)的部署全解析 在 K8s的世界里,有效地管理和路由进入集群的外部流量是至关重要的。Ingress-Nginx 作为一款强大的 Ingress 控制器,搭配负载均衡器(LB),…...

MATLAB中savefig函数用法

目录 语法 说明 示例 将当前图窗保存到 FIG 文件 将多个图窗保存到 FIG 文件 使用 compact 选项保存图窗 savefig函数的功能是将图窗和内容保存到 FIG 文件。 语法 savefig(filename) savefig(H,filename) savefig(H,filename,compact) 说明 savefig(filename) 将当前…...

Windows系统中Docker可视化工具对比分析,Docker Desktop,Portainer,Rancher

Docker可视化工具对比分析,Docker Desktop,Portainer,Rancher Windows系统中Docker可视化工具对比分析1. 工具概览2. Docker Desktop官网链接:主要优点:主要缺点:版本更新频率: 3. Portainer官网…...

创业项目怎么找?

寻找创业项目需要系统的方法和策略,以下是一些有效的途径和方法,帮助你找到合适的创业项目: 1. 从自身出发 兴趣爱好:选择自己感兴趣的领域,更容易坚持并投入热情。例如,如果你对网络购物感兴趣&#xff0…...

【机器学习】自定义数据集,使用scikit-learn 中K均值包 进行聚类

一、K 均值算法简介 K 均值算法的目标是将数据集划分为 K 个簇,使得每个数据点属于离它最近的簇中心(centroid)所代表的簇。 K均值聚类算法步骤 ① 初始化: 随机选择原始数据的K个数据点作为初始质心(聚类中心&…...

RocketMQ 系列文章

目录 使用RocketMQ 的业务系统怎么处理消息的重试? 使用RocketMQ 的业务系统怎么保证消息处理的幂等性? 使用RocketMQ 的业务系统怎么处理消息的积压? RocketMQ 怎么保证消息的可靠性? RocketMQ 怎么保证消息的顺序性的? RocketMQ 的 Topic 和消息队列MessageQueue信…...

进阶数据结构——高精度运算

目录 前言一、高精度运算的定义与背景二、高精度运算的实现方式三、高精度运算的算法实现四、高精度运算的应用场景五、代码模版(c)六、经典例题1.[高精度加法](https://www.lanqiao.cn/problems/1516/learning/?page1&first_category_id1&name…...

42【语言的编码架构】

不同语言采用的编码架构不一样 火山采用:UTF-16 易语言采用:GBK php采用:UTF-8 这个编码架构指的就是文本所代表的字节集,比如易语言中“你好”表示的就是{196,227,186,195} 窗口程序集名保 留 保 留备 注窗口程序集_启动窗口 …...

设计模式Python版 原型模式

文章目录 前言一、原型模式二、原型模式示例三、原型管理器 前言 GOF设计模式分三大类: 创建型模式:关注对象的创建过程,包括单例模式、简单工厂模式、工厂方法模式、抽象工厂模式、原型模式和建造者模式。结构型模式:关注类和对…...

用 JavaScript 打造交互式表格:添加与删除行功能

前言 在网页开发中,创建交互式表格是很常见的。今天我们通过一个示例,来展示如何使用 HTML、CSS 和 JavaScript 实现一个能够动态添加和删除行的表格,并详细解释其中 JavaScript 部分的代码逻辑。 功能展示 初始状态:页面加载后…...

Linux02——Linux的基本命令

目录 ls 常用选项及功能 综合示例 注意事项 cd和pwd命令 cd命令 pwd命令 相对路径、绝对路径和特殊路径符 特殊路径符号 mkdir命令 1. 功能与基本用法 2. 示例 3. 语法与参数 4. -p选项 touch-cat-more命令 1. touch命令 2. cat命令 3. more命令 cp-mv-rm命…...

服务器虚拟化实战:架构、技术与最佳实践

📝个人主页🌹:一ge科研小菜鸡-CSDN博客 🌹🌹期待您的关注 🌹🌹 1. 引言 服务器虚拟化是现代 IT 基础设施的重要组成部分,通过虚拟化技术可以提高服务器资源利用率、降低硬件成本&am…...

.Net WebAPI -[HttpPut(“{fileServiceId:int}“)]

[HttpPut("{fileServiceId:int}")] 这个写法是 ASP.NET Core 中的一个路由特性,用于定义一个 HTTP PUT 请求的路由,并指定路由参数的类型。 解析 HttpPut [HttpPut]: 这是一个 ASP.NET Core 的路由特性,用于标记一个方…...

AI大模型开发原理篇-1:语言模型雏形之N-Gram模型

N-Gram模型概念 N-Gram模型是一种基于统计的语言模型,用于预测文本中某个词语的出现概率。它通过分析一个词语序列中前面N-1个词的出现频率来预测下一个词的出现。具体来说,N-Gram模型通过将文本切分为长度为N的词序列来进行建模。 注意:这…...

[250201] isd v0.3.0 发布:全新快捷键逻辑及其他改进 | Puma 6.6.0 版本发布

目录 isd v0.3.0 发布:全新快捷键逻辑及其他改进Puma 6.6.0 版本发布🆕 新特性🛠️Bug 修复💪 性能改进🔄 代码重构 isd v0.3.0 发布:全新快捷键逻辑及其他改进 isd (Interactive Systemd) 是一款文本用户…...

修改题注标签

为了防止原博主删帖,故转到自己账号中,出处如下 转载:(152条消息) 修改题注标签_Z_shsf的博客-CSDN博客_seq图arabic怎么解决 问题:论文中存在 标签图1- 和标签图 ,如何合并两种标签 成为图 并一起计数 按 AltF9 查…...

pytorch实现循环神经网络

人工智能例子汇总:AI常见的算法和例子-CSDN博客 PyTorch 提供三种主要的 RNN 变体: nn.RNN:最基本的循环神经网络,适用于短时依赖任务。nn.LSTM:长短时记忆网络,适用于长序列数据,能有效解决…...

Python从零构建macOS状态栏应用(仿ollama)并集成AI同款流式聊天 API 服务(含打包为独立应用)

在本教程中,我们将一步步构建一个 macOS 状态栏应用程序,并集成一个 Flask 服务器,提供流式响应的 API 服务。 如果你手中正好持有一台 MacBook Pro,又怀揣着搭建 AI 聊天服务的想法,却不知从何处迈出第一步,那么这篇文章绝对是你的及时雨。 最终,我们将实现以下功能: …...

leetcode 2080. 区间内查询数字的频率

题目如下 数据范围 示例 这题十分有意思一开始我想对每个子数组排序二分结果超时了。 转换思路:我们可以提前把每个数字出现的位置先记录下来形成集合, 然后拿着left和right利用二分查找看看left和right是不是在集合里然后做一个相减就出答案了。通过…...

深入了解 SSRF 漏洞:原理、条件、危害

目录 前言 SSRF 原理 漏洞产生原因 产生条件 使用协议 使用函数 漏洞影响 防御措施 结语 前言 本文将深入剖析 SSRF(服务端请求伪造)漏洞,从原理、产生原因、条件、影响,到防御措施,为你全面梳理相关知识&am…...