【DeepSeek系列】05 DeepSeek核心算法改进点总结
文章目录
- 一、DeepSeek概要
- 二、4个重要改进点
- 2.1 多头潜在注意力
- 2.2 混合专家模型MoE
- 2.3 多Token预测
- 3.4 GRPO强化学习策略
- 三、2个重要思考
- 3.1 大规模强化学习
- 3.2 蒸馏方法:小模型也可以很强大
一、DeepSeek概要
2024年~2025年初,DeepSeek 相继推出了其推理大模型系列:DeepSeek-V2、DeepSeek-V3、DeepSeek-R1-Zero 和 DeepSeek-R1。由于其卓越的性能,以及超高的性价比,让DeepSeek在2025年初迅速风靡全球,被外媒称为“来自东方神秘的力量”。

二、4个重要改进点
2.1 多头潜在注意力
核心思想:通过低秩压缩技术,将Key和Value映射到一个低维的潜在空间,从而减少KV缓存的大小,显著提高了推理效率。
具体步骤:(优化注意力机制模块)
- 低秩压缩:将输入的隐藏状态通过一个下投影矩阵映射到低维的潜在空间,生成压缩后的潜在向量。
- 生成Key和Value:从潜在向量中通过上投影矩阵恢复出Key和Value。
- 应用RoPE:在生成的Key上应用旋转位置编码(RoPE),以保留位置信息。
- 计算注意力:将压缩后的Key和Value与查询(Query)结合,通过标准的注意力公式计算注意力输出。
- 输出:将注意力输出通过一个输出投影矩阵映射回原始维度。

2.2 混合专家模型MoE
核心思想:是一种基于混合专家(MoE)架构的前馈网络(FFN),其核心思想是,让不同的Token由不同的“专家”处理,大幅提升计算效率。它结合了负载均衡策略,旨在减少因负载均衡而导致的模型性能下降,同时保持高效的计算资源利用。
具体结构:
- 共享专家:模型中包含一定数量的共享专家,这些专家对所有token开放,适用于通用任务。
- 路由专家:每个token根据其输入动态选择一定数量的路由专家进行计算,专门处理某些类别的信息。
- Router:即路由,类似于门控,其决定哪些专家参与计算;每个token激活的路由专家数量由超参数控制,确保计算效率和负载均衡。

2.3 多Token预测
核心思想:扩展了传统的单Token预测任务,允许模型在每个位置预测多个未来的Token。这一方法提高了模型推理过程中的预测效率,同时也增强了模型对未来Token的预测能力。
具体步骤:
- 模块化设计:MTP通过多个模块实现,每个模块负责预测一个额外的Token。这些模块共享嵌入层和输出头,但各自包含一个Transformer块和一个投影矩阵。
- 因果链保持:在每个预测深度,MTP模块保持完整的因果链,确保预测的Token不会影响之前的预测。
- 训练目标:对于每个预测深度,MTP计算一个交叉熵损失,并将这些损失平均后乘以一个权重因子,作为整体的MTP损失。
- 推理优化:在推理阶段,MTP模块可以被丢弃,主模型可以独立运行,或者MTP模块可以用于推测解码以加速生成。

3.4 GRPO强化学习策略
核心思想:通过组内相对奖励来优化策略模型,而不是依赖传统的批评模型(critic model)。具体来说,GRPO 会在每个状态下采样一组动作,然后根据这些动作的相对表现来调整策略,而不是依赖一个单独的价值网络来估计每个动作的价值。
具体步骤:
- 采样动作组:对于每个输入提示,模型根据当前策略生成一组不同的输出。这些输出的多样性为后续的相对奖励计算提供了基础。
- 奖励评估:使用奖励模型对每个输出进行评分,这些评分可以基于任务的特定标准,如数学题的正确性、代码的可运行性等。核心点在于:使用的奖励模型是一个基于规则的奖励系统(准确性奖励+格式奖励),而不是一个预训练的深度学习模型。显著降低了计算和存储需求,提高了训练效率。
- 计算相对优势:将每个输出的奖励值进行归一化处理,得到相对优势。通过组内相对优势的计算,GRPO 减少了策略更新的方差,确保了更稳定的学习过程。
- KL散度:最后,使用相对优势更新策略;GRPO 引入了KL散度约束,能够更精细地控制策略更新的幅度,保持策略分布的稳定性。

三、2个重要思考
3.1 大规模强化学习
在后训练阶段,不一定需要用SFT作为初始步骤,通过纯强化学习的方式,也能到达不错的推理性能,DeepSeek-R1-Zero首次验证了这一路径。
- 直接在基础模型上应用 RL,而不依赖于有监督的微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的链式思考(CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反思和生成长链式思考的能力,这标志着研究社区的一个重要里程碑。值得注意的是,这是首次公开研究验证 LLMs 的推理能力可以通过纯 RL 激励,而无需 SFT。这一突破为该领域的未来发展铺平了道路。
- DeepSeek-R1 训练流程:该流程包含两个 RL 阶段,旨在发现改进的推理模式并与人类偏好对齐,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。我们相信这一流程将有助于行业开发更好的模型。
3.2 蒸馏方法:小模型也可以很强大
大型模型的推理模式可以被蒸馏到小模型中,其表现优于通过在小模型上应用 RL 的效果。
- 证明了大型模型的推理模式可以被蒸馏到小模型中,其表现优于通过在小模型上应用 RL 发现的推理模式。开源的 DeepSeek-R1 及其 API 将有助于研究社区在未来蒸馏出更好的小模型。
- 使用 DeepSeek-R1 生成的推理数据,我们微调了研究社区广泛使用的几种密集模型。评估结果表明,蒸馏后的小型密集模型在基准测试中表现出色。例如,DeepSeek-R1-Distill-Qwen-7B 在 AIME 2024 上达到了 55.5%,超过了 QwQ-32B-Preview。此外,DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 上达到了 72.6%,在 MATH-500 上达到了 94.3%,在 LiveCodeBench 上达到了 57.2%。这些结果显著优于之前的开源模型,并且与 o1-mini 相当。我们开源了基于 Qwen2.5 和 Llama3 系列的 1.5B、7B、8B、14B、32B 和 70B 检查点,供社区使用。
相关文章:
【DeepSeek系列】05 DeepSeek核心算法改进点总结
文章目录 一、DeepSeek概要二、4个重要改进点2.1 多头潜在注意力2.2 混合专家模型MoE2.3 多Token预测3.4 GRPO强化学习策略 三、2个重要思考3.1 大规模强化学习3.2 蒸馏方法:小模型也可以很强大 一、DeepSeek概要 2024年~2025年初,DeepSeek …...
独立开发者之Google Analytics使用教程
Google Analytics(GA)是Google提供的一款免费的网络分析服务,用于追踪和报告网站流量。以下是独立开发者如何使用Google Analytics的详细教程: 1. 创建Google Analytics账户 注册Google账户:如果你还没有Google账户&…...
C++ 编程语言简介
C 是一种通用编程语言,它是作为 C 语言的增强而开发的,以包含面向对象的范例。它是一种命令式和编译语言。 C 是一种高级的通用编程语言,专为系统和应用程序编程而设计。它由贝尔实验室的 Bjarne Stroustrup 于 1983 年开发,作为…...
计算机毕业设计SpringBoot+Vue.js明星周边产品销售网站(源码+文档+PPT+讲解)
温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…...
JavaScript系列(86)--现代构建工具详解
JavaScript 现代构建工具详解 🔨 现代前端开发离不开构建工具,它们帮助我们处理模块打包、代码转换、资源优化等任务。让我们深入了解主流的构建工具及其应用。 构建工具概述 🌟 💡 小知识:构建工具主要解决代码转换…...
C/C++高性能Web开发框架全解析:2025技术选型指南
一、工业级框架深度解析(附性能实测) 1. Drogon v2.1:异步框架性能王者 核心架构: Reactor 非阻塞I/O线程池(参考Nginx模型) 协程实现:基于Boost.Coroutine2(兼容C11)…...
使用Windbg调试目标进程排查C++软件异常的一般步骤与要点分享
目录 1、概述 2、将Windbg附加到已经启动起来的目标进程上,或者用Windbg启动目标程序 2.1、将Windbg附加到已经启动起来的目标进程上 2.2、用Windbg启动目标程序 2.3、Windbg关联到目标进程上会中断下来,输入g命令将该中断跳过去 3、分析实例说明 …...
npm使用了代理,但是代理软件已经关闭导致创建失败
如果在关闭前打开了vscode,此时vscode中的终端没有刷新,就会出现这个问题,最开始会一直转圈圈,直到超时,然后出现该报错 ❯ npm create vuelatest npm error code ECONNREFUSED npm error syscall connect npm error …...
ddd 文章总结分享,ddd实战代码分享, 领域驱动设计java实战源码大全,我看过的ddd java源码
1. 前段时间研究ddd, 收藏了很多相关知识,分享出来,希望能够帮助更多的小伙伴了解ddd, 什么是领域驱动设计,并分享在github发现的开源ddd代码 2. ddd 必须强烈点赞阿里两位大佬,一个为殷浩, 一个为cola作者 2.1.1 殷浩…...
什么是MySql的主从复制(主从同步)?
主页还有其他面试题总结,有需要的可以去看一下,喜欢的就留个三连再走吧~ 1.什么是MySql的主从复制原理? 主从复制的核心就是二进制binlog(DDL(数据定义语言)语句和DML(数据操纵语言)…...
蓝桥云课python代码
第一章语言基础 第一节编程基础 1 python开发环境 第一个Python程序 # 打印"Hello World" print("Hello World")# 打印2的100次方 print(2 ** 100)# 打印112 print("11",1 1)""" Hello World 126765060022822940149670320537…...
网站快速收录:如何优化网站H标签使用?
为了优化网站H标签的使用并促进网站快速收录,可以从以下几个方面进行考虑和操作: 一、理解H标签的重要性及作用 H标签,也称为Heading标签,是HTML中用于强调文本标题的元素,分为H1到H6六个级别,其重要性依…...
c#丰田PLC ToyoPuc TCP协议快速读写 to c# Toyota PLC ToyoPuc读写
源代码下载 <------下载地址 历史背景与发展 TOYOPUC协议源于丰田工机(TOYODA)的自动化技术积累。丰田工机成立于1941年,最初是丰田汽车的机床部门,后独立为专注于工业机械与控制系统的公司。2006年与光洋精工(Ko…...
深入解析-无状态服务-StatefulSet (一)
一、有状态服务 VS 无状态服务 1.无状态服务介绍 1.数据方面:无状态服务不会在本地存储持久化数据.多个实例可以共享相同的持久化数据 2.结果方面:多个服务实例对于同一个用户请求的响应结果是完全一致的 3.关系方面:这种多服务实例之间是…...
3.18 ReAct 理论实战:构建动态推理-行动循环的企业级 Agent
ReAct 理论实战:构建动态推理-行动循环的企业级 Agent 关键词:ReAct 理论实践, 动态工具调用, 反思迭代机制, 企业级 Agent 架构, LangChain 集成 1. ReAct 理论核心要素解析 1.1 传统 Agent vs ReAct Agent 架构对比 #mermaid-svg-t2TFPvWG94jJjpRG {font-family:"tr…...
【JavaScript】JavaScript 常见概念 - 变量与数据类型 - 运算符 - 条件语句 - 循环 - 函数 - 数组操作 - 对象
1. 变量与数据类型 变量声明 JavaScript 提供了三种方式来声明变量: var(全局或函数作用域,不推荐)let(块级作用域,推荐)const(常量,块级作用域,推荐&…...
常用视频格式及其编码方式对比
视频格式和编码方式是两个不同的概念,视频格式通常指的是视频文件的容器格式,它定义了如何将视频、音频和其他数据(如字幕)打包在一起,而编码方式是指视频和音频数据的压缩算法。不同的编码方式决定了视频的质量、文件…...
hackmyvm-buster
题目地址 信息收集 主机发现 ┌──(root㉿kali)-[/home/kali] └─# arp-scan -I eth1 192.168.56.0/24 Interface: eth1, type: EN10MB, MAC: 00:0c:29:34:da:f5, IPv4: 192.168.56.103 WARNING: Cannot open MAC/Vendor file ieee-oui.txt: Permission denied WARNING: C…...
模型蒸馏:让人工智能更智能、更小、更高效的艺术
你有没有想过,我们如何才能让一个需要巨大计算能力的庞大人工智能模型变得更精简、更快速、更强大?答案在于模型蒸馏,这是一种允许知识从大型、计算成本高昂的人工智能系统转移到较小、更高效的系统的技术,而不会牺牲智能。 什么是模型蒸馏 模型蒸馏是一种技术,其…...
【原创】Windows11安装WSL“无法解析服务器的名称或地址”问题解决方法
原因分析 出现这个问题一开始以为WSL设置了某个服务器,但是通过运行 nslookup www.microsoft.com 出现下面的提示 PS C:\Windows\system32> nslookup www.microsoft.com 服务器: UnKnown Address: 2408:8000:XXXX:2b00:8:8:8:8非权威应答: 名称: e13678…...
基于模仿学习(IL)的端到端自动驾驶发展路径
基于模仿学习(IL)的端到端自动驾驶发展路径 1. 核心论文解析 (1) UniAD:感知-规划一体化 核心思想:首次提出将感知任务(如目标检测、车道线识别、轨迹预测)与规划任务集成到统一的端到端框架中ÿ…...
网页制作08-html,css,javascript初认识のhtml使用框架结构,请先建立站点!
框架一般由框架集和框架组成。 框架集就像一个大的容器,包括所有的框架,是框架的集合。 框架是框架集中一个独立的区域用于显示一个独立的网页文档。 框架集是文件html,它定义一组框架的布局和属性,包括框架的数目,框架…...
【Vscode 使用】集合1
一、使用make工具管理工程 windows下,下载mingw64,配置好mingw64\bin 为 Win10系统全局变量后。 在mingw64/bin目录下找到mingw32-make.exe工具。复制一份改名为:make.exe,没错,就是那么简单,mingw64自带m…...
文章精读篇——用于遥感小样本语义分割的可学习Prompt
题目:Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing Domain 会议:CVPR 2024 Workshop 论文:10.48550/arXiv.2404.10307 相关竞赛:https://codalab.lisn.upsaclay.fr/competitions/17568 年份&#…...
解决 kubeasz 安装k8s集群跨节点pod 无法使用cluster ip通讯问题
问题描述 使用kubeasz搭建k8s集群后使用的配置文件 # etcd cluster should have odd member(s) (1,3,5,...) [etcd] 192.168.xx.22# master node(s) [kube_master] 192.168.xx.22# work node(s) [kube_node] 192.168.xx.9 192.168.xx.22# [optional] harbor server, a privat…...
Docker 搭建 Nginx 服务器
系列文章目录 Docker 搭建 Nginx 服务器 系列文章目录前言一、准备工作二、设置 Nginx 容器的目录结构三、启动一个临时的 Nginx 容器来复制配置文件四、复制 Nginx 配置文件到本地目录五、删除临时 Nginx 容器六、创建并运行 Nginx 容器,挂载本地目录七、修改 ngin…...
Spring AI + 大模型开发应用
JAVA SpringAI 大模型开发AI应用DEMO 前言JAVA项目创建示例 前言 在当今快速发展的技术领域,人工智能(AI)已经成为推动创新和变革的重要力量。然而,AI应用的开发过程往往复杂且耗时,需要开发者具备深厚的技术背景和丰…...
【C++11】 并发⽀持库
🌈 个人主页:Zfox_ 🔥 系列专栏:C从入门到精通 目录 前言:🚀 并发⽀持库一:🔥 thread库 二:🔥 this_thread 三:🔥 mutex 四࿱…...
Windows 11【1001问】如何下载Windows 11系统镜像
随着科技的不断进步,操作系统也在不断地更新换代。Windows 11作为微软最新一代的操作系统,带来了许多令人兴奋的新特性与改进,如全新的用户界面、更好的性能优化以及增强的安全功能等。对于想要体验最新技术或者提升工作效率的用户来说&#…...
视觉分析之边缘检测算法
9.1 Roberts算子 Roberts算子又称为交叉微分算法,是基于交叉差分的梯度算法,通过局部差分计算检测边缘线条。 常用来处理具有陡峭的低噪声图像,当图像边缘接近于正45度或负45度时,该算法处理效果更理想。 其缺点是对边缘的定位…...
