DeepSeek v3 技术报告阅读笔记

注
- 本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文
- 本文不包括基础的知识点讲解,为笔记/大纲性质而非教程,建议阅读技术报告原文
- 交流可发送至邮箱 henryhua0721@foxmail.com


架构核心
核心:
- MLA 高效推理
- DeepSeekMOE 更经济的训练
- MTP 提高模型性能
架构上看主要改进在于Attention层和FFN层:

MLA
参考deepseekv2的technical report内容
KV cache
类GPT模型的decoder架构在推理时一个个token输出,每一次输出都作为下一次输出的输入,带来大量重复计算。KV cache空间换时间,降低推理复杂度。
w/o KV cache:
每一次推理计算attention时,当前token前的token QK计算在前面步骤被重复计算,结果可以使用KV cache存储而非再次计算。

huggingface/transformers/gpt2的KV cache代码:
if layer_past is not None:past_key, past_value = layer_pastkey_states = torch.cat((past_key, key_states), dim=-2)value_states = torch.cat((past_value, value_states), dim=-2)if use_cache is True:present = (key_states, value_states)else:present = None
KV cache存在的问题:对GPU memory的需求巨大
解决办法:
- Quantization
- (Deepseek)减小输入以减小cache
Letent KV

使用letent KV替代传统KV存储到cache中。对kv压缩:

- 传统attention:k = Wh / v = Wh
- latent KV:使用更小的letent变量c作为中间变量,可以表示 k/v,存储cache
在推理的时候本质上不需要计算出单独的k和v变量:

计算q*kT的时候可以使用线性代数运算使得不需要单独提出参数矩阵,而是可以化为大的参数矩阵(图中 W^ QT 和 W^ UK 相乘)
同样对key压缩:

Decouple RoPE
参考:Multi-Head Latent Attention: Boosting Inference Efficiency
RoPE的引入导致q和k都被R矩阵加权,对KV cache造成的损害:

解决办法:引入新的multi-head queries(和不做低秩分解的q相同)

- 每个 attn 层额外增加 multi-head queries q^R
- 添加共享的key用于 k^R
- 再将 q^ R 和低秩分解的 q、k^R 和低秩分解的k concate起来
huggingface discussion上似乎提供了更sufficient方法:将rope part和none-rope part进行sum up而非concatenate
(链接找不到了qwq)

KV cache存储的:
- c^KV
- k^R
DeepSeekMOE
MOE
大语言模型主要的计算量集中在attention层,参数量集中在FFN层。
MoE的本质是将FFN分组。好处在于模型易于scale up以及降低cost。

Gate将输入计算前往各个FFN分组的概率:
- Dense MoE:计算每个分支的概率,并进行加权
- Sparse MoE:取概率top-k
每个expert是两个MLP层。
传统MoE的问题:学习知识重合、expert之间无法区分 -> DeepSeekMOE
Load Balance
传统MOE训练出现马太效应:某个单个expert训练较好,引导gate划分更多token给它训练,导致单个expert过拟合、其他expert欠拟合。
Load balance的解决办法:
- (Switch transformer) loss control:在损失函数中制约
- (DeepSeek) loss free:添加bias

DeepSeekMOE
- 划分更小的exert
- 设置某些共享expert学习常识

- Fine-grained Expert Segmentation
- N expert -> 2N expert,top2 -> top4。
- 降低每个expert(两层MLP)中间层宽度,使得model整体参数量没有变大,但是减小了模型variance
- Shared Expert Isolation:shared expert
- 具有error correction机制:大多数问题shared expert会回答(通),其他expert(专)进行correct
load balance
- 添加bias

通过添加bias手动提高softmax后某些expert的概率。在训练中,观察后不断进行调整(但是不属于loss的范畴)
- sequence-wise balance loss(区别于传统的token-wise)

- Node-limited Routing:训练时限制每个token只送到M个nodes中,降低通信成本。
- No token-dropping:token-dropping是对于load balance比较高的expert drop掉新的token input(直接过残差层不经过FFN)。这里不使用,因为上面的方法已解决load balance。
MTP
Deepseek MTP参考:
- Meta MTP
- EAGLE
当前language model的训练方式导致的问题:
- teaching force导致training每次输入的都是perfect content
- NTP导致近视👓,planning能力差
- 每次只预测下一个token,training signal较弱
-> 一次预测多个token :MTP
Meta MTP
将head分组,每个head负责一个token

- training singal更强(每一层都有反馈)
- 一次预测4个token,加强planning能力
- 缓解teaching force问题,不再过于local
但是并行heads违背了auto regression的想法,打破前后依赖 -> EAGLE(使用auto regression heads)
Speculative Decoding
LLM inference的问题 -> Slow
- KV cache
- speculative decoding
- quick guess(小模型,快但精度低)
- cheap verification(大模型,慢但精度高)
实现方式
- independent:两个LLM一大一小
- 简化过程:小LM生成sequence后给大LM计算每个token概率,若一致则accept,否则从reject token开始重新生成
- 实际上使用小LM加速大LM生成过程,大LM生成过程中实时纠错

- self:只借助大LLM中间某些head实现
- Medusa / EAGLE 模型

- Medusa / EAGLE 模型
DeepSeek MTP
使用类似EAGLE的casual arc(而不是parallel)替换META MTP中的实现:

相关文章:
DeepSeek v3 技术报告阅读笔记
注 本文参考 DeepSeek-v3 / v2 / v1 Technical Report 及相关参考模型论文本文不包括基础的知识点讲解,为笔记/大纲性质而非教程,建议阅读技术报告原文交流可发送至邮箱 henryhua0721foxmail.com 架构核心 核心: MLA 高效推理DeepSeekMOE 更…...
HCIA项目实践(网络)---NAT地址转化技术
十三 NAT网络地址转换技术 13.1 什么是NAT NAT(Network Address Translation)地址转换技术,是一种将内部网络的私有 IP 地址转换为外部网络的公有 IP 地址的技术。其主要作用是实现多个内部网络设备通过一个公有 IP 地址访问外部网络&#x…...
VS studio报错cmake version 3.29.5-msvc4,但是没有其他信息问题解决
背景: windows电脑用VS studio 2022打开一个cmake项目,编译cmake通过,但是没有产生exe文件,IDE也没有打印其他错误信息提示,只有下图: cmake version 3.29.5-msvc4 一开始以为是编译器等问题,…...
免费deepseek的API获取教程及将API接入word或WPS中
免费deepseek的API获取教程: 1 https://cloud.siliconflow.cn/中注册时填写邀请码:GAejkK6X即可获取2000 万 Tokens; 2 按照图中步骤进行操作 将API接入word或WPS中 1 打开一个word,文件-选项-自定义功能区-勾选开发工具-左侧的信任中心-信任中心设置…...
langchain学习笔记之小样本提示词Few-shot Prompt Template
langchain学习笔记之小样本提示词 引言 Few-shot Prompt Templates \text{Few-shot Prompt Templates} Few-shot Prompt Templates简单介绍示例集创建创建 ExamplePrompt \text{ExamplePrompt} ExamplePrompt与 ExampleSelector \text{ExampleSelector} ExampleSelector创建 Fe…...
【CS.SE】优化 Redis 商户号池分配设计:高并发与内存管理
优化 Redis 商户号池分配设计:高并发与内存管理 背景 在分布式交易系统中,商户号池管理是核心模块之一。传统的商户号生成方式,依赖数据库预分配号段,导致大量号段浪费,并且在高并发请求下,性能难以满足需…...
5、《Spring Boot自动配置黑魔法:原理深度剖析》
Spring Boot自动配置黑魔法:原理深度剖析 一、引言:为什么Spring Boot能“开箱即用”? Spring Boot的核心理念是**“约定优于配置”,开发者只需引入一个spring-boot-starter-web依赖,就能直接编写RESTful API…...
稀土抑烟剂——为纺织品安全加持,保护您的每一寸触感
一、稀土抑烟剂的基本概念 稀土抑烟剂是基于稀土元素(如稀土氧化物和稀土金属化合物)研发的一类新型阻燃材料。它能够有效提高纺织品的阻燃性,抑制火灾发生时产生的烟雾和有害气体,减少火灾对人体的危害。稀土抑烟剂具有更强的稳…...
如何使用CSS画一个三角形,原理是什么?
如何用 CSS 画一个三角形?原理和实战指南 一、核心原理 CSS 画三角形的本质是利用边框(border)的叠加特性。当一个元素的宽高为 0 时,其边框会以对角线形式相交,形成四个独立的三角形区域。通过控制某一边的边框颜色为…...
Docker拉不下来镜像问题解决法案
打开docker的设置界面 配置如下: vi /etc/docker/daemon.json {"builder": {"gc": {"defaultKeepStorage": "20GB","enabled": true}},"experimental": false,"registry-mirrors": ["…...
DeepSeek 多模态大模型Janus-Pro本地部署教程
1.部署环境配置 我个人用的是Mac的m1pro 16512配置,我跑了1B的版本很流畅,7B的也可以跑起来,稍微感觉有一些卡顿。 需要安装Git-lfs,访问官网下载安装包安装,这个工具是用于下载大型文件必备的软件,这里用…...
笔记8——模式匹配 match语句(仅在Python 3.10及以上版本中可用)
文章目录 模式匹配 match语句(仅在 Python 3.10及以上版本 中可用)基本语法基本匹配操作应用场景 模式匹配 match语句(仅在 Python 3.10及以上版本 中可用) Python 3.10 及以上版本中才引入了 match 语句用于简化复杂的条件判断和数据解构;类似于其他语言中的 swit…...
maven-antrun-plugin插件的用法
maven-antrun-plugin 是 Maven 中一个非常强大的插件,它允许你在 Maven 构建过程中运行 Apache Ant 任务。通过这个插件,你可以在 Maven 构建的各个阶段(如 compile、package 等)中执行自定义的 Ant 任务,比如复制文件…...
iOS主要知识点梳理回顾-4-运行时类和实例的操作
类和实例的操作 iOS 运行时(Objective-C Runtime)提供了丰富的 API 来对类进行动态操作,包括创建类、修改类的结构、添加方法、替换方法等。这对于实现动态特性、AOP(面向切面编程)、方法拦截等功能非常重要。以下举例…...
vue2和vue3生命周期的区别通俗易懂
用最直白的对比帮你理解 Vue2 和 Vue3 生命周期的区别,就像对比手机系统的升级: 一、生命周期阶段对比表(老手机 vs 新手机) 阶段Vue2(老系统)Vue3(新系统)变化说明初始化beforeCre…...
使用 meshgrid函数绘制网格点坐标的原理与代码实现
使用 meshgrid 绘制网格点坐标的原理与代码实现 在 MATLAB 中,meshgrid 是一个常用函数,用于生成二维平面网格点的坐标矩阵。本文将详细介绍如何利用 meshgrid 函数生成的矩阵绘制网格点的坐标,并给出具体的代码实现和原理解析。 实现思路 …...
postgresql源码学习(59)—— 磁盘管理器 SMGR
一、 定义及作用 PostgreSQL 的磁盘管理器(Storage Manager,简称 SMGR)是数据库系统中负责管理底层存储的核心模块。磁盘管理器并非直接操作磁盘上的文件,而是通过VFD(虚拟文件描述符,将在后续学习…...
Spring Boot(8)深入理解 @Autowired 注解:使用场景与实战示例
搞个引言 在 Spring 框架的开发中,依赖注入(Dependency Injection,简称 DI)是它的一个核心特性,它能够让代码更加模块化、可测试,并且易于维护。而 Autowired 注解作为 Spring 实现依赖注入的关键工具&…...
UE_C++ —— Structs
目录 一,实现一个UStruct 二,Struct Specifiers 三,最佳做法与技巧 结构体(Struct)是一种帮助组织和操作相关属性的数据结构;在引擎中,结构体会被引擎反射系统识别为 UStruct,但不…...
ArcGISPro 新建shp+数据结构
import arcpy# 设置工作空间和 Shapefile 存放路径 shp_path r"C:\path\to\your\folder\PolygonZY.shp" # Shapefile 存放路径 fields [("CHBH", "TEXT", 20),("ZCMC", "TEXT", 100),("ZCLX", "TEXT"…...
Python爬虫实战:研究MechanicalSoup库相关技术
一、MechanicalSoup 库概述 1.1 库简介 MechanicalSoup 是一个 Python 库,专为自动化交互网站而设计。它结合了 requests 的 HTTP 请求能力和 BeautifulSoup 的 HTML 解析能力,提供了直观的 API,让我们可以像人类用户一样浏览网页、填写表单和提交请求。 1.2 主要功能特点…...
微信小程序之bind和catch
这两个呢,都是绑定事件用的,具体使用有些小区别。 官方文档: 事件冒泡处理不同 bind:绑定的事件会向上冒泡,即触发当前组件的事件后,还会继续触发父组件的相同事件。例如,有一个子视图绑定了b…...
云启出海,智联未来|阿里云网络「企业出海」系列客户沙龙上海站圆满落地
借阿里云中企出海大会的东风,以**「云启出海,智联未来|打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办,现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...
【Linux】C语言执行shell指令
在C语言中执行Shell指令 在C语言中,有几种方法可以执行Shell指令: 1. 使用system()函数 这是最简单的方法,包含在stdlib.h头文件中: #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...
循环冗余码校验CRC码 算法步骤+详细实例计算
通信过程:(白话解释) 我们将原始待发送的消息称为 M M M,依据发送接收消息双方约定的生成多项式 G ( x ) G(x) G(x)(意思就是 G ( x ) G(x) G(x) 是已知的)࿰…...
Linux云原生安全:零信任架构与机密计算
Linux云原生安全:零信任架构与机密计算 构建坚不可摧的云原生防御体系 引言:云原生安全的范式革命 随着云原生技术的普及,安全边界正在从传统的网络边界向工作负载内部转移。Gartner预测,到2025年,零信任架构将成为超…...
Unity UGUI Button事件流程
场景结构 测试代码 public class TestBtn : MonoBehaviour {void Start(){var btn GetComponent<Button>();btn.onClick.AddListener(OnClick);}private void OnClick(){Debug.Log("666");}}当添加事件时 // 实例化一个ButtonClickedEvent的事件 [Formerl…...
Kafka主题运维全指南:从基础配置到故障处理
#作者:张桐瑞 文章目录 主题日常管理1. 修改主题分区。2. 修改主题级别参数。3. 变更副本数。4. 修改主题限速。5.主题分区迁移。6. 常见主题错误处理常见错误1:主题删除失败。常见错误2:__consumer_offsets占用太多的磁盘。 主题日常管理 …...
SQL Server 触发器调用存储过程实现发送 HTTP 请求
文章目录 需求分析解决第 1 步:前置条件,启用 OLE 自动化方式 1:使用 SQL 实现启用 OLE 自动化方式 2:Sql Server 2005启动OLE自动化方式 3:Sql Server 2008启动OLE自动化第 2 步:创建存储过程第 3 步:创建触发器扩展 - 如何调试?第 1 步:登录 SQL Server 2008第 2 步…...
ubuntu22.04 安装docker 和docker-compose
首先你要确保没有docker环境或者使用命令删掉docker sudo apt-get remove docker docker-engine docker.io containerd runc安装docker 更新软件环境 sudo apt update sudo apt upgrade下载docker依赖和GPG 密钥 # 依赖 apt-get install ca-certificates curl gnupg lsb-rel…...

