当前位置：首页 > article >正文

[论文阅读]DeepSeek-V3 Technical Report

article 2026/4/7 16:04:16

DeepSeek-V3 Technical Reporthttps://arxiv.org/abs/2412.19437核心亮点多头潜在注意力机制MLA、DeepSeek MoE架构、多Token预测训练目标MTP这张图其实已经可以比较清晰地说明MLA和MoE架构了。对于MLA主要的策略是把输入的hiddenstates进行降维使得KV Cache的量更小需要运算的时候再升维处理。MoE则是添加了Router来决定当前token的隐状态走哪些公开的专家头以及所有token一定都会走通用的专家头。MLA综合来开MLA的核心思想仍然是压缩KV Cache的缓存量采取的方法是把hidden states给使用低秩矩阵给压缩处理需要用到的时候再升维处理。还有是实现了RoPE和低秩压缩方案的解藕将 Query 和 Key 的维度拆分为两部分一部分如 128 维用于低秩压缩不加 RoPE。另一部分如 64 维单独加 RoPE然后与压缩部分的输出拼接。这样既保留了相对位置信息又兼容了压缩机制。对照图2的内容输入 X ──┬──→ W^DQ ──→ Q标准多头│├──→ W^DKV ──→ c^KV压缩 latent──┬──→ W^UK ──→ K│ ││ └──→ W^UV ──→ V│└──→ W^KR ──→ k^R解耦 RoPE───────→ 与 K 拼接具有辅助无损负载平衡的 DeepSeekMoE主要亮点有以下内容门控机制共享专家头机制无损负载均衡体现在动态的token对专家对偏好分数偏置值互补序列辅助损失防止不平衡现象损失的本质还是调整router的参数损失使用的常规MoE架构中的损失参考token分配比例、分配分数以及专家数量节点限制路由对每一个token进行限制约束它最多被发送到M个专家节点中无token丢弃针对的是上一代MoE架构中的专家容量超参数导致部分token溢出处理区而被丢弃的问题核心的解决方法是前面的策略保证负载均衡理论不溢出。辅助无损负载平衡不让某些热门专家垄断可以看到这里的偏置是bi而不是一个固定的b所以表达的意思是每一个专家都有一个可以学习的偏置值只用来路由不参与其他计算。对于过载的专家bias减小以降低被选择的概率对于欠载的专家bias增大以提高被选择的概率互补序列辅助损失f_i 是分配给专家 i 的 token 比例p_i 是路由给专家 i 的平均门控分数N_r 是专家数量\alpha 是平衡系数。这个损失鼓励专家被均匀使用。限制每一个token被分配的专家数目这里其实强调的就是传统的MoE架构比如deepseek v2版本中引入了一个叫做专家容量的参数限制每一个专家被分配的token数目如果某一个专家已经到达了处理容量上限那么下一个被分配的token将不被使用专家计算而是直接跳过该专家使用残差链接处理也就是这里提到的“Token被丢弃”多Token预测MTPMTP模块MTP 不改变主模型的主体结构如 Transformer 层、MoE 层等而是在输出端增加额外的预测头prediction heads。假设我们设定预测深度为 D即每个位置除了预测下一个 token 外还额外预测未来第 2, 3, \dots, D 个 token。标准: 输入 t 个token预测第 t1 个token MTP: 输入 t 个token同时预测第 t1, t2, ..., tD 个token D 深度DepthDeepSeek-V3 中 D4原始的输出头称为 head₁负责预测下一个 token。新增的 D-1 个独立输出头head₂ 到 headₕ分别负责预测未来第 2 至第 D 个 token。这些额外的头可以共享底层的 Transformer 表示也可以有自己的轻量级参数如一层线性变换 softmax。在 DeepSeek-V3 的实现中MTP 模块被设计为与主模型共享所有专家参数仅增加少量额外的输出投影层因此参数开销极小。MTP训练目标MTP 的额外头可以天然地用作投机采样中的草稿模型。在推理时可以用 head₁ 生成下一个 token同时用 head₂ 预测未来第二个 token从而实现一次前向传播产出多个 token 的猜测配合目标模型验证加速生成。

[论文阅读]DeepSeek-V3 Technical Report

相关文章：

[论文阅读]DeepSeek-V3 Technical Report

3个简单步骤：让Windows 11完美运行经典老游戏的终极DDrawCompat方案

PMP培训机构对比：才聚凭什么比同行更值得选？

Kubernetes网络入门004篇【20260407】

PMP培训机构怎么选？27年实战经验告诉你答案

别再做老好人了，优秀PM都有攻击性！

B站视频下载高效解决方案：bilibili-downloader完全指南

KSA工具实战：5分钟搞定内网穿透，无需公网IP也能远程办公

Sigma-Delta ADC原理深度解析：从过采样到噪声整形

手把手教你用Matlab复现电池SOH预测：从NASA/牛津公开数据集到麻雀算法优化BP神经网络

提升开发效率的跨平台游戏开发框架：从概念到发布的全流程指南

Mem Reduct终极指南：如何用免费工具轻松解决Windows内存卡顿问题

ESP32轻量级GraphQL客户端库设计与嵌入式实践

麒麟v10sp3操作系统安装疑难解答：无法登录界面的终极解决方案

GHelper：华硕笔记本性能优化与硬件控制的轻量级开源解决方案

裸金属STM32H7+FreeRTOS环境下C++异常处理编译开销超预期？独家逆向分析.bss段暴涨根源（含汇编级对比报告）

2026网文圈变天！顶配AI写小说神器实测：除了炼字工坊，全是虚火？

2026届必备的AI辅助论文平台解析与推荐

别再只比精度了！手把手教你用YOLOv5和v7在自定义数据集上做训练优化

G-Helper终极指南：5分钟掌握华硕笔记本性能控制

强制脑机接口：某公司用神经监测防员工摸鱼

发送营销短信接口调用教程：保障高转化率的营销短信API接口开发与频率优化

高效掌控Mem Reduct：智能多语言界面切换完全指南

基于深度学习yolov13+qwen与deepseek的脑肿瘤识别与分析系统

JPEGView：1MB实现效率革命的图像工具全指南

实战指南：基于快马平台生成trea国际版本地化价格展示组件代码

如何解决WordPress国内访问难题？WP-China-Yes让网站加载速度提升300%

GTE中文向量模型实战教程：基于test_uninlu.py扩展支持中文繁体与简体兼容测试

ROS2中nav_msgs/Path消息的实战解析：从数据结构到Rviz可视化

研途灵伴学习专项接口支撑与协议收口复盘