当前位置: 首页 > article >正文

[论文阅读]DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Reporthttps://arxiv.org/abs/2412.19437核心亮点多头潜在注意力机制MLA、DeepSeek MoE架构、多Token预测训练目标MTP这张图其实已经可以比较清晰地说明MLA和MoE架构了。对于MLA主要的策略是把输入的hiddenstates进行降维使得KV Cache的量更小需要运算的时候再升维处理。MoE则是添加了Router来决定当前token的隐状态走哪些公开的专家头以及所有token一定都会走通用的专家头。MLA综合来开MLA的核心思想仍然是压缩KV Cache的缓存量采取的方法是把hidden states给使用低秩矩阵给压缩处理需要用到的时候再升维处理。还有是实现了RoPE和低秩压缩方案的解藕将 Query 和 Key 的维度拆分为两部分一部分如 128 维用于低秩压缩不加 RoPE。另一部分如 64 维单独加 RoPE然后与压缩部分的输出拼接 。这样既保留了相对位置信息又兼容了压缩机制。对照图2的内容输入 X ──┬──→ W^DQ ──→ Q标准多头│├──→ W^DKV ──→ c^KV压缩 latent──┬──→ W^UK ──→ K│ ││ └──→ W^UV ──→ V│└──→ W^KR ──→ k^R解耦 RoPE───────→ 与 K 拼接具有辅助无损负载平衡的 DeepSeekMoE主要亮点有以下内容门控机制共享专家头机制无损负载均衡体现在动态的token对专家对偏好分数偏置值互补序列辅助损失防止不平衡现象损失的本质还是调整router的参数损失使用的常规MoE架构中的损失参考token分配比例、分配分数以及专家数量节点限制路由对每一个token进行限制约束它最多被发送到M个专家节点中无token丢弃针对的是上一代MoE架构中的专家容量超参数导致部分token溢出处理区而被丢弃的问题核心的解决方法是前面的策略保证负载均衡理论不溢出。辅助无损负载平衡不让某些热门专家垄断可以看到这里的偏置是bi而不是一个固定的b所以表达的意思是每一个专家都有一个可以学习的偏置值只用来路由不参与其他计算。对于过载的专家bias减小以降低被选择的概率对于欠载的专家bias增大以提高被选择的概率互补序列辅助损失f_i 是分配给专家 i 的 token 比例p_i 是路由给专家 i 的平均门控分数N_r 是专家数量\alpha 是平衡系数。这个损失鼓励专家被均匀使用。限制每一个token被分配的专家数目这里其实强调的就是传统的MoE架构比如deepseek v2版本中引入了一个叫做专家容量的参数限制每一个专家被分配的token数目如果某一个专家已经到达了处理容量上限那么下一个被分配的token将不被使用专家计算而是直接跳过该专家使用残差链接处理也就是这里提到的“Token被丢弃”多Token预测MTPMTP模块MTP 不改变主模型的主体结构如 Transformer 层、MoE 层等而是在输出端增加额外的预测头prediction heads。假设我们设定预测深度为 D即每个位置除了预测下一个 token 外还额外预测未来第 2, 3, \dots, D 个 token。标准: 输入 t 个token预测第 t1 个token MTP: 输入 t 个token同时预测第 t1, t2, ..., tD 个token ​ D 深度DepthDeepSeek-V3 中 D4原始的输出头称为 head₁负责预测下一个 token。新增的 D-1 个独立输出头head₂ 到 headₕ分别负责预测未来第 2 至第 D 个 token。这些额外的头可以共享底层的 Transformer 表示也可以有自己的轻量级参数如一层线性变换 softmax。在 DeepSeek-V3 的实现中MTP 模块被设计为与主模型共享所有专家参数仅增加少量额外的输出投影层因此参数开销极小。MTP训练目标MTP 的额外头可以天然地用作投机采样中的草稿模型。在推理时可以用 head₁ 生成下一个 token同时用 head₂ 预测未来第二个 token从而实现一次前向传播产出多个 token 的猜测配合目标模型验证加速生成。

相关文章:

[论文阅读]DeepSeek-V3 Technical Report

DeepSeek-V3 Technical Report https://arxiv.org/abs/2412.19437 核心亮点: 多头潜在注意力机制MLA、DeepSeek MoE架构、多Token预测训练目标MTP 这张图其实已经可以比较清晰地说明MLA和MoE架构了。 对于MLA,主要的策略是把输入的hiddenstates进行降…...

3个简单步骤:让Windows 11完美运行经典老游戏的终极DDrawCompat方案

3个简单步骤:让Windows 11完美运行经典老游戏的终极DDrawCompat方案 【免费下载链接】DDrawCompat DirectDraw and Direct3D 1-7 compatibility, performance and visual enhancements for Windows Vista, 7, 8, 10 and 11 项目地址: https://gitcode.com/gh_mirr…...

PMP培训机构对比:才聚凭什么比同行更值得选?

选择PMP培训机构,很多人在“才聚vs其他”之间反复比较。本文从机构资质、考试服务、教学实力、学员平台四个维度展开对比,帮你一次看清差距。 一、国内最早一批PMP培训机构,历史积淀不同 市面上不少PMP培训机构成立于2010年以后,行…...

Kubernetes网络入门004篇【20260407】

文章目录 Kubernetes 网络入门完整版(深度扩容侧重基础知识) 一、学习K8s网络前必须掌握的Linux网络基础 1.1 Linux Network Namespace(网络命名空间) 1.2 Veth Pair(虚拟以太网设备对) 1.3 Linux Bridge(Linux网桥) 1.4 iptables 1.5 路由表 二、K8s网络基础核心概念与…...

PMP培训机构怎么选?27年实战经验告诉你答案

在深圳,PMP认证已经成为项目管理从业者提升竞争力的重要途径。但面对市面上众多的PMP培训机构,如何选择一家真正靠谱、通过率高、服务有保障的机构,成了很多人头疼的问题。本文结合真实的市场数据和培训经验,帮你理清选择逻辑。 一…...

别再做老好人了,优秀PM都有攻击性!

在职场中,“老好人”似乎是一个自带“善意”的标签,但对于项目经理(PM)而言,这三个字往往意味着内耗、妥协与项目失控。很多PM深陷“讨好型人格”的陷阱,怕得罪客户、怕得罪团队、怕得罪领导,凡…...

B站视频下载高效解决方案:bilibili-downloader完全指南

B站视频下载高效解决方案:bilibili-downloader完全指南 【免费下载链接】bilibili-downloader B站视频下载,支持下载大会员清晰度4K,持续更新中 项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-downloader 你是否遇到过这些困…...

KSA工具实战:5分钟搞定内网穿透,无需公网IP也能远程办公

KSA工具实战:5分钟搞定内网穿透,无需公网IP也能远程办公 远程办公已成为现代职场的新常态,但许多人在家访问公司内网资源时,常被复杂的网络配置和公网IP需求劝退。想象一下,周五晚上突然需要调取公司服务器上的方案文件…...

Sigma-Delta ADC原理深度解析:从过采样到噪声整形

1. Sigma-Delta ADC的核心价值:为什么选择它? 在模数转换器(ADC)的世界里,Sigma-Delta架构就像是一位擅长"慢工出细活"的匠人。你可能听说过Pipelined ADC的高速特性,或者SAR ADC的平衡表现&…...

手把手教你用Matlab复现电池SOH预测:从NASA/牛津公开数据集到麻雀算法优化BP神经网络

基于NASA/牛津电池数据的SOH预测实战:Matlab特征工程与麻雀算法优化全解析 锂电池健康状态(SOH)预测是新能源领域的热门研究方向,但许多初学者在复现论文成果时常常陷入"有数据不会用"的困境。本文将手把手带你用Matlab…...

提升开发效率的跨平台游戏开发框架:从概念到发布的全流程指南

提升开发效率的跨平台游戏开发框架:从概念到发布的全流程指南 【免费下载链接】FXGL Java / JavaFX / Kotlin Game Library (Engine) 项目地址: https://gitcode.com/gh_mirrors/fx/FXGL 价值定位:为何选择FXGL游戏开发框架 在游戏开发领域&…...

Mem Reduct终极指南:如何用免费工具轻松解决Windows内存卡顿问题

Mem Reduct终极指南:如何用免费工具轻松解决Windows内存卡顿问题 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitcode.com/gh_mirrors/me/memredu…...

ESP32轻量级GraphQL客户端库设计与嵌入式实践

1. 项目概述esp32-graphql-client是一款专为 ESP32 平台设计的轻量级、高可靠性 GraphQL 客户端库,其设计哲学直接受益于 Apollo Client 的简洁性与表达力。该库并非简单封装 HTTP 请求,而是构建了一套面向嵌入式场景的完整数据交互抽象层:它…...

麒麟v10sp3操作系统安装疑难解答:无法登录界面的终极解决方案

1. 麒麟v10sp3安装后无法登录的典型场景 最近帮朋友安装麒麟v10sp3操作系统时遇到了一个棘手问题:系统安装完成后重启,本该出现的图形化登录界面迟迟不出现,屏幕上只显示一个带有三个选项的提示框。这种情况我在多个品牌的国产电脑上都遇到过…...

GHelper:华硕笔记本性能优化与硬件控制的轻量级开源解决方案

GHelper:华硕笔记本性能优化与硬件控制的轻量级开源解决方案 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Str…...

裸金属STM32H7+FreeRTOS环境下C++异常处理编译开销超预期?独家逆向分析.bss段暴涨根源(含汇编级对比报告)

第一章:裸金属STM32H7FreeRTOS环境下C异常处理的编译开销悖论在裸金属 STM32H7 平台上启用 C 异常(-fexceptions)看似能提升错误可维护性,但其与 FreeRTOS 实时内核及 Cortex-M7 架构的交互却引发显著的编译与运行时开销悖论&…...

2026网文圈变天!顶配AI写小说神器实测:除了炼字工坊,全是虚火?

搞了半个月实测,废了三个起点号,我终于把这套2026网文顶配AI组合拳盘清楚了。 说实话,现在市面上打着“AI写小说”旗号的工具,90%都是割韭菜的套壳货。 点开一看,全是GPT-4o或者过时的模型,写出来的东西一股…...

2026届必备的AI辅助论文平台解析与推荐

Ai论文网站排名(开题报告、文献综述、降aigc率、降重综合对比) TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 当前,AI论文网站已然变成学术写作里极为重要的辅助工具。这类平台一般会集成智能…...

别再只比精度了!手把手教你用YOLOv5和v7在自定义数据集上做训练优化

别再只比精度了!手把手教你用YOLOv5和v7在自定义数据集上做训练优化 当你第一次在COCO数据集上跑通YOLOv5的demo时,那种"目标检测原来如此简单"的兴奋感可能还记忆犹新。但当你把模型迁移到自己的零件检测、农作物病害识别或零售商品分类任务时…...

G-Helper终极指南:5分钟掌握华硕笔记本性能控制

G-Helper终极指南:5分钟掌握华硕笔记本性能控制 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Scar, an…...

强制脑机接口:某公司用神经监测防员工摸鱼

在科技伦理与管理方式交织的灰色地带,一则关于某公司计划引入脑机接口技术用于监测员工注意力、防止“摸鱼”的传闻,正在引发轩然大波。这并非科幻电影中的场景,而是随着神经技术快速商业化,正悄然逼近的现实可能。对于身处科技行…...

发送营销短信接口调用教程:保障高转化率的营销短信API接口开发与频率优化

在企业营销推广场景中,短信仍是触达用户的高效渠道,但开发者在集成短信服务时,常面临发送营销短信接口调用失败、签名校验异常、发送频率不合理导致触达率与转化率双低等问题。本文将从原理拆解、实战调用、频率优化三个维度,为前…...

高效掌控Mem Reduct:智能多语言界面切换完全指南

高效掌控Mem Reduct:智能多语言界面切换完全指南 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitcode.com/gh_mirrors/me/memreduct 你是否曾…...

基于深度学习yolov13+qwen与deepseek的脑肿瘤识别与分析系统

基于YOLOv13AI的智能脑肿瘤检测系统 项目简介 基于YOLOv13深度学习模型与DeepSeek、Qwen大语言模型的智能脑肿瘤检测系统。本系统将前沿的计算机视觉技术与人工智能分析能力结合,为用户提供快速、精准的脑部医学影像分析与肿瘤识别服务,为医疗诊断、科研…...

JPEGView:1MB实现效率革命的图像工具全指南

JPEGView:1MB实现效率革命的图像工具全指南 【免费下载链接】jpegview Fork of JPEGView by David Kleiner - fast and highly configurable viewer/editor for JPEG, BMP, PNG, WEBP, TGA, GIF and TIFF images with a minimal GUI. Basic on-the-fly image proces…...

实战指南:基于快马平台生成trea国际版本地化价格展示组件代码

最近在开发一个国际电商项目时,遇到了一个很实际的需求:需要根据不同地区用户展示本地化格式的商品价格。这个看似简单的功能,其实涉及到货币转换、数字格式化、符号位置等多个细节。经过一番摸索,我总结出了一套比较完整的实现方…...

如何解决WordPress国内访问难题?WP-China-Yes让网站加载速度提升300%

如何解决WordPress国内访问难题?WP-China-Yes让网站加载速度提升300% 【免费下载链接】wp-china-yes 此插件将你的WordPress接入本土生态体系之中,使之更适合国内应用环境 项目地址: https://gitcode.com/gh_mirrors/wpc/wp-china-yes 当中国用户…...

GTE中文向量模型实战教程:基于test_uninlu.py扩展支持中文繁体与简体兼容测试

GTE中文向量模型实战教程:基于test_uninlu.py扩展支持中文繁体与简体兼容测试 1. 引言:当GTE模型遇上中文繁简转换 如果你正在使用GTE中文向量模型处理文本,可能会遇到一个不大不小的麻烦:用户输入的文本,有时是简体中…...

ROS2中nav_msgs/Path消息的实战解析:从数据结构到Rviz可视化

1. 理解nav_msgs/Path消息的核心结构 在ROS2的导航系统中,nav_msgs/Path消息扮演着路径规划与可视化的重要角色。这个消息类型本质上是一条由多个位姿点组成的轨迹,常用于描述机器人需要跟随的全局路径或局部路径。我第一次接触这个数据结构时&#xff0…...

研途灵伴学习专项接口支撑与协议收口复盘

摘要 前面的计划、错题本、复习、状态这些后端模块其实都已经能各自工作了,聊天里的动作按钮也能执行。但是当桌面端真的开始接学习页和聊天动作时,问题就出来了: 数据来源太散,页面要自己拼。动作点完以后,前端只知道…...