当前位置: 首页 > article >正文

【LLM】DeepSeek-V4模型架构和训练流程

note混合注意力架构我们设计了一种结合压缩稀疏注意力Compressed Sparse Attention, CSA与重度压缩注意力Heavily Compressed Attention, HCA的混合注意力机制显著提升长上下文处理效率。在百万 Token 上下文场景下DeepSeek-V4-Pro 相较于 DeepSeek-V3.2单 Token 推理所需的 FLOPs 仅为其 27%KV 缓存占用仅为 10%。CSACompressed Sparse Attention先KV 压缩把多个 token 的 K/V 合成一个压缩表示减少 KV cache再稀疏选择不是所有压缩块都看只选最相关的 top-k 块HCA Heavily Compressed AttentionHCA 会把一组 token 的 KV entries 合并成一个 compressed entry从而显著降低 KV cache流形约束超连接Manifold-Constrained Hyper-Connections, mHC我们在传统残差连接中引入 mHC以增强跨层信号传播的稳定性同时保留模型的表达能力。Muon 优化器我们采用 Muon 优化器实现更快的收敛速度和更高的训练稳定性。DeepSeek V4 的OPD特殊点是它做的是 full-vocabulary OPD不是只看学生实际采样出来的那个 token也不是只看 top-k而是尽量保留完整词表 logits 来算 KL这样梯度更稳定但计算和显存成本更高。论文还提到它为此做了 teacher schedulingteacher 权重按需加载、ZeRO-like sharding、避免直接物化超大 logits并缓存 teacher 最后一层 hidden states再重建 logits为什么OPD使用反向KL散度正向KL散度更偏 mode-seeking学生会倾向于把概率集中到 teacher 认为高质量的输出模式上而不是平均覆盖 teacher 的所有可能输出。OPD 的核心就是在学生自己的轨迹上让 teacher 对学生当前状态提供 dense token-level supervision关于上下文优化优化对象DeepSeek V4 的做法结果KV cache压缩 KV entries显存下降Attention FLOPs稀疏选择 压缩序列 attention计算下降长上下文可用性CSA/HCA/局部窗口分工远程信息还能被利用服务成本单 token 推理成本下降1M context 更接近可部署文章目录note一、研究背景二、DeepSeek-V4三、实验设计四、实验结果Reference一、研究背景研究问题这篇文章要解决的问题是如何在超长上下文中实现高效的推理模型。具体来说现有的注意力机制在处理超长序列时存在计算复杂度高的瓶颈限制了大规模语言模型LLMs在测试时扩展和长距离任务中的表现。研究难点该问题的研究难点包括如何在保持模型性能的同时显著降低长上下文推理的计算复杂度和内存占用如何设计一种新的混合注意力机制来提高长上下文的处理效率。相关工作该问题的研究相关工作包括OpenAI的GPT系列模型、DeepSeek-AI系列模型以及其他开源的长上下文推理模型。这些工作虽然在一定程度上推动了LLM的发展但在处理超长序列时仍存在效率瓶颈。【ds v4】混合专家Mixture-of-Experts, MoE语言模型DeepSeek-V4-Pro总参数量 1.6T激活参数量 49B和 DeepSeek-V4-Flash总参数量 284B激活参数量 13B二者均支持 百万 Token 的上下文长度。采用 MIT 许可证。https://modelscope.cn/collections/deepseek-ai/DeepSeek-V44 款开源权重模型全部原生支持 100 万 token 上下文包括 DeepSeek-V4-Pro总参数 1.6T激活参数 49B,100 万上下文——前沿旗舰 DeepSeek-V4-Flash总参数 284B激活参数 13B100 万上下文——速度优化 DeepSeek-V4-Pro-Base1.6T 预训练基础模型面向前沿规模的后训练与研究 DeepSeek-V4-Flash-Base284B 预训练基础模型适用于高效的领域适配三种推理模式——Non-Think / Think High / Think Max——按需调节推理强度。在 Think Max 模式下V4-Pro 在 LiveCodeBench 上达到 93.5 分Codeforces 上取得 3206 分HMMT 2026 上达到 95.2 分在推理和智能体任务上进一步缩小了与领先闭源前沿模型的差距。思考模式模型推理任务性能由计算投入决定DeepSeek-V4-Pro/Flash均支持三种推理强度模式无思考Non-think、高思考Think High、最大思考ThinkMax在输出最终回答之前模型会先输出一段思维链内容以提升最终答案的准确性二、DeepSeek-V4DeepSeek-V4-Pro总参数量 1.6T激活参数量 49B和 DeepSeek-V4-Flash总参数量 284B激活参数量 13B前者模型架构如下这篇论文提出了DeepSeek-V4系列模型用于解决超长上下文推理的效率问题。具体来说1、混合注意力机制提出了一种结合压缩稀疏注意力CSA和重度压缩注意力HCA的混合注意力架构。CSA通过压缩KV缓存并应用DeepSeek稀疏注意力DSA来加速注意力计算HCA则通过对KV缓存进行更激进的压缩来进一步提高效率。公式如下C a H ⋅ W a K V , C b H ⋅ W b K V C^a H \cdot W^{aKV}, \quad C^b H \cdot W^{bKV}CaH⋅WaKV,CbH⋅WbKV其中C a C^aCa和C b C^bCb是压缩后的KV条目W a K V W^{aKV}WaKV和W b K V W^{bKV}WbKV是相应的压缩权重。2、流式索引器在CSA中使用流式索引器选择前k个压缩KV条目进行核心注意力计算。公式如下c t Q h t ⋅ W D Q c_t^Q h_t \cdot W^{DQ}ctQ​ht​⋅WDQ其中c t Q c_t^QctQ​是查询令牌生成的索引查询h t h_tht​是输入隐藏状态W D Q W^{DQ}WDQ是下投影矩阵。3、共享KV多查询注意力MQA在CSA和HCA中使用共享KV MQA进行核心注意力计算。公式如下o t , i CoreAttn ( q u e r y q t , k e y C t SprsComp , v a l u e C t SprsComp ) o_{t,i} \text{CoreAttn}(queryq_t, keyC_t^{\text{SprsComp}}, valueC_t^{\text{SprsComp}})ot,i​CoreAttn(queryqt​,keyCtSprsComp​,valueCtSprsComp​)其中o t , i o_{t,i}ot,i​是第t个令牌的第i个头的核心注意力输出q t q_tqt​是查询令牌C t SprsComp C_t^{\text{SprsComp}}CtSprsComp​是选择的压缩KV条目。4、Muon优化器采用Muon优化器进行训练因其更快的收敛速度和更高的训练稳定性。Muon优化器的更新规则如下O t ′ HybridNewtonSchulz ( μ M t G t ) O_t \text{HybridNewtonSchulz}(\mu M_t G_t)Ot′​HybridNewtonSchulz(μMt​Gt​)其中G t G_tGt​是梯度M t M_tMt​是动量缓冲区μ \muμ是动 注此处原文被图标遮挡推测为“动量系数”或类似概念是混合牛顿-舒尔茨更新。三、实验设计数据收集在预训练阶段使用了超过32T的多样化且高质量的字节对语料库包括数学公式、代码、网页、长文档等。模型设置DeepSeek-V4-Flash模型包含43层Transformer层隐藏维度为4096使用CSA和HCA交替使用的混合注意力机制。DeepSeek-V4-Pro模型包含61层Transformer层隐藏维度为7168同样使用CSA和HCA交替使用的混合注意力机制。训练设置使用Muon优化器进行大多数参数的更新AdamW优化器用于嵌入模块、预测头模块和RMSNorm模块的权重。训练过程中采用了批量大小调度策略和学习率调度策略。后处理在预训练阶段采用样本级注意力掩码和分词策略在后训练阶段采用领域特定的专家独立训练和有向策略优化GRPO进行强化学习。四、实验结果效率提升与DeepSeek-V3.2相比DeepSeek-V4-Pro在1M token上下文设置中仅需27%的单令牌推理FLOPs和10%的KV缓存大小。DeepSeek-V4-Flash在1M令牌上下文设置中仅需10%的单令牌推理FLOPs和7%的KV缓存大小。性能提升DeepSeek-V4-Pro-Max在知识基准测试中显著优于现有的开源模型接近专有模型Gemini-3.1-Pro的性能。在推理任务中DeepSeek-V4-Pro-Max也表现出优异的性能接近GPT-5.4的水平。长上下文处理DeepSeek-V4-Pro-Max在长上下文任务中表现出色特别是在学术基准测试中达到了前所未有的水平。实际应用在中文写作、搜索和白领任务中DeepSeek-V4-Pro-Max也表现出色显著优于现有的开源模型。DeepSeek-V4-Pro 和 Gemini-3.1-Pro 在中文创意写作上的 pairwise 胜率表如下表。结果显示 DeepSeek 在指令遵循上约 60% 胜率在写作质量上约 77% 胜率说明它在中文文学类生成尤其是语言质感和创作质量上优势明显。另外看看pro和flash的差距如下图在SWE benchmark上看flash和pro相差不大Reference[1] DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence[2] DeepSeek-V4技术报告解读: 从架构到 Infra 的全栈重构

相关文章:

【LLM】DeepSeek-V4模型架构和训练流程

note 混合注意力架构:我们设计了一种结合压缩稀疏注意力(Compressed Sparse Attention, CSA)与重度压缩注意力(Heavily Compressed Attention, HCA)的混合注意力机制,显著提升长上下文处理效率。在百万 To…...

5步终极静音方案:用FanControl让显卡风扇从30%降到0 RPM

5步终极静音方案:用FanControl让显卡风扇从30%降到0 RPM 【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trending/…...

PDUR路由基本功能

一、PduR路由基本功能概述   PduR(PDU Router)模块是AutoSAR架构通信协议栈的通用模块,也就是CAN、Lin、Eth、FlexRay等总线通信、诊断报文传输的时候都会经过PduR模块。 为什么需要PduR模块:   可以理解PduR作为一个软件中间…...

C语言第五章数组

1. 一维数组概念数组的定义数组:是相同类型元素的一个集合。在内存中是一段连续的空间。可以将C语言中的一维数组通俗地理解为「一排储物柜」或「一条有序的盒子序列」。每个储物柜(数组元素)可以存放一件物品(数据)&a…...

2026年免费视频文字提取工具对比:微信小程序vs桌面软件实操清单

做短视频内容的时候经常卡在几个问题上:录好的素材怎么快速出文案、会议视频转录要花多少时间、链接视频能不能直接提取文字而不用下载。这些需求看似小,但如果工具选不对,能把整个制作流程拉长。我会先讲微信里有个叫提词匠的小程序在这类需…...

clawsquire:基于RAG与知识图谱的智能代码助手设计与实战

1. 项目概述:一个面向开发者的智能代码助手最近在GitHub上看到一个挺有意思的项目,叫Jiansen/clawsquire。乍一看这个名字,可能有点摸不着头脑,但点进去研究后,我发现这是一个定位非常清晰的开发者工具。简单来说&…...

微信小程序、在线工具、桌面软件,2026年视频转文字工具怎么选

同样是需要把视频转成文字,用微信小程序和用专业转录软件的体验差别比较大。前者即开即用无需等待,后者功能完整但操作流程略显复杂。我在工作中经常需要处理视频素材提取文案,下面会分享一些实用的工具方案,其中微信搜索「提词匠…...

录音转文字免费工具有哪些?免费录音转文字工具对比与推荐

开头做视频素材处理的时候,经常卡在一个问题:怎么把录音、视频里的人声快速提取成文字。大多数人默认想到的是找个桌面软件或者网页工具,但其实微信小程序里有个叫提词匠的工具在这块需求上效率比较高,下面会重点拆解它,因为它能覆盖大多数人的日常场景——无论是会议录音、课程…...

桌面/在线/小程序三种路线,2026年免费录音转文字工具怎么选?

同样是处理音频文件,用桌面软件和用微信小程序的体验差别比较大。前者需要下载安装、学习界面逻辑,后者搜一下就能用,等待时间也更短。如果你的需求很简单——比如临时转几段录音、快速提取视频文案,那小程序路线省事得多。本文主要拆解免费录音转文字工具的几种主流方案,重点讲…...

终极指南:用RPFM轻松打造你的《全面战争》梦想模组

终极指南:用RPFM轻松打造你的《全面战争》梦想模组 【免费下载链接】rpfm Rusted PackFile Manager (RPFM) is a... reimplementation in Rust and Qt6 of PackFile Manager (PFM), one of the best modding tools for Total War Games. 项目地址: https://gitcod…...

免费开源:用League Director制作专业级《英雄联盟》高光视频的完整指南

免费开源:用League Director制作专业级《英雄联盟》高光视频的完整指南 【免费下载链接】leaguedirector League Director is a tool for staging and recording videos from League of Legends replays 项目地址: https://gitcode.com/gh_mirrors/le/leaguedirec…...

告别TF卡!保姆级教程:让Orange Pi 5从SATA SSD启动Ubuntu系统(含VNC远程桌面配置)

告别TF卡!Orange Pi 5从SATA SSD启动Ubuntu全流程指南 在单板计算机的世界里,存储性能往往是制约整体体验的关键瓶颈。Orange Pi 5作为一款性能出众的开发板,当搭配传统TF卡运行时,其IO性能损失可能高达70%。本教程将带你完成从TF…...

关于OFIRM(本源场直觉共振模型)理论体系的深度解析:数学,检验,预测,证伪【这是对几篇核心基础论文的总结】

关于OFIRM(本源场直觉共振模型)理论体系的深度解析:数学,检验,预测,证伪Authors: Haiting Allen ChenAffiliations: Chen Xiao’er Creative Workshop, Independent Researcher, Guangzhou, China.Corres…...

copaw:命令行驱动的个人代码片段管理工具,提升开发效率

1. 项目概述:一个为开发者量身定制的代码片段管理工具在日复一日的编码工作中,我们总会遇到一些“似曾相识”的场景:一段处理日期格式的通用函数、一个封装好的网络请求方法、或者是一套复杂的数据库查询逻辑。这些代码片段就像工具箱里的螺丝…...

文化与文明是两回事!弄不懂这一点,再努力也是“庸人自扰”

我们常听到一句话:“中华文化博大精深,源远流长。”也常听人说:“现代文明带来了便利,也带来了困扰。”但你有没有想过一个问题——文化和文明,到底是不是一回事?很多人觉得它们差不多,甚至混着…...

Maven基础架构与整体认识

🚗🚗🚗🚗🚗🚗🚗 数据结构专栏🚗🚗🚗🚗🚗🚗🚗🚗🚗🚗 🛹&#x1…...

NVIDIA Isaac Sim与OSMO构建机器人仿真工作流实践

1. 项目概述:基于NVIDIA Isaac Sim与OSMO的端到端机器人工作流构建在机器人技术快速发展的当下,我经常被同行问到一个核心问题:如何高效训练适应复杂动态环境的机器人策略?经过在工业物流场景的多次实践验证,采用物理精…...

Weft轻量级Web框架:高性能路由与中间件设计实践

1. 项目概述:Weft,一个轻量级Web框架的诞生在Web开发的世界里,框架的选择往往决定了项目的起点和未来的走向。对于许多开发者,尤其是那些构建中小型API服务、需要快速原型验证或追求极致性能与简洁性的场景,像Spring B…...

Stakater Application:云原生应用部署的声明式框架与GitOps实践

1. 项目概述:一个云原生时代的应用部署“瑞士军刀”如果你和我一样,在Kubernetes上折腾过一段时间,肯定遇到过这样的场景:一个应用上线,背后跟着一堆YAML文件——Deployment、Service、ConfigMap、Secret、Ingress………...

Java之循环结构

一、语言中的结构:顺序结构、分支结构、循环结构二、循环的概念1.通过某个条件,重复并且有规律的执行一段程序代码。2.组成:循环变量的初始化、循环条件、循环变量的改变(增加、减少)、循环体(需要重复运行…...

Cursor智能体开发:令牌与定价

现在我们已经从宏观层面了解了 AI 模型的工作原理,接下来看看一个既能帮助你理解模型如何“思考”,又能帮助你理解使用成本的概念:令牌(tokens)。 你可以把令牌理解为 AI 模型实际处理的“词”。但它们并不等同于我们…...

仿照Muduo的高并发服务器:EventLoop模块及与TimeWheel模块联调

本期接着深入编写项目代码 相关代码上传至gitee:喜欢可以点个赞谢谢 目录 EventLoop模块 Eventfd机制 设计思路 源码 TimeWheel时间轮模块整合 设计思想 源码 EventLoop模块与TimeWheel模块联调整合 EventLoop模块 Eventfd机制 eventfd是本项目中的一种事件通知…...

三生原理文章被AtomGit‌开源社区收录的意义探析?

AI辅助创作:AtomGit‌ 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台,致力于构建一个中立、开放、公益的开发者生态。AtomGit‌ 在中国开源与人工智能融合生态中处于领先地位‌,是推动国产AI基础设施发…...

Three.js 代码云效果 | 三维可视化 / AI 提示词

Three.js 代码云效果 | 三维可视化 / AI 提示词 📋 AI 提示词 使用 Three.js 的 ShaderMaterial 创建代码云效果,通过多个代码纹理的随机切换和下落动画,实现代码雨的视觉效果。🖼️ 效果预览 🎮 案例演示 立即体验…...

内存增强语言模型:TRIBL2与IGTree架构对比与实践

1. 项目背景与核心价值在自然语言处理领域,内存增强型语言模型近年来展现出独特的优势。TRIBL2和IGTree作为两种典型的内存架构,通过外部记忆模块扩展了传统神经网络的上下文处理能力。这类模型特别适合需要长期依赖关系的任务场景,比如对话系…...

扩散模型记忆增强框架MemDLM技术解析与应用

1. 项目背景与核心价值在自然语言处理领域,扩散模型近年来展现出惊人的文本生成能力。然而传统扩散语言模型存在一个致命缺陷——它们像金鱼一样只有7秒记忆,每次生成都像从头开始思考。MemDLM框架的提出,相当于给扩散模型装上了"外接大…...

别再手动K帧了!Blender 3.6自动关键帧与插值曲线实战避坑指南

Blender 3.6动画效率革命:自动关键帧与曲线调优的工业级解决方案 在数字内容创作领域,动画师们常陷入效率与质量的二元困境。传统手动K帧如同用钢笔绘制赛璐璐动画,每一帧都需要精确控制;而现代三维软件提供的自动化工具则像智能绘…...

TensorFlow模型在NPU上的性能优化实战指南

1. 项目背景与核心价值在边缘计算和移动端AI应用爆发的当下,模型推理效率直接决定了产品体验的生死线。去年我们在部署某工业质检系统时,就曾因为TensorFlow模型在NPU上的性能不达标,导致产线节拍从每分钟120件暴跌到80件。这个惨痛教训促使我…...

告别DHCP!Ubuntu 22.04 LTS下给Wi-Fi设置固定IP的保姆级教程(附DNS避坑指南)

Ubuntu 22.04 LTS无线网络固定IP配置全攻略:从图形界面到系统级解决方案 刚接触Ubuntu桌面环境的开发者常会遇到这样的困境:好不容易配置好本地开发环境,却因为Wi-Fi动态IP的变化导致服务无法稳定访问。更让人抓狂的是,按照网上教…...

差分信号传输原理与高速电路设计实践

1. 差分信号传输基础与核心优势在高速数字电路设计中,差分信号传输技术已经成为应对噪声干扰的黄金标准。这种传输方式采用两根紧密耦合的传输线,分别承载相位相反的信号。当一条线上的电压为逻辑高电平时,另一条线必然为逻辑低电平&#xff…...