当前位置：首页 > article >正文

DeepSeek-V4-Pro模型配置解读

article 2026/4/27 7:26:49

参考:https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro/file/view/master/config.json?status1一、基础模型标识architectures: [DeepseekV4ForCausalLM], model_type: deepseek_v4, transformers_version: 4.57.1,architectures模型类名因果语言模型自回归生成如续写、对话model_type模型官方类型 DeepSeek V4transformers_version兼容的 HuggingFace 库版本二、词表与特殊令牌vocab_size: 129280, bos_token_id: 0, eos_token_id: 1, tie_word_embeddings: false,vocab_size词表大小129280bos/eos_token_id开始/结束令牌IDtie_word_embeddings不共享输入/输出词嵌入矩阵大模型常用提升效果三、模型尺寸超大规模hidden_size: 7168, # 隐藏层维度 num_hidden_layers: 61, # 总网络层数 num_attention_heads: 128, # 注意力头数 head_dim: 512, # 每个注意力头维度 max_position_embeddings: 1048576, # 最大上下文长度 1048576✅核心结论上下文窗口1048576 tokens100K超大参数量超长上下文属于顶尖开源大模型四、MoE 稀疏专家架构最核心特性DeepSeek V4 是稀疏混合专家模型MoE不是稠密模型n_routed_experts: 384, # 总专家数384个 n_shared_experts:1, # 共享专家数1个 num_experts_per_tok:6, # 每个token 激活6个专家 moe_intermediate_size:3072, # 专家中间层维度 routed_scaling_factor:2.5, # 路由激活缩放因子 norm_topk_prob:true, # 归一化TopK概率 topk_method:noaux_tc, # 专家路由算法✅通俗解释模型有384 个专家网络但每个 token 只调用 6 个推理/训练算力成本远低于同等参数量稠密模型性能更强业界顶尖的 MoE 设计五、注意力机制配置attention_bias: false, attention_dropout: 0.0, num_key_value_heads: 1, # GQA 分组查询注意力 qk_rope_head_dim: 64, sliding_window: 128, # 滑动窗口注意力 use_cache: true, # 推理缓存KV加速生成GQA1个KV头共享给128个Q头大幅节省显存sliding_window局部窗口注意力优化长文本效率use_cache开启推理缓存生成速度更快六、激活函数与归一化hidden_act: silu, rms_norm_eps: 1e-06, swiglu_limit: 10.0,激活函数SiLU SwiGLU大模型标配归一化RMSNormLLaMA 系列标准七、超长上下文扩展YaRNrope_theta: 10000, rope_scaling:{ type:yarn, factor:16, original_max_position_embeddings:65536, beta_fast:32, beta_slow:1 }位置编码RoPE YaRN把上下文从65536 扩展到 104857616倍业界最先进的长上下文无损扩展技术八、FP8 量化显存优化torch_dtype: bfloat16, quantization_config:{ quant_method:fp8, activation_scheme:dynamic, fmt:e4m3, scale_fmt:ue8m0, weight_block_size:[128,128] }✅关键作用训练/推理精度BF16 FP8显存减少 50%速度提升精度几乎无损工业级部署标配九、LoRA 低秩适配微调q_lora_rank: 1536, o_lora_rank: 1024, o_groups: 16,支持超大秩 LoRA 微调适合企业/科研做高质量领域微调十、哈希检索与索引增强DeepSeek 自研技术hc_eps: 1e-06, hc_mult:4, hc_sinkhorn_iters:20, index_head_dim:128, index_n_heads:64, index_topk:1024, num_hash_layers:3, scoring_func:sqrtsoftplus,这是DeepSeek 自研的检索增强架构用哈希检索加速长文本、知识库召回提升长文本理解、事实准确性属于模型核心黑科技十一、压缩率配置上下文压缩compress_rope_theta: 160000, compress_ratios: [...]对不同层使用不同压缩率进一步降低超长上下文的显存/算力消耗整体总结这是DeepSeek V4 超大规模稀疏 MoE 大模型的完整配置384 个专家每 token 激活 6 个1048576 超长上下文YaRN 扩展FP8 量化 GQA 注意力高效部署支持LoRA 微调哈希检索增强属于当前开源顶尖的长文本大模型附(flash与pro对比)分类参数项小参数量DeepSeek-V4-Flash大参数量DeepSeek-V4-Pro差异说明️ 模型基础模型架构DeepseekV4ForCausalLMDeepseekV4ForCausalLM完全一致hidden_size隐层维度40967168Pro 容量大幅提升num_hidden_layers总层数43 层61 层Pro 更深、学习能力更强注意力机制num_attention_heads注意力头64128Pro 翻倍细粒度理解更强head_dim单头维度512512相同num_key_value_headsKV头11相同GQA架构sliding_window滑动窗口128128相同 MoE 混合专家n_routed_experts总专家数256384Pro 专家数量多50%n_shared_experts共享专家11相同num_experts_per_tok每token激活专家66相同稀疏计算moe_intermediate_size专家中间层20483072Pro 单个专家能力更强routed_scaling_factor1.52.5Pro 适配更大专家规模哈希检索增强index_topk检索数量5121024Pro 长文本匹配更精准num_hash_layers哈希层数33相同️ LoRA 微调q_lora_rank10241536Pro 微调表达能力更强o_lora_rank10241024相同o_groups816Pro 分组更细超长上下文max_position_embeddings1048576104万1048576104万均支持百万上下文rope_scaling位置扩展YaRN ×16YaRN ×16相同compress_ratios压缩策略浅层0压缩中间4/128首层128倍压缩全程压缩Pro 压缩更强、推理更快⚡ 部署优化quantization_configFP8 动态量化FP8 动态量化相同torch_dtypebfloat16bfloat16相同词表vocab_size129280129280完全一致

DeepSeek-V4-Pro模型配置解读

相关文章：

DeepSeek-V4-Pro模型配置解读

解密中兴光猫工厂模式：zteOnu工具深度实战与安全渗透技术

HX711压力传感器模块的5个常见调试“坑”及解决方法（基于STM32 HAL库）

浮点运算单元形式化验证：挑战与方法

别再死记硬背了！用一张图搞懂SAR成像里的‘方位向’、‘斜距’和‘零多普勒’

Tree-GRPO：用可微决策树实现可解释强化学习策略优化

无需网络依赖：Hunyuan-MT 7B纯本地翻译方案搭建教程

AI像素画创作：pixel-agents智能体框架原理与实践指南

AgenticHub：macOS原生AI工具资源管理器，高效管理MCP服务器与Agent技能

Python asyncio 信号处理机制

西门子博途V17程序块加密实战：从‘专有技术保护’到‘防拷贝’，手把手教你保护PLC代码（附避坑点）

法律AI实战：基于RAG与大模型微调构建智能法律助手

Stable-Diffusion-V1-5 开发环境问题排查：GitHub访问与依赖下载加速方案

机器学习战略：从失败案例看问题定义的重要性

Abaqus新手避坑指南：从建模到网格划分，这些操作细节千万别忽略

RWKV7-1.5B-world应用场景：智能硬件语音助手后端——低资源+高响应速度组合

u-blox MAYA-W4三模物联网模块技术解析与应用

手把手教你为UniApp微信小程序项目配置安全的WSS WebSocket连接（Vue3版）

AI生成技术架构图：excalidraw-diagram-skill实现视觉验证与自动化设计

保姆级教程：在ArmSoM-W3 RK3588开发板上手把手配置CAN总线（Debian11系统）

Android轻量级依赖注入框架illuminati：原理、实战与选型指南

Janus-Pro-7B MySQL数据库优化顾问：慢查询分析与索引建议

StreamRAG：构建可对话视频知识库的多模态检索增强生成实践

【项目实训（个人)】7：完成AI相关的环境配置与AI角色对话功能

半监督学习核心算法与应用实践指南

Arm CMN-600处理器事件接口设计与低功耗优化

本地AI助手AgenticSeek部署指南：私有化自主代理框架实践

macOS端点安全监控利器xnumon：原理、部署与实战指南

Fast-BEV++：自动驾驶BEV感知的算法效率与部署优化

PHP AI开发框架LLPhant：无缝集成LLM与RAG，赋能智能应用构建