当前位置: 首页 > article >正文

混合专家MoE拆解:GPT-4、千问、DeepSeek为什么都选这个架构

去年我写了个小模型做文本分类全部参数只有1.5B单卡就能跑。结果效果还行但跟大模型比就是被吊打。我就想为什么那些几百B甚至上T参数的大模型推理速度没比我的小模型慢一万倍答案就在MoEMixture of Experts混合专家架构里。今天这篇我把它拆开了揉碎了讲清楚。先用人话解释MoE在干嘛传统的Dense模型处理每个token所有参数都要参与计算。就像一个大公司接了个小活儿全员出动。MoE不一样。它把模型分成很多个专家Expert每个token只激活其中一小部分专家。核心思想参数多 ≠ 计算量多。GPT-4据说有1.8T参数但每次推理只激活其中的一小部分比如370B。所以它虽然参数量是别人十倍推理速度却只慢了2-3倍。MoE的关键组件1. 专家网络Experts每个专家本质上就是一个小型FFN前馈神经网络。MoE层的专家数量通常是8个、16个、32个甚至更多。DeepSeek V4号称用了256个专家每层激活其中8个。这个配置在MoE里算是比较激进的。2. 门控网络Router/Gate这是MoE的指挥官。它决定把每个token送给哪个专家。门控网络输出一个概率分布告诉模型这个token去专家3和专家7。这个门控是可学习的——它跟模型一起训练学会如何分配任务。我刚开始没想通一个问题如果门控也在训练它会不会让所有token都跑去那个最强的专家那MoE不就退化成了Dense模型答案是不会因为加了负载均衡损失Load Balancing Loss。这个损失函数惩罚分配不均衡的情况强迫门控把token分散到不同专家。3. 稀疏激活核心逻辑每个token只激活Top-K个专家其他专家的输出直接变成0。GPT-4用的是Top-2。DeepSeek V4有点不同它用了一种更精细的细粒度专家机制每个token激活的数量更多8个但每个专家的容量更小。这个设计有个好处——专家更专业化每个专家只处理一个更细的子任务。4. 负载均衡这是MoE工程实现中最难受的地方。分布式场景下的通信瓶颈。假设你把专家分布在64张GPU上你的batch里有256个token。门控网络决定token A去专家1token B去专家5…但是专家1可能在GPU 0上专家5在GPU 3上。于是GPU之间需要大量的All-to-All通信来搬运token和结果。这就是MoE训练的最大瓶颈——通信成本。我有个朋友在搞千问的MoE训练他说有一半精力花在优化通信上。后来他们用了腾讯云的Ti-ACC做通信压缩才算把这个瓶颈压下去。5. 专家容量Expert Capacity每个专家一次能处理的token数量是有限制的。超出容量的token会被丢弃dropped。听起来不靠谱对吧但实际上少量dropout不影响整体质量而且会迫使门控网络更均衡地分配token。但如果dropout太多问题就大了——信息丢失。这个参数是需要仔细调的。我试过不同的容量设置总结下来容量大则效率低很多专家闲着容量小则信息丢失太多token被丢。找到一个平衡点很关键。几家大厂是怎么做的GPT-4虽然没有官方详细说明但业内人士基本确认GPT-4使用了MoE架构1.8T参数每次推理激活370B参数。用了16个专家组每个组8个专家。OpenAI的工程能力确实强MoE通信优化做得很好所以GPT-4的推理速度比同等参数量的Dense模型快很多。千问Qwen千问系列从Qwen1.5开始就转向MoE了。Qwen2-MoE用了8个专家每个token激活2个。千问团队公开了一篇技术博客详细讲了他们是怎么解决MoE的通信瓶颈的。核心思路是分组共享 通信重叠——让一部分专家在算另一部分专家在传避免等待。DeepSeek V4DeepSeek V4的MoE实现我觉得是最有意思的。它用了256个专家但跟传统的MoE不同它把专家做得很细粒度——每个专家的FFN中间维度很小所以每个专家的计算量很小。然后每个token激活8个专家做更精细的任务分解。这带来一个好处专家可以更专。传统MoE的专家可能学到的是混合概念但DeepSeek的细粒度专家可以精确到专门处理数学公式中的等号这种级别。但代价也很明显256个专家意味着门控网络需要处理的专家数量多这增加了门控的计算量。这就是为什么DeepSeek V4在推理时需要那么好的硬件——专家太多通信开销也大。MoE的坑汇总训练不稳定MoE训练比Dense模型更容易崩溃。常见问题专家崩溃某个专家逐渐停止接收token变成植物人。解决方法加auxiliary loss或者用Z-lossDeepSeek的方法。训练震荡门控网络频繁改变token分配策略。解决方法降低学习率或者使用更平滑的softmax门控。推理显存占用高虽然计算量小但MoE模型需要把所有专家参数都加载到显存里因为不确定哪个专家会被激活。这导致7B的MoE模型可能跟70B的Dense模型加载的显存差不多但推理速度更快。所以部署MoE模型对显存要求很苛刻。比如DeepSeek V4需要高端A100/H100集群才能跑起来。推理batch size受限因为每个专家处理的token数量受专家容量限制batch size不能太大。否则大量token会被drop。Batch serving时的吞吐优化是MoE推理的一个研究方向。MoE vs Dense数字说话我拿自己的实验数据说一下7B Dense模型 vs 7B MoE8个专家Top-2激活参数量7B vs 56B但激活参数只有14B训练速度1x vs 0.8x通信开销推理速度1x vs 2.5x计算量小效果MMLU benchmark持平 vs 好2-3个百分点结论就是MoE用更小的计算量达到更好的效果但工程复杂度翻了好几倍。写在最后MoE让我觉得最有趣的地方是——它打破了参数越多越慢这个直觉。你还能想象吗GPT-4有1.8T参数但每次生成一个token只用了其中370B。如果把模型比作一个图书馆Dense模型每次找你都要翻遍所有书而MoE直接告诉你去哪几本书里找就行。但说真的MoE的工程落地还远没到开箱即用的程度。今年可能还会看到更多MoE变体和优化方案。下一个值得关注的方向是MoE训练时的通信优化——因为这才是制约大厂做大MoE模型的核心瓶颈。谁解决了通信问题谁就掌握了下一代大模型的钥匙。有兴趣的话下期我可以写写MoE的分布式训练实践聊聊我在单机多卡环境下怎么蹭MoE训练的。

相关文章:

混合专家MoE拆解:GPT-4、千问、DeepSeek为什么都选这个架构

去年我写了个小模型做文本分类,全部参数只有1.5B,单卡就能跑。结果效果还行,但跟大模型比就是被吊打。 我就想,为什么那些几百B甚至上T参数的大模型,推理速度没比我的小模型慢一万倍? 答案就在MoE&#x…...

创业公司如何利用 Taotoken 统一管理多个 AI 模型服务

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 创业公司如何利用 Taotoken 统一管理多个 AI 模型服务 对于资源有限的创业团队而言,快速验证产品想法、迭代功能是生存…...

WireUI颜色选择器和日期选择器:提升用户体验的利器 [特殊字符][特殊字符]

WireUI颜色选择器和日期选择器:提升用户体验的利器 🎨📅 【免费下载链接】wireui TallStack UI components 项目地址: https://gitcode.com/gh_mirrors/wi/wireui WireUI颜色选择器和日期选择器是Laravel Livewire应用中提升用户体验的…...

为内部知识问答系统构建基于多模型聚合的智能回复引擎

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 为内部知识问答系统构建基于多模型聚合的智能回复引擎 在构建面向企业内部的智能知识问答系统时,一个核心挑战是如何在…...

互联网大厂 Java 求职面试实战:音视频场景中的技术挑战

互联网大厂 Java 求职面试实战:音视频场景中的技术挑战在这个互联网飞速发展的时代,越来越多的求职者走进了大厂的面试现场。今天,我们将跟随一位搞笑的程序员燕双非,来看看他在面试中的表现,以及他如何应对各种技术问…...

Rufus技术演进:从Windows 7告别到现代USB启动盘工具的重构之路

Rufus技术演进:从Windows 7告别到现代USB启动盘工具的重构之路 【免费下载链接】rufus The Reliable USB Formatting Utility 项目地址: https://gitcode.com/GitHub_Trending/ru/rufus 在开源工具生态中,技术栈的更新换代往往伴随着兼容性的艰难…...

【收藏干货】2026年AI Coding全面爆发!程序员终极职业升级攻略,告别被替代焦虑

2026年,AI编码技术迎来规模化落地爆发期,行业彻底告别“人工纯编码”的传统模式。对于所有程序员而言,当下最核心的生存与发展策略,早已不是埋头敲代码,而是从“被动写代码的执行者”全面升级为“主动驾驭AI的价值创造…...

MySQL高频面试题-02

这一篇的主题:日志双写机制、深分页瓶颈,以及死锁怎么查。上次和大家聊了 B 树和 MVCC,今天这篇我们直接上硬菜。在社招或者大厂面试中,面试官往往不满足于只问你“什么是索引”,他们更喜欢切入高并发、大数量、分布式的真实场景。…...

MySQL 高频面试题-01

在去面试之前,很多人天天背“八股文”,结果一到现场被面试官稍微一变形就问懵了。比如:“你天天说 B 树,那为什么不用 B 树?不用红黑树?它俩到底差在哪?”“既然索引能加速,那我把所…...

Structured3D完整指南:如何用3D结构化数据轻松构建智能室内场景

Structured3D完整指南:如何用3D结构化数据轻松构建智能室内场景 【免费下载链接】Structured3D [ECCV20] Structured3D: A Large Photo-realistic Dataset for Structured 3D Modeling 项目地址: https://gitcode.com/gh_mirrors/st/Structured3D 如果你正在…...

电子书转有声书完整指南:一键实现1158种语言的AI语音合成

电子书转有声书完整指南:一键实现1158种语言的AI语音合成 【免费下载链接】ebook2audiobook Generate audiobooks from e-books, voice cloning & 1158 languages! 项目地址: https://gitcode.com/GitHub_Trending/eb/ebook2audiobook 你是否曾希望将心爱…...

铜钟音乐:在信息洪流中找回纯粹听歌体验的现代Web应用

铜钟音乐:在信息洪流中找回纯粹听歌体验的现代Web应用 【免费下载链接】tonzhon-music 铜钟 Tonzhon (tonzhon.whamon.com): 干净纯粹的音乐平台 (铜钟已不再使用 tonzhon.com,现在的 tonzhon.com 不是正版的铜钟) 项目地址: https://gitcode.com/GitH…...

Solaar 4.0:解锁罗技设备的完整Linux管理体验

Solaar 4.0:解锁罗技设备的完整Linux管理体验 【免费下载链接】Solaar Linux device manager for Logitech devices 项目地址: https://gitcode.com/gh_mirrors/so/Solaar 你是否曾为管理多款罗技无线设备而烦恼?不同设备需要不同的配置工具&…...

哈佛教授刚警告“别让AI改写论文”,但我反手就用GPT这套技巧发了篇核心

各位同仁好,我是七哥。一个在高校里从事人工智能相关领域研究,钻研用大模型AI实操的学术人。可以和七哥交流学术写作或Gemini、GPT、Claude等大模型学术实操相关问题,多多交流,相互成就,共同进步。 多数学术同仁在撰写核心期刊论文时,常常会陷入两个极端:要么面对空白文…...

终极指南:如何用文字描述快速生成专业CAD图纸

终极指南:如何用文字描述快速生成专业CAD图纸 【免费下载链接】text-to-cad-ui A lightweight UI for interacting with the Zoo Text-to-CAD API. 项目地址: https://gitcode.com/gh_mirrors/te/text-to-cad-ui 还在为复杂的CAD软件界面感到困惑吗&#xff…...

H5P交互式视频制作终极指南:快速创建引人入胜的互动学习内容

H5P交互式视频制作终极指南:快速创建引人入胜的互动学习内容 【免费下载链接】h5p-interactive-video 项目地址: https://gitcode.com/gh_mirrors/h5/h5p-interactive-video 在数字化教育时代,如何让视频内容更具互动性和教育价值?H5…...

B站直播神器:神奇弹幕全方位操作指南

B站直播神器:神奇弹幕全方位操作指南 【免费下载链接】MagicalDanmaku 本仓库及所有相关项目已永久停止开发、维护和任何形式的分发。 项目地址: https://gitcode.com/gh_mirrors/bi/MagicalDanmaku 直播难题:为什么你需要智能弹幕助手 每个B站主…...

Wannakey:无需支付赎金,从内存中恢复WannaCry加密文件

Wannakey:无需支付赎金,从内存中恢复WannaCry加密文件 【免费下载链接】wannakey Wannacry in-memory key recovery 项目地址: https://gitcode.com/gh_mirrors/wa/wannakey Wannakey是一款专为WannaCry勒索软件受害者设计的内存密钥恢复工具&…...

OpenCorePkg黑苹果引导配置:从传统引导到现代解决方案的完整迁移指南

OpenCorePkg黑苹果引导配置:从传统引导到现代解决方案的完整迁移指南 【免费下载链接】OpenCorePkg OpenCore bootloader 项目地址: https://gitcode.com/gh_mirrors/op/OpenCorePkg 面对黑苹果引导过程中的稳定性问题、安全漏洞和硬件兼容性限制&#xff0c…...

React Starter Kit 团队协作:如何建立统一的开发规范

React Starter Kit 团队协作:如何建立统一的开发规范 【免费下载链接】react-starter-kit Start your first React App. By using React, Redux, and React-Router. 项目地址: https://gitcode.com/gh_mirrors/reac/react-starter-kit React Starter Kit 是一…...

深入理解Famous Engine场景图系统:构建复杂UI的10个技巧

深入理解Famous Engine场景图系统:构建复杂UI的10个技巧 【免费下载链接】engine 项目地址: https://gitcode.com/gh_mirrors/engine2/engine Famous Engine是一个强大的开源框架,专为构建高性能、复杂交互的用户界面而设计。其核心的场景图系统…...

软考 系统架构设计师系列知识点之杂项集萃(155)

接前一篇文章:软考 系统架构设计师系列知识点之杂项集萃(154) 第293题 给定关系R(A1, A2, A3, A4, A5)上的函数依赖集F={A1->A2A5, A2->A3A4, A3->A2},R的候选关键字()。函数依赖()∈F+。 第1空 A. A1 B. A1A2 C. A1A3 D. A1A2A3 正确答案:A。 第2空…...

CANN/asc-devkit:uint32转uint16向量转换API

asc_uint322uint16 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言,原生支持C和C标准规范,主要由类库和语言扩展层构成,提供多层级API,满足多维场景算子开发诉求。 项目地址: https://gitc…...

AI 超声波电动护手霜加热器智能功率 MOSFET 完整选型方案

2026年随着 AI 技术在个人护理领域的深度渗透(如智能温控、超声波促渗、肤质自适应),电动护手霜加热器对功率 MOSFET 提出更高要求:低压大电流、超小封装、逻辑电平驱动、高可靠性。微碧半导体(VBsemi)基于…...

免费图片去水印工具有哪些?2026 在线图片去水印软件推荐指南

日常刷到好看的图片想做壁纸或素材,角落那个突兀的水印总让人头疼。不管是自己拍摄时误触了时间水印,还是下载的参考图需要二次编辑,找到一个顺手且确实能用的去水印工具,是许多人在 2026 年依然高频遇到的需求。这篇文章就来整理…...

大学生几种职业资格证书有哪些?2026年高含金量考证指南与就业规划

你好呀!👋 看到你在这个时间点搜索关于证书的话题,我完全能理解你的心情。转眼间我们已经步入 2026年,当下的就业环境比起几年前,确实发生了不少变化。我也接触过很多像你一样的同学,大家都有点焦虑&#x…...

大学生证书分为哪几种?2026年最新含金量排名与考证避坑指南

嗨,各位正在象牙塔里奋斗或者即将步入社会的同学们!👋转眼间我们已经迈入了2026年,就业市场的风向标其实每天都在发生细微的变化。我特别能理解大家现在的焦虑感——看着周围的同学都在疯狂刷题考证,自己如果不考点什么…...

【入门+总结】万字复盘黑马点评|从业务到 Redis 实战,面试直接背

🔥个人主页:北极的代码(欢迎来访) 🎬作者简介:java后端学习者 ❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb ✨命运的结局尽可永在,不屈的挑战却不可须臾或…...

【LeetCode刷题日记】617.合并二叉树(空间换安全,还是原地省内存)

🔥个人主页:北极的代码(欢迎来访) 🎬作者简介:java后端学习者 ❄️个人专栏:苍穹外卖日记,SSM框架深入,JavaWeb ✨命运的结局尽可永在,不屈的挑战却不可须臾或…...

APKToolGUI:让Android逆向变得像搭积木一样简单

APKToolGUI:让Android逆向变得像搭积木一样简单 【免费下载链接】APKToolGUI GUI for apktool, signapk, zipalign and baksmali utilities. 项目地址: https://gitcode.com/gh_mirrors/ap/APKToolGUI 你是否曾经想要修改一个Android应用,却发现需…...