当前位置: 首页 > article >正文

从ResNet到mHC:DeepSeek重构残差连接,额外开销仅6.7%,附复现代码

2015年由微软亚洲研究院的何恺明团队提出ResNetResNet引入残差连接的概念用以解决深层神经网络训练中的梯度消失/爆炸和网络退化问题使得训练极深的网络成为可能。1(,)xl1​xl​F(xl​,Wl​)​​在公式1中∈1×xl​∈R1×d为 l层网络输入F为对 l层进行的非线性变换如卷积、Attention或MLP等1∈1×xl1​∈R1×d为该层的输出传统的网络试图对每层的输入 x 直接学习目标映射 ()H(x)。而残差网络的设计思想是既然直接学习很难不如让网络去学习每层的残差()()−F(x)H(x)−x​​公式1和公式2本质是一样的公式2中的 ()F(x)即为公式1的 F公式2中的()H(x)即为公式1的1xl1​公式2中的 x 即为公式1的xl​这就像是把原始文件x复印了一份直接交给下一个人同时附上一张便利贴上面写着这一层所做的修改()F(x)。下一个人收到的是「原件 修改意见」该设计的关键特性是恒等映射Identity Mapping能力。在网络初始化的早期阶段权重通常很小()≈0F(x)≈0。此时1≈0xl1​≈xl​0xl​​​这意味着信号像是在高速公路上一样毫无阻碍地从第一层直通最后一层。梯度也可以沿着这条高速公路无损地回传。正是这一特性使得训练成百上千层的网络如GPT-4, DeepSeek-V3成为可能。超连接Hyper-Connect标准的残差连接强制要求输入信号与经过变换的信号以 1:1 的比例叠加虽然保证了梯度的高速公路但也带来了两个问题信息流瓶颈原来只有一条残差通道所有信息不管是简单细节还是高层抽象都挤在同一条路上传。这就像所有车都走一条车道没法灵活分配路线模型没法根据需要把信息送到最合适的地方。表示坍塌网络特别深的时候为了不崩、训练稳定很多层其实学不到有用的新东西只能改一点点、几乎等于没改。结果就是白白浪费算力提取出来的特征都长得差不多没有多样性表达能力变弱。在上面的背景下 字节提出了Hyper-Connections的模型结构来改进传统的残差连接结构。通过扩展残差流宽度和多样化连接模式拓展了过去十年中广泛应用的残差连接范式。HC的核心思想是将原本单一维度的残差流扩展为4n4个并行的流然后乘以一个权重矩阵Hlres​。这增加了信息的带宽可以更多地捕获输入不同维度之间的融合信息。在HC架构中信息不再是简单的标量加法而是通过矩阵运算进行复杂的混合数学表达为1 (,)xl1​Hlres​xl​Hlpost T​Fl​(Hlpre​xl​,Wl​)​​对于公式4Hpre预融合/汇聚将4n4个并行流的信息汇聚起来压缩成适合Transformer层Attention或MLP处理的输入维度。Hpost后融合/分发将Transformer层的计算结果重新分发回4n4个并行流中。Hres流内混合这是最激进也是最关键的组件。它允许4n4个并行流在不经过Transformer层计算的情况下直接进行内部的信息交换和混合。理论上HC允许模型学习出任意的连接模式① 模型认为某一层应该保持恒等映射可以学习将Hres变为单位矩阵 I② 如果模型认为需要剧烈改变信息流向可以学习复杂的非对角矩阵。这种灵活性极大地增强了模型的拓扑结构复杂度。mHCHC的问题根据公式1传统的残差连接结构模型第L层和第l层的关系表示如下Σ−1(,)xL​xl​ΣilL−1​Fi​(xi​,Wi​)​​上式表明xl​的梯度信息可以1比1传递给xL​不会梯度爆炸或者梯度消失保证训练过程的稳定性。根据公式4可推导出HC结构下第L层和第l层的关系(∏1−1−) Σ−1(∏_1−1−−) (,)xL​(i1∏L−1​HL−ires​) xl​ΣilL−1​(∏_j1L−1−iHL−jres​) Hipost T​F(Hipre​xi​,Wi​)​​这会导致 ∂∂(∏1−1−)∂∂...∂xL​∂loss​(∏i1L−1​HL−ires​)∂xl​∂loss​...。由于 ∏1−1−∏i1L−1​HL−ires​一个典型的连乘过程矩阵连乘的性质取决于矩阵的谱范数即矩阵最大特征值的模。我们来比较Resnet中残差连接和HC连乘的情况Resnet中的残差连接残差路径是恒等映射相当于乘以单位矩阵I。单位矩阵的谱范数严格为 1。无论乘多少次1100111001信号始终稳定。HC在HC中Hres是自由学习的参数矩阵不可控。如果Hres的平均谱范数略大于 1例如 1.05在 60 层的网络中信号会被放大 1.0560≈18.61.0560≈18.6倍。如果谱范数更大或者网络更深放大倍数会呈指数级爆炸破坏残差结构中梯度回传的稳定性从而导致训练不稳定具体可见下图。上图显示27B模型训练到12k step左右HC的loss突然飙升。与此同时梯度范数也开始疯狂震荡。另外由于 −HL−ires​矩阵是无约束的可以往任意方向发散。论文测量了一个叫「Amax Gain Magnitude」的指标在残差流里被放大了3000倍。在大规模训练中这就是爆炸的前奏。mHC的诞生面对HC的问题DeepSeek提出了mHC即Manifold-Constrained Hyper-Connections流形约束超连接其核心思路为将不可控的Hres矩阵通过数学的手段转换为可控的双随机矩阵Doubly Stochastic Matrices。下面为大家解释mHC几个重要概念。双随机矩阵Doubly Stochastic Matrices双随机矩阵定义如下res(res):{res∈×∣res11,1_⊤ℎres1⊤, res≥0}PMres​(Hlres​):{Hlres​∈Rn×n∣Hlres​1n​1n​,1_n⊤mathcalHlres​1n⊤​, Hlres​≥0}​​其中11n表示所有元素均为 1 的n维向量。从公式7中可看出双随机矩阵的元素都大于等于0每一行、每一列的值相加都等于1。双随机矩阵具备2个重要特性① 范数值为1②多个双随机矩阵的乘积还是双随机矩阵。从而可以推出 ∣∏_1−1−∣1∣∏_i1L−1HL−ires​∣1 解决了上面提到的范数不可控的问题。那么怎么把_Hres_l矩阵变换成双随机矩阵呢DeepSeek团队采用的是Sinkhorn-Knopp算法。Sinkhorn-Knopp算法① 通过公式8计算变换前的Hlres​其中输入∈×,pre,post∈×,∈,2xl​∈Rn×C,φlpre​,φlpost​∈RnC×n,φlres​∈RnC,n2先将 xl​转换为 1×R1×nC的向量 ~x~l​并通过mat(·)操作从1×2R1×n2空间转换到×Rn×n。② 通过(0)(~)M(0)exp(H~lres​)得到元素值都大于0的矩阵作为迭代起始矩阵。③ 通过下面的公式迭代做normalization使其满足每行之和和每列之和接近1()(((−1)))M(t)Tr​(Tc​(M(t−1)))​​其中Tr​ 和Tc​分别代表按行和按列做归一化根据Sinkhorn-Knopp算法原理 ()M(t)会收敛成双随机矩阵DeepSeek论文中一般迭代20步。Birkhoff多胞体流形论文标题中的Manifold流形指的就是由所有双随机矩阵构成的几何空间被称为Birkhoff多胞体Birkhoff Polytope, 记为Bn​。多胞体Polytope想象一个多维空间中的多面体类似于3D空间中的钻石或立方体。这个多面体的每一个点都代表一个合法的双随机矩阵。顶点Vertices这个多面体的顶点是所有的置换矩阵Permutation Matrices。置换矩阵是只包含0和1的矩阵且每行每列只有一个1。它们的作用仅仅是交换信息的顺序比如把通道1的信息换到通道 2而不改变信息的大小。内部InteriorBirkhoff-von Neumann定理告诉我们这个多面体内部的任何一个点即任何一个双随机矩阵都可以表示为这些顶点的加权平均。DeepSeek的做法实际上是将神经网络原本在整个欧几里得空间中乱跑的参数强行拉回到了这个 Birkhoff多胞体的表面或内部。在这个几何体内游走无论怎么走都是安全的。关于mHC的更多知识可参考https://www.k-a.in/mHC-math.html、https://arxiv.org/pdf/2512.24880系统级实现与工程优化虽然Sinkhorn-Knopp迭代在理论上很美但在计算上却很昂贵。如果在每一层、每一步训练中都进行 20次矩阵迭代训练速度会大打折扣。DeepSeek为mHC量身定制了基础设施设计将额外开销仅增加6.7%。算子融合 (Kernel Fusion)DeepSeek利用了自研的TileLang编程语言开发了定制化的CUDA内核。融合操作将指数化、20次Sinkhorn迭代、以及后续的矩阵乘法全部融合进了一个单一的GPU Kernel中。SRAM驻留在这个Kernel执行期间中间数据如迭代过程中的矩阵一直保留在GPU的高速缓存SRAM/Register中而不需要反复写回慢速的全局显存。这大大减少了内存 I/O 次数使得 20 次迭代的计算时间几乎可以忽略不计。DualPipe通信重叠在大模型训练中由于模型太大往往需要跨多个GPU进行流水线并行Pipeline Parallelism。 DeepSeek设计了一种名为DualPipe的调度策略。打时间差当GPU的计算单元Tensor Cores正在全力计算mHC的Sinkhorn投影时GPU的通信单元NVLink并未闲着。重叠执行DualPipe巧妙地安排了任务利用mHC计算的时间窗口同时进行不同GPU之间的数据传输。结果Sinkhorn带来的额外计算延迟被通信时间完美掩盖了。对于整体训练流程来说mHC的计算几乎是免费的。选择性重计算Selective Recomputation由于mHC引入了 4n4 的扩展流中间激活值的显存占用会增加。如果全部存储会导致显存不足。DeepSeek 采用了选择性重计算策略在前向传播时不存储所有Sinkhorn迭代的中间结果。在反向传播时利用这一层极快的计算速度重新计算出所需的中间变量。这种以计算换显存的策略结合TileLang的高效率使得 mHC 在显存占用上也保持了高效。实验结果研究首先考察27B模型的训练稳定性与收敛性。如图5 (a) 所示mHC有效缓解了在HC中观察到的训练不稳定性与基线相比最终损失降低了0.021。图5 (b) 中的梯度范数分析进一步证实了这种稳定性的提升其中mHC表现出明显优于HC的行为其稳定的表现与基线相当。表 4展示了模型在多种下游基准测试中的性能表现。相比于基线模型mHC实现了全面的性能提升并在大多数任务上超过了HC。值得注意的是与HC相比mHC 进一步增强了模型的推理能力在 BBH上实现了2.1%的性能提升在 DROP上实现了2.3%的性能提升

相关文章:

从ResNet到mHC:DeepSeek重构残差连接,额外开销仅6.7%,附复现代码

2015年,由微软亚洲研究院的何恺明团队提出ResNet,ResNet引入残差连接的概念,用以解决深层神经网络训练中的梯度消失/爆炸和网络退化问题,使得训练极深的网络成为可能。 ��1��&#x…...

效率飙升秘籍:用快马生成全自动opencode安装与配置工具

最近在折腾opencode的安装配置,发现手动操作实在太费时间了——要查文档、装依赖、配环境变量,一不小心就踩坑。后来发现用InsCode(快马)平台可以快速生成自动化脚本,效率直接翻倍。今天就把这个"偷懒"方案分享给大家。 环境预检查…...

ANIMATEDIFF PRO效果展示:森林晨雾中飘落树叶+光线穿透动态GIF集

ANIMATEDIFF PRO效果展示:森林晨雾中飘落树叶光线穿透动态GIF集 1. 引言:当AI遇见电影级动态美学 想象一下,你脑海中有一个绝美的画面:清晨的森林,薄雾缭绕,阳光透过层层叠叠的树叶,形成一道道…...

Display Driver Uninstaller深度使用指南:从问题诊断到系统优化

Display Driver Uninstaller深度使用指南:从问题诊断到系统优化 【免费下载链接】display-drivers-uninstaller Display Driver Uninstaller (DDU) a driver removal utility / cleaner utility 项目地址: https://gitcode.com/gh_mirrors/di/display-drivers-uni…...

LiuJuan Z-Image Generator快速上手:生成图批量后处理(锐化/降噪/色彩校正)集成

LiuJuan Z-Image Generator快速上手:生成图批量后处理(锐化/降噪/色彩校正)集成 1. 引言:从生成到精修,一步到位 你用过AI生成图片吗?是不是经常遇到这样的问题:好不容易生成了一张构图不错的…...

MoE大模型入门指南:小白也能掌握的AI核心技术(收藏学习)

混合专家模型(Mixture-of-Experts, MoE)是机器学习和深度学习中的一种流行架构,目前被广泛应用于大模型领域。MoE的基本原理是通过门控(Gating)机制,加权集成各专家(Experts&#xf…...

3大核心策略构建平台化电商生态:Lilishop多商户SaaS架构深度解析

3大核心策略构建平台化电商生态:Lilishop多商户SaaS架构深度解析 【免费下载链接】lilishop 商城 JAVA电商商城 多语言商城 uniapp商城 微服务商城 项目地址: https://gitcode.com/gh_mirrors/li/lilishop 在数字化转型浪潮中,平台化电商已成为企…...

利用快马AI快速生成n8n自动化工作流原型,十分钟搭建业务逻辑骨架

今天想和大家分享一个快速搭建n8n自动化工作流原型的经验。作为一个经常需要处理各种自动化流程的开发者,我发现用InsCode(快马)平台可以大大缩短从构思到实现的时间。 为什么选择n8n工作流原型 n8n作为开源自动化工具,最大的优势就是可视化工作流设计…...

4个维度解析EAS CLI:移动开发效率提升工具

4个维度解析EAS CLI:移动开发效率提升工具 【免费下载链接】eas-cli Fastest way to build, submit, and update iOS and Android apps 项目地址: https://gitcode.com/gh_mirrors/ea/eas-cli 定位核心价值:重新定义移动开发工作流 在移动应用开…...

别再死记硬背了!用PR关键帧做这个动态信息图,5分钟让你的视频告别枯燥

5分钟玩转PR关键帧:让静态信息「活」起来的动态设计指南 每次看到那些枯燥的PPT数据展示或静态信息图,你是否想过——如果能像专业视频一样让它们动起来该多好?但一打开After Effects就被复杂的界面劝退?其实,Premiere…...

cat-catch:构建智能化媒体资源捕获的浏览器扩展解决方案

cat-catch:构建智能化媒体资源捕获的浏览器扩展解决方案 【免费下载链接】cat-catch 猫抓 chrome资源嗅探扩展 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch cat-catch是一款专注于网页媒体资源智能捕获的浏览器扩展工具,通过深度…...

uniapp 抖音生态集成实战:从授权登录到内容发布与社交分享

1. 为什么要在uniapp中集成抖音生态? 对于电商类或内容社区类的uniapp应用来说,抖音生态的集成价值主要体现在三个方面:流量获取、用户增长和内容传播。抖音作为国内最大的短视频平台之一,拥有庞大的用户群体和活跃的内容生态。通…...

Grok-1开源项目终极指南:从入门到精通完整教程

Grok-1开源项目终极指南:从入门到精通完整教程 【免费下载链接】grok-1 马斯克旗下xAI组织开源的Grok AI项目的代码仓库镜像,此次开源的Grok-1是一个3140亿参数的混合专家模型 项目地址: https://gitcode.com/GitHub_Trending/gr/grok-1 想要体验…...

如何快速掌握Sionna:下一代无线通信仿真的终极指南

如何快速掌握Sionna:下一代无线通信仿真的终极指南 【免费下载链接】sionna Sionna: An Open-Source Library for Next-Generation Physical Layer Research 项目地址: https://gitcode.com/gh_mirrors/si/sionna Sionna是一个基于TensorFlow的开源Python库&…...

Audio Pixel Studio语音合成实战:正则表达式预处理文本标点停顿

Audio Pixel Studio语音合成实战:正则表达式预处理文本标点停顿 1. 引言:为什么需要文本预处理 在语音合成应用中,文本预处理是一个经常被忽视但至关重要的环节。Audio Pixel Studio作为一款轻量级音频处理工具,虽然内置了强大的…...

Linux等保测评实战:这些命令帮你快速搞定90%的检查项

Linux等保测评实战:高效命令组合与深度解析 1. 等保测评的核心挑战与Linux应对策略 每次面对等保测评,不少系统管理员都会感到压力山大。时间紧、任务重、检查项繁杂,如何在有限时间内高效完成合规检查,同时确保系统安全无虞&…...

Mars3D新手必读:从零开始的开发者实战手册

1. 初识Mars3D:数字地球的新世界 第一次打开Mars3D的场景编辑器时,那种震撼感至今难忘——就像小时候第一次转动地球仪,但这次是用代码在操控整个星球。作为国内领先的Web3D地理信息引擎,Mars3D用浏览器就能呈现毫米级精度的地形地…...

无需Root!用KSWEB在旧安卓手机上搞个私人服务器:文件共享+内网穿透实战

无需Root!用KSWEB在旧安卓手机上搭建全能私人服务器 家里闲置的安卓手机别急着扔,只需安装一个KSWEB应用,就能变身为功能齐全的私人服务器。这个方案特别适合想低成本搭建家庭NAS、个人云存储或测试环境的极客用户。相比动辄上千元的专业NAS设…...

从DTC诊断码到ECU恢复:深入解析车载CAN总线的BUSOFF快慢恢复机制

从DTC诊断码到ECU恢复:车载CAN总线BUSOFF快慢恢复机制实战指南 当CAN总线上的某个ECU因连续发送失败而触发BUSOFF状态时,整个车载网络的稳定性便面临严峻考验。作为汽车电子诊断工程师,我们常常需要在深夜的生产线上,面对闪烁的故…...

别再到处找安装包了!Win10下Apache 2.4保姆级安装与配置(附网盘资源)

Win10下Apache 2.4终极安装指南:从零避坑到高效部署 第一次在Windows上配置Apache服务器时,我盯着命令行里反复出现的"Syntax error"提示整整两小时——直到发现是因为配置文件里少了个引号。这种看似简单的环境搭建,往往藏着无数…...

老Mac升级指南:使用OpenCore Legacy Patcher让旧设备焕发新生

老Mac升级指南:使用OpenCore Legacy Patcher让旧设备焕发新生 【免费下载链接】OpenCore-Legacy-Patcher 体验与之前一样的macOS 项目地址: https://gitcode.com/GitHub_Trending/op/OpenCore-Legacy-Patcher 随着苹果对旧款Mac的系统支持逐渐终止&#xff0…...

2026年6月PMP考试:70天冲刺,这5个“备考误区”正在偷偷浪费你的时间

大家好,我是老陈。 今天这篇,我不想再写什么“每天学几小时、刷多少题”了。 前面写了好几篇,该说的都说了。今天咱们换个角度,聊聊那些看似正确、实则坑人的备考误区。 为什么聊这个?因为我发现一个规律&#xff1…...

在Aspen Plus中用Linde - Hampson工艺液化CO₂:从燃煤电厂捕获气体的模拟探索

在 Aspen Plus 中使用 Linde-Hampson 工艺液化CO2该模拟使用 Aspen Plus 对从燃煤电厂捕获的富含二氧化碳的气体进行液化。在应对气候变化的征程中,二氧化碳捕获与封存(CCS)技术愈发关键。从燃煤电厂捕获富含二氧化碳的气体并将其液化&#x…...

离散状态观测器

-伺服(实用)A川伺服--模型追踪控制(末端低频振动抑制-pmsm 完全自己搭建,原理清晰,效果可靠,可实际验证包含: (1)详细原理性推导 (2)仿真基于离散化模型以及离…...

工业自动化场景信捷 PLC EtherNet/IP 转 TCP/IP 通信方案

EtherNet/IP转TCP/IP网关应用:信捷PLC工业自动化数据采集实战案例一、项目背景本次项目落地于国内某大型3C电子精密组装工厂,聚焦智能手机中框自动化组装产线,属于当前工业自动化领域高增速、高前景的主流场景,也是工业物联网落地…...

OpenClaw长期运行方案:nanobot镜像的稳定性优化技巧

OpenClaw长期运行方案:nanobot镜像的稳定性优化技巧 1. 为什么需要关注长期运行稳定性 去年冬天,我部署了一个基于OpenClaw的自动化新闻摘要系统。最初几周运行良好,直到某个凌晨收到服务器告警——进程已经悄悄崩溃了三天。这次教训让我意…...

告别演唱会抢票焦虑:大麦网Python自动化抢票脚本终极指南

告别演唱会抢票焦虑:大麦网Python自动化抢票脚本终极指南 【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。 项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 还在为心仪歌手的演唱会门票秒光而烦恼吗?还在为黄牛高价票而心痛…...

高效统计分析实战指南:JASP全面解析与应用秘籍

高效统计分析实战指南:JASP全面解析与应用秘籍 【免费下载链接】jasp-desktop JASP aims to be a complete statistical package for both Bayesian and Frequentist statistical methods, that is easy to use and familiar to users of SPSS 项目地址: https://…...

终极视频修复指南:如何使用untrunc拯救损坏的MP4文件

终极视频修复指南:如何使用untrunc拯救损坏的MP4文件 【免费下载链接】untrunc Restore a truncated mp4/mov. Improved version of ponchio/untrunc 项目地址: https://gitcode.com/gh_mirrors/un/untrunc 你是否曾经遇到过珍贵的视频文件突然无法播放&…...

宝塔面板计划任务设置教程

宝塔面板的计划任务,就是服务器的定时执行工具,不用手动敲命令,可视化界面就能设置,能实现自动备份、定时重启、清理缓存、执行脚本等多种自动化操作。下面详细讲解完整设置步骤、常用任务配置和避坑技巧。一、进入计划任务页面1.…...