当前位置: 首页 > article >正文

告别残差加法,Kimi 给神经网络换了个 “智能引擎”

来源算法进阶 本文约2800字建议阅读6分钟本文介绍了 Kimi 团队用 Attention Residuals 替代传统残差机制的成果。只要接触深度学习神经网络的读者们对「」一定不会陌生。自从 2015 年 ResNet 诞生以来这种「将输入直接加到输出上」的简单逻辑统治了几乎所有神经网络架构。但就在刚刚沿用了十年的残差机制「升级」了。随橙想呢替代方法竟然是「注意力机制」。背后的直觉是模型的「深度」其实就是另一种形式的「时间」。就连 OpenAI 「推理模型之父」主导了 o1/o3 系列、Codex 编程模型及 GPT-4 的 STEM 能力开发的 Jerry Tworek 都深受这一论文启发认为应当重新思考之前的一切「深度学习 2.0」的时代即将到来。这篇颠覆传统残差连接机制的工作来自 Kimi 团队发布了一项重磅技术报告Attention Residuals 该方法旨在通过对前序层进行学习到的、依赖输入的注意力机制来取代标准的深度递归。论文标题Attention Residuals论文链接https://github.com/MoonshotAI/Attention-Residuals/blob/master/Attention_Residuals.pdf项目链接https://github.com/MoonshotAI/Attention-Residuals01 时间与深度的对偶要理解 Attention Residuals 是在做什么我们得先看传统的残差连接出了什么问题。在大模型向更深、更强演进的过程中这种残差的加法机制带来了两个副作用1. 信息稀释 残差连接采用固定单位权重的均匀聚合导致浅层特征在向深层传递时其相对贡献度随深度线性衰减。这种「信息稀释」现象限制了深层网络对底层原始表示的直接利用能力。随着层数增加第一层的信息传到第一百层时已经被后面九十九层的信息层层冲淡。2. 隐藏状态爆炸为了在不断累加的残差流中维持信号强度深层模块往往需要输出模长更大的激活值。这种隐状态的无序扩张不仅破坏了数值稳定性还导致梯度分布不均增加了超大规模模型训练收敛的难度直接导致了训练的不稳定性。本文的天才之处在于发现模型的「深度」其实就是另一种形式的「时间」。论文作者之一的 Yulun Du 老师道出了该论文的核心思想将注意力旋转 90°。Attention Residuals (AttnRes) 由此诞生为每一层配备了一个「智能筛选器」。每一层都会发出一个 Query去之前的所有层里寻找最相关的特征并按需分配权重进行聚合。正如 RNN 在时间维度上的表现残差连接在深度维度上也将所有先验信息压缩到了单一状态中。在序列建模领域Transformer 通过将递归替换为注意力机制超越了 RNN使每个位置都能通过数据依赖的权重选择性地访问之前的所有位置。研究团队针对「深度」提出了同样的方法其中是层特定的注意力权重且满足。与动辄达到数百万 Token 的序列长度不同网络的深度通常较浅L1000这使得深度方向上OL2复杂度的注意力机制在计算上具有可行性。02 注意力残差1. 理论重构完整的注意力残差传统的残差连接ResNet本质上是深度递归它像 RNN 一样把过去所有层的信息死板地 「压缩」进一个求和状态中。注意力权重可以表示为。本文采用了带有归一化的指数核函数即在深度维度上执行 Softmax 注意力核心创新 既然 Transformer 用注意力机制取代了 RNN解决了长序列的遗忘问题那么 AttnRes 就在深度上取代了残差累加。数学实现 每一层不再是简单地加上前一层而是发出一个可学习的 Query去和之前所有层产生的 Key 做匹配。Softmax 权重 通过 Softmax 归一化模型可以 「挑选」 出对自己最有用的某几层。比如第 50 层可以直接提取第 2 层的特征权重占比可以高达 0.8而不用担心被中间的 48 层稀释。2. 工程落地Block AttnRes 的分块策略全量注意力Full AttnRes虽然完美但在超深模型里会导致显存和通信量爆炸 复杂度。为了让模型跑得通研究团队设计了块结构。局部求和Intra-Block 把模型分成 N 个块。在块内部各层输出依然进行简单的累加缩减为一个 「块代表」Representation全局调度Inter-Block 每一层在进行残差聚合时不再盯着 「每一层」 看而是盯着 「每一个块」 看。对于第 n 块中的第 i 层其 Value 矩阵 定义为在这种设计下网络的第一层接收 Token 嵌入每个块的第一层接收之前所有的块表示及 Token 嵌入块内的后续层则额外关注当前块内已产生的累加结果。最终的输出层聚合所有 N 个块表示。效率奇迹 实验发现即便模型有上百层只要划分成 N≈8 个块就能获得绝大部分性能增益。复杂度骤降 内存开销从随层数 L 增长降到了随块数增长。这意味着你可以用极小的代价推理延迟增加 2%获得一个 「更聪明」 的深层网络。图 1Attention Residuals 概览(a) 标准残差Standard Residuals 采用均匀加法累加的传统残差连接方式。(b) 全量注意力残差Full AttnRes 每一层都通过学习到的注意力权重有选择地聚合之前所有层的输出。(c) 块注意力残差Block AttnRes 将各层划分为若干个「块」将内存开销从 O (Ld) 降低至 O (Nd)。03 战果1.25 倍的「计算杠杆」根据论文信息实验架构与 Kimi Linear 完全一致这是一种遵循 Moonlight / DeepSeek-V3 设计的混合专家模型MoE Transformer。唯一的修改是在残差连接中加入了 AttnRes模型深度、隐藏维度、专家路由和 MLP 结构等其他组件均保持不变。研究团队测试了五种模型规模并为每种规模训练了三个变体PreNorm 基准模型、全量 AttnRes 以及约 8 个块的 Block AttnRes。下图展示了拟合后的规模化曲线。三个变体的斜率相似但 AttnRes 在整个计算范围内一致实现了更低的损耗Loss。基于拟合曲线在 5.6 PFLOP/s-days 的计算量下Block AttnRes 的损耗为 1.692而基准模型为 1.714这相当于1.25 倍的计算优势Compute Advantage 。随着模型规模增大Full 与 Block 变体之间的差距在缩小。研究团队的最大模型基于 Kimi Linear 48B 配置27 个 Transformer 块共 54 层在 256 个路由专家中激活 8 个外加 1 个共享专家总参数 48B激活参数 3B。该模型采用 Block AttnRes每块 6 层共产生 9 个块外加 1 个 Token 嵌入形成 10 个深度方向的来源。上图展示了模型在 1T token 训练过程中的动态变化验证损耗 AttnRes 在整个训练过程中始终保持较低的验证损耗尤其在衰减Decay阶段差距进一步拉大。输出量级 基准模型遭受 PreNorm 稀释问题随着隐状态量级随深度单调增长深层网络被迫从固定缩放的归一化输入中学习越来越大的输出以维持影响力。而 Block AttnRes 将这种增长限制在每个块内通过块边界的选择性聚合重置了累加过程呈现出有界的周期性模式。梯度量级 在所有残差权重固定为 1 的基准模型中梯度流在深度上的分布极不均匀导致早期层梯度过大。Block AttnRes 的可学习 Softmax 权重引入了来源之间的竞争从而实现了显著更均匀的梯度分布。下游性能表现 如上表所示Block AttnRes 在所有评测任务中均达到或超过了基准模型。提升显著的任务 在多步推理任务中提升尤为突出如 GPQA-Diamond (7.5) 、Minerva Math (3.6) 以及代码生成 b知识类任务 MMLU (1.1) 和 TriviaQA (1.9) 也展现了稳健的提升。数据给出了最有力的证明计算效率 达到同样的性能AttnRes 相比传统残差节省了约 20% 的计算量1.25x 优势。逻辑推理 在数学、代码等硬核任务上提升显著。例如在极难的 GPQA-Diamond 测试中性能提升了 7.5 分。稳定性 成功抑制了隐藏状态的数值爆炸让深层网络依然能保持「冷静」和「高效」。04 总结Rethink Imagine用更高维的视角看基础架构的研究时间和空间都是相通的。这篇论文「将注意力旋转 90°」的思想似乎带给 Karpathy 一些启示和思考。ResNet 的残差流是信息在不同空间深度上的传递。SGD 随机梯度下降的权重流是信息在不同时间维度上的传递。研究团队觉得 ResNet 的加法太朴素了所以提议用 Attention 来筛选过去每一层的输出。 既然 SGD 也是 ResNet「Attention is All You Need」那我们为什么不能在优化器里也加上 Attention架构的生命力往往来自于对惯性的反思。当我们回过头去审视那些基础架构或许就能在过去的故纸堆中发现更多通往未来的巧妙结合。编辑于腾凯校对林亦霖关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

相关文章:

告别残差加法,Kimi 给神经网络换了个 “智能引擎”

来源:算法进阶 本文约2800字,建议阅读6分钟本文介绍了 Kimi 团队用 Attention Residuals 替代传统残差机制的成果。只要接触深度学习神经网络的读者们对「」一定不会陌生。自从 2015 年 ResNet 诞生以来,这种「将输入直接加到输出上」的简单逻…...

OpCore-Simplify:如何用四步自动化配置解决黑苹果安装难题?

OpCore-Simplify:如何用四步自动化配置解决黑苹果安装难题? 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify OpCore-Simplify是…...

革新性量化交易平台:基于Backtrader的高效策略回测工具实现方法

革新性量化交易平台:基于Backtrader的高效策略回测工具实现方法 【免费下载链接】backtrader-pyqt-ui 项目地址: https://gitcode.com/gh_mirrors/bac/backtrader-pyqt-ui Backtrader可视化平台是一款融合PyQt界面框架与finplot图表库的革新性量化交易回测工…...

从作业到考试:中科大数字图像分析(DIA)课程避坑与自学指南

中科大数字图像分析(DIA)课程高效学习与实战避坑指南 数字图像分析(DIA)作为中科大电子工程与信息科学系的专业基础课,以其知识面广、难度高著称。每年都有不少同学因低估课程强度而陷入"上课听不懂、作业不会做、考前突击难"的困境。本文将系统梳理从日常…...

Microsoft团队提出“弯曲雅各布天梯”新思路,了解量子数据如何教会AI做更好的化学

来源:ScienceAI 本文约3500字,建议阅读5分钟量子计算机生成精确数据,AI模型学习并实现百万倍加速预测。有时,一个视觉上引人注目的隐喻,足以让你传达一个复杂的观点。2001 年夏天,杜兰大学物理教授 John P.…...

前端开发中的加载指示器(Loading Spinners)一种动态旋转的图形元素(如圆圈、齿轮状动画)

在 Android 中,Spinner 是一个下拉选择控件,用于从预定义列表中选择一项。以下是标准、稳定、兼容性好的实现方式(基于 ViewBinding ArrayAdapter,适配 AndroidX 和 API 21):✅ 一、绑定数据(以…...

C 里面如何使用链表 list

1. 学生时代, 那会学习 C 数据结构, 比较简单 struct person {int id;char name[641];struct person * next; }; 类似上面这样, 需要什么依赖 next 指针来回调整, 然后手工 print F5 去 debug 熬. 2. 刚工作青年时代, 主要花活, 随大流类似 #pragma once#include "stru…...

TensorFlow开发中用到的一些第三方库

本节介绍下后面开发要用到的辅助库,并做一些简单的代码实例和效果演示,当然我们都是为了最终目标TensorFlow开发做准备的,用到的也是这些库的简单的api,这里做简单的介绍为后面TensorFlow开发做准备,对于这些库的深入研…...

GHelper:华硕笔记本性能优化与硬件控制的开源解决方案

GHelper:华硕笔记本性能优化与硬件控制的开源解决方案 【免费下载链接】g-helper Lightweight, open-source control tool for ASUS laptops and ROG Ally. Manage performance modes, fans, GPU, battery, and RGB lighting across Zephyrus, Flow, TUF, Strix, Sc…...

TensorFlow的一些基本概念

分类问题和回归问题 在实际生活中,人们面临的问题无非就是离散的和连续的。 比方区分出某个人属于男性还是女性,比方衣服是什么颜色的,什么种类的,这些都是在有限数量的结果中寻找答案,也就是最终结果只能是N个里面的某…...

NI USB-6210 DAQ采集卡开箱照

1、包装非常简单,有点对不起它6000~7000元的价格:2、 内部也没有什么特别的:3、一张用户须知,一本使用说明:4、一张光盘,感觉有点Low,现在电脑很少有光驱了:5、这条USB线据说要200大…...

SmolVLA企业应用:轻量级VLA模型赋能AGV分拣与桌面机械臂

SmolVLA企业应用:轻量级VLA模型赋能AGV分拣与桌面机械臂 1. 引言:当机器人开始“看懂”世界 想象一下,你对着一个机械臂说:“把那个红色的方块拿起来,放到蓝色的盒子里。”然后它真的照做了。这不是科幻电影&#xf…...

7大核心优势!D3KeyHelper暗黑3智能宏工具全面解析:从手动操作到自动化体验的升级之路

7大核心优势!D3KeyHelper暗黑3智能宏工具全面解析:从手动操作到自动化体验的升级之路 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelp…...

ai辅助开发:向快马描述需求,直接生成jdk1.8实现的控制台通讯录项目

最近在尝试用Java开发一个简单的命令行通讯录程序,正好借这个机会体验了一把AI辅助开发的便利。整个过程让我深刻感受到,合理利用工具真的能大幅提升开发效率。下面记录下这个项目的实现思路和关键点,或许对同样想用JDK1.8练手的朋友有帮助。…...

突破8大平台限制:开源工具实现高速下载的3种创新方案

突破8大平台限制:开源工具实现高速下载的3种创新方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云…...

Open UI5 源代码解析之854:MenuItem.js

源代码仓库: https://github.com/SAP/openui5 源代码位置:src\sap.m\src\sap\m\MenuItem.js MenuItem.js 深度解析:在 OpenUI5 菜单体系中的定位、机制与实践价值 一、文件定位与总体结论 MenuItem.js 是 sap.m 库里菜单体系的关键节点文件,它实现了 sap.m.MenuItem 控…...

2026年OpenClaw部署攻略:新手友好部署、配置大模型百炼APIKey、集成Skill详细步骤

2026年OpenClaw部署攻略:新手友好部署、配置大模型百炼APIKey、集成Skill详细步骤。OpenClaw(原Clawdbot)作为2026年主流的AI自动化助理平台,可通过阿里云轻量服务器实现724小时稳定运行,并快速接入钉钉,让…...

实战演练:基于快马平台生成电商全流程自动化测试并与Jenkins集成

今天想和大家分享一个最近用InsCode(快马)平台完成的电商自动化测试实战项目。这个项目模拟了真实电商平台的核心业务流程,从用户注册登录到完成支付的全流程测试,特别适合需要快速搭建自动化测试体系的小伙伴参考。 项目背景与设计思路 电商系统的稳定…...

终极抖音无水印下载指南:如何快速批量获取高质量视频素材

终极抖音无水印下载指南:如何快速批量获取高质量视频素材 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback su…...

Make:目标(Target)构建的详细和依赖项的处理过程(个人总结)

相关文章 Make专栏https://blog.csdn.net/weixin_45791458/category_12383799.html 这段时间在用makefile,所以自己探究了一下make的工作过程,并经过实验总结了一些规律。 对于一个规则的处理如下,首先make会检查规则中的目标文件是否存在和…...

Linux:模式通配符 * 和globstar **(bash4新增)的使用

相关文章 Linux专栏https://blog.csdn.net/weixin_45791458/category_12234591.html 在bash的使用过程中,模式通配符可以说是最常见、也最实用的一类功能。很多时候我们在命令行里处理文件,并不是靠把完整文件名一个个手工敲出来,而是通过ba…...

Topit窗口置顶效率引擎:重新定义Mac多任务工作流

Topit窗口置顶效率引擎:重新定义Mac多任务工作流 【免费下载链接】Topit Pin any window to the top of your screen / 在Mac上将你的任何窗口强制置顶 项目地址: https://gitcode.com/gh_mirrors/to/Topit 在信息爆炸的时代,我们每天需要处理的窗…...

Lux编译器完整指南:如何将用户意图智能转化为可视化规范

Lux编译器完整指南:如何将用户意图智能转化为可视化规范 【免费下载链接】lux Automatically visualize your pandas dataframe via a single print! 📊 💡 项目地址: https://gitcode.com/gh_mirrors/lux/lux Lux编译器是Lux数据可视…...

深入解析AdminBSB:Bootstrap 3.x与Material Design完美融合的终极指南

深入解析AdminBSB:Bootstrap 3.x与Material Design完美融合的终极指南 【免费下载链接】AdminBSBMaterialDesign AdminBSB - Free admin panel that is based on Bootstrap 3.x with Material Design 项目地址: https://gitcode.com/gh_mirrors/ad/AdminBSBMateri…...

seo网络优化如何提高网站的转化率

SEO网络优化如何提高网站的转化率 在当前的互联网时代,网站的流量和转化率是衡量企业在网络上竞争力的重要指标。而搜索引擎优化(SEO)网络优化作为提高网站流量和转化率的有效手段,其重要性不言而喻。SEO网络优化究竟能如何有效提…...

AWS容器服务终极指南:如何实现高效微服务治理与API网关集成

AWS容器服务终极指南:如何实现高效微服务治理与API网关集成 【免费下载链接】containers-roadmap This is the public roadmap for AWS container services (ECS, ECR, Fargate, and EKS). 项目地址: https://gitcode.com/gh_mirrors/co/containers-roadmap …...

永久保存QQ空间记忆:GetQzonehistory数据备份工具完全指南

永久保存QQ空间记忆:GetQzonehistory数据备份工具完全指南 【免费下载链接】GetQzonehistory 获取QQ空间发布的历史说说 项目地址: https://gitcode.com/GitHub_Trending/ge/GetQzonehistory 在数字时代,我们的青春记忆大多存储在社交平台中&…...

基于MATLAB Robotics Toolbox的机械臂轨迹规划仿真与数据可视化分析

基于MATLAB Robotics Toolbox的机械臂轨迹规划仿真与数据可视化分析 摘要 机械臂轨迹规划是机器人学研究的核心问题之一,直接影响工业机器人的作业精度、运动平稳性和工作效率。本文以六自由度PUMA560型机械臂为研究对象,利用Peter Corke开发的Robotics Toolbox for MATLAB…...

基于逻辑回归与XGBoost的冠心病风险预测模型比较研究——以UCI Heart Disease数据集为例

基于逻辑回归与XGBoost的冠心病风险预测模型比较研究——以UCI Heart Disease数据集为例 摘要 冠心病是当前全球范围内致死率最高的心血管疾病之一,早期准确识别高危人群对于降低发病率和死亡率具有重要意义。本研究以UCI Heart Disease数据集为基础,系统比较了逻辑回归与X…...

openclaw行为式AI重构:从昂贵Token到高效对象协作

从昂贵的token消耗到高效的对象协作,重新设计行为式AI的核心架构 问题诊断:为什么当前行为式AI如此“昂贵”? OpenClaw等工具的核心架构依赖生成式大模型作为“大脑”,通过反复的推理-行动循环完成任务。这种设计导致: 高Token消耗的根源 重复的上下文传递:每次循环都需…...