当前位置: 首页 > article >正文

Transformer底层逻辑:被低估的残差连接,小白也能看懂的大模型秘密(收藏版)

本文深入解析Transformer模型中的残差连接从其起源ResNet谈起阐述其在解决梯度消失、提升网络深度方面的关键作用。文章对比了传统网络与残差网络的差异揭示了残差连接如何通过“加法操作”实现信息保真与梯度稳定并探讨了在极深网络中mHC等新型技术的演进。残差连接不仅是技术层面的设计更体现了信息传递与系统稳定性的底层哲学是理解大模型能力的关键。一个被低估的设计有时候觉得看模型架构就好像在拆一个高达当我拆 Transformer 拆到残差连接的时候我停下来想了一会儿。原因很简单它太不起眼了。比起 Self-Attention 那套“每个词注意到所有词”的惊艳直觉比起多头注意力那种并行计算的优雅残差连接看起来就像一个偷懒的加法操作y F(x) x。把输入绕个圈加回来(如下图所示的addNorm就是残差连接)没了。Transformer功能架构中残差所处的位置但 Transformer 如果没有这个加法就像高楼没有地基上面再漂亮的 Attention 结构也堆不了几层。说到底这可能是深度学习里最被低估的一个设计。关于抄近道的故事说起来这残差连接最早不是为 Transformer 设计的。它来自 2015 年的 ResNet残差网络那一年 ImageNet 竞赛上一个 152 层的网络震惊了计算机视觉界。为什么 152 层是件大事因为在那之前网络一深就废。道理很朴素你把 10 层网络叠成 50 层按理说更深的网络表达能力更强效果应该更好吧但实际训练时发现50 层的误差反而比 20 层的还大。不是过拟合就是单纯训不动。问题出在一个叫梯度消失的现象上。想象一下你在一栋 50 层的大楼里喊话正向传播信息一层层传上去。然后你要从 50 楼跑下来告诉每一层怎么调整反向传播。但每下一层你的声音就弱一分等到一楼的时候几乎听不见了。这就是梯度消失越靠前的层学到的东西越少。怎么解决ResNet 的答案简单到让人怀疑给每层旁边修一条直达通道。传统网络和带残差连接网络的区别这样一来梯度信号可以从输出层直接跳回输入层完全绕过中间的弯弯绕绕。数学上反向传播时梯度路径上多了一个1——这个1就是那条「高速公路」。残差连接到底在做什么公式极其简单y F(x) x x是输入F(x) 是经过 Attention 或 Feed Forward 变换后的结果。但这里的哲学很有意思。传统网络的思路是你要学会从输入到输出的完整映射。就像一个学生要从零开始学做一道菜每一个步骤都不能错。残差连接的思路是你只需要学会输入和输出之间的差距。学生只需要关注自己这一层的“贡献”原材料已经在那里了你往上面加料就行。这种设计的好处是什么梯度有了专用通道。前面说了反向传播时梯度路径上有个1相当于给梯度修了一条紧急通道不管中间变换多复杂梯度都能直达前层。网络层可以“偷懒”。如果某一层发现自己不太需要改变什么比如某个特征已经足够好了它可以直接学习到 输出几乎等于输入。网络不会因为“必须做点什么”而引入噪声。信息不容易串味。Attention 负责捕捉词之间的交互关系残差连接保留了原始输入信息。两者相加各司其职——Attention 做“精加工”残差通道做“保真”。我自己的理解残差连接像极了代码里的immutable update模式——你不修改原始数据而是在原始数据的基础上叠加增量最终得到一个新旧融合的结果。这种模式在复杂系统中天然稳定因为它保证了原始信息通路始终存在不会因为中间处理而丢失。Transformer 里的两条传送带如果你打开一个标准的 Transformer Encoder 层你会看到两条残差连接一条在 Attention 子层之后一条在 Feed Forward 子层之后正如开头那张经典架构图。可以看到残差连接在架构中的作用明显残差①把原始输入和 Attention 输出相加。Attention 负责建立 token 之间的语义关系残差负责我记得你本来长什么样。两者加起来就是从原始词义出发带上上下文信息。残差②把 Attention 子层的输出和 FFN 输出相加。FFN 负责对每个 token 做独立变换残差负责“我记得上下文关系”。两者加起来就是在已知上下文的基础上做特征增强。还有一点值得注意现代 TransformerGPT、LLaMA 系列普遍用了Pre-LayerNorm——把 LayerNorm 放在子层之前而不是之后。这个设计改动和残差连接关系很大。Pre-LN 让残差路径上的信息流动更干净不受 Normalization 干扰训练更稳定。残差连接的“天花板”与 mHC残差连接解决了能不能堆深的问题但新的问题又来了当模型堆到几千亿参数时简单的加法还够用吗DeepSeek 的研究者们发现了一个微妙的现象在极深网络中传统残差连接的自由流动模式反而成了问题。信息每经过一层虽然名义上保留了恒等路径但几百层的累积效应下有效信息被逐层稀释——有点像信号在长电缆中的衰减虽然理论上有直连通道但实际传输中仍然有损耗。他们提出了 mHc(流形约束超连接)思路很巧妙传统残差连接是一个简单的加法mHC 给这个加法加了一个约束强制残差路径上的变换保持某种数学结构具体来说他们用 Sinkhorn-Knopp 算法迭代 20 次把残差投影矩阵约束到接近双随机矩阵行和列的和都接近 1达到 99.6% 的约束度。这样做的好处是信息在残差路径上流动时不会因为不同维度的权重差异而产生扭曲。这相当于在“高速公路”上加了一道护栏车可以跑得很快但不会偏出车道。KimiMoonshot AI也在探索类似的方向用可学习的注意力权重来替代简单加法。这说明一个趋势残差连接这个看似已经解决的问题在大模型时代又被重新打开了。一点真实的感受了解了残差连接也切实理解了这种思想在是深度学习里也是必要的存在 。Attention 让人兴奋因为它直觉上就聪明“让每个词关注所有相关词一听就合理。但残差连接给人的第一印象是这也太简单了吧简单到让人怀疑它是否真的有用。然而正是这种简单折射出了一个深层道理一个系统要想变得复杂必须先解决最基础的信息传递问题。没有残差连接Transformer 堆不到那么多层也就不可能通过深度来获得表达能力。没有恒等映射路径反向传播在 50 层的网络中就是纸上谈兵。这让我想起计算机科学里一个经典的设计原则——不要打破抽象层。每一层只做自己的事然后把结果传给下一层。残差连接本质上就是在保证无论中间层做了多复杂的变换原始信息始终有一条不受干扰的通道。这和分离关注点Separation of Concerns的哲学如出一辙。总结一些值得记住的点残差连接的核心公式输入加变换输出网络只需学习变化量解决梯度消失反向传播路径上多了一个1梯度可以直接跳过中间变换层Transformer 中有两条一条在 Attention 子层后、一条在 Feed Forward 子层后Pre-LayerNorm 是黄金搭档把 Norm 移到子层前让残差路径更干净mHC 是下一代演进给残差路径加上流形约束让千亿参数模型的训练更稳定本质是信息保真在复杂系统中保留原始信息通路是稳定性的根基最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。对于想入局大模型、抢占未来10年行业红利的程序员和小白来说现在正是最好的学习时机行业缺口大、大厂需求旺、薪资天花板高只要找准学习方向稳步提升技能就能轻松摆脱“低薪困境”抓住AI时代的职业机遇。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关文章:

Transformer底层逻辑:被低估的残差连接,小白也能看懂的大模型秘密(收藏版)

本文深入解析Transformer模型中的残差连接,从其起源ResNet谈起,阐述其在解决梯度消失、提升网络深度方面的关键作用。文章对比了传统网络与残差网络的差异,揭示了残差连接如何通过“加法操作”实现信息保真与梯度稳定,并探讨了在极…...

为什么32位STM32是CNC控制的终极升级方案?

为什么32位STM32是CNC控制的终极升级方案? 【免费下载链接】GRBL_for_STM32 A code transportation from origin grbl_v1.1f to STM32F103VET6, mainly prepare for my MegaCNC project. 项目地址: https://gitcode.com/gh_mirrors/gr/GRBL_for_STM32 GRBL_f…...

新概念英语第二册42_Not very musical

Lesson 42: Not very musical 不太懂音乐Key words and expressions musical 精通音乐的Delhi /ˈdeli/德里(印度城市)square 广场snake charmer 耍蛇人pipe (吹奏的)管乐器tune…...

终极内存清理神器:Mem Reduct完整使用指南

终极内存清理神器:Mem Reduct完整使用指南 【免费下载链接】memreduct Lightweight real-time memory management application to monitor and clean system memory on your computer. 项目地址: https://gitcode.com/gh_mirrors/me/memreduct 你的电脑是否经…...

NVIDIA Profile Inspector:解锁显卡隐藏性能的终极免费工具

NVIDIA Profile Inspector:解锁显卡隐藏性能的终极免费工具 【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 你是否曾经觉得自己的NVIDIA显卡性能没有完全发挥?明明配置不错&…...

标注精度提升47%的关键配置,自动驾驶公司内部未公开的Python标注流水线调优手册

更多请点击: https://intelliparadigm.com 第一章:标注精度提升47%的关键配置,自动驾驶公司内部未公开的Python标注流水线调优手册 在高精地图与BEV感知模型训练中,标注误差是导致mAP下降的首要隐性瓶颈。某头部自动驾驶公司通过…...

如何用Python工具3步获取百度网盘直链:告别限速的完整指南

如何用Python工具3步获取百度网盘直链:告别限速的完整指南 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否厌倦了百度网盘的非会员下载速度限制?…...

百度网盘直链获取终极指南:3步实现高速下载

百度网盘直链获取终极指南:3步实现高速下载 【免费下载链接】baidu-wangpan-parse 获取百度网盘分享文件的下载地址 项目地址: https://gitcode.com/gh_mirrors/ba/baidu-wangpan-parse 你是否厌倦了百度网盘蜗牛般的下载速度?当你急需下载重要文…...

3分钟快速上手:DownKyi B站视频下载器终极使用教程

3分钟快速上手:DownKyi B站视频下载器终极使用教程 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等&#xff…...

数字音乐格式困境与用户主权革命:QMCDecode如何重塑音乐文件所有权范式

数字音乐格式困境与用户主权革命:QMCDecode如何重塑音乐文件所有权范式 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载目录&…...

AI协作新范式:openJiuwen社区首发Coordination Engineering全栈技术体系

AI Agent正在经历一场工程范式的跃迁。从Prompt Engineering,教会模型如何回答问题;到Context Engineering,为Agent注入恰到好处的上下文;再到Harness Engineering,让单个Agent拥有工具调用、记忆管理、任务规划等完整…...

pcb-4月28

三线排针:C293762510k电阻:C713919LED : C2895470330欧姆电阻:C2848567USB供电: C404969typec : C27651865.1千欧电阻:C25905保险丝: C72007510uf电容:C15850100nf电容:C…...

OpCore Simplify:一键简化OpenCore EFI配置的终极指南 [特殊字符]

OpCore Simplify:一键简化OpenCore EFI配置的终极指南 🚀 【免费下载链接】OpCore-Simplify A tool designed to simplify the creation of OpenCore EFI 项目地址: https://gitcode.com/GitHub_Trending/op/OpCore-Simplify 对于想要体验macOS但…...

为什么头部AI公司已全员切换至Docker AI Toolkit 2026?——基于17家金融/医疗客户POC数据的ROI分析报告

更多请点击: https://intelliparadigm.com 第一章:Docker AI Toolkit 2026 的核心定位与演进逻辑 Docker AI Toolkit 2026 并非传统容器工具链的简单功能叠加,而是面向生成式AI工程化落地所构建的**可验证、可审计、可复现**的端到端运行时…...

2026个人远控软件终极对比:从延迟到画质,ToDesk远程控制竟吊打老牌软件?

先交代一下背景:我是一个重度远控用户,每天都要用到远程控制软件——在公司远程家里的电脑、在家里远程公司的机器、出门在外用手机远程处理紧急事务……过去两年,我把主流远控软件基本都用了一遍。今天这篇文章,不讲虚的&#xf…...

手把手教您 Claude 桌面端无需账号订阅,免费接入国产自定义大模型(Claude Desktop 绕过订阅限制,接入任意自定义 AI 模型)

文章目录 📖 介绍 📖 🏡 演示环境 🏡 📒 Claude桌面端接入自定义大模型教程 📒 📝 第一步:下载安装Claude桌面端 📝 第二步:启用开发者模式 🎯 操作步骤 📝 第三步:配置自定义模型 🔧 操作步骤 🎯 验证效果 📝 国产大模型API地址汇总 🌐 主流国…...

终极指南:如何在Windows文件资源管理器中快速预览STL模型缩略图

终极指南:如何在Windows文件资源管理器中快速预览STL模型缩略图 【免费下载链接】STL-thumbnail Shellextension for Windows File Explorer to show STL thumbnails 项目地址: https://gitcode.com/gh_mirrors/st/STL-thumbnail 还在为查找特定STL模型文件而…...

昆仑万维第一季营收25.7亿:同比增46% 净亏8.9亿 艾捷科芯刚融资5.5亿

雷递网 乐天 4月28日昆仑万维(股票代码:300418.SZ)今日发布截至2026年第一季度的财报。财报显示,昆仑万维2026年第一季度营收为25.7亿元,较上年同期的17.64亿元增长45.69%。昆仑万维2026年第一季度净亏损为8.87亿元&am…...

Golang怎么实现日志记录_Golang如何用zap或logrus搭建结构化日志系统【实战】

zap.NewProduction() 默认不输出Debug日志且以JSON格式输出到os.Stderr,无颜色和换行,易被误判为无输出;调试应改用zap.NewDevelopment()或显式设置日志等级。zap.NewProduction() 为什么打不出日志到控制台?默认不输出——zap.Ne…...

AirPodsDesktop:Windows与Linux平台AirPods体验完整解决方案

AirPodsDesktop:Windows与Linux平台AirPods体验完整解决方案 【免费下载链接】AirPodsDesktop ☄️ AirPods desktop user experience enhancement program, for Windows and Linux (WIP) 项目地址: https://gitcode.com/gh_mirrors/ai/AirPodsDesktop AirPo…...

首届智能算子测试大赛收官-国产AI底层能力的一次真实摸底

首届智能算子测试大赛收官,这是国产AI底层能力的一次真实摸底2026年4月25日,全国首届智能算子测试大赛总决赛在深圳香港中文大学(深圳)落幕。这场汇聚全国311支团队的赛事,表面上是竞赛,实质上是一次针对国…...

个人医疗保险选购流程的生命周期的庖丁解牛

它的本质是:一个从“风险自我评估”到“契约锁定”,再到“长期维护”的 闭环决策系统 (Closed-Loop Decision System) 。它不是简单的“买东西”,而是一次基于概率、预算和身体数据的复杂匹配过程。其核心在于消除信息不对称,通过…...

Cursor Pro终极激活指南:三步解锁免费AI编程完整功能

Cursor Pro终极激活指南:三步解锁免费AI编程完整功能 【免费下载链接】cursor-free-vip [Support 0.45](Multi Language 多语言)自动注册 Cursor Ai ,自动重置机器ID , 免费升级使用Pro 功能: Youve reached your tria…...

MIT破解AI黑盒-稀疏自编码器自动提取可解释概念

MIT 破解 AI 黑盒:用稀疏自编码器自动提取"可解释概念"标签:AI可解释性、XAI、计算机视觉、稀疏自编码器、医疗AI、概念瓶颈模型一个皮肤病变识别模型,给出了"恶性"的判断,但医生不知道它依据了什么特征——这…...

Tomcat8跑JSP页面报错ClassNotFound?可能是你的JSTL配置少了这一步(附jstl-1.2.jar正确用法)

Tomcat8部署JSP应用时JSTL配置全解析:从ClassNotFound到完美运行 最近在技术社区看到不少开发者反馈,在Tomcat8环境下部署JSP应用时频繁遇到ClassNotFoundException或NoClassDefFoundError,特别是与JSTL相关的错误。这类问题看似简单&#xf…...

Conexio Stratus Pro物联网开发套件深度解析与应用

1. Conexio Stratus Pro开发套件概述Conexio Stratus Pro是一款基于Nordic Semiconductor nRF9161系统级封装(SiP)的微型物联网开发套件,专为电池供电的蜂窝连接电子项目而设计。作为一名长期从事物联网硬件开发的工程师,我认为这款开发板最吸引人的地方…...

GPT Image 2 为何如此强大?三大技术方向揭秘

GPT Image 2 的技术方向引发关注GPT Image 2 凭什么这么强?是扩散模型又迭代了一版,是把 DiT 的参数量从 7B 扩到 20B,还是训了更多高质量数据?这些答案都对,但都不够。与多位从业者交流后,提炼出几个值得关…...

Manus被禁止外资收购,全球化资本路径在中美科技脱钩下成“钢丝绳”

1. Manus事件迎来最终结论在创始团队沉默了几个月后,Manus事件迎来了最终结论。据国家发改委网站,4月27日,外商投资安全审查工作机制办公室(国家发展改革委)依法依规对外资收购Manus项目作出禁止投资决定,要…...

像素时装锻造坊入门必看:从RPG工坊界面到512x768竖版生成的完整指南

像素时装锻造坊入门必看:从RPG工坊界面到512x768竖版生成的完整指南 1. 认识像素时装锻造坊 像素时装锻造坊(Pixel Fashion Atelier)是一款基于Stable Diffusion与Anything-v5的图像生成工具。它最大的特色是将传统AI工具的枯燥操作界面&am…...

发布管理化技术中的发布测试发布部署发布验证

发布管理化技术中的关键环节:测试、部署与验证 在现代软件开发与运维过程中,发布管理化技术是确保系统稳定性和业务连续性的核心。发布测试、发布部署和发布验证作为其中的关键环节,直接影响着软件交付的质量和效率。随着DevOps和持续交付理…...