当前位置: 首页 > article >正文

【AI大模型】Transformer 架构是什么?关键模块都有哪些

【AI大模型】Transformer 架构是什么关键模块都有哪些Transformer 出自 2017 年经典论文Attention Is All You Need它完全抛弃 RNN 结构仅靠注意力 前馈网络实现序列建模是现在 GPT、BERT、ViT、T5 等所有大模型的基础架构。下面用清晰结构 通俗解释讲完整 Transformer。一、Transformer 整体架构标准 Transformer 分为两大块Encoder编码器→ 理解输入如理解一句话Decoder解码器→ 生成输出如翻译、写作文整体结构简图输入序列 → 嵌入 位置编码 → Encoder N层 → 编码器输出 ↓ 解码器输入 → 嵌入 位置编码 → Decoder N层 → 线性Softmax → 输出序列二、Encoder 里面有什么6层每层固定结构每层 Encoder 2 个核心模块 残差 层归一化1、Multi-Head Self-Attention多头自注意力让每个词全局看所有词多个头从不同角度捕捉语义关系支持并行计算2、Feed Forward NetworkFFN前馈网络两层线性变换 激活函数原论文用 ReLU现在多用 GELU/SiLULinear → Activation → Linear作用对每个位置单独做特征增强不依赖其他位置。3、残差连接Residual Connection公式x x sublayer(x)防止深度网络梯度消失让模型能堆很深。4、层归一化Layer Normalization稳定训练加速收敛。三、Decoder 里面有什么比 Encoder 多一个注意力每层 Decoder 3 个模块 残差 归一化1、Masked Multi-Head Self-Attention掩码自注意力关键看不到未来的词生成第 i 个词时只能看 1i 词不能看 i1…否则模型直接“抄答案”无法训练。2、Encoder-Decoder Attention交叉注意力解码器去“看”编码器的输出相当于翻译时生成法语词时重点看中文的哪些字对话时生成回答时重点关注问题的关键词3、Feed Forward Network同 Encoder。四、Transformer 中除了 Self-Attention 之外的关键模块这部分最容易被忽略但缺一不可1.Positional Encoding 位置编码Self-Attention 本身没有顺序概念打乱词的顺序输出不变。所以必须手动加入位置信息。公式PE(pos, 2i) sin(pos / 10000^(2i/d_model)) PE(pos, 2i1) cos(pos / 10000^(2i/d_model))2.Embedding 词嵌入把单词/Token 转为 d_model 维向量。3.Mask 掩码机制Padding Mask补齐的无效位置不参与计算Look-ahead MaskDecoder 遮挡未来位置4.残差 层归一化没有它们深层 Transformer 根本训不动。5.最后的 Linear Softmax把模型输出映射到词表大小输出概率分布生成下一个词。Transformer 位置编码 多头自注意力 交叉注意力 掩码 前馈网络 残差连接 层归一化 线性输出Self-Attention 只是核心部件不是全部。五、Encoder-only / Decoder-only / Encoder-Decoder 三类模型1. Encoder-only理解类BERT、RoBERTa、ALBERT任务分类、抽取、阅读理解2. Decoder-only生成类GPT 系列、LLaMA、Qwen、Mistral任务对话、写作、续写、代码生成3. Encoder-Decoder翻译/摘要T5、BART任务机器翻译、文本摘要

相关文章:

【AI大模型】Transformer 架构是什么?关键模块都有哪些

【AI大模型】Transformer 架构是什么?关键模块都有哪些? Transformer 出自 2017 年经典论文 Attention Is All You Need,它完全抛弃 RNN 结构,仅靠注意力 前馈网络实现序列建模,是现在 GPT、BERT、ViT、T5 等所有大模…...

HarmonyOS 6 CustomDialog 嵌套弹窗使用文档

文章目录完整代码弹窗嵌套结构1. 弹窗层级关系2. 嵌套实现关键逻辑核心参数与API1. CustomDialog 装饰器2. CustomDialogController 弹窗控制器3. 关闭拦截 onWillDismiss4. 数据双向绑定 Link5. 生命周期管理总结完整代码 // xxx.ets CustomDialog struct CustomDialogExampl…...

基于SSM框架的传统服饰文化平台体验(10034)

有需要的同学,源代码和配套文档领取,加文章最下方的名片哦 一、项目演示 项目演示视频 二、资料介绍 完整源代码(前后端源代码SQL脚本)配套文档(LWPPT开题报告/任务书)远程调试控屏包运行一键启动项目&…...

谷歌关键词搜索怎么做上去? 提升首页点击率的4个标题优化细节

某家出口企业耗费6个月将“工业水泵制造”推至搜索结果第三位。搜索控制台报表显示,该网页月度曝光量达45,000次,访客仅有540人。点击率停留在1.2%。排在第五位的同行业公司,凭借52个字符的标题,拿走月均3,200个访客。一份针对海外…...

MoneyPrinterTurbo终极指南:5步实现AI短视频自动化创作

MoneyPrinterTurbo终极指南:5步实现AI短视频自动化创作 【免费下载链接】MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频 Generate short videos with one click using AI LLM. 项目地址: https://gitcode.com/GitHub_Trending/mo/MoneyPrinterTu…...

贾子竞争哲学与新范式升维战略——从 “多维对抗“ 到 “意义消解“ 的终极战略蓝图

贾子竞争哲学与新范式升维战略——从 "多维对抗" 到 "意义消解" 的终极战略蓝图摘要本战略体系彻底颠覆了以价格、功能、渠道为核心的传统红海对抗逻辑,提出了一套基于 "维度升维、悖论锁定、意义消解、时间收割" 的全新竞争哲学。其…...

【Transformer系列】从One-Hot到Embedding:构建AI语言理解的基石

1. 从One-Hot编码说起:AI的第一堂语言课 想象你正在教一个外星人认识汉字。你拿出一本字典说:"这里有10万个字,每个字对应一个编号,猫是第12345号,狗是第67890号。"这就是最原始的One-Hot编码思想——用一串…...

我的思维模型 -- 11.数学与统计学篇

正态分布 核心逻辑:均值回归中心极限定理:大量相互独立、来自同一分布的随机变量,它们的平均值(或总和)在样本量足够大时,都会趋向于正态分布约 68% 的数据落在 范围内约 95% 的数据落在 范围内均值…...

ARM异常处理机制与ESR寄存器详解

1. ARM异常处理机制概述在ARMv8/v9架构中,异常处理是处理器响应硬件或软件事件的核心机制。当发生异常时,处理器会暂停当前程序执行,跳转到预定义的异常向量表入口,同时将异常相关信息记录在异常综合征寄存器(ESR)中。异常可能由多…...

【职场】那些把公司当家的人,最先被扫地出门

那些把公司当家的人,最先被扫地出门“你爱公司爱得越深,离开的时候就摔得越惨。因为公司从一开始,就没打算和你谈感情。”一、那种人,你一定见过 他是第一个到公司的,也是最后一个离开的。 他的工位永远是最乱的那个&a…...

ARM CoreSight ROM Tables解析与调试实践

1. ARM CoreSight ROM Tables基础解析在嵌入式调试领域,ARM CoreSight架构提供了一套完整的调试与追踪解决方案。作为该架构的关键组成部分,ROM Tables扮演着系统调试资源的"目录"角色。想象一下走进一个巨大的图书馆,ROM Tables就…...

【职场】职场上,从不发脾气的人,最值得警惕

职场上,从不发脾气的人,最值得警惕“真正危险的人,从来不是那个拍桌子的人。而是那个,永远在微笑的人。”一、你身边有没有这种人 开会的时候,无论发生什么,他都面带微笑。 被否定了,点头&#…...

【职场】聪明人,从不在公司交朋友

聪明人,从不在公司交朋友“你以为你们是朋友。但有一天你会发现,你们之间站着一个共同的雇主。”一、那个"最懂你"的同事 你们一起骂过同一个领导。 一起在茶水间吐槽过公司文化。 一起在深夜加班时互相打气。 你告诉他你想离职,告…...

软件测试从业者理财指南:别让辛苦钱在通胀中缩水

你的“缺陷”不止在代码里作为软件测试工程师,你每天都在和缺陷打交道——功能缺陷、性能缺陷、安全缺陷。你擅长用边界值分析挖出隐藏的bug,用等价类划分提升用例效率,用自动化脚本把重复劳动压缩到极致。但当你关掉Jira,看着工资…...

从数据到角度:手把手调试大疆C板BMI088,解决姿态解算精度跳动的那些坑

从数据到角度:手把手调试大疆C板BMI088,解决姿态解算精度跳动的那些坑 调试嵌入式系统中的传感器数据,尤其是姿态解算这类对精度要求极高的应用,往往需要开发者具备跨领域的知识储备和丰富的实战经验。本文将分享我在使用大疆C板搭…...

从控制台账单看使用 Taotoken token plan 带来的实际节省

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。 👉 点击领取海量免费额度 从控制台账单看使用 Taotoken token plan 带来的实际节省 在管理大模型 API 调用成本时,除了关注模型单价,…...

达梦数据库主备集群手工搭建及主备切换演练

环境:DM8、Linux(CentOS 7 ),三台服务器。 本文记录从零搭一套"一主一备一监视" 式的主备集群,纯手工操作,不依赖图形化工具。 一、环境规划 1.1 IP规划 角色主机名业务IP心跳IP实例名主库&…...

Obsidian Importer:一站式笔记数据迁移终极指南

Obsidian Importer:一站式笔记数据迁移终极指南 【免费下载链接】obsidian-importer Obsidian Importer lets you import notes from other apps and file formats into your Obsidian vault. 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-importer …...

NoFences:如何用开源方案解决Windows桌面管理难题

NoFences:如何用开源方案解决Windows桌面管理难题 【免费下载链接】NoFences 🚧 Open Source Stardock Fences alternative 项目地址: https://gitcode.com/gh_mirrors/no/NoFences Windows桌面图标管理长期困扰着用户,NoFences作为开…...

【模块化设计-14】深入解析 RT-Thread syswatch 系统监控模块:保障系统稳定的核心卫士

在嵌入式系统开发中,系统的稳定性是重中之重。RT-Thread 提供的 syswatch(系统监控)模块,专为解决线程异常阻塞、保障系统持续运行设计。本文将从模块设计理念、核心功能、配置项、工作流程到实际测试,全方位解析 sysw…...

【模块化设计-13】OAM 线程模块详解

该模块是基于 RT-Thread 实时操作系统实现的一个 OAM(Operation, Administration and Maintenance,操作、管理和维护)专用线程模块,核心功能是提供独立的 OAM 业务处理线程、消息队列机制和定时器管理能力,适用于嵌入式…...

【模块化设计-11】基于嵌入式系统的周期性任务调度框架设计与实现

基于嵌入式系统的周期性任务调度框架设计与实现嵌入式系统的稳定性与实时性核心在于任务调度框架的设计,合理的框架不仅能保障各类外设任务有序执行,更能为系统扩展与维护奠定基础。本文以一款集成 ADC 采集、系统守护、外设交互的嵌入式应用为例&#x…...

【模块化设计-10】UART1 驱动 + 环形 FIFO 实现高效串口数据收发

在嵌入式开发中,串口(UART)是最常用的通信接口之一,而直接采用中断 缓冲区的方式处理串口数据,能有效避免数据丢失、提升收发效率。本文将基于实际项目代码,详解UART1 驱动与环形 FIFO(ring_fi…...

网络通信调试难题的Qt解决方案:mNetAssist深度解析

网络通信调试难题的Qt解决方案:mNetAssist深度解析 【免费下载链接】mNetAssist mNetAssist - A UDP/TCP Assistant 项目地址: https://gitcode.com/gh_mirrors/mn/mNetAssist 网络协议调试过程中,开发者常面临协议兼容性、数据传输验证和连接状态…...

LineageOS 18.1在一加9 Pro上的体验报告:纯净安卓11的续航、性能与Magisk模块搭配

一加9 Pro刷入LineageOS 18.1深度体验:纯净Android 11的终极玩法 当厂商定制系统越来越臃肿时,许多极客用户开始寻找更纯净的安卓体验。LineageOS作为CyanogenMod的精神继承者,一直是刷机爱好者的首选。本文将带您深入体验一加9 Pro刷入Linea…...

紧急预警:2024Q3起PlayAI将下线v2.1旧版翻译协议!迁移倒计时47天,5类遗留系统升级避坑手册

更多请点击: https://intelliparadigm.com 第一章:PlayAI多语种同步翻译功能详解 PlayAI 的多语种同步翻译功能基于端到端神经机器翻译(NMT)架构与实时语音流处理引擎深度融合,支持中、英、日、韩、法、西、德、俄等…...

扔掉KVM切换器!GitHub 25.7K Star的Deskflow:用一套键鼠无缝控制多台电脑的软件KVM方案

两台电脑两套键鼠,桌面杂乱、切换繁琐,硬件KVM切换器又贵得离谱?Deskflow 是一款开源跨平台的软件KVM方案,它允许用一套键鼠无缝穿梭于不同设备之间,让一台电脑的鼠标光标直接“穿越”到另一台电脑的屏幕上。本文将从技…...

工业AI相机的散热困局:为什么你的视觉检测总在夏天失效?

🎓作者简介:科技自媒体优质创作者 🌐个人主页:莱歌数字-CSDN博客 211、985硕士,从业16年 从事结构设计、热设计、售前、产品设计、项目管理等工作,涉足消费电子、新能源、医疗设备、制药信息化、核工业等…...

四通道32孔生物源性检测仪 肉源性检测仪器

四通道32孔生物源性检测仪搭载四通道48孔高通量检测架构,本少、效率低的短板,大幅提升肉类质检筛查效率。多通道独立运行互不干扰,可一次性完成大批量肉类样本同步检测设备检测精度优异,可精准识别各类常见动物源性成分&#xff0…...

260513实训:路由器连接

路由器工作原理: 转发动作:路由器收到数据后,根据目的IP地址查路由器路由表(地图)转发 路由表:路由器默认会将直连网段加入路由表 查看IP路由表:display ip routing-table 127.0.0.0/8 本地环…...