当前位置：首页 > article >正文

基于BERT和GPT2的实现来理解Transformer的结构和原理

article 2025/11/23 17:01:10

Transformer

核心就是编码器和解码器，简单理解：编码器就是特征提取，解码器就是特征还原。

Transformer 完整架构

Transformer最初是一个Encoder-Decoder架构，用于机器翻译任务：

输入序列 → [Encoder] → 编码表示 → [Decoder] → 输出序列

1. 原始Transformer结构

┌─────────────────────────────────────────────┐
│                 Transformer                  │
├─────────────────────┬───────────────────────┤
│      Encoder        │       Decoder         │
├─────────────────────┼───────────────────────┤
│  Multi-Head         │  Masked Multi-Head    │
│  Self-Attention     │  Self-Attention       │
│        ↓            │         ↓             │
│  Add & Norm         │  Add & Norm           │
│        ↓            │         ↓             │
│  Feed Forward       │  Multi-Head           │
│        ↓            │  Cross-Attention      │
│  Add & Norm         │         ↓             │
│        ↓            │  Add & Norm           │
│   (重复N次)         │         ↓             │
│                     │  Feed Forward         │
│                     │         ↓             │
│                     │  Add & Norm           │
│                     │    (重复N次)          │
└─────────────────────┴───────────────────────┘

2. 核心组件详解

2.1 自注意力机制（Self-Attention）

# 核心公式：Attention(Q,K,V) = softmax(QK^T/√d_k)V# BERT中的使用（双向注意力）
attention_mask = data["attention_mask"]  # [1,1,1,0,0] 标记真实token
# 可以看到所有位置的信息# GPT2中的使用（因果注意力）
# 使用下三角mask，只能看到当前位置之前的信息

2.2 多头注意力（Multi-Head Attention）

Multi-Head = Concat(head_1, head_2, ..., head_h)W^O
其中 head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

每个头关注不同的语义信息：

头1：可能关注语法关系
头2：可能关注语义相似性
头3：可能关注位置关系

2.3 位置编码（Positional Encoding）

Transformer没有循环结构，需要位置信息：

# BERT的位置编码
position_ids = torch.arange(seq_length)
position_embeddings = self.position_embeddings(position_ids)# 原始Transformer使用正弦位置编码
PE(pos,2i) = sin(pos/10000^(2i/d_model))
PE(pos,2i+1) = cos(pos/10000^(2i/d_model))

3. BERT：只用Encoder

BERT使用了Transformer的Encoder部分，实现双向理解：

# demo_5/net.py 的实现
class Model(torch.nn.Module):def __init__(self):super().__init__()# BERT是12层Encoder堆叠self.fc = torch.nn.Linear(768, 2)  # 768是隐藏维度def forward(self, input_ids, attention_mask, token_type_ids):# BERT的三个输入# input_ids: token的ID [batch, seq_len]# attention_mask: 标记padding [batch, seq_len]# token_type_ids: 区分句子A/B [batch, seq_len]with torch.no_grad():out = pretrained(input_ids, attention_mask, token_type_ids)# 取[CLS]的表示做分类out = self.fc(out.last_hidden_state[:,0])return out

BERT的特点：

双向注意力：每个位置都能看到全文
MLM预训练：随机mask 15%的token进行预测
NSP任务：判断两个句子是否相邻

4. GPT2：只用Decoder

GPT2使用了Transformer的Decoder部分（去掉Cross-Attention）：

# demo_8/train.py 的实现
model = AutoModelForCausalLM.from_pretrained(...)  # 因果语言模型def collate_fn(data):data = tokenizer.batch_encode_plus(data, ...)# 关键：标签就是输入向右偏移一位data['labels'] = data['input_ids'].clone()return data

GPT2的特点：

单向注意力：使用因果mask，只能看到之前的token
自回归生成：逐个token生成
统一架构：12/24/48层Decoder堆叠

5. 注意力掩码对比

# BERT的注意力掩码（可以看到所有位置）
attention_mask = [[1, 1, 1, 1],[1, 1, 1, 1],[1, 1, 1, 1],[1, 1, 1, 1]
]# GPT2的因果掩码（只能看到之前的位置）
causal_mask = [[1, 0, 0, 0],[1, 1, 0, 0],[1, 1, 1, 0],[1, 1, 1, 1]
]

6. 前馈网络（Feed Forward）

两个模型都使用相同的FFN结构：

FFN(x) = max(0, xW1 + b1)W2 + b2
# 通常：d_model=768, d_ff=3072

7. 层归一化和残差连接

# 每个子层都有
output = LayerNorm(x + Sublayer(x))

总结对比

组件	原始Transformer	BERT	GPT2
架构	Encoder-Decoder	Encoder only	Decoder only
层数	6+6	12/24	12/24/48
注意力	双向+单向	双向	单向（因果）
预训练	监督翻译	MLM+NSP	语言建模
应用	序列到序列	理解任务	生成任务

实际应用示例

BERT处理流程：

输入: "这个产品[MASK]好用" 
→ Tokenize: [101, 2110, 782, 103, 1962, 102]
→ 12层Encoder双向编码
→ 输出: 每个位置的768维表示
→ 预测[MASK]: "很"

GPT2生成流程：

输入: "今天天气"
→ Tokenize: [791, 1921, 1921, 2698]
→ 12层Decoder单向编码
→ 预测下一个: "很"
→ 继续预测: "好"
→ 最终: "今天天气很好"

Transformer的革命性在于完全基于注意力机制，抛弃了RNN/CNN，实现了并行计算和长距离依赖建模。BERT和GPT2分别展示了其在理解和生成任务上的强大能力。

基于BERT和GPT2的实现来理解Transformer的结构和原理

Transformer 核心就是编码器和解码器，简单理解：编码器就是特征提取，解码器就是特征还原。 Transformer 完整架构 Transformer最初是一个Encoder-Decoder架构，用于机器翻译任务： 输入序列 → [Encoder] → 编码表示…...

编程日记 2025/10/12 4:20:55

.net consul服务注册与发现

.NET中Consul服务注册与发现的技术实践在微服务架构中，服务的注册与发现是至关重要的环节，它能帮助各个服务之间实现高效的通信和协作。Consul作为一款功能强大的工具，为我们提供了优秀的服务注册与发现解决方案。今天，我们就来…...

编程日记 2025/10/10 17:03:09

WifiEspNow库函数详解

WifiEspNow库项目地址https://github.com/yoursunny/WifiEspNow WifiEspNow 是 ESP-NOW 的 Arduino 库，ESP-NOW 是乐鑫定义的无连接 WiFi 通信协议。有关 ESP-NOW 工作原理及其限制的更多信息，请参阅 ESP-NOW 参考。 WifiEspNow是 ESP-IDF 中 ESP-N…...

编程日记 2025/11/9 14:02:30

rsync使用守护进程启动服务

rsync 本身通常使用 SSH（Secure Shell）协议来进行数据传输，因此它默认使用 SSH 的端口 22。如果使用 rsync 进行通过 SSH 的数据同步，它会通过端口 22 来建立连接。然而，如果你使用 rsync 作为一个守护进程进行文件同步（即不通过 SSH），则可以配置它使用 TCP 端口 873…...

编程日记 2025/11/10 12:03:45

React 核心概念与生态系统

1. React 简介 React 是由 Facebook 开发并开源的一个用于构建用户界面的 JavaScript 库。它主要用于构建单页应用（SPA），其核心理念是组件化和声明式编程，即 ui render(data)。 2. 核心特点 2.1. 声明式编程 React 使用声明式…...

编程日记 2025/7/20 15:46:31

使用React Native开发新闻资讯类鸿蒙应用的准备工作

以下是一篇关于使用React Native开发新闻资讯类鸿蒙应用的准备工作指南，结合鸿蒙生态特性与React Native技术栈整合要点： 一、环境搭建与工具链配置基础依赖安装 Node.js 18：需支持ES2020语法（如可选链操…...

编程日记 2025/10/31 9:27:34

node-sass 报错

背景：一些老项目使用"node-sass": “^4.14.1” ，node版本要求 14.x，高版本不兼容解决方案如下： 方案一：替换安装sass (无须降级Node版本) 卸载node-sass npm uninstall node-sass安装sass（Dart…...

编程日记 2025/7/6 9:19:55

Redis的安装与使用

网址：Spring Data Redis 安装包：Releases tporadowski/redis GitHub 解压后在安装目录中打开cmd 打开服务（注意：每次客户端连接都有先打开服务！！！） 按ctrlC退出服务客户端连接…...

编程日记 2025/11/18 16:26:54

Linux服务器运维10个基础命令

结合多篇权威资料，以下是运维工程师必须掌握的10个核心命令，涵盖文件管理、系统监控、网络操作等高频场景 1. "ls" 代码分析 "ls" 用于列出目录内容，通过参数组合可增强展示效果： "-l" 显示文件…...

编程日记 2025/11/23 0:00:11

2024年数维杯国际大学生数学建模挑战赛C题时间信号脉冲定时噪声抑制与大气时延抑制模型解题全过程论文及程序

2024年数维杯国际大学生数学建模挑战赛 C题时间信号脉冲定时噪声抑制与大气时延抑制模型原题再现： 脉冲星是一种快速旋转的中子星，具有连续稳定的旋转，因此被称为“宇宙灯塔”。脉冲星的空间观测在深空航天器导航和时间标准维护中发挥着至…...

编程日记 2025/11/18 0:04:31

C# 控制台程序获取用户输入数据验证不合规返回重新提示输入

在 C# 控制台程序中实现输入验证并循环重试，可以通过以下方式实现高效且用户友好的交互。以下是包含多种验证场景的完整解决方案： 一、通用输入验证框架 public static T GetValidInput<T>(string prompt, Func<string, (bool IsValid, T Val…...

编程日记 2025/11/17 9:20:12

【大模型面试每日一题】Day 31：LoRA微调方法中低秩矩阵的秩r如何选取？

【大模型面试每日一题】Day 31：LoRA微调方法中低秩矩阵的秩r如何选取？ 📌 题目重现 🌟🌟 面试官:LoRA微调方法中低秩矩阵的秩r如何选取？： #mermaid-svg-g5hxSxV8epzWyP98 {font-family:"…...

编程日记 2025/11/21 0:39:01

使用source ~/.bashrc修改环境变量之后，关闭服务器，在重启，环境变量还有吗？

环境变量在服务器重启后的留存性分析 1. 环境变量的存储机制临时环境变量： 通过命令直接设置的环境变量（如 export MY_VARvalue）仅存在于当前 shell 会话中，服务器重启后会丢失。永久环境变量： 写入配置文件&#…...

编程日记 2025/8/19 11:06:13

SQL 窗口函数深度解析：ROW_NUMBER 实战指南

SQL 窗口函数深度解析：ROW_NUMBER 实战指南一、窗口函数核心概念窗口函数(Window Function)是SQL中用于在结果集的"窗口"(即特定行集合)上执行计算的高级功能。与聚合函数不同，窗口函数不会将多行合并为单行，而是为每行返回一个计算值。关键特性：窗口函数通…...

编程日记 2025/10/28 9:39:23

React从基础入门到高级实战：React 生态与工具 - React 国际化（i18n）

React 国际化（i18n） 引言随着全球化的加速，开发支持多语言的应用已成为现代Web开发的重要需求。无论是面向国际市场的电商平台，还是提供多语言服务的SaaS应用，国际化（i18n）功能都是提升用户体…...

编程日记 2025/11/12 0:53:06

leetcode93.复原IP地址：回溯算法中段控制与前导零处理的深度解析

一、题目深度解析与IP地址规则题目描述给定一个只包含数字的字符串s，返回所有可能的有效IP地址组合。有效IP地址需满足以下条件： 由4个0-255的整数组成，用.分隔每个整数不能以0开头（除非该整数本身是0）例如输入s&…...

编程日记 2025/10/4 14:49:20

TDengine 运维——巡检工具（安装前检查）

简介本文档旨在介绍 TDengine 安装部署前后配套的巡检工具。相关工具的功能简介： 工具名称功能简介安装前检查部署前对 TDengine 安装部署的依赖要素进行安装前检查安装前预配置部署前对 TDengine 安装部署的依赖要素进行安装前预配置安装部署指定环境安装部署…...

编程日记 2025/11/22 12:56:41

MySQL主从复制深度解析：原理、架构与实战部署指南

一、主从复制核心原理复制流程解析 MySQL主从复制本质是通过二进制日志(binlog)实现数据同步的异步复制机制： 写操作记录：主库执行写操作时，将变更记录到binlog 日志传输：主库的binlog dump线程将日志发送给从库中继存储&am…...

编程日记 2025/10/18 3:24:29

[SC]SystemC dont_initialize的应用场景详解（二）

SystemC dont_initialize的应用场景详解（二）摘要：下面给出一个稍复杂一点的 SystemC 示例，包含三个模块（Producer/Filter/Consumer）和一个 Testbench（Top）模块，演示了在不同的进程类型中如何使用 dont_initialize() 来抑制 time 0 的自动调用。一、源代码 …...

编程日记 2025/8/4 21:54:40

【Linux】权限chmod命令+Linux终端常用快捷键

目录 linux中权限表示形式解析标识符权限的数字序号添加权限命令chmod 使用数字表示法设置权限使用符号表示法设置权限 linux终端常用快捷键 🔥个人主页 🔥 😈所属专栏😈 在 Linux 系统里，权限管理是保障系…...

编程日记 2025/11/21 12:09:21

Java八股文智能体——Agent提示词（Prompt）

这个智能体能够为正在学习Java八股文的同学提供切实帮助：不仅可以帮你优化答案表述，还能直接解答八股文相关问题——它会以面试者的视角，给出贴合求职场景的专业回答。将以下内容发送给任何一个LLM，他会按照你提示词的内容&…...

编程日记 2025/11/22 4:49:05

Go语言的context

Golang context 实现原理本篇文章是基于小徐先生的文章的修改和个人注解，要查看原文可以点击上述的链接查看目前我这篇文章的go语言版本是1.24.1 context上下文 context被当作第一个参数（官方建议），并且不断的传递下去&…...

编程日记 2025/11/21 14:18:30

快速掌握 GO 之 RabbitMQ 结合 gin+gorm 案例

更多个人笔记见： （注意点击“继续”，而不是“发现新项目”） github个人笔记仓库 https://github.com/ZHLOVEYY/IT_note gitee 个人笔记仓库 https://gitee.com/harryhack/it_note 个人学习，学习过程中还会不断补充&…...

编程日记 2025/11/7 14:37:21

JVM——SubstrateVM：AOT编译框架

引入在现代软件开发领域，应用程序的启动性能和内存开销一直是影响用户体验的关键因素。对于 Java 应用程序而言，传统的即时编译（JIT）模式虽然能够在运行时对热点代码进行优化，提高程序的执行效率，但却无法…...

编程日记 2025/11/13 11:45:59

【HarmonyOS 5】鸿蒙Taro跨端框架

‌Taro跨端框架‌ 支持React语法开发鸿蒙应用，架构分为三层： ArkVM层运行业务代码和React核心TaroElement树处理节点创建和属性绑定TaroRenderNode虚拟节点树与上屏节点一一对应 import { Component } from tarojs/taro export default class MyCompon…...

编程日记 2025/11/20 2:41:09

数据库原理试卷

以下是某高校教学管理系统的毕业论文指导ER图，数据信息：一名教师指导多名学生，一名学生只能选择一名教师，试分析完成以下各题，如用SQL命令完成的，在SQL Server2008验证后把答案写在题目的下方。图1 毕业论…...

编程日记 2025/11/22 8:54:20

【Qt开发】对话框

目录 1，对话框的介绍 2，Qt内置对话框 2-1，消息对话框QMessageBox 2-2，颜色对话框QColorDialog 2-3，文件对话框QFileDialog 2-4，字体对话框QFontDialog 2-5，输入对话框QInputDialog 1&…...

编程日记 2025/11/17 1:07:52

1. 安装VS code sudo snap install code --classic 2. 安装GCC sudo apt install build-essential 3. 安装VS Code中文包打开 VS Code 点击左侧活动栏中的扩展图标（或按Ctrl+Shift+X）在搜索框中输入：Chinese (Simplified) 选择由 Microsoft 提供的中文（简体）语言包…...

编程日记 2025/9/17 5:08:40

阴盘奇门 api数据接口

阴盘奇门，又称"道家阴盘遁甲"或"法术奇门"，与阳盘奇门(奇门排盘)并称"奇门双雄"。由王凤麟教授整合道家三式（奇门、六壬、太乙）精髓创立，独创行为风水与立体全息预测技术，广…...

编程日记 2025/8/18 14:25:32

2025年渗透测试面试题总结-匿名[校招]攻防研究员(应用安全)（题目+回答）

安全领域各种资源，学习文档，以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具，欢迎关注。目录匿名[校招]攻防研究员(应用安全) 基础部分 1. HTTP状态码 2. HTTP请求方法及作用 3. 网络分层及协议 OW…...

编程日记 2025/11/17 7:27:33