当前位置：首页 > news >正文

GPT 的基础 - T（Transformer）

news 2026/2/10 3:25:14

我们知道GPT的含义是：
Generative - 生成下一个词
Pre-trained - 文本预训练
Transformer - 基于Transformer架构

我们看到Transformer模型是GPT的基础，这篇博客梳理了一下Transformer的知识点。

BERT: 用于语言理解。（Transformer的Encoder）
GPT: 用于语言生成。（Transformer的Decoder）

GPT也是在BERT的基础上发展起来的，只是OpenAI和google、百度走了不同的路线。

Transformer本质上提出了一种基于注意力机制的encoder-decoder框架或架构。这个架构中的主要组件,如多头注意力机制、位置编码、残差连接以及前馈神经网络都是通用的构建块。

Transformer对比RNN或者LSTM有这些优点：

并行计算
长期依赖学习
训练更稳定
更少的参数
无需标定的输入输出

Transformer主要缺点如下:

Transformer无法很好地建模周期时间序列。
Transformer可能不适合较短序列。
计算复杂度较高。
缺乏韵律和时域信息。

Encoder的组成：

Inputs - 输入分词层（Tokenize）
Input Token Embedding 输入词向量嵌入化（WordEmbedding）
Transformer Block 中间Encoder层可以简单把这个盒子理解为一个Block ，整 Transformer Block中可以在分解为四层：
- self-attention layer 自注意力计算层
- normalization layer 归一化层
- feed forward layer 前馈层
- anothernormalization layer 另一个归一化层

Decoder和Encoder唯一的区别就是多了一个Encode-Decode注意力层，然后最后一层接了个linear+softmax层，损失函数就是交叉熵损失。

Self-Attention 计算过程

在这里插入图片描述
第一个过程是根据Query和Key计算权重系数，第二个过程根据权重系数对Value进行加权求和。

多头-Attention的计算

把multi-headed输出的不同的z，组合成最终想要的输出的z，这就是multi-headed Attention要做的一个额外的步骤。

GPT 的基础 - T（Transformer）

我们知道GPT的含义是： Generative - 生成下一个词 Pre-trained - 文本预训练 Transformer - 基于Transformer架构我们看到Transformer模型是GPT的基础，这篇博客梳理了一下Transformer的知识点。 BERT: 用于语言理解。（Transformer的Encoder…...

编程日记 2024/3/1 5:27:50

微信小程序 --- 常用样式和组件

常用样式和组件 1. 组件和样式介绍在开 Web 网站的时候： 页面的结构由 HTML 进行编写，例如：经常会用到 div、p、 span、img、a 等标签页面的样式由 CSS 进行编写，例如：经常会采用 .class 、#id 、element 等选择…...

编程日记 2024/3/1 5:23:47

深圳智能制造半导体芯片行业源代码防泄密完整解决方案

一、芯片半导体行业防泄密，不能用监控及管控方式来实现，采用管控方式，首先不能主动防御，只能进行事后查询，并且管控方式，不利于嵌入式开发，对于嵌入式开发，不管是采用沙箱隔离或u口禁…...

编程日记 2024/3/1 5:21:45

Unity UI适配规则和对热门游戏适配策略的拆解

前言本文会介绍一些关于UI适配的基础概念，并且统计了市面上常见的设备的分辨率的情况。同时通过拆解目前市面上较为成功的两款休闲游戏Royal Match和Monopoly GO(两款均为近期游戏付费榜前几的游戏)，大致推断出他们的适配策略，以供学习和参…...

编程日记 2024/3/1 5:18:43

嵌入式学习day25 Linux

进程基本概念: 1.进程: 程序：存放在外存中的一段数据组成的文件进程：是一个程序动态执行的过程,包括进程的创建、进程的调度、进程的消亡 2.进程相关命令: 1.top 动态查看当前系统中的所有进程信息（根据CPU占用率排序&a…...

编程日记 2024/3/1 5:17:42

Oracle数据泵跨大版本迁移数据库

Oracle数据泵跨大版本迁移数据库 source库导出元数据传输dump和数据文件到target库target库导入数据库迁移后的工作 🦈场景：将测试环境中一台Oracle 11g数据库迁移到另一台新搭建的19c数据库中。 🤔分析：由于是跨数据库大版本&…...

编程日记 2024/3/1 5:16:41

如何在Win系统从零开始搭建Z-blog网站，并将本地博客发布到公网可访问

文章目录 1. 前言2. Z-blog网站搭建2.1 XAMPP环境设置2.2 Z-blog安装2.3 Z-blog网页测试2.4 Cpolar安装和注册 3. 本地网页发布3.1. Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1. 前言想要成为一个合格的技术宅或程序员，自己搭建网站制作网页是绕…...

编程日记 2024/3/1 5:11:37

sawForceDimensionSDK安装，sigma7+ros

force dimension的sdk中没有关于ros，借助开源的sawForceDimensionSDK实现对于数据的封装和可视化，方便后续使用链接： GitHub - jhu-saw/sawForceDimensionSDK 具体步骤： 安装qt和ros，官网下载Force Dimension SDK …...

编程日记 2024/3/1 5:10:36

全量知识系统问题及SmartChat给出的答复之3

Q8. 进一步，请展示如何使用这些技术来衡量、评估或适应不可避免的不匹配的知识汤问题的更进一步的全面代码。为了处理不可避免的不匹配的知识汤问题，我们可以引入一些技术方法来衡量、评估或适应这种情况。下是一个更进一步的全面代码示例&#xff0…...

编程日记 2024/3/1 5:08:34

【常用的 SVN 命令及简要示例】

常用的 SVN 命令及简要示例，供您参考： 检出代码: svn checkout https://svn.example.com/project/trunk提交修改: svn commit -m "Commit message"更新代码: svn update创建分支: svn copy https://svn.example.com/project/trunk \https://sv…...

编程日记 2024/3/1 5:06:33

ISP代理是什么？怎么用？

在跨境出海业务中，代理IP对于您的在线任务至关重要，尤其是对于那些运行多个帐户的人来说。为您的帐户选择正确类型的代理对于确保帐户安全非常重要，劣质的IP容易使账号遭受封号风险。IPFoxy的多种代理IP类型应用范围各有侧重，其中…...

编程日记 2024/3/1 5:04:31

微服务之qiankun主项目+子项目搭建

主项目使用history，子项目使用hash模式 1. 下载安装"qiankun": "^2.10.13"2. 手动调用qiankun,使用vue脚手架搭建的项目1. 主项目配置（我使用的是手动调用乾坤，在指定页面显示内容）1. 要使用的页面中引入乾坤…...

编程日记 2024/3/1 4:57:24

双非二本找实习前的准备day2

学习目标： 每天2-3到简单sql（刷完即止），每天复习代码随想录上的题目3道算法（时间充足可以继续），背诵的八股的问题也在这里记录了今日碎碎念： SQL有些题用到的知识感觉不会出现在…...

编程日记 2024/3/1 4:56:24

快速搭建宠物医院服务小程序的步骤，无需编程经验

如果你是一家宠物医院或者宠物服务机构，想要拥有一款方便用户预约、查询信息的小程序，那么乔拓云网提供的轻应用小程序是你的不二选择。下面将为你详细介绍如何轻松打造宠物医院服务小程序。 1. 进入乔拓云网后台，点击【轻应用小程序】中的【…...

编程日记 2024/3/1 4:54:22

从0开始python学习-53.python中flask创建简单接口

目录 1. 创建一个简单的请求,没有写方法时默认为get 2. 创建一个get请求 3. 创建一个post请求，默认可以使用params和表单传参 4. 带有参数的post请求 1. 创建一个简单的请求,没有写方法时默认为get from flask import Flask, request# 初始化一个flask的对象 ap…...

编程日记 2024/3/1 4:53:21

如何怎麼搭建高效的爬蟲全球代理IP池？

爬蟲技術可以幫助我們從各類網站上獲取大量的數據資訊，但常常會遇到IP被封鎖的問題，這就是我們需要搭建全球代理IP池的原因。那麼，如何搭建一個高效的IP代理池呢？ IP代理池指什麼？ 首先，我們需要明白什麼是…...

编程日记 2024/3/1 4:50:19

FinalShell连接Linux

远程连接linux 我们使用VMware可以得到Linux虚拟机，但是在/Mware中操作Linux的命令行页面不太方便，主要是: 内容的复制、粘贴跨越VMware不方便文件的上传、下载跨越VMware不方便不方便也就是和Linux系统的各类交互，跨越VMwar 到Linux操作系…...

编程日记 2024/3/1 4:49:18

数据分析Pandas专栏---第十一章＜Pandas数据聚合与分组(1)＞

前言: 数据聚合和分组操作是数据处理过程中不可或缺的一部分。它们允许我们根据特定的条件对数据进行分组，并对每个组进行聚合计算。这对于统计分析、汇总数据以及生成报告和可视化非常有用。无论是市场营销数据分析、销售业绩评估还是金融数据建模，数据…...

编程日记 2024/3/1 4:46:15

【Linux】将程序的输出显示到屏幕，同时写入到log文件

1. 将程序的输出显示到屏幕，同时写入到log文件 nohup python -u main.py 2>&1 | tee -a log.txt &nohup 放在命令的开头，表示不挂起（no hang up），也即，关闭终端或者退出某个账号，进…...

编程日记 2024/3/1 4:45:14

MySQL(基础篇)——函数、约束

一.函数 1.定义函数是指一段可以直接被另一段程序调用的程序或代码。 2.字符串函数常见如下： -- 字符串拼接 SELECT CONCAT(hello,MySql) AS CONCAT -- 将字符串全部转为小写 SELECT LOWER(HEllo MYSql) AS LOWER -- 将字符串全部转为大写 SELECT UPPER(Hello…...

编程日记 2024/3/1 4:44:13

浅谈 React Hooks

React Hooks 是 React 16.8 引入的一组 API，用于在函数组件中使用 state 和其他 React 特性（例如生命周期方法、context 等）。Hooks 通过简洁的函数接口，解决了状态与 UI 的高度解耦，通过函数式编程范式实现更灵活 Rea…...

编程新知 2025/9/23 15:13:40

从WWDC看苹果产品发展的规律

WWDC 是苹果公司一年一度面向全球开发者的盛会，其主题演讲展现了苹果在产品设计、技术路线、用户体验和生态系统构建上的核心理念与演进脉络。我们借助 ChatGPT Deep Research 工具，对过去十年 WWDC 主题演讲内容进行了系统化分析，形成了这份…...

编程新知 2026/2/2 21:52:33

模型参数、模型存储精度、参数与显存

模型参数量衡量单位 M：百万（Million） B：十亿（Billion） 1 B 1000 M 1B 1000M 1B1000M 参数存储精度模型参数是固定的，但是一个参数所表示多少字节不一定，需要看这个参数以什么…...

编程新知 2025/12/20 12:32:08

前端倒计时误差!

提示：记录工作中遇到的需求及解决办法文章目录前言一、误差从何而来？二、五大解决方案1. 动态校准法（基础版）2. Web Worker 计时3. 服务器时间同步4. Performance API 高精度计时5. 页面可见性API优化三、生产环境最佳实践四、终极解决方案架构前言前几天听说公司某个项…...

编程新知 2025/9/8 23:14:43

Debian系统简介

目录 Debian系统介绍 Debian版本介绍 Debian软件源介绍软件包管理工具dpkg dpkg核心指令详解安装软件包卸载软件包查询软件包状态验证软件包完整性手动处理依赖关系 dpkg vs apt Debian系统介绍 Debian 和 Ubuntu 都是基于 Debian内核的 Linux 发行版&#xff…...

编程新知 2026/2/1 13:41:09

java调用dll出现unsatisfiedLinkError以及JNA和JNI的区别

UnsatisfiedLinkError 在对接硬件设备中，我们会遇到使用 java 调用 dll文件的情况，此时大概率出现UnsatisfiedLinkError链接错误，原因可能有如下几种类名错误包名错误方法名参数错误使用 JNI 协议调用，结果 dll 未实现 JNI 协…...

编程新知 2025/10/6 16:38:04

生成 Git SSH 证书

🔑 1. 生成 SSH 密钥对在终端（Windows 使用 Git Bash，Mac/Linux 使用 Terminal）执行命令： ssh-keygen -t rsa -b 4096 -C "your_emailexample.com" 参数说明： -t rsa&#x…...

编程新知 2025/9/18 11:31:13

自然语言处理——Transformer

自然语言处理——Transformer 自注意力机制多头注意力机制Transformer 虽然循环神经网络可以对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息，但是它有一个很大的缺陷——很难并行化。我们可以考虑用CNN来替代RNN，但是…...

编程新知 2026/2/1 7:05:07

是否存在路径（FIFOBB算法）

题目描述一个具有 n 个顶点e条边的无向图，该图顶点的编号依次为0到n-1且不存在顶点与自身相连的边。请使用FIFOBB算法编写程序，确定是否存在从顶点 source到顶点 destination的路径。输入第一行两个整数，分别表示n 和 e 的值（1…...

编程新知 2025/10/1 6:09:21

Typeerror: cannot read properties of undefined (reading ‘XXX‘)

最近需要在离线机器上运行软件，所以得把软件用docker打包起来，大部分功能都没问题，出了一个奇怪的事情。同样的代码，在本机上用vscode可以运行起来，但是打包之后在docker里出现了问题。使用的是dialog组件，…...

编程新知 2025/9/24 3:05:06

相关文章：