【大模型】7 天 AI 大模型学习
7 天 AI 大模型学习 Day 2
今天是 7 天AI 大模型学习的第二天 😄,今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的,就和我一起开始吧 ~
课程链接 :2025年快速吃透AI大模型,7天学完,让你面试少走99%弯路!!
文章目录
- 7 天 AI 大模型学习 Day 2
- 前言
- BPE —— Byte Pair Encoding Tokenizer
- 核心
- 构造过程
- 例:一个简单的 corpus
- Attention
- 三种不同的 Attention
- 基本的 Attention 实现方式
- Encoder Self-Attention
- Decoder Self-Attention
- Encoder-Decoder Self-Attention
- Masked Matrix 如何融合到不同实现中
- 总结三种Attention
- Layer Normalization
- Decoding - output the next word
- Greedy Decoding
- Beam search
- Label smoothing
- 如何计算 loss
- 什么是Label smoothing
- Encoder and Decoder Based Models
- Decoder Only
- Pretrain & Fine-tune (SFT)
- Encoder-Based LLM Model:BERT
- Advance Topics
- Absolute Position Embedding
- Rotary Position Embedding 旋转编码
- Flash Attention
- 作业
前言
今天,我们会学习如下内容:
- Transformer
- BPE
- Attention
- Layer Normalization
- 输出单词 —— Greedy Decoding / Beam Search
- Label smoothing
- Code for Transformer
- Encoder-based and Decoder-Based LLMs
- Encoder-based LLM
- Decoder-Based LLM
- 其他
- 旋转编码 Rotary Position Encoding
- Flash Attention
- 作业
BPE —— Byte Pair Encoding Tokenizer
BPE(Byte Pair Encoding) 是一种基于频率的分词(tokenization)算法,最初用于数据压缩,但后来被广泛应用于自然语言处理(NLP)中,尤其是在词汇表构建和子词级别的分词任务中。BPE 的核心思想是通过迭代地合并频率最高的字节对(或字符对),以生成一个新的、更简洁的词汇表,从而优化文本的表示。它通常用于处理语言模型中的稀有词汇和未登录词(OOV,Out-Of-Vocabulary words)问题。
BPE 被广泛应用于现代 NLP 模型中,尤其是神经网络和预训练模型(如 BERT、GPT 等)的训练过程中。例如,GPT-2 和 GPT-3 就是采用了类似 BPE 的子词分词方法来处理输入文本。
BPE 通过减少稀有词汇的数量,并将词汇表限制在较小的规模内,从而提升了模型的训练效率和文本生成能力。
Vocabulary(词汇表)
Vocabulary 是指模型所能理解和使用的所有词汇或符号的集合。在自然语言处理(NLP)中,词汇表通常是指一组所有可能的token(分词单位)。token可以是单词、子词、或者字符,具体取决于采用的分词策略。
词汇表的构建通常是基于一份大型文本数据(corpus),通过统计频率,选择出现次数较多的词汇构建一个有限的词汇集合。词汇表的大小(例如10,000个词、50,000个词等)通常是根据特定任务和计算资源的需求来设定的。
词汇表包含的信息:通常,每个token在词汇表中都有一个唯一的编号,称为词ID,模型可以使用这些ID来表示文本中的各个token。
Tokenization(分词)
Tokenization 是指将原始文本(通常是句子或文档)切分成一系列有意义的tokens(单位),这些token可以是单词、子词或字符。具体的tokenization策略决定了最终文本如何被分解成token。
例如,对于句子 “I love natural language processing”,可能的token化结果有:
基于单词的tokenization:[‘I’, ‘love’, ‘natural’, ‘language’, ‘processing’]
基于子词的tokenization:[‘I’, ‘lov’, ‘e’, ‘natu’, ‘ral’, ‘lan’, ‘guage’, ‘pro’, ‘cessing’](使用像BPE这样的算法)
基于字符的tokenization:[‘I’, ’ ', ‘l’, ‘o’, ‘v’, ‘e’, ’ ', ‘n’, ‘a’, ‘t’, ‘u’, ‘r’, ‘a’, ‘l’, …]
tokenization 的目的是将原始文本转化为计算机可以处理的、更小的单元。词汇表在这个过程中起着关键作用。
核心
- 根据数据做 tokenize
- Subword Tokenization
- 英语上可以包含 subword , -est OR -er
构造过程
- 语料库作为输入,从而学习词库
-
初始化:首先,将输入文本拆分成字符级别的token(符号)。例如,输入句子“low”会被拆分成 [‘l’, ‘o’, ‘w’]。
-
统计频率:计算文本中所有字符对的出现频率。例如,在句子“low”中,字符对可能是 (l, o) 和 (o, w)。
-
合并最频繁的字符对:找到出现频率最高的字符对,并将它们合并为一个新的单一符号。例如,如果字符对 (l, o) 是最常见的,就将其合并成一个新的 token (lo)。
-
重复以上过程:继续合并最频繁的字符对,直到达到预设的词汇表大小或满足其他停止条件。
-
最终词汇表:合并的结果将形成一个新的词汇表,这个词汇表是由频繁的子词或字符对组成的。

重复上述过程,词库中词越来越多

例:一个简单的 corpus
Corpus(复数形式:Corpora)是指一组有组织的、用于语言学研究或自然语言处理(NLP)任务的文本数据集合。它可以包括任何形式的语言数据,如书籍、文章、对话、网页内容等,通常以原始文本或经过标注的文本形式存在。Corpus 通常用于语言模型的训练、语法分析、词汇统计等任务。
- er 出现次数最多,将 er merge 为一个新的 token,加入 vocabulary 中

得到 vocabulary 后,根据 vocabulary 做 tokenization 。在处理文本时,使用构建好的词汇表将原始文本转化为token(通常是数字ID),并将每个token映射到词汇表中的一个元素。这是tokenization的核心过程。
Attention
三种不同的 Attention

基本的 Attention 实现方式
输入 x —— > 内积 WQ WK WV ——> 得到 Q K V 矩阵

- attention score 矩阵


def compute_attention_score(Q, K, V, mask, dim):return Q * K^T / dim ^ 1/2 * V
Encoder Self-Attention

- 对每个词都需要计算其他词对它的影响
Decoder Self-Attention

- 对每个词,只能看前一个词对它的影响
Encoder-Decoder Self-Attention

Masked Matrix 如何融合到不同实现中

- M如何定义 ? 见上文

- Padding 的影响

- 有 Padding 情况下,mask 矩阵如下
padding 位置为 mask 矩阵值为负无穷
总结三种Attention

—— 微调部分基础
Layer Normalization
作用:
- 归一化
- 数值区间控制
- 稳定学习 stable learn
对每一行做一个 normalize
- 定义

- normalize 计算过程

- 最终输出格式

Decoding - output the next word
- 将最后的概率最大的单词输出

Greedy Decoding
将概率最大的单词输出

问题:
- 概率最大的不一定是最好的
- 前面的输出会影响后面的输出,如果前面输出错了,对后面影响大
Beam search
Beam Size(3) <= Top 3 —— K = 3
- 不只是考虑最好的一个,而是考虑最好的三个
- 时间复杂度 K^2 * T (length)

—— 通过控制 Decoder 可以进行模型控制 , 模型优化
Label smoothing

如何计算 loss

什么是Label smoothing

-
希望得到的 y 的预测值就是和真实的 y 一样
-
逆推 会出现数值的 unstable —— 训练的 unstable —— 如何解决

-
Label smoothing - 让原有的向量不那么极端

比较好的代码 : https://colab.research.google.com/github/harvardnlp/annotated-transformer/blob/master/AnnotatedTransformer.ipynb#scrollTo=9a429510
Encoder and Decoder Based Models
- 主要还是 Decoder-Based

Decoder Only
self-supervised learning

Pretrain & Fine-tune (SFT)
- Fine-tune : 只计算 output 的 loss

Encoder-Based LLM Model:BERT
逻辑:完形填空 , mask 掉一些单词,让 bert 去填空

模型本身不是为生成问题而生的,所以没有 GPT 时候生成。对一些分类任务效果好。
Advance Topics
Absolute Position Embedding
问题:随着 m 的增大,位置变化没有规律
Rotary Position Embedding 旋转编码
能刻画出一些相对的位置差异

- 如何计算

- 扩展到高纬

Flash Attention
优点:
- 计算快
- 节省显存
- 精准注意力
- 减少在 HBM 和 SRAM 中切换到时间


- 核心思想

每个模块单独处理,减少和显存的操作
作业
- 读懂代码,在少量数据上训练 + finetune github.com/karpathy/nanoGPT/tree/master
- 读懂文章及其开源代码 https://arxiv.org/abs/2309.10305
相关文章:
【大模型】7 天 AI 大模型学习
7 天 AI 大模型学习 Day 2 今天是 7 天AI 大模型学习的第二天 😄,今天我将会学习 Transformer 、Encoder-based and Decoder-Based LLMs 等 。如果有感兴趣的,就和我一起开始吧 ~ 课程链接 :2025年快速吃透AI大模型&am…...
软件工程大复习之(四)——面向对象与UML
4.1 面向对象概述 面向对象(OO)是一种编程范式,它将数据和处理数据的方法封装在对象中。面向对象的主要概念包括: 对象:实例化的数据和方法的集合。类:对象的蓝图或模板。封装:隐藏对象的内部…...
【Linux】shell命令
目录 shell的基本命令 shell - 贝壳 外在保护工具 用户、shell、内核、硬件之间的关系 解析器的分类: shell命令格式 history -历史记录查询 修改环境变量的值: shell中的特殊字符 通配符 管道 | 输入输出重定向 命令置换符 shell的基本命…...
ValuesRAG:以检索增强情境学习强化文化对齐
随着大型语言模型(LLMs)的迅猛发展,其在各个领域展现出强大的能力。然而,训练数据中西方中心主义的倾向,使得 LLMs 在文化价值观一致性方面面临严峻挑战,这一问题在跨文化场景中尤为突出,可能导…...
【机器学习篇】交通革命:机器学习如何引领未来的道路创新
嘿,你知道吗?机器学习正在交通领域掀起一场革命啦!它将如何引领未来道路创新呢 本文有精彩的 C 代码演示、实用的图片解释,还有超多干货,保证让你大开眼界,点赞收藏关注, 开启一场奇妙的探索之…...
DeepSeek-V3 通俗详解:从诞生到优势,以及与 GPT-4o 的对比
1. DeepSeek 的前世今生 1.1 什么是 DeepSeek? DeepSeek 是一家专注于人工智能技术研发的公司,致力于打造高性能、低成本的 AI 模型。它的目标是让 AI 技术更加普惠,让更多人能够用上强大的 AI 工具。 1.2 DeepSeek-V3 的诞生 DeepSeek-V…...
把vue项目或者vue组件发布成npm包或者打包成lib库文件本地使用
将vue项目发布成npm库文件,第三方通过npm依赖安装使用;使用最近公司接了一个项目,这个项目需要集成到第三方页面,在第三方页面点击项目名称,页面变成我们的项目页面;要求以npm库文件提供给他们;…...
【STC库函数】Compare比较器的使用
如果我们需要比较两个点的电压,当A点高于B点的时候我们做一个操作,当B点高于A点的时候做另一个操作。 我们除了加一个运放或者比较器,还可以直接使用STC内部的一个比较器。 正极输入端可以是P37、P50、P51,或者从ADC的十六个通道…...
单片机-独立按键矩阵按键实验
1、按键介绍 按键管脚两端距离长的表示默认是导通状态,距离短的默认是断开状态, 如果按键按下,初始导通状态变为断开,初始断开状态变为导通 我们开发板是采用软件消抖,一般来说一个简单的按键消抖就是先读取按键的状…...
若要把普通表转成分区表,就需要先新建分区表,然后把普通表中的数据导入新建分区表。 具体怎么导入?
将普通表转换为分区表并导入数据是一个常见的数据库管理任务。以下是详细的步骤和示例,帮助你在 GaussDB 中完成这一过程: 1. 创建分区表 首先,你需要创建一个新的分区表,定义好分区键和分区策略。假设你有一个普通表 orders&am…...
XXX公司面试真题
一、一面问题 1.线程池的主要参数 核心线程数最大线程数空闲线程存活时间存活时间单位任务队列线程工厂拒绝策略允许核心线程超时 2. 线程的状态 新建状态就绪状态运行状态阻塞状态死亡状态 补充:线程阻塞的原因 线程调用sleep()方法进入睡眠状态 线程得到一个…...
第一节:电路连接【51单片机+A4988+步进电机教程】
摘要:本节介绍如何搭建一个51单片机A4988步进电机控制电路,所用材料均为常见的模块,简单高效的方式搭建起硬件环境 一、硬件清单 ①51单片机最小控制模块 ②开关电源 ③A4988模块转接座 ④二相四线步进电机 ⑤电线若干 二、接线 三、A49…...
机器学习算法深度解析:以支持向量机(SVM)为例的实践应用
机器学习算法深度解析:以支持向量机(SVM)为例的实践应用 在当今的数据驱动时代,机器学习作为人工智能的核心分支,正以前所未有的速度改变着我们的生活与工作方式。从图像识别到自然语言处理,从金融预测到医…...
解决Postman一直在转圈加载无法打开问题的方法
在使用Postman这款强大的API测试工具时,有时可能会遇到程序长时间加载而无法正常使用的情况。面对这样的问题,可以尝试以下几种解决办法: 方法一:直接运行Postman可执行文件 定位到Postman的安装目录 如果您不确定Postman的具体安…...
利用 LangChain 构建对话式 AI 应用
随着人工智能技术的快速发展,对话式 AI 已成为现代应用的核心部分。在构建智能客服、虚拟助手以及交互式学习平台时,一个强大且灵活的框架显得尤为重要。本文将深度解析 LangChain 这一框架的功能及实际使用,帮助开发者快速上手。 什么是 La…...
力扣--34.在排序数组中查找元素的第一个和最后一个位置
题目 给你一个按照非递减顺序排列的整数数组 nums,和一个目标值 target。请你找出给定目标值在数组中的开始位置和结束位置。 如果数组中不存在目标值 target,返回 [-1, -1]。 你必须设计并实现时间复杂度为 O(log n) 的算法解决此问题。 示例 1&…...
【Java回顾】Day2 正则表达式----异常处理
参考资料:菜鸟教程 https://www.runoob.com/java/java-exceptions.html 正则表达式 有一部分没看完 介绍 字符串的模式搜索、编辑或处理文本java.util.regex包,包含了pattern和mathcer类,用于处理正则表达式的匹配操作。 捕获组 把多个字符…...
【SpringBoot】当 @PathVariable 遇到 /,如何处理
1. 问题复现 在解析一个 URL 时,我们经常会使用 PathVariable 这个注解。例如我们会经常见到如下风格的代码: RestController Slf4j public class HelloWorldController {RequestMapping(path "/hi1/{name}", method RequestMethod.GET)publ…...
【FlutterDart】页面切换 PageView PageController(9 /100)
上效果: 有些不能理解官方例子里的动画为什么没有效果,有可能是我写法不对 后续如果有动画效果修复了,再更新这篇,没有动画效果,总觉得感受的丝滑效果差了很多 上代码: import package:flutter/material.…...
Backend - C# 的日志 NLog日志
目录 一、注入依赖和使用 logger 二、配置记录文件 1.安装插件 NLog 2.创建 nlog.config 配置文件 3. Programs配置日志信息 4. 设置 appsettings.json 的 LogLevel 5. 日志设定文件和日志级别的优先级 (1)常见的日志级别优先级 (2&…...
大数据学习栈记——Neo4j的安装与使用
本文介绍图数据库Neofj的安装与使用,操作系统:Ubuntu24.04,Neofj版本:2025.04.0。 Apt安装 Neofj可以进行官网安装:Neo4j Deployment Center - Graph Database & Analytics 我这里安装是添加软件源的方法 最新版…...
7.4.分块查找
一.分块查找的算法思想: 1.实例: 以上述图片的顺序表为例, 该顺序表的数据元素从整体来看是乱序的,但如果把这些数据元素分成一块一块的小区间, 第一个区间[0,1]索引上的数据元素都是小于等于10的, 第二…...
synchronized 学习
学习源: https://www.bilibili.com/video/BV1aJ411V763?spm_id_from333.788.videopod.episodes&vd_source32e1c41a9370911ab06d12fbc36c4ebc 1.应用场景 不超卖,也要考虑性能问题(场景) 2.常见面试问题: sync出…...
UDP(Echoserver)
网络命令 Ping 命令 检测网络是否连通 使用方法: ping -c 次数 网址ping -c 3 www.baidu.comnetstat 命令 netstat 是一个用来查看网络状态的重要工具. 语法:netstat [选项] 功能:查看网络状态 常用选项: n 拒绝显示别名&#…...
鸿蒙中用HarmonyOS SDK应用服务 HarmonyOS5开发一个生活电费的缴纳和查询小程序
一、项目初始化与配置 1. 创建项目 ohpm init harmony/utility-payment-app 2. 配置权限 // module.json5 {"requestPermissions": [{"name": "ohos.permission.INTERNET"},{"name": "ohos.permission.GET_NETWORK_INFO"…...
CMake控制VS2022项目文件分组
我们可以通过 CMake 控制源文件的组织结构,使它们在 VS 解决方案资源管理器中以“组”(Filter)的形式进行分类展示。 🎯 目标 通过 CMake 脚本将 .cpp、.h 等源文件分组显示在 Visual Studio 2022 的解决方案资源管理器中。 ✅ 支持的方法汇总(共4种) 方法描述是否推荐…...
vulnyx Blogger writeup
信息收集 arp-scan nmap 获取userFlag 上web看看 一个默认的页面,gobuster扫一下目录 可以看到扫出的目录中得到了一个有价值的目录/wordpress,说明目标所使用的cms是wordpress,访问http://192.168.43.213/wordpress/然后查看源码能看到 这…...
【Linux】Linux 系统默认的目录及作用说明
博主介绍:✌全网粉丝23W,CSDN博客专家、Java领域优质创作者,掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域✌ 技术范围:SpringBoot、SpringCloud、Vue、SSM、HTML、Nodejs、Python、MySQL、PostgreSQL、大数据、物…...
mac 安装homebrew (nvm 及git)
mac 安装nvm 及git 万恶之源 mac 安装这些东西离不开Xcode。及homebrew 一、先说安装git步骤 通用: 方法一:使用 Homebrew 安装 Git(推荐) 步骤如下:打开终端(Terminal.app) 1.安装 Homebrew…...
LRU 缓存机制详解与实现(Java版) + 力扣解决
📌 LRU 缓存机制详解与实现(Java版) 一、📖 问题背景 在日常开发中,我们经常会使用 缓存(Cache) 来提升性能。但由于内存有限,缓存不可能无限增长,于是需要策略决定&am…...


