当前位置：首页 > news >正文

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

news 2026/2/9 14:32:04

RNN存在信息瓶颈的问题。
注意力机制的核心就是在decoder的每一步，都把encoder的所有向量提供给decoder模型。
在这里插入图片描述

具体的例子

先获得encoder隐向量的一个注意力分数。

在这里插入图片描述

注意力机制的各种变体

一：直接点积
二：中间乘以一个矩阵
三：Additive attention：使用一层前馈神经网络来获得注意力分数
…

Transformer概述

在这里插入图片描述

输入层

BPE（Byte Pair Encoding)

在这里插入图片描述
BPE提出主要是为了解决OOV的问题：会出现一些在词表中没有出现过的词。

在这里插入图片描述

位置编码Positional Encoding

在这里插入图片描述

Transformer Block

在这里插入图片描述

attention层

在这里插入图片描述
不进行scale，则方差会很大。则经过softmax后，有些部分会很尖锐，接近1。

在这里插入图片描述

多头注意力机制

在这里插入图片描述

Transformer Decoder Block

mask保证了文本生成是顺序生成的。
在这里插入图片描述

其他Tricks

在这里插入图片描述

Transformer的优缺点

缺点：模型对参数敏感，优化困难；处理文本复杂度是文本长度的平方数量级。
在这里插入图片描述

预训练语言模型PLM

预训练语言模型学习到的知识可以非常容易地迁移到下游任务。
word2vec是第一个预训练语言模型。现在绝大多数语言模型都是基于Transformer了，如Bert。

PLMs的两种范式

1.feature提取器：预训练好模型后，feature固定。典型的如word2vec和Elmo
2.对整个模型的参数进行更新
在这里插入图片描述

GPT

在这里插入图片描述

BERT

不同于GPT，BERT是双向的预训练模型。使用的是基于Mask的数据。
它的最主要的预训练任务是预测mask词。
还有一个是预测下一个句子。

在这里插入图片描述

PLMs after BERT

BERT的问题：
尽管BERT采用了一些策略，使mask可能替换成其他词或正确词。但是这并没有解决mask没有出现在下游任务。
预训练效率低。
窗口大小受限。
在这里插入图片描述

MLM任务的应用

跨语言对齐

在这里插入图片描述

跨模态对齐

在这里插入图片描述

PLM前沿

GPT3

在这里插入图片描述

T5

统一所有NLP任务为seq to seq的形式

MoE

每次模型调用部分子模块来处理。涉及调度，负载均衡。
在这里插入图片描述

Transformers教程

介绍

在这里插入图片描述

使用Transformers的Pipeline

在这里插入图片描述

Tokenization

在这里插入图片描述

常用API

在这里插入图片描述

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

RNN存在信息瓶颈的问题。注意力机制的核心就是在decoder的每一步，都把encoder的所有向量提供给decoder模型。具体的例子先获得encoder隐向量的一个注意力分数。注意力机制的各种变体一：直接点积二：中间乘以一个矩阵三：…...

编程日记 2024/1/22 21:42:09

图像处理工具包Pillow的使用分享

Pillow 是 Python 中一个流行的图像处理库，它是 PIL（Python Imaging Library）的一个友好的分支版本。Pillow 提供了许多功能，使得图像处理变得容易和方便。下面是一些基本用法和示例： 安装 Pillow 首先，你…...

编程日记 2024/1/22 21:39:07

python进程间通信——命名管道（Named Pipe、FIFO）

文章目录 Python中的命名管道：深入理解进程间通信1. 命名管道简介2. 创建和删除命名管道3. 写入命名管道4. 读取命名管道5. 示例：进程间通信write_to_pipe.pyread_from_pipe.py测试运行 6. 注意事项和限制命名管道的半双工机制命名管道读写任意一方未打开…...

编程日记 2024/1/22 21:36:04

03 OSPF 学习大纲

参考文章 1 初步认识OSPF的大致内容(第三课)-CSDN博客 2...

编程日记 2024/1/22 21:35:04

HJ7 取近似值【C语言】

【华为机试题 HJ7】取近似值描述输入描述：输出描述：示例1示例2参考代码1参考代码2参考代码3描述写出一个程序，接受一个正浮点数值，输出该数值的近似整数值。如果小数点后数值大于等于 0.5 ,向上取整；小于 0.5 ，则向下取整。数据范围：保证输入的数字在 32 位浮点数范…...

编程日记 2024/1/22 21:34:02

php基础学习之常量

php常量的基本概念常量是在程序运行中的一种不可改变的量（数据），常量一旦定义，通常不可改变（用户级别）。 php常量的定义形式使用define函数：define("常量名字", 常量值);使用cons…...

编程日记 2024/1/22 21:31:00

2024最新面试经验分享

目录重点掌握的知识点JavaMySQLRedis 微服务分布式系统项目亮点场景题/设计题短链抢红包多租户开放性问题自我介绍为什么跳槽团队规模如何带团队如何看待加班职业规划主要针对Java程序员，当然也包含一些通用的内容。重点掌握的知识点需要重点掌握的知识点必须…...

编程日记 2024/1/22 21:29:59

《WebKit 技术内幕》之八（1）：硬件加速机制

《WebKit 技术内幕》之八（1）：硬件加速机制 1　硬件加速基础 1.1　概念这里说的硬件加速技术是指使用GPU的硬件能力来帮助渲染网页，因为GPU的作用主要是用来绘制3D图形并且性能特别好，这是它的专长所在，它…...

编程日记 2024/1/22 21:27:56

子表单扫码录入，显著节省填写时间

01/17 主要更新模块概览扫码识别新增字号登录配置匹配搜素扫码识别路径：表单设计 >> 字段属性功能简介之前对子表单扫码录入，是单独在组件内设置扫码，操作需重新点击扫码功能，手工新增子表数据&a…...

编程日记 2024/1/22 21:26:55

【Redis】Ubuntu安装配置

目录一、安装Redis 1.1 从APT仓库安装Redis 二、启动&关闭&重启三、Redis核心配置 3.1 CONFIG命令 3.2 redis.conf文件说明一、安装Redis 1.1 从APT仓库安装Redis 从APT仓库可以安装最新的Redis稳定版，步骤如下： 【1】安装需要用到的…...

编程日记 2024/1/22 21:24:53

idea远程服务调试

1. 配置idea远程服务调试这里以 idea 新 ui 为例，首先点击上面的 debug 旁边的三个小圆点，然后在弹出的框框中选择 “Edit”，如下图所示。然后进入到打开的界面后，点击左上角的 “” 进行添加，找到 “Remote JVM De…...

编程日记 2024/1/22 21:18:46

Google Colab运行Pytorch项目

Google Colab运行Pytorch项目连接google drive切换到某一文件夹显示当前目录文件安装依赖执行py文件numpy相关numpy.random.randn() 参考文章：文章1 文章2 连接google drive from google.colab import drive import os drive.mount(/content/drive)切换到某一文件…...

编程日记 2024/1/22 21:17:45

本示例使用的发卡器：https://item.taobao.com/item.htm?id615391857885&spma1z10.5-c.w4002-21818769070.11.1f60789ey1EsPH <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout xmln…...

编程日记 2024/1/22 21:13:42

Demo: 实现PDF加水印以及自定义水印样式

实现PDF加水印以及自定义水印样式 <template><div><button click"previewHandle">预览</button><button click"downFileHandle">下载</button><el-input v-model"watermarkText" /><el-input v-mo…...

编程日记 2024/1/22 21:09:39

每日OJ题_算法_二分查找①_力扣704. 二分查找

目录二分查找算法原理力扣704. 二分查找解析代码二分查找算法原理二分查找一种效率较高的查找方法。但是，二分查找要求线性表必须采用顺序存储结构，而且表中元素按关键字有序排列。一般步骤如下： 首先，假设表中元素是按升…...

编程日记 2024/1/22 21:08:38

【Python】--- 基础语法（1）

目录 1.变量和表达式2.变量和类型2.1变量是什么2.2变量的语法2.3变量的类型2.3.1整数2.3.2浮点数（小数）2.3.3字符串2.3.4布尔2.3.5其他 2.4为什么要有这么多类型2.5动态类型特征 3.注释3.1注释的语法3.2注释的规范结语 1.变量和表达式对python的学习就…...

编程日记 2024/1/22 21:07:36

详解gorm中DB对象的clone属性

详解gorm中DB对象的clone属性 Gorm 版本：v1.22.4 Where函数源码 // Where add conditions func (db *DB) Where(query interface{}, args ...interface{}) (tx *DB) {tx db.getInstance()if conds : tx.Statement.BuildCondition(query, args...); len(conds) &…...

编程日记 2024/1/22 21:06:36

数据库（MySQL库表操作）

目录 1.1 SQL语句基础（SQL命令） 1.1.1 SQL的简介 1.1.2 SQL语句的分类 1.1.3 SQL语句的书写规范 1.2 数据库操作 1.2.1 查看 1.2.2 自建库 1.2.3 切换数据库 1.2.4 删库 1.3 MySQL字符集 1.3.1 MySQL字符集包括： 1.3.2 utf8 和 u…...

编程日记 2024/1/22 21:01:31

内网穿透的应用-如何使用Docker部署Redis数据库并结合内网穿透工具实现公网远程访问

文章目录前言1. 安装Docker步骤2. 使用docker拉取redis镜像3. 启动redis容器4. 本地连接测试4.1 安装redis图形化界面工具4.2 使用RDM连接测试 5. 公网远程访问本地redis5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问前言本文主要介绍如何在Ub…...

编程日记 2024/1/22 21:00:29

计算机网络复试

第1章概述时延：发送(传输)时延传播时延链路中每多一个路由器，就增加一个分组的发送时延第2章物理层 2.4 编码与调制->编码(基带调制)->曼彻斯特编码 ->带通调制->混合调制->正交振幅调制QAM 信道极限容量奈氏准则无噪声最大速…...

编程日记 2024/1/22 20:57:27

业务系统对接大模型的基础方案：架构设计与关键步骤

业务系统对接大模型：架构设计与关键步骤在当今数字化转型的浪潮中，大语言模型（LLM）已成为企业提升业务效率和创新能力的关键技术之一。将大模型集成到业务系统中，不仅可以优化用户体验，还能为业务决策提供…...

编程新知 2026/2/8 4:53:03

应用升级/灾备测试时使用guarantee 闪回点迅速回退

1.场景应用要升级,当升级失败时,数据库回退到升级前. 要测试系统,测试完成后,数据库要回退到测试前。相对于RMAN恢复需要很长时间， 数据库闪回只需要几分钟。 2.技术实现数据库设置 2个db_recovery参数创建guarantee闪回点，不需要开启数据库闪回。…...

编程新知 2026/1/14 22:12:47

shell脚本--常见案例

1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件： 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...

编程新知 2026/2/7 19:53:11

MFC内存泄露

1、泄露代码示例 void X::SetApplicationBtn() {CMFCRibbonApplicationButton* pBtn GetApplicationButton();// 获取 Ribbon Bar 指针// 创建自定义按钮CCustomRibbonAppButton* pCustomButton new CCustomRibbonAppButton();pCustomButton->SetImage(IDB_BITMAP_Jdp26)…...

编程新知 2026/1/22 15:14:25

【Linux】C语言执行shell指令

在C语言中执行Shell指令在C语言中，有几种方法可以执行Shell指令： 1. 使用system()函数这是最简单的方法，包含在stdlib.h头文件中： #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

编程新知 2025/11/20 18:42:48

理解 MCP 工作流：使用 Ollama 和 LangChain 构建本地 MCP 客户端

🌟 什么是 MCP？ 模型控制协议 (MCP) 是一种创新的协议，旨在无缝连接 AI 模型与应用程序。 MCP 是一个开源协议，它标准化了我们的 LLM 应用程序连接所需工具和数据源并与之协作的方式。可以把它想象成你的 AI 模型和想要使用它…...

编程新知 2026/1/27 17:31:07

定时器任务——若依源码分析

分析util包下面的工具类schedule utils： ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类，封装了定时任务的创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz，先构建任务的 JobD…...

编程新知 2026/1/26 14:24:46

DIY｜Mac 搭建 ESP-IDF 开发环境及编译小智 AI

前一阵子在百度 AI 开发者大会上，看到基于小智 AI DIY 玩具的演示，感觉有点意思，想着自己也来试试。如果只是想烧录现成的固件，乐鑫官方除了提供了 Windows 版本的 Flash 下载工具之外，还提供了基于网页版的 ESP LA…...

编程新知 2026/2/3 8:13:35

python如何将word的doc另存为docx

将 DOCX 文件另存为 DOCX 格式（Python 实现） 在 Python 中，你可以使用 python-docx 库来操作 Word 文档。不过需要注意的是，.doc 是旧的 Word 格式，而 .docx 是新的基于 XML 的格式。python-docx 只能处理 .docx 格式…...

编程新知 2025/12/13 22:42:30

什么？连接服务器也能可视化显示界面？：基于X11 Forwarding + CentOS + MobaXterm实战指南

文章目录什么是X11？环境准备实战步骤1️⃣ 服务器端配置（CentOS）2️⃣ 客户端配置（MobaXterm）3️⃣ 验证X11 Forwarding4️⃣ 运行自定义GUI程序(Python示例)5️⃣ 成功效果![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/55aefaea8a9f477e86d065227851fe3d.pn…...

编程新知 2025/10/2 17:12:14

具体的例子

注意力机制的各种变体

Transformer概述

输入层

BPE（Byte Pair Encoding)

位置编码Positional Encoding

Transformer Block

attention层

多头注意力机制

Transformer Decoder Block

其他Tricks

Transformer的优缺点

预训练语言模型PLM

PLMs的两种范式

GPT

BERT

PLMs after BERT

相关改进工作

MLM任务的应用

跨语言对齐

跨模态对齐

PLM前沿

GPT3

T5

MoE

Transformers教程

介绍

使用Transformers的Pipeline

Tokenization

常用API

相关文章：