当前位置: 首页 > news >正文

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

RNN存在信息瓶颈的问题。
注意力机制的核心就是在decoder的每一步,都把encoder的所有向量提供给decoder模型。
在这里插入图片描述

具体的例子

先获得encoder隐向量的一个注意力分数。

在这里插入图片描述

注意力机制的各种变体

一:直接点积
二:中间乘以一个矩阵
三:Additive attention:使用一层前馈神经网络来获得注意力分数

Transformer概述

在这里插入图片描述

输入层

BPE(Byte Pair Encoding)

在这里插入图片描述
BPE提出主要是为了解决OOV的问题:会出现一些在词表中没有出现过的词。

在这里插入图片描述

位置编码Positional Encoding

在这里插入图片描述

Transformer Block

在这里插入图片描述

attention层

在这里插入图片描述
不进行scale,则方差会很大。则经过softmax后,有些部分会很尖锐,接近1。

在这里插入图片描述

多头注意力机制

在这里插入图片描述

Transformer Decoder Block

mask保证了文本生成是顺序生成的。
在这里插入图片描述

其他Tricks

在这里插入图片描述

Transformer的优缺点

缺点:模型对参数敏感,优化困难;处理文本复杂度是文本长度的平方数量级。
在这里插入图片描述

预训练语言模型PLM

预训练语言模型学习到的知识可以非常容易地迁移到下游任务。
word2vec是第一个预训练语言模型。现在绝大多数语言模型都是基于Transformer了,如Bert。

PLMs的两种范式

1.feature提取器:预训练好模型后,feature固定。典型的如word2vec和Elmo
2.对整个模型的参数进行更新
在这里插入图片描述

GPT

在这里插入图片描述
在这里插入图片描述

BERT

不同于GPT,BERT是双向的预训练模型。使用的是基于Mask的数据。
它的最主要的预训练任务是预测mask词。
还有一个是预测下一个句子。

在这里插入图片描述
在这里插入图片描述

PLMs after BERT

BERT的问题:
尽管BERT采用了一些策略,使mask可能替换成其他词或正确词。但是这并没有解决mask没有出现在下游任务。
预训练效率低。
窗口大小受限。
在这里插入图片描述

相关改进工作

RoBERTa指出bert并没有完全训练。它可以被训练得更加鲁棒。
在这里插入图片描述

在这里插入图片描述

MLM任务的应用

跨语言对齐

在这里插入图片描述

跨模态对齐

在这里插入图片描述

PLM前沿

GPT3

在这里插入图片描述
在这里插入图片描述

T5

统一所有NLP任务为seq to seq的形式

MoE

每次模型调用部分子模块来处理。涉及调度,负载均衡。
在这里插入图片描述

Transformers教程

介绍

在这里插入图片描述

使用Transformers的Pipeline

在这里插入图片描述

Tokenization

在这里插入图片描述

常用API

在这里插入图片描述
在这里插入图片描述

相关文章:

[学习笔记]刘知远团队大模型技术与交叉应用L3-Transformer_and_PLMs

RNN存在信息瓶颈的问题。 注意力机制的核心就是在decoder的每一步,都把encoder的所有向量提供给decoder模型。 具体的例子 先获得encoder隐向量的一个注意力分数。 注意力机制的各种变体 一:直接点积 二:中间乘以一个矩阵 三:…...

图像处理工具包Pillow的使用分享

Pillow 是 Python 中一个流行的图像处理库,它是 PIL(Python Imaging Library)的一个友好的分支版本。Pillow 提供了许多功能,使得图像处理变得容易和方便。下面是一些基本用法和示例: 安装 Pillow 首先,你…...

python进程间通信——命名管道(Named Pipe、FIFO)

文章目录 Python中的命名管道:深入理解进程间通信1. 命名管道简介2. 创建和删除命名管道3. 写入命名管道4. 读取命名管道5. 示例:进程间通信write_to_pipe.pyread_from_pipe.py测试运行 6. 注意事项和限制命名管道的半双工机制命名管道读写任意一方未打开…...

03 OSPF 学习大纲

参考文章 1 初步认识OSPF的大致内容(第三课)-CSDN博客 2...

HJ7 取近似值【C语言】

【华为机试题 HJ7】取近似值 描述输入描述:输出描述:示例1示例2参考代码1参考代码2参考代码3描述 写出一个程序,接受一个正浮点数值,输出该数值的近似整数值。如果小数点后数值大于等于 0.5 ,向上取整;小于 0.5 ,则向下取整。 数据范围:保证输入的数字在 32 位浮点数范…...

php基础学习之常量

php常量的基本概念 常量是在程序运行中的一种不可改变的量(数据),常量一旦定义,通常不可改变(用户级别)。 php常量的定义形式 使用define函数:define("常量名字", 常量值);使用cons…...

2024最新面试经验分享

目录 重点掌握的知识点JavaMySQLRedis 微服务分布式系统项目亮点场景题/设计题短链抢红包多租户 开放性问题自我介绍为什么跳槽团队规模如何带团队如何看待加班职业规划 主要针对Java程序员,当然也包含一些通用的内容。 重点掌握的知识点 需要重点掌握的知识点必须…...

《WebKit 技术内幕》之八(1):硬件加速机制

《WebKit 技术内幕》之八(1):硬件加速机制 1 硬件加速基础 1.1 概念 这里说的硬件加速技术是指使用GPU的硬件能力来帮助渲染网页,因为GPU的作用主要是用来绘制3D图形并且性能特别好,这是它的专长所在,它…...

子表单扫码录入,显著节省填写时间

01/17 主要更新模块概览 扫 码 识 别 新 增 字 号 登 录 配 置 匹 配 搜 素 扫码识别 路径:表单设计 >> 字段属性 功能简介 之前对子表单扫码录入,是单独在组件内设置扫码,操作需重新点击扫码功能,手工新增子表数据&a…...

【Redis】Ubuntu安装配置

目录 一、安装Redis 1.1 从APT仓库安装Redis 二、启动&关闭&重启 三、Redis核心配置 3.1 CONFIG命令 3.2 redis.conf文件说明 一、安装Redis 1.1 从APT仓库安装Redis 从APT仓库可以安装最新的Redis稳定版,步骤如下: 【1】安装需要用到的…...

idea远程服务调试

1. 配置idea远程服务调试 这里以 idea 新 ui 为例,首先点击上面的 debug 旁边的三个小圆点,然后在弹出的框框中选择 “Edit”,如下图所示。 然后进入到打开的界面后,点击左上角的 “” 进行添加,找到 “Remote JVM De…...

Google Colab运行Pytorch项目

Google Colab运行Pytorch项目 连接google drive切换到某一文件夹显示当前目录文件安装依赖执行py文件numpy相关numpy.random.randn() 参考文章:文章1 文章2 连接google drive from google.colab import drive import os drive.mount(/content/drive)切换到某一文件…...

Android Studi安卓读写NDEF智能海报源码

本示例使用的发卡器&#xff1a;https://item.taobao.com/item.htm?id615391857885&spma1z10.5-c.w4002-21818769070.11.1f60789ey1EsPH <?xml version"1.0" encoding"utf-8"?> <androidx.constraintlayout.widget.ConstraintLayout xmln…...

Demo: 实现PDF加水印以及自定义水印样式

实现PDF加水印以及自定义水印样式 <template><div><button click"previewHandle">预览</button><button click"downFileHandle">下载</button><el-input v-model"watermarkText" /><el-input v-mo…...

每日OJ题_算法_二分查找①_力扣704. 二分查找

目录 二分查找算法原理 力扣704. 二分查找 解析代码 二分查找算法原理 二分查找一种效率较高的查找方法。但是&#xff0c;二分查找要求线性表必须采用顺序存储结构&#xff0c;而且表中元素按关键字有序排列。一般步骤如下&#xff1a; 首先&#xff0c;假设表中元素是按升…...

【Python】--- 基础语法(1)

目录 1.变量和表达式2.变量和类型2.1变量是什么2.2变量的语法2.3变量的类型2.3.1整数2.3.2浮点数&#xff08;小数&#xff09;2.3.3字符串2.3.4布尔2.3.5其他 2.4为什么要有这么多类型2.5动态类型特征 3.注释3.1注释的语法3.2注释的规范 结语 1.变量和表达式 对python的学习就…...

详解gorm中DB对象的clone属性

详解gorm中DB对象的clone属性 Gorm 版本&#xff1a;v1.22.4 Where函数源码 // Where add conditions func (db *DB) Where(query interface{}, args ...interface{}) (tx *DB) {tx db.getInstance()if conds : tx.Statement.BuildCondition(query, args...); len(conds) &…...

数据库(MySQL库表操作)

目录 1.1 SQL语句基础&#xff08;SQL命令&#xff09; 1.1.1 SQL的简介 1.1.2 SQL语句的分类 1.1.3 SQL语句的书写规范 1.2 数据库操作 1.2.1 查看 1.2.2 自建库 1.2.3 切换数据库 1.2.4 删库 1.3 MySQL字符集 1.3.1 MySQL字符集包括&#xff1a; 1.3.2 utf8 和 u…...

内网穿透的应用-如何使用Docker部署Redis数据库并结合内网穿透工具实现公网远程访问

文章目录 前言1. 安装Docker步骤2. 使用docker拉取redis镜像3. 启动redis容器4. 本地连接测试4.1 安装redis图形化界面工具4.2 使用RDM连接测试 5. 公网远程访问本地redis5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定TCP地址远程访问 前言 本文主要介绍如何在Ub…...

计算机网络复试

第1章 概述 时延&#xff1a;发送(传输)时延传播时延 链路中每多一个路由器&#xff0c;就增加一个分组的发送时延 第2章 物理层 2.4 编码与调制->编码(基带调制)->曼彻斯特编码 ->带通调制->混合调制->正交振幅调制QAM 信道极限容量 奈氏准则 无噪声最大速…...

Rdkit实战:从2D到3D,解锁分子构象生成与优化的全流程

1. 从2D到3D&#xff1a;分子构象生成的基础概念 第一次接触分子构象生成时&#xff0c;我完全被各种术语搞晕了——距离几何、ETKDG、MMFF这些名词听起来就像天书。直到用RDKit实际操作了几次&#xff0c;才发现这个过程其实就像搭积木&#xff1a;先有个平面设计图&#xff…...

别再手动挖洞!3DMAX QuickBoolean插件保姆级安装与工具栏配置指南(附图标含义详解)

3DMAX QuickBoolean插件&#xff1a;从零开始的高效布尔运算实战指南 在三维建模领域&#xff0c;布尔运算一直是创建复杂几何形状的必备技能。无论是建筑可视化中的门窗开洞&#xff0c;还是工业设计中的零件装配&#xff0c;传统布尔运算操作往往伴随着繁琐的步骤和不可预测的…...

让旧款iPhone/iPad重获新生:Legacy-iOS-Kit终极使用指南

让旧款iPhone/iPad重获新生&#xff1a;Legacy-iOS-Kit终极使用指南 【免费下载链接】Legacy-iOS-Kit An all-in-one tool to restore/downgrade, save SHSH blobs, jailbreak legacy iOS devices, and more 项目地址: https://gitcode.com/gh_mirrors/le/Legacy-iOS-Kit …...

FPGA资源省一半?揭秘多相滤波器在抽取/内插中的高效实现结构与Xilinx IP核配置要点

FPGA资源优化实战&#xff1a;多相滤波器在采样率转换中的高效架构与Xilinx IP核深度配置 当信号处理系统面临严苛的资源约束时&#xff0c;工程师们常常需要在性能与成本之间走钢丝。多相滤波器结构就像一位精明的财务顾问&#xff0c;能帮你在FPGA资源预算紧张的情况下&#…...

C 读取RAW文件程序

C# 读取RAW文件程序 【下载地址】C读取RAW文件程序 本仓库提供了一个简单的C#程序&#xff0c;用于读取RAW文件。该程序已经过调试&#xff0c;确保功能正常运行。需要注意的是&#xff0c;此程序仅提供基本的RAW文件读取功能&#xff0c;不包含任何图像处理或转换功能 项目地…...

51c自动驾驶~合集57

我自己的原文哦~ https://blog.51cto.com/whaosoft/13960249 #端到端自动驾驶算法实现原理 1从传感器数据到控制策略的端到端方法 端到端自动驾驶基本流程: (1)子任务模型被更大规模的神经网络模型取代,最终即为端到端神经网络模型; (2)…...

NotebookLM文档召回率骤降73%?(内部实验报告首次公开:BM25+SBERT混合排序实战框架)

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;NotebookLM相似文档推荐 NotebookLM 是 Google 推出的基于用户上传文档构建个性化 AI 助手的实验性工具&#xff0c;其核心能力之一是“相似文档推荐”——即在用户提问时&#xff0c;自动从已导入的文…...

你的嵌入式数据记录仪方案:基于STM32CubeMX+FATFS+SD卡存储传感器数据(CSV格式实战)

嵌入式数据记录仪实战&#xff1a;STM32CubeMXFATFSSD卡构建工业级CSV存储方案 在工业物联网和智能硬件开发中&#xff0c;可靠的数据记录功能往往是产品核心价值所在。想象一下温室大棚的环境监控系统需要连续记录温湿度数据三个月&#xff0c;或者电力设备振动监测装置要在无…...

告别wx.startRecord!微信小程序录音功能保姆级教程(RecorderManager全解析)

微信小程序录音功能深度重构指南&#xff1a;从wx.startRecord到RecorderManager的完整迁移方案 在微信小程序开发生态中&#xff0c;音频处理能力一直是实现丰富交互体验的核心组件之一。随着技术架构的持续优化&#xff0c;微信团队对录音API进行了重大升级&#xff0c;用更现…...

PySOT单目标跟踪实战:从零搭建环境到模型部署的避坑指南(手把手教学,附代码)

1. 环境准备&#xff1a;从零搭建PySOT开发环境 第一次接触PySOT时&#xff0c;我花了整整两天时间折腾环境配置&#xff0c;踩遍了所有能踩的坑。为了让你们少走弯路&#xff0c;我把这些经验整理成可复现的步骤。首先需要明确的是&#xff0c;PySOT对系统环境有特定要求&…...