当前位置：首页 > news >正文

seq2seq、attention、self-attention、transformer、bert

news 2025/7/25 9:58:16

seq2seq

seq2seq：输入序列，输出序列，将输入的语言转为一个向量，最后输出再将向量转为语言
shortcoming:The final state is incapable of remembering a long sequence.即太长了记不住

attention

用attention可以改进seq2seq中的遗忘问题，大幅提高准确率，但是计算特别大
attention会在encoder中的最后阶段s，计算s和之前的每个h计算相关性，告诉模型前面的哪些内容更重要，即计算权重，解决遗忘问题
decoder每次更新状态时，都会与encoder进行对比一次，并且计算权重，下次再更新状态时，又重新对比encoder所有状态，计算权重，这样解决了遗忘问题了

self-attention

RNN都存在遗忘问题，self-attention每一轮更新状态时，都会重新看一遍前面的信息，防止遗忘。
self-attention相比attention更加广泛使用，不局限与seq2seq模型，可以用于所有rnn

transformer

是seq2seq，不是rnn
只有attention和dense layers
刚开始有人提出过RNN，然后为了改进RNN遗忘问题，提出了ATTENTION用于解决seq2seq的遗忘问题，后来发现SELF-ATTENTION 相比Attetion应用更加广泛，可以用于任何RNN模型，最后有人提出ATTENTION 可以剔除RNN，效果更好
传统的RNN网络，存在不能并行计算的问题，transformer可以并行。self-attention机制来进行并行计算，在输入和输出都相同

bert

bert是为了预训练Transformer中的encoder， bert其实就是只有编码器的transformer。
首先，训练第一个任务是，随机遮挡单词，然后通过梯度下降调参，让predict与被遮挡的单词尽量接近，所以这个训练无需人工标注，训练集自动生成，模型自动训练好参数
然后，训练第二个任务是，判断两个句子是否相连接。
bert想法简单效果好，但是计算量特别大

好处：

使用预训练好的模型来抽词、句子的特征。预训练模型抽取了足够的信息
不用更新预训练好的模型
需要构建新的网络来抓取新任务需要的信息，新的任务只需要增加一个简单的输出层
相比于word2vec、语言模型来模型说，更加优秀，因为word2vec忽略了时序信息，语言模型只看一个方向
基于微调的NLP模型

本文推荐看看shusenwang在bilibili上的课程。

seq2seq、attention、self-attention、transformer、bert

seq2seq seq2seq：输入序列，输出序列，将输入的语言转为一个向量，最后输出再将向量转为语言shortcoming:The final state is incapable of remembering a long sequence.即太长了记不住 attention 用attention可以改进seq2seq中的…...

编程日记 2023/7/27 3:20:40

07.计算机网络——数据链路层

文章目录数据链路层以太网帧格式MAC地址理解MAC地址和IP地址认识MTUMTU对IP协议的影响MTU对UDP协议的影响MTU对于TCP协议的影响 ARP协议**ARP**协议的作用ARP协议的工作流程ARP数据报的格式数据链路层数据链路层在物理层提供的服务的基础上向网络层提供服务，…...

编程日记 2023/7/27 3:19:38

海外服务器推荐：国外高性能服务器免费

对于寻找高性能的海外服务器，海外服务器推荐指导，我建议您考虑以下因素： 1. 可靠性和性能：选择信誉良好、可靠性好的服务器提供商。它们应该有稳定的网络基础设施和高性能的服务器硬件来满足您的需求。 2. 位置选择：…...

编程日记 2023/7/27 3:18:36

Python基于PyTorch实现卷积神经网络分类模型(CNN分类算法)项目实战

说明：这是一个机器学习实战项目（附带数据代码文档视频讲解），如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景卷积神经网络，简称为卷积网络，与普通神经网络的区别是它的卷积层内的神经元只覆…...

编程日记 2023/7/27 3:17:34

JMeter 配置环境变量步骤

通过给 JMeter 配置环境变量，可以快捷的打开 JMeter： 打开终端。执行 jmeter。配置环境变量的方法如下。 Mac 和 Linux 系统 1、在 ~/.bashrc 中加如下内容： export JMETER_HOMEJMeter所在目录 export PATH$JAVA_HOME/bin:$PATH:.:$JME…...

编程日记 2023/7/27 3:16:33

题图来自[1] 101. Load from HTTP GET request into a string Make an HTTP request with method GET to URL u, then store the body of the response in string s. 发起http请求 package mainimport ( "fmt" "io/ioutil" "net" "net/http…...

编程日记 2023/7/27 3:15:31

css元素定位：通过元素的标签或者元素的id、class属性定位

前言大部分人在使用selenium定位元素时，用的是xpath元素定位方式，因为xpath元素定位方式基本能解决定位的需求。xpath元素定位方式更直观，更好理解一些。 css元素定位方式往往被忽略掉了，其实css元素定位方式也有它的价值&…...

编程日记 2023/7/27 3:14:29

java享元模式

在Java中实现享元模式，可以通过创建一个享元工厂（FlyweightFactory）和享元对象（Flyweight）来完成。享元模式用于共享可复用对象，以节省内存和提高性能。下面是一个简单的示例： 首先&#xff…...

编程日记 2023/7/27 3:13:28

ESP32（MicroPython）两轮差速五自由度机械臂小车

这次的项目在软件上没多少调整，但本人希望分享一下硬件上的经验。小车使用两轮差速底盘，驱动轮在小车中间，前后都要万向轮。这种形式可以实现0转弯半径，但受万向轮及用于加高的铜柱的规格限制，两个万向轮难以调到相同…...

编程日记 2023/7/27 3:12:27

mysql基本函数（五）

目录一、数字函数二、字符函数三、日期时间函数3.1 获取系统日期时间的函数3.2 日期格式化函数3.3 日期偏移计算3.4 日期之间相隔的天数四、条件函数4.1 IF语句4.2 条件语句一、数字函数函数功能用例ABS绝对值ABS(-100)ROUND四舍五入ROUND(4.62)FLOOR向下取值FLOOR(9.9)CE…...

编程日记 2023/7/27 3:11:26

liteflow 2.10 配置中心简单记录

除nacos是一个key 同时管理chain和script node外，可以理解为配置文件整体放到一个key下nacos下的文件必须是xml格式，系统只实现了xml parser其它etcd，zk，Apollo 是两个namespace/path（chain及script node各一）下多个key，每个key对应一个chain/node所有配置中心的核心代码…...

编程日记 2023/7/27 3:10:25

【C++】引用、内联函数等

文章目录一、引用1.引用概念2.引用特性3.引用时的权限问题4 .使用场景5 .引用和指针的联系与区别二、内联函数1.概念2.注意点三、auto关键字1.概念2.auto的使用细则四、基于范围的for循环1.概念2.范围for的使用条件五、指针空值nullptr1.概念2.使用注意一、引用 1.引用…...

编程日记 2023/7/27 3:09:24

RocketMQ教程-(4)-主题（Topic）

本文介绍 Apache RocketMQ 中主题（Topic）的定义、模型关系、内部属性、行为约束、版本兼容性及使用建议。定义主题是 Apache RocketMQ 中消息传输和存储的顶层容器，用于标识同一类业务逻辑的消息。主题的作用主要如下： 定义…...

编程日记 2023/7/27 3:08:22

睡眠健康数据分析

项目背景背景描述本数据集涵盖了与睡眠和日常习惯有关的诸多变量。如性别、年龄、职业、睡眠时间、睡眠质量、身体活动水平、压力水平、BMI类别、血压、心率、每日步数、以及是否有睡眠障碍等细节。数据集的主要特征： 综合睡眠指标： 探索睡眠持续时…...

编程日记 2023/7/27 3:07:21

Spring Boot 3.x 系列【47】启动流程 | 启动监听器

有道无术，术尚可求，有术无道，止于术。本系列Spring Boot版本3.1.0 源码地址：https://gitee.com/pearl-organization/study-spring-boot3 文章目录 1. 前言2. 核心类2.1 SpringApplicationRunListener2.2 ApplicationStartup2.3 ApplicationListener3. 执行流程3.1 获取监…...

编程日记 2023/7/27 3:06:20

【KD】知识蒸馏与迁移学习的不同

知识蒸馏与迁移学习的不同 (1)数据域不同. 知识蒸馏中的知识通常是在同一个目标数据集上进行迁移，而迁移学习中的知识往往是在不同目标的数据集上进行转移. (2)网络结构不同. 知识蒸馏的两个网络可以是同构或者异构的，而迁移学习通常是在单个网络上利用其…...

编程日记 2023/7/27 3:05:18

计算机内存中的缓存Cache Memories

这篇写一下计算机系统中的缓存Cache应用场景和实现方式介绍。 Memory hierarchy 在讲缓存之前，首先要了解计算机中的内存结构层次Memory hierarchy。也就是下图金字塔形状的结构。从上到下，内存层次结构如下： 寄存器：这是计算机…...

编程日记 2023/7/27 3:04:17

Flask的send file和send_from_directory的区别

可以自行查看flask 文档。 send file高效； send from directory安全，且适用于静态资源交互。都是实现相同的功能的。 send_file send_from_directory...

编程日记 2023/7/27 3:03:16

Java 队列

基本介绍数组模拟队列思路分析代码实现 import java.util.Scanner;public class Test {public static void main(String[] args) {// 创建一个队列ArrayQueue queue new ArrayQueue(3);int select;Scanner scanner new Scanner(System.in);boolean loop true;while (lo…...

编程日记 2023/7/27 3:02:15

【算法基础：搜索与图论】3.6 二分图（染色法判定二分图匈牙利算法）

文章目录二分图介绍染色法判定二分图例题：860. 染色法判定二分图匈牙利匹配二分图最大匹配匈牙利匹配算法思想例题：861. 二分图的最大匹配二分图介绍 https://oi-wiki.org/graph/bi-graph/ 二分图是图论中的一个概念，它的所有节点可以被…...

编程日记 2023/7/27 3:01:13

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中，手势开发全攻略：

在 HarmonyOS 应用开发中，手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力，既支持点击、长按、拖拽等基础单一手势的精细控制，也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档&#xff0c…...

编程新知 2025/6/20 18:20:46

Nuxt.js 中的路由配置详解

Nuxt.js 通过其内置的路由系统简化了应用的路由配置，使得开发者可以轻松地管理页面导航和 URL 结构。路由配置主要涉及页面组件的组织、动态路由的设置以及路由元信息的配置。自动路由生成 Nuxt.js 会根据 pages 目录下的文件结构自动生成路由配置。每个文件都会对…...

编程新知 2025/7/25 0:35:10

P3 QT项目----记事本（3.8）

3.8 记事本项目总结项目源码 1.main.cpp #include "widget.h" #include <QApplication> int main(int argc, char *argv[]) {QApplication a(argc, argv);Widget w;w.show();return a.exec(); } 2.widget.cpp #include "widget.h" #include &q…...

编程新知 2025/7/25 2:28:25

ServerTrust 并非唯一

NSURLAuthenticationMethodServerTrust 只是 authenticationMethod 的冰山一角要理解 NSURLAuthenticationMethodServerTrust, 首先要明白它只是 authenticationMethod 的选项之一, 并非唯一 1 先厘清概念点说明authenticationMethodURLAuthenticationChallenge.protectionS…...

编程新知 2025/7/24 14:24:52

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数在软件开发中，单例模式（Singleton Pattern）是一种常见的设计模式，确保一个类仅有一个实例，并提供一个全局访问点。在多线程环境下，实现单例模式时需要注意线程安全问题，以防止多个线程同时创建实例，导致…...

编程新知 2025/6/21 15:17:11

JavaScript 数据类型详解

JavaScript 数据类型详解 JavaScript 数据类型分为原始类型（Primitive） 和对象类型（Object） 两大类，共 8 种（ES11）： 一、原始类型（7种） 1. undefined 定…...

编程新知 2025/7/8 3:08:09

tomcat入门

1 tomcat 是什么 apache开发的web服务器可以为java web程序提供运行环境tomcat是一款高效，稳定，易于使用的web服务器tomcathttp服务器Servlet服务器 2 tomcat 目录介绍 -bin #存放tomcat的脚本 -conf #存放tomcat的配置文件 ---catalina.policy #to…...

编程新知 2025/7/7 19:44:31

在 Spring Boot 项目里，MYSQL中json类型字段使用

前言： 因为程序特殊需求导致，需要mysql数据库存储json类型数据，因此记录一下使用流程 1.java实体中新增字段 private List<User> users 2.增加mybatis-plus注解 TableField(typeHandler FastjsonTypeHandler.class) private Lis…...

编程新知 2025/7/9 16:55:37

Qt 事件处理中 return 的深入解析

Qt 事件处理中 return 的深入解析在 Qt 事件处理中，return 语句的使用是另一个关键概念，它与 event->accept()/event->ignore() 密切相关但作用不同。让我们详细分析一下它们之间的关系和工作原理。核心区别：不同层级的事件处理方…...

编程新知 2025/6/10 21:19:52

C++实现分布式网络通信框架RPC(2)——rpc发布端

有了上篇文章的项目的基本知识的了解，现在我们就开始构建项目。目录一、构建工程目录二、本地服务发布成RPC服务 2.1理解RPC发布 2.2实现三、Mprpc框架的基础类设计 3.1框架的初始化类 MprpcApplication 代码实现 3.2读取配置文件类 MprpcConfig 代码实现…...

编程新知 2025/7/25 6:32:19

seq2seq、attention、self-attention、transformer、bert

seq2seq

attention

self-attention

transformer

bert

相关文章：

seq2seq、attention、self-attention、transformer、bert

07.计算机网络——数据链路层

海外服务器推荐：国外高性能服务器免费

Python基于PyTorch实现卷积神经网络分类模型(CNN分类算法)项目实战

JMeter 配置环境变量步骤

Rust vs Go:常用语法对比(六)

css元素定位：通过元素的标签或者元素的id、class属性定位

java享元模式

ESP32（MicroPython）两轮差速五自由度机械臂小车

mysql基本函数（五）

liteflow 2.10 配置中心简单记录

【C++】引用、内联函数等

RocketMQ教程-(4)-主题（Topic）

睡眠健康数据分析

Spring Boot 3.x 系列【47】启动流程 | 启动监听器

【KD】知识蒸馏与迁移学习的不同

计算机内存中的缓存Cache Memories

Flask的send file和send_from_directory的区别

Java 队列

【算法基础：搜索与图论】3.6 二分图（染色法判定二分图匈牙利算法）

在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中，手势开发全攻略：

Nuxt.js 中的路由配置详解

P3 QT项目----记事本（3.8）

ServerTrust 并非唯一

高效线程安全的单例模式：Python 中的懒加载与自定义初始化参数

JavaScript 数据类型详解

tomcat入门

在 Spring Boot 项目里，MYSQL中json类型字段使用

Qt 事件处理中 return 的深入解析

C++实现分布式网络通信框架RPC(2)——rpc发布端