当前位置：首页 > news >正文

【自然语言处理】从词袋模型到Transformer家族的变迁之路

news 2026/2/9 1:49:50

从词袋模型到Transformer家族的变迁之路

在这里插入图片描述

模型名称	年份	描述
`Bag of Words`	`1954`	即 BOW 模型，计算文档中每个单词出现的次数，并将它们用作特征。
`TF-IDF`	`1972`	对 BOW 进行修正，使得稀有词得分高，常见词得分低。
`Word2Vec`	`2013`	每个词都映射到一个称为词嵌入的高维向量，捕获其语义。词嵌入是通过在大型语料库中寻找词相关性的神经网络来学习的。
`RNN`	`1986`	RNN 利用句子中词的上下文计算文档嵌入，这仅靠词嵌入是不可能的。后来发展为 `LSTM`（`1997`）以捕获长期依赖关系，并演变为 `Bidirectional RNN`（`1997`）以捕获从左到右和从右到左的依赖关系。最终，`Encoder-Decoder RNNs`（`2014`）出现了，其中一个 RNN 创建文档嵌入（即编码器），另一个 RNN 将其解码为文本（即解码器）。
`Transformer`	`2017`	一种编码器-解码器模型，它利用注意力机制来计算更好的嵌入并更好地将输出与输入对齐。
`BERT`	`2018`	双向 Transformer，使用掩码语言建模（`Masked Language Modeling`）和下一句预测目标（`Next Sentence Prediction objectives`）的组合进行预训练。它使用全局注意力。
`GPT`	`2018`	第一个基于 Transformer 架构的自回归模型。后来演变成 `GPT-2`（`2019`），一个在 WebText 上预训练的更大和优化的 GPT 版本，以及 `GPT-3`（`2020`），一个更大和优化的 `GPT-2` 版本，在 `Common Crawl` 上预训练。
`CTRL`	`2019`	类似于 GPT，但具有用于条件文本生成的控制代码。
`Transformer-XL`	`2019`	一个自回归 Transformer，可以重用以前计算的隐藏状态来处理更长的上下文。
`ALBERT`	`2019`	BERT 的轻量级版本，其中：（1）下一句预测被句序预测取代；（2）参数减少技术用于降低内存消耗和加快训练速度。
`RoBERTa`	`2019`	BERT 的更好版本，其中：（1）Masked Language Modeling 目标是动态的；（2）Next Sentence Prediction 目标被删除；（3）使用 `BPE tokenizer`；（4）使用更好的超参数.
`XLM`	`2019`	Transformer 使用因果语言建模、掩码语言建模和翻译语言建模等目标在多种语言的语料库上进行了预训练。
`XLNet`	`2019`	Transformer-XL 具有广义自回归预训练方法，可以学习双向依赖性。
`PEGASUS`	`2019`	一个双向编码器和一个从左到右的解码器，使用掩码语言建模和间隙句子生成目标进行了预训练。
`DistilBERT`	`2019`	与 BERT 相同，但更小更快，同时保留 BERT 95% 以上的性能。通过预训练的 BERT 模型的蒸馏进行训练。
`XLM-RoBERTa`	`2019`	`RoBERTa` 在具有掩蔽语言建模目标的多语言语料库上进行训练。
`BART`	`2019`	一个双向编码器和一个从左到右的解码器，通过使用任意噪声函数破坏文本并学习模型来重建原始文本来训练。
`ConvBERT`	`2019`	BERT 的更好版本，其中自注意力模块被新模块取代，利用卷积更好地模拟全局和局部上下文。
`Funnel Transformer`	`2020`	一种 Transformer，它逐渐将隐藏状态的序列压缩到更短的状态，从而降低计算成本。
`Reformer`	`2020`	由于对局部敏感的哈希注意力、轴向位置编码和其他优化，一个更高效的 Transformer。
`T5`	`2020`	一个双向编码器和一个从左到右的解码器，在无监督和监督任务的混合上进行了预训练。
`Longformer`	`2020`	一种将注意力矩阵替换为稀疏矩阵以提高训练效率的 Transformer 模型。
`ProphetNet`	`2020`	一种使用未来 N-gram 预测目标和新颖的自注意力机制训练的 Transformer 模型。
`ELECTRA`	`2020`	与 BERT 相同，但更轻更好。该模型使用 Replaced Token Detection 目标进行训练。
`Switch Transformers`	`2021`	一种稀疏激活的专家 Transformer 模型，旨在简化和改进专家混合模型。

【自然语言处理】从词袋模型到Transformer家族的变迁之路

从词袋模型到Transformer家族的变迁之路模型名称年份描述Bag of Words1954即 BOW 模型，计算文档中每个单词出现的次数，并将它们用作特征。TF-IDF1972对 BOW 进行修正，使得稀有词得分高，常见词得分低。Word2Vec2013每个词都映射到一…...

编程日记 2023/4/30 10:50:09

LIME: Low-light Image Enhancement viaIllumination Map Estimation

Abstract当人们在低光条件下拍摄图像时，图像通常会受到低能见度的影响。除了降低图像的视觉美感外，这种不良的质量还可能显著降低许多主要为高质量输入而设计的计算机视觉和多媒体算法的性能。在本文中，我们提出了一种简单而有效的微光图像增…...

编程日记 2023/4/30 10:50:04

源码指标编写1000问4

4.问: 哪位老师把他改成分析家的,组合公式：猎庄敢死队别样红(凤翔) {猎庄敢死队} rsv:(c-llv(l,9))/(hhv(h,9)-llv(l,9))100; stickline(1,50,50,1,0),pointdot,Linethick2,colorff00; k:sma(rsv,3,1); d:sma(k,3,1); rsv1:(hhv(h,9.8)-c)/(hhv(h,9.8)-llv(l,9.8))1…...

编程日记 2023/4/30 10:50:00

Golang中GC和三色屏障机制【Golang面试必考】

文章目录Go v1.3 标记—清楚(mark and sweep)方法Go V1.5 三色标记法三色标记过程无STW的问题强弱三色不变式插入写屏障Go V1.8的三色标记法混合写屏障机制混合写屏障场景场景1:对象被一个堆对象删除引用，成为栈对象的下游场景2:对象被一个栈对象删除引用&#xff0…...

编程日记 2023/4/30 6:32:38

MOS FET继电器(无机械触点继电器)设计输入侧电源时的电流值概念

设计输入侧电源时的问题机械式继电器、MOS FET继电器分别具有不同的特长。基于对MOS FET继电器所具小型及长寿命、静音动作等优势的需求，目前已经出现了所用机械式继电器向MOS FET继电器转化的趋势。但是，由于机械式继电器与MOS FET继电器在产品结构…...

编程日记 2023/4/30 15:06:27

5. 驱动开发

文章目录一、驱动开发1.1 前言1.2 何谓驱动框架1.3 内核驱动框架中LED的基本情况1.3.1 相关文件1.3.2 九鼎移植的内核中led驱动1.3.3 案例分析驱动框架的使用1.3.4 典型的驱动开发行业现状1.4 初步分析led驱动框架源码1.4.1 涉及到的文件1.4.2 subsys_initcall1.4.3 led_class_…...

编程日记 2023/4/30 10:49:55

模板方法模式详解

模板方法模式（行为模式） 1. 模板方法模式介绍父类定义算法骨架，细节的具体实现延迟到子类子类只是定义某些自己的个性化处理，但不改变执行顺序 2. 好处减少代码冗余，共性抽取后算法流程更加清晰与规范降低流程性…...

编程日记 2023/4/30 10:49:51

关于 Lightweight process container，ChatGPT的答案

晓楚 Can you give me a list of process container? As an AI language model, I can provide you with a list of popular process containers, which are as follows: Docker Kubernetes Apache Mesos LXC OpenVZ systemd-nspawn rkt (Rocket) Linux Containers (LXC) Ga…...

编程日记 2023/4/30 10:49:46

机器学习和深度学习的综述

机器学习和深度学习的综述 1.1.1人工智能、机器学习、深度学习的关系人工智能（Artificial Intelligence，AI）是最宽泛的概念，是研发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。由于这个定义…...

编程日记 2023/4/29 22:46:52

Synopsys Sentaurus TCAD系列教程之--Sprocess(SmallMOS_2D3D) 解析

SmallMOS_2D3D解析 #header## STI depth set sti_depth 0.15 ## Half STI width set sti_width sti_width ## Half gate length set gate_len <lg/2> ## SD length (from center) set sd_len [expr $gate_len0.05]#endheader## X lines line x location 0.0 spacing 0.…...

编程日记 2023/4/30 10:49:39

好使！NAS中傻瓜式配置反向代理及SSL证书，提升网络安全性！

对于有NAS或者有个人主机的朋友来说，将机器映射到外网是基本操作。但是一般来说，能直接从外网访问的往往仅有80和443端口。事实上，运营商一般把家庭宽带的这两个端口都封了，所以如果我们想要从外网访问自己家中机器部署的服务&a…...

编程日记 2023/4/30 10:49:34

数据结构队列-先进先出

一，概述队列这个概念非常好理解。你可以把它想象成排队买票，先来的先买，后来的人只能站末尾，不允许插队。先进者先出，这就是典型的“队列”。二，顺序队列和链式队列队列和栈一样，也是一种…...

编程日记 2023/4/30 10:49:28

CentOS 7使用TiUP部署TiDB

本文主要是根据官方文档指导，结合实际主机情况，在Cent OS7上使用TiUP在线部署TiDB。环境说明类型操作系统版本配置中控机Deepin 20.34核CPU6G内存40G硬盘TiDB部署机Cent OS 7.38核CPU48G内存100硬盘网络情况中控机与外网相连，中控机与部署…...

编程日记 2023/4/30 10:49:20

java单元测试批处理数据模板【亿点点日志配合分页以及多线程处理】

文章目录引入相关资料环境准备分页查询处理，减少单次批量处理的数据量级补充亿点点日志，更易观察多线程优化查询_切数据版多线程_每个线程都分页处理引入都说后端开发能顶半个运维，我们经常需要对大量输出进行需求调整，很多时候…...

编程日记 2023/4/30 10:49:15

【数据结构】模拟实现堆

堆数据结构是一种数组对象，它可以被看作一颗完全二叉树的结构（数组是完全二叉树），堆是一种静态结构。堆分为最大堆和最小堆。最大堆：每个父结点都大于孩子结点。最小堆：每个父结点都小于孩子结点。堆的优势…...

编程日记 2023/4/30 10:49:12

Go语言学习的第三天--上部分（基础用法）

前两天经过不断度娘，与对up主的跟踪学习了解了go的历史，今天开始了go的基础！！本章主要是go 的注释、变量及常量的梳理一、注释不管什么语言都有自己的注释，go也不例外 ！！单行注释 // 多行注释 …...

编程日记 2023/4/30 10:49:07

linux面试基础篇

题目目录1.简述DNS分离解析的工作原理，关键配置2.apache有几种工作模式，分别简述两种工作模式及其优缺点？3.写出172.0.0.38/27 的网络id与广播地址4.写出下列服务使用的传输层协议（TCP/UDP）及默认端口5.在局域网想获得…...

编程日记 2023/4/30 10:49:02

黑马程序员提高变成

这里写目录标题函数模板1.2.2 函数模板注意事项1.2.3 函数模板案例调用规则类模板与函数模板区别类模板与继承类模板成员函数类外实现#pragma once类模板与友元案例重新定义【】stl2.2 STL基本概念STL六大组件容器算法迭代器初识vectorvector容器嵌套容器string容器string赋值操…...

编程日记 2023/4/30 10:48:57

MySQL5种索引类型

MySQL的类型主要有五种：主键索引、唯一索引、普通索引、空间索引、全文索引有表： CREATE TABLE t1 ( id bigint unsigned NOT NULL AUTO_INCREMENT, u1 int unsigned NOT NULL DEFAULT 0, u2 int unsigned NOT NULL DEFAULT 0, u3 varchar(20) NOT NU…...

编程日记 2023/4/30 10:48:52

uniapp封装缓存方法，支持类似cookie具有过期时间

1、定义CacheManage类，有set和get方法 class CacheManage {set() {},get() {} }set用来设置缓存，get用来获取缓存 2、完善set业务逻辑大概逻辑如下： 1、将接收params参数，包含key、data、unit、time key 缓存字段，…...

编程日记 2023/4/30 10:48:48

深入浅出Asp.Net Core MVC应用开发系列-AspNetCore中的日志记录

ASP.NET Core 是一个跨平台的开源框架，用于在 Windows、macOS 或 Linux 上生成基于云的新式 Web 应用。 ASP.NET Core 中的日志记录 .NET 通过 ILogger API 支持高性能结构化日志记录，以帮助监视应用程序行为和诊断问题。可以通过配置不同的记录提供程…...

编程新知 2026/2/8 4:37:06

（十）学生端搭建

本次旨在将之前的已完成的部分功能进行拼装到学生端，同时完善学生端的构建。本次工作主要包括： 1.学生端整体界面布局 2.模拟考场与部分个人画像流程的串联 3.整体学生端逻辑一、学生端在主界面可以选择自己的用户角色选择学生则进入学生登录界面…...

编程新知 2026/2/5 4:23:32

Zustand 状态管理库：极简而强大的解决方案

Zustand 是一个轻量级、快速和可扩展的状态管理库，特别适合 React 应用。它以简洁的 API 和高效的性能解决了 Redux 等状态管理方案中的繁琐问题。核心优势对比基本使用指南 1. 创建 Store // store.js import create from zustandconst useStore create((set)…...

编程新知 2026/2/8 10:56:57

【Linux】C语言执行shell指令

在C语言中执行Shell指令在C语言中，有几种方法可以执行Shell指令： 1. 使用system()函数这是最简单的方法，包含在stdlib.h头文件中： #include <stdlib.h>int main() {system("ls -l"); // 执行ls -l命令retu…...

编程新知 2025/11/20 18:42:48

渲染学进阶内容——模型

最近在写模组的时候发现渲染器里面离不开模型的定义，在渲染的第二篇文章中简单的讲解了一下关于模型部分的内容，其实不管是方块还是方块实体，都离不开模型的内容 🧱 一、CubeListBuilder 功能解析 CubeListBuilder 是 Minecraft Java 版模型系统的核心构建器，用于动态创…...

编程新知 2025/11/25 22:59:17

ESP32 I2S音频总线学习笔记（四）： INMP441采集音频并实时播放

简介前面两期文章我们介绍了I2S的读取和写入，一个是通过INMP441麦克风模块采集音频，一个是通过PCM5102A模块播放音频，那如果我们将两者结合起来，将麦克风采集到的音频通过PCM5102A播放，是不是就可以做一个扩音器了呢…...

编程新知 2026/2/5 8:19:14

基于Docker Compose部署Java微服务项目

一. 创建根项目根项目（父项目）主要用于依赖管理一些需要注意的点： 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件，否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

编程新知 2026/2/5 3:09:56

成都鼎讯硬核科技！雷达目标与干扰模拟器，以卓越性能制胜电磁频谱战

在现代战争中，电磁频谱已成为继陆、海、空、天之后的 “第五维战场”，雷达作为电磁频谱领域的关键装备，其干扰与抗干扰能力的较量，直接影响着战争的胜负走向。由成都鼎讯科技匠心打造的雷达目标与干扰模拟器，凭借数字射…...

编程新知 2026/2/1 7:18:47

【碎碎念】宝可梦 Mesh GO : 基于MESH网络的口袋妖怪宝可梦GO游戏自组网系统

目录游戏说明《宝可梦 Mesh GO》 —— 局域宝可梦探索Pokmon GO 类游戏核心理念应用场景Mesh 特性宝可梦玩法融合设计游戏构想要素1. 地图探索（基于物理空间广播范围）2. 野生宝可梦生成与广播3. 对战系统4. 道具与通信5. 延伸玩法安全性设计技术选…...

编程新知 2025/12/12 6:01:17

论文笔记——相干体技术在裂缝预测中的应用研究

目录相关地震知识补充地震数据的认识地震几何属性相干体算法定义基本原理第一代相干体技术：基于互相关的相干体技术（Correlation）第二代相干体技术：基于相似的相干体技术（Semblance）基于多道相似的相干体…...

编程新知 2026/2/7 1:51:12

从词袋模型到Transformer家族的变迁之路

相关文章：