XLNet——打破 BERT 局限的预训练语言模型
近年来,深度学习在自然语言处理(NLP)领域取得了革命性进展,其中 BERT 的出现标志着双向语言建模的强大能力。然而,BERT 也存在一些局限性,限制了其在生成任务中的表现。2019 年,由 Google 和 Carnegie Mellon University 联合提出的 XLNet 模型,通过引入 排列语言建模(Permuted Language Modeling, PLM) 和 Transformer-XL 结构,打破了 BERT 的瓶颈,并在多个 NLP 任务中实现了超越。
本文将从 XLNet 的核心概念、设计原理、优势与局限 等方面,详细介绍这款强大的预训练语言模型。
1. XLNet 是什么?
XLNet 是一种基于 Transformer 的预训练语言模型,旨在结合自回归模型(如 GPT)和自编码模型(如 BERT)的优势,解决 BERT 的以下局限性:
- 预训练和微调不一致:BERT 的
Masked Language Model
(MLM)依赖于遮掩的[MASK]
token,但在微调时[MASK]
不存在,导致不一致。 - 上下文利用有限:BERT 只能预测被遮掩 token,而未显式建模所有 token 的联合分布。
为此,XLNet 提出了 排列语言建模,并结合了 Transformer-XL 的记忆机制,实现了对更长上下文的建模和对联合概率分布的显式优化。
2. 核心创新:排列语言建模(Permuted Language Modeling, PLM)
传统的语言模型训练目标通常是固定的:
- 自回归模型(如 GPT):从左到右依次预测下一个 token。
- 自编码模型(如 BERT):遮掩部分 token,然后预测这些 token。
(1) 排列语言建模的核心思想
XLNet 使用随机排列的方式改变 token 的预测顺序,例如:
- 对于序列
x = [x1, x2, x3, x4, x5]
,生成随机排列[x3, x1, x2, x5, x4]
。 - 按照排列的顺序,模型依次预测 token(如预测
x3
时仅考虑排列中x1, x2
)。
通过排列语言建模,XLNet 显式优化了 token 的联合概率分布:
P ( x ) = ∏ t = 1 T P ( x z t ∣ x z 1 , . . . , x z t − 1 ) P(x) = \prod_{t=1}^T P(x_{z_t} | x_{z_1}, ..., x_{z_{t-1}}) P(x)=t=1∏TP(xzt∣xz1,...,xzt−1)
其中, z z z 表示随机排列的顺序。
(2) 动态预测目标
在训练过程中,模型会动态生成排列顺序,确保在每次训练中都能学习不同的上下文依赖关系。这种机制避免了数据重复,同时提升了数据多样性。
3. 结合 Transformer-XL 的长距离建模能力
XLNet 基于 Transformer-XL 架构,进一步增强了对长文本的建模能力:
- 记忆机制:通过缓存上一段文本的隐状态,实现跨段上下文的信息共享。
- 有效的长距离依赖建模:相比于传统 Transformer,Transformer-XL 避免了序列长度限制带来的上下文截断问题。
这种设计使得 XLNet 能够在长文本场景中表现得更加出色,例如阅读理解和文档分类。
4. XLNet 的优势
(1) 超越 BERT 的理解能力
- XLNet 通过排列语言建模捕捉了 token 的联合分布,显式建模上下文关系,比 BERT 的 MLM 更全面。
- 在多个 NLP 任务(如 GLUE、SQuAD)中,XLNet 的表现优于 BERT。
(2) 克服预训练和微调的不一致性
- BERT 在预训练中使用
[MASK]
,但下游任务通常不包含遮掩 token,这种不一致性会影响性能。 - XLNet 无需遮掩 token,因此预训练和微调阶段的输入更一致。
(3) 适用于长文本任务
- Transformer-XL 的记忆机制让 XLNet 能够处理比 BERT 更长的上下文序列,在需要全局理解的任务中表现更佳。
5. XLNet 的局限性
(1) 计算成本高
- 排列语言建模需要多次动态生成排列,并显式计算联合概率分布,相比 BERT 和 GPT,计算复杂度更高。
(2) 不完全适合生成任务
- 虽然 XLNet 引入了自回归特性,但其双向建模方式仍主要面向理解任务。在逐步生成文本时,GPT 的左到右自回归建模更高效。
(3) 复杂性较高
- XLNet 的实现和训练逻辑比 BERT 和 GPT 更复杂,对硬件和开发的要求更高。
6. XLNet 的应用场景
(1) 自然语言理解任务
- 文本分类:如情感分析、话题分类。
- 自然语言推断(NLI):判断句子间的逻辑关系。
- 阅读理解(QA):从上下文中抽取答案。
(2) 序列标注任务
- 命名实体识别(NER)。
- 词性标注(POS tagging)。
(3) 长文本任务
- 文档级分类:如法律、金融文档分析。
- 文本摘要生成(结合下游微调)。
7. XLNet 与 GPT、BERT 的对比
模型 | 目标 | 上下文建模 | 适用任务 | 生成能力 |
---|---|---|---|---|
BERT | MLM | 双向(静态遮掩) | 理解任务(分类、QA) | 较弱(遮掩限制) |
GPT | 自回归语言模型 | 单向(左到右) | 生成任务(文本生成) | 强 |
XLNet | 排列语言建模 | 双向 + 自回归(动态) | 理解任务(分类、QA) | 有限(生成性能弱于 GPT) |
参考代码:使用 Hugging Face 加载 XLNet
from transformers import XLNetTokenizer, XLNetForSequenceClassification
import torch# 加载 XLNet 模型和分词器
tokenizer = XLNetTokenizer.from_pretrained("xlnet-base-cased")
model = XLNetForSequenceClassification.from_pretrained("xlnet-base-cased", num_labels=2)# 输入文本
text = "XLNet is a powerful model for NLP tasks."
inputs = tokenizer(text, return_tensors="pt")# 推理
outputs = model(**inputs)
logits = outputs.logits
print("Logits:", logits)
相关文章:

XLNet——打破 BERT 局限的预训练语言模型
近年来,深度学习在自然语言处理(NLP)领域取得了革命性进展,其中 BERT 的出现标志着双向语言建模的强大能力。然而,BERT 也存在一些局限性,限制了其在生成任务中的表现。2019 年,由 Google 和 Ca…...

开源代码统计工具cloc的简单使用
一.背景 公司之前开发了个小系统,要去申请著作权,需要填写代码数量。应该怎么统计呢?搜索了一下,还是用开源工具cloc吧!我的操作系统是windows,代码主要是java项目和vue项目。 二.到哪里找 可以去官方下载…...

如何创建一个项目用于研究element-plus的原理
需求:直接使用element-plus未封装成组件的源码,创建一个项目,可以使用任意的element-plus组件,可以深度研究组件的运行。例如研究某一个效果,如果直接在node_modules修改elment-plus打包之后的那些js、mjs代码…...

单片机进阶硬件部分_day2_项目实践
设计要求 从绘制原理图到画PCB板,完成智能云衣柜项目 STM32 (Modbus)云IOT衣物云端管理 华为PCB布线规范 基于IoT的智享家主控系统 步骤分析 需求分析 器件选型绘制原理图(器件连接)PCB布局、布线泪滴、铺铜、添加丝印…...

labview关于文件路径的问题
在调用文件或拆分文件的时候经常会用到拆分路径函数和创建路径函数,最常用的也是当前应用程序目录或者是当前VI目录。 这里我们看到应用程序目录和VI目录在同一项目中,应用程序目录更像是根目录,往下拆分成了各个VI的子目录。 接下来我们来拆…...

72项!湖北省2024年度第二批省级科技计划项目拟立项项目公示!
本期精选 SCI&EI ●IEEE 1区TOP 计算机类(含CCF); ●EI快刊:最快1周录用! 知网(CNKI)、谷歌学术期刊 ●7天录用-检索(100%录用),1周上线; 免费稿件评估 免费匹配…...
神经网络问题之:梯度不稳定
梯度不稳定是深度学习中,特别是在训练深度神经网络时常见的一个问题,其本质涉及多个方面。 一、根本原因 梯度不稳定问题的根本原因在于深度神经网络的结构和训练过程中的一些固有特性。随着网络层数的增加,梯度在反向传播过程中会逐层累积变…...

ORACLE删不掉job,如何解决。
问题: 删掉 NYZSM 时出错: ORA-27478: 作业 “ZHY.NYZSM” 正在运行 ORA-06512: 在 “SYS.DBMS_ISCHED”, line 213 ORA-06512: 在 “SYS.DBMS_SCHEDULER”, line 657 ORA-06512: 在 line 2 1、停止作业: 使用DBMS_SCHEDULER.STOP_JOB过程来…...

可视化建模与UML《活动图实验报告》
你当像鸟飞往你的山。 一、实验目的: 1、熟悉活动图的基本功能和使用方法。 2、掌握使用建模工具软件绘制协作图的方法 二、实验环境: window7 | 10 | 11 EA15 三、实验内容: <1>绘制学生选课系统中添加课程(Add Course)用例的活动图…...

基于 MUSA 的大语言模型推理和服务框架vLLM
1. 引言 vLLM是一个高性能且内存高效的大语言模型推理和服务框架,也是当前业界使用范围最广的大模型推理框架,截至目前github star数28.4k。该框架性能优秀,而且部署容易,使用CUDA/ROCm提供GPU加速能力。但vLLM目前不支持使用摩…...

鸿蒙网络编程系列48-仓颉版UDP回声服务器示例
1. UDP回声服务器简介 回声服务器指的是这样一种服务器,它接受客户端的连接,并且把收到的数据原样返回给客户端,本系列的第2篇文章《鸿蒙网络编程系列2-UDP回声服务器的实现》中基于ArkTS语言在API 9的环境下实现了UDP回声服务器,…...

android-studio-4.2下载 、启动
下载 分享一个国内的android studio网站,可以下载SDK和一些Android studio开发工具 https://www.androiddevtools.cn/ 启动 JAVA_HOME/app/zulu17.48.15-ca-jdk17.0.10-linux_x64/ /app5/android-studio-home/android-studio-ide-201.6568795-linux-4.2C1/bin/s…...

深度学习day2-Tensor 2
六 Tensor常见操作 Tensor:多维数组,用于存储和操作数据 1 获取元素值 data.item():单个元素tensor转为python数值 import torch #标量 xtorch.tensor(1) print(x.item()) #一阶 xtorch.tensor([100]) print(x.item()) #如果输入的数据超过1个&#…...

【Android踩过的坑】14.小米系统TTS无法生效的问题
【Android踩过的坑】14.小米系统TTS无法生效的问题 解决办法: 在AndroidManifest.xml中添加: <?xml version"1.0" encoding"utf-8"?> <manifest xmlns:android"http://schemas.android.com/apk/res/android"…...

RabbitMQ实现异步下单与退单
前言: 在电商项目中的支付模块也是一个很重要的模块,其中下订操作以及退订操作就是主要的操作。其次的下单是同步下单,也就是第三方支付、数据库扣减、积分增加、等等其他业务操作,等待全部执行完毕后向用户返回成功响应请求。对…...

鸿蒙NEXT开发案例:随机数生成
【引言】 本项目是一个简单的随机数生成器应用,用户可以通过设置随机数的范围和个数,并选择是否允许生成重复的随机数,来生成所需的随机数列表。生成的结果可以通过点击“复制”按钮复制到剪贴板。 【环境准备】 • 操作系统:W…...

nwjs崩溃复现、 nwjs-控制台手动操纵、nwjs崩溃调用栈解码、剪切板例子中、nwjs混合模式、xdotool显示nwjs所有进程窗口列表
-1. nwjs在低版本ubuntu运行情况 ubuntu16.04运行nw-v0.93或0.89报错找不到NSS_3.30、GLIBC_2.25 uname -a #Linux Asus 4.15.0-112-generic #113~16.04.1-Ubuntu SMP Fri Jul 10 04:37:08 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux cat /etc/issue #Ubuntu 16.04.7 LTS \n \l…...

视觉SLAM--经典视觉SLAM框架
整个视觉SLAM流程主要包括以下步骤: 1、传感器信息读取:在视觉SLAM中主要为相机图像信息的读取和预处理。 2、前端视觉里程计:估算相邻图像间相机的运动,以及局部地图的样子。 3、后端(非线性)优化&#…...

Wallpaper壁纸制作学习记录05
效果简介 效果可以应用于现有组件,主要是您导入的图像。您可以在图像图层、文本图层、全屏图层和合成图层上使用效果。要添加效果需要打开之前的项目或创建一个新的项目,然后点击右侧效果区域的添加按钮。 将鼠标悬停在效果列表是,将显示眼睛…...

Elasticsearch 中的热点以及如何使用 AutoOps 解决它们
作者:来自 Elastic Sachin Frayne 探索 Elasticsearch 中的热点以及如何使用 AutoOps 解决它。 Elasticsearch 集群中出现热点的方式有很多种。有些我们可以控制,比如吵闹的邻居,有些我们控制得较差,比如 Elasticsearch 中的分片分…...

springboot基于微信小程序的食堂预约点餐系统
摘 要 基于微信小程序的食堂预约点餐系统是一种服务于学校和企事业单位食堂的智能化解决方案,旨在提高食堂就餐的效率、缓解排队压力,并优化用户的就餐体验。系统作为一种现代化的解决方案,为食堂管理和用户就餐提供了便捷高效的途径。它不仅…...

字符串学习篇-java
API:应用程序编程接口。 ctrlaltv,自动生成一个变量接收数据 字符串: 注意点 创建string对象两种方式 1.直接赋值 2.构造器来创建 详情看黑马JAVA入门学习笔记7-CSDN博客 常用方法:比较 引用数据类型,比较的是地址值。 b…...

2024亚太杯数学建模C题【Development Analyses and Strategies for Pet Industry 】思路详解
C:宠物行业及相关产业的发展分析与战略 随着人们消费观念的发展,宠物行业作为一个新兴产业,正在全球范围内逐渐积聚势头,这得益于快速的经济发展和人均收入的提高。1992年,中国小动物保护协会成立,随后1993…...

STM32串口——5个串口的使用方法
参考文档 STM32串口——5个串口的使用方法_51CTO博客_stm32串口通信的接收与发送 串口是我们常用的一个数据传输接口,STM32F103系列单片机共有5个串口,其中1-3是通用同步/异步串行接口USART(Universal Synchronous/Asynchronous Receiver/Transmitter)…...

NVR接入录像回放平台EasyCVR视频融合平台加油站监控应用场景与实际功能
在现代社会中,加油站作为重要的能源供应点,面临着安全监管与风险管理的双重挑战。为应对这些问题,安防监控平台EasyCVR推出了一套全面的加油站监控方案。该方案结合了智能分析网关V4的先进识别技术和EasyCVR视频监控平台的强大监控功能&#…...

Ubuntu24.04安装gpfs客户端
文章目录 Ubuntu24.04安装gpfs客户端拷贝软件包在客户端执行命令,提取产品包进入安装包目录,安装相关产品包编译。编译过程中会检查系统依赖接入集群(后续) Ubuntu24.04安装gpfs客户端 拷贝软件包 scp /root/Spectrum_Scale_Dat…...

Android Framework层介绍
文章目录 前言一、Android Framework 层概述二、主要组件1. 应用程序接口(API)2. 系统服务3. Binder4. 资源管理5. Content Provider6. 广播接收器(BroadcastReceiver)7. 服务(Service) 三、与 Linux Kerne…...

如何利用 Puppeteer 的 Evaluate 函数操作网页数据
介绍 在现代的爬虫技术中,Puppeteer 因其强大的功能和灵活性而备受青睐。Puppeteer 是一个用于控制 Chromium 或 Chrome 浏览器的 Node.js 库,提供了丰富的 API 接口,能够帮助开发者高效地处理动态网页数据。本文将重点讲解 Puppeteer 的 ev…...

SpringMVC接收请求参数
(5)请求参数》五种普通参数 1.普通参数 代码块 RequestMapping("/commonParam") ResponseBody public String commonParam(String name,int age){System.out.println("普通参数传递 name > "name);System.out.println("普通…...

安宝特方案 | AR助力紧急救援,科技守卫生命每一刻!
在生死时速的紧急救援战场上,每一秒都至关重要!随着科技的发展,增强现实(AR)技术正在逐步渗透到医疗健康领域,改变着传统的医疗服务模式。 安宝特AR远程协助解决方案,凭借其先进的技术支持和创新…...