当前位置：首页 > news >正文

论文解读：Bert原理深入浅出

news 2026/2/10 2:13:50

摘取于https://www.jianshu.com/p/810ca25c4502

任务1：Masked Language Model
Maked LM 是为了解决单向信息问题，现有的语言模型的问题在于，没有同时利用双向信息，如 ELMO 号称是双向LM，但实际上是两个单向 RNN 构成的语言模型的拼接，由于时间序列的关系，RNN模型预测当前词只依赖前面出现过的词，对于后面的信息无从得知。

那么如何同时利用好前面的词和后面的词的语义呢？Bert 提出 Masked Language Model，也就是随机遮住句子中部分 Token，模型再去通过上下文语义去预测 Masked 的词，通过调整模型的参数使得模型预测正确率尽可能大。

怎么理解这一逻辑，Bert 预训练过程就是模仿我们学习语言的过程，要准确的理解一个句子或一段文本的语义，就要学习上下文关系，从上下文语义来推测空缺单词的含义。而 Bert 的做法模拟了英语中的完形填空，随机将一些单词遮住，让 Bert 模型去预测这个单词，以此达到学习整个文本语义的目的。

那么 Bert 如何做到”完形填空“的呢？

随机 mask 预料中 15% 的 Token，然后预测 [MASK] Token，与 masked token 对应的最终隐藏向量被输入到词汇表上的 softmax 层中。这虽然确实能训练一个双向预训练模型，但这种方法有个缺点，因为在预训练过程中随机 [MASK] Token 由于每次都是全部 mask，预训练期间会记住这些 MASK 信息，但是在fine-tune期间从未看到过 [MASK] Token，导致预训练和 fine-tune 信息不匹配。

而为了解决预训练和 fine-tune 信息不匹配，Bert 并不总是用实际的 [MASK] Token 替换 masked 词汇。

my dog is hairy → my dog is [MASK] 80%选中的词用[MASK]代替
my dog is hairy → my dog is apple  10%将选中的词用任意词代替
my dog is hairy → my dog is hairy  10%选中的词不发生变化

为什么 15% 的 Token 不完全 MASK？如果只有 MASK，这个预训练模型是有偏置的，也就是只能学到一种方式，用上下文去预测一个词，这导致 fine-tune 丢失一部分信息。

加上 10% 的随机词和 10% 的真实值是让模型知道，每个词都有意义，除了要学习上下文信息，还需要提防每个词，因为每个词都不一定是对的，对于 Bert 来说，每个词都需要很好的理解和预测。

有些人会疑惑，加了随机 Token，会让模型产生疑惑，从而不能学到真实的语义吗？对于人来说，完形填空都不一定能做对，而将文本中某些词随机替换，更是难以理解，从概率角度来说，随机 Token 占比只有 15% * 10% = 1.5%，预料足够的情况下，这并不会影响模型的性能。

因为 [MASK] Token 占比变小，且预测难度加大的原因，所以 MASK 会花更多时间。

任务2：Next Sentence Prediction
在许多下游任务中，如问答系统 QA 和自然语言推理 NLI，都是建立在理解两个文本句子之间的关系基础上，这不是语言模型能直接捕捉到的。

为了训练一个理解句子关系的模型，作者提出 Next Sentence Prediction，也即是预训练一个下一句预测的二分类任务，这个任务就是每次训练前都会从语料库中随机选择句子 A 和句子 B，50% 是正确的相邻的句子，50% 是随机选取的一个句子，这个任务在预训练中能达到 97%-98% 的准确率，并且能很显著的提高 QA 和 NLI 的效果。

Input = [CLS] the man went to [MASK] store [SEP]he bought a gallon [MASK] milk [SEP]
Label = IsNextInput = [CLS] the man [MASK] to the store [SEP]penguin [MASK] are flight ##less birds [SEP]
Label = NotNext

模型通过对 Masked LM 任务和 Next Sentence Prediction 任务进行联合训练，使模型输出的每个字 / 词的向量表示都能尽可能全面、准确地刻画输入文本（单句或语句对）的整体信息，为后续的微调任务提供更好的模型参数初始值。

作者：随时学丫
链接：https://www.jianshu.com/p/810ca25c4502
来源：简书
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

论文解读：Bert原理深入浅出

相关文章：

论文解读：Bert原理深入浅出

共享内存 windows和linux

一个mongodb问题分析

Vue3.0极速入门- 目录和文件说明

RabbitMQ---订阅模型-Direct

Django REST framework实现api接口

4.19 20

(动态规划) 剑指 Offer 10- II. 青蛙跳台阶问题 ——【Leetcode每日一题】

物联网WIFI 模块AT指令版本七大元凶

Qt 正则（数据格式校验、替换指定格式数据、获取匹配数据）

网络层协议——ip

Qt6和Rust结合构建桌面应用

Kubernetes（K8S）简介

面试中问：React中函数组件和class组件的区别，hooks模拟生命周期

Python高光谱遥感数据处理与高光谱遥感机器学习方法应用

Java实现接收xml格式数据并解析，返回xml格式数据

【C++】初步认识模板

Ansible 临时命令搭建安装仓库

phpstorm动态调试

二叉树的层序遍历及完全二叉树的判断

Python｜GIF 解析与构建（5）：手搓截屏和帧率控制

【根据当天日期输出明天的日期(需对闰年做判定)。】2022-5-15

【kafka】Golang实现分布式Masscan任务调度系统

ESP32读取DHT11温湿度数据

汽车生产虚拟实训中的技能提升与生产优化

根据万维钢·精英日课6的内容，使用AI（2025）可以参考以下方法：

项目部署到Linux上时遇到的错误（Redis，MySQL，无法正确连接，地址占用问题）

今日学习：Spring线程池|并发修改异常|链路丢失|登录续期|VIP过期策略|数值类缓存

AI，如何重构理解、匹配与决策？

恶补电源：1.电桥