当前位置：首页 > news >正文

BERT：面向语言理解的深度双向Transformer预训练

news 2026/2/28 6:54:21

参考视频：

BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili

背景

BERT算是NLP里程碑式工作！让语言模型预训练出圈！

使用预训练模型做特征表示的时候一般有两类策略：

1. 基于特征 feature based （Elmo）把学到的特征和输入一起放进去做一个很好的特征表达

2. 基于微调 fine-tuning （GPT）

但是都用的是单向语言模型↑ 预测模型，所以限制了语言架构，比如说只能从左往右读

Masked Language Model

为了接触限制，BERT用的是一个带掩码的语言模型（MLM）（Masked Language Model），随机选字元，盖住，预测盖住的字

看多模态模型的时候有提到过！↑

next sentence prediction

在原文中随机取两个句子，让模型判断句子是否相邻

贡献

1. 说明双向信息的重要性

2.假设有比较好的预训练模型就不用对特定任务做特定的模型改动了

主要就是把前人的结果拓展到深的双向的模型架构上

方法

模型

本篇工作调整了L：Transformer模块的个数，H：隐藏层的个数以及A：自注意力头的个数

BERT Base（L=12, H=768, A=12）

BERT Large（L=24, H=1024, A=16）

如何把超参数换算成可学习参数的大小？

可学习参数主要来自嵌入层以及Transformer Block

嵌入层

输入：字典的大小

↓

Transformer Block(自注意力，MLP）

自注意力头个数A x 64

Transformer Block 的可学习参数是H^2 *4 (自注意力)

MLP H^2 *8

此处合起来Transformer的参数是（H^2 *12）*L

↓

输出：隐藏单元的个数H

总参数（36K * H + L*H*12）=110M

输入和输出

输入：

序列（sequence）：既可以是句子，也可是句子对

切词方法： WordPiece，节省参数

序列的第一个词永远是序列[CLS]，因为bert希望它最后输出代表整个序列的一个信息

把两个句子合在一起的时候需要区分两个句子：

1）把每个句子后面放上特殊的词[SEP]

2) 学一个嵌入层

对每个词元进入BERT的向量表示，是词元本身的embedding，加句子embedding加position embedding

缺点：

与GPT（Improving Language Understanding by Generative Pre-Training）比，BERT用的是编码器，GPT用的是解码器。BERT做机器翻译、文本的摘要（生成类的任务）不好做。

写的不算全，后面看到后面补。

BERT：面向语言理解的深度双向Transformer预训练

参考视频： BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili 背景 BERT算是NLP里程碑式工作！让语言模型预训练出圈！ 使用预训练模型做特征表示的时候一般有两类策略： 1. 基于特征 feature based （Elmo）…...

编程日记 2023/9/27 6:27:49

5-1.（OOP）初步分析MCV架构模式

组成：模型（model）、视图（view）、控制器（controller） view：界面、显示数据 model：数据管理、负责在数据库中存取数据以及数据合法性验证 controller：负责转…...

编程日记 2023/9/27 6:25:48

如何利用React和Flutter构建跨平台移动应用

如何利用React和Flutter构建跨平台移动应用移动应用已经成为现代生活的一部分，每天都有大量的手机用户在使用各种各样的应用程序。对于开发者来说，构建一个适用于多个平台的移动应用是一个挑战。幸运的是，有一些工具可以帮助我们轻松地实现…...

编程日记 2023/9/27 6:23:46

npm install / webdriver-manager update报错 unable to get local issuer certificate

我这边遇到的问题，用的是angular，跑npm install的时候报错，一开始在.npmrc添加strict-sslfalse但是还是报错，搜索下记录。参考解决： selenium - webdriver-manager update, Error: unable to get local issuer certi…...

编程日记 2023/9/27 6:22:45

电商项目高级篇-02 elasticsearch-下

电商项目高级篇-02 elasticsearch-下 4.2、QueryDSL返回指定字段 4.2、QueryDSL 返回指定字段返回单个字段 GET bank/_search {"query": {"match_all": {}}, "sort": [{"balance": {"order": "desc"}}], &quo…...

编程日记 2023/9/27 6:21:44

计算机竞赛深度学习人体跌倒检测 -yolo 机器视觉 opencv python

0 前言 🔥 优质竞赛项目系列，今天要分享的是 🚩 **基于深度学习的人体跌倒检测算法研究与实现 ** 该项目较为新颖，适合作为竞赛课题方向，学长非常推荐！ 🥇学长这里给一个题目综合评分(每项满…...

编程日记 2023/9/27 6:20:43

CloseableHttpClient详解

实现项目中的HttpUtil用到CloseableHttpClient，httpUtil源码：https://download.csdn.net/download/imwucx/88378340 于是学习CloseableHttpClient并记录一下。一、CloseableHttpClient是什么？ CloseableHttpClient实现了AutoCloseable接口和…...

编程日记 2023/9/27 6:19:43

从mysql 5.7 升级到 8.0 的一些注意事项

最近 mysql 5.7 版本将会终止安全更新，越来越多的朋友考虑升级 mysql 8.0，以下是一些刚开始使用时可能存在差异问题的地方，有一些其实在 mysql 5.7 版本里已经开始使用，这里整理一下方便查阅。 1、关于端口，该版本 My…...

编程日记 2023/9/27 6:18:42

喜迎中秋国庆双节，华为云Astro Canvas之我的中秋节设计大屏

目录前言前提条件作品展示薅羊毛前言大屏应用华为云Astro Canvas是华为云低代码平台Astro的子服务之一，是以数据可视化为核心，以屏幕轻松编排，多屏适配可视为基础，用户可通过图形化界面轻松搭建专业水准的数据可视化大屏…...

编程日记 2023/9/27 6:17:41

C++ stoi()函数的用法

stoi()函数的作用将字符串转为相应进制，可以是8进制，10进制，16进制等，默认的情况下是10进制 stoi源码里面定义 stoi(const string& __str, size_t* __idx 0, int __base 10) 注意：idx 这个可能是版本的问题&…...

编程日记 2023/9/27 6:16:40

Learn Prompt- Midjourney案例:动漫设计

使用 Midjourney 生成动漫有两种方法：使用Niji模式或使用标准的 Midjourney 模型。Niji V5 是 Midjourney 的动漫专用模型。它建立在标准 Midjourney 模型的全新架构之上，更擅长生成命名的动漫角色。Niji V4于2023年12月发布，Niji V5于2023年…...

编程日记 2023/9/27 6:15:39

亚马逊无线鼠标FCC认证办理 FCC ID

无线鼠标是指无线缆直接连接到主机的鼠标，采用无线技术与计算机通信，从而省却电线的束缚。通常采用无线通信方式，包括蓝牙、Wi-Fi (IEEE 802.11)、Infrared (IrDA)、ZigBee (IEEE 802.15.4)等多个无线技术标准。随着人们对办公环境和操作便捷…...

编程日记 2023/9/27 6:13:37

MySQL常见数据类型、特点以及使用场景

以下是一些常见的MySQL数据类型及其特点，包括数据类型的占用字节数、最大存储值和适用场景： 1. 整数类型： TINYINT：1字节，范围从-128到127（有符号），0到255（无符号&…...

编程日记 2023/9/27 6:12:37

1、安装依赖markdown-it yarn add markdown-it 2、在页面中引用 import MarkdownIt from markdown-it3、实例化markdown-it const md new MarkdownIt()4、输出 <div class"answer" v-html"md.render(mdTxt)"></div>通过markdown-it可以将m…...

编程日记 2023/9/27 6:11:36

Spring整合RabbitMQ——生产者（利用配置类）

1.生产者配置步骤 2.引入依赖 3.编写配置配置RabbitMQ的基本信息，用来创建连接工厂的编写启动类编写配置类 4. 编写测试类...

编程日记 2023/9/27 6:10:35

Linux基础工具|代码调试工具gdb的使用

1.debug/release gdb是一款Linux下的一款调试器，在没有图形化界面下，是一种不错的调试方案（虽然在一般的开发环境中很少会使用gdb） 不过要使用gdb，就先要了解debug和release版本。发布软件的时候有一种叫debug版本…...

编程日记 2023/9/27 6:09:34

Ribbon负载均衡器

两种： 1.1 集中式负载均衡，服务端负载均衡硬件 nginx 轮询、负载、哈希、随机、权重为什么要做负载均衡？ 1.2 客户端负载均衡器用客户端负载均衡器很多机制可以自定义小知识：不想让别人调自己，只想用别人的…...

编程日记 2023/9/27 6:08:34

初级软件测试入门教程

一、软件测试的基本概念 1、软件测试的定义就是以发现错误为目的而运行程序的过程。软件测试员的目标是找到软件缺陷，尽可能早一些，并确保其得以修复。 2、软件测试方法总体分类试图验证软件是“工作的”（所谓“工作的”就是指软件的…...

编程日记 2023/9/27 6:07:33

4项简化IT服务台任务的ChatGPT功能

近几个月，随着人工智能聊天机器人 ChatGPT 风靡全球，用户可以通过它生成脚本、文章、运动计划表等。同时，这项技术在各行各业都能够进行无穷无尽的应用，在本文中，我们将探讨这项现代技术如何帮助ITSM团队提升服务交付和…...

编程日记 2023/9/27 6:06:32

idea创建同级项目-纠结是SB

idea创建同级项目-纠结是SB 创建方法：...

编程日记 2023/9/27 6:05:31

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

一、变量声明设计：let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性，这种设计体现了语言的核心哲学。以下是深度解析： 1.1 设计理念剖析安全优先原则：默认不可变强制开发者明确声明意图 let x 5; …...

编程新知 2025/9/28 20:12:12

Flask RESTful 示例

目录 1. 环境准备2. 安装依赖3. 修改main.py4. 运行应用5. API使用示例获取所有任务获取单个任务创建新任务更新任务删除任务中文乱码问题： 下面创建一个简单的Flask RESTful API示例。首先，我们需要创建环境，安装必要的依赖，然后…...

编程新知 2026/2/16 13:23:19

Prompt Tuning、P-Tuning、Prefix Tuning的区别

一、Prompt Tuning、P-Tuning、Prefix Tuning的区别 1. Prompt Tuning（提示调优）核心思想：固定预训练模型参数，仅学习额外的连续提示向量（通常是嵌入层的一部分）。实现方式：在输入文本前添加可训练的连续向量（软提示），模型只更新这些提示参数。优势：参数量少（仅提…...

编程新知 2026/2/27 18:54:48

golang循环变量捕获问题

在 Go 语言中，当在循环中启动协程（goroutine）时，如果在协程闭包中直接引用循环变量，可能会遇到一个常见的陷阱 - 循环变量捕获问题。让我详细解释一下： 问题背景看这个代码片段： fo…...

编程新知 2026/2/20 8:33:18

逻辑回归：给不确定性划界的分类大师

想象你是一名医生。面对患者的检查报告（肿瘤大小、血液指标），你需要做出一个**决定性判断**：恶性还是良性？这种“非黑即白”的抉择，正是**逻辑回归（Logistic Regression）** 的战场&a…...

编程新知 2026/2/22 14:30:30

STM32F4基本定时器使用和原理详解

STM32F4基本定时器使用和原理详解前言如何确定定时器挂载在哪条时钟线上配置及使用方法参数配置PrescalerCounter ModeCounter Periodauto-reload preloadTrigger Event Selection 中断配置生成的代码及使用方法初始化代码基本定时器触发DCA或者ADC的代码讲解中断代码定时启动…...

编程新知 2026/2/25 1:24:06

srs linux

下载编译运行 git clone https:///ossrs/srs.git ./configure --h265on make 编译完成后即可启动SRS # 启动 ./objs/srs -c conf/srs.conf # 查看日志 tail -n 30 -f ./objs/srs.log 开放端口默认RTMP接收推流端口是1935，SRS管理页面端口是8080，可…...

编程新知 2026/2/6 9:49:55

Python Einops库：深度学习中的张量操作革命

Einops（爱因斯坦操作库）就像给张量操作戴上了一副"语义眼镜"——让你用人类能理解的方式告诉计算机如何操作多维数组。这个基于爱因斯坦求和约定的库，用类似自然语言的表达式替代了晦涩的API调用，彻底改变了深度学习工程…...

编程新知 2025/10/16 12:04:52

给网站添加live2d看板娘

给网站添加live2d看板娘参考文献： stevenjoezhang/live2d-widget: 把萌萌哒的看板娘抱回家 (ノ≧∇≦)ノ | Live2D widget for web platformEikanya/Live2d-model: Live2d model collectionzenghongtu/live2d-model-assets 前言网站环境如下，文章也主…...

编程新知 2026/2/27 15:57:03

AI语音助手的Python实现

引言语音助手（如小爱同学、Siri）通过语音识别、自然语言处理（NLP）和语音合成技术，为用户提供直观、高效的交互体验。随着人工智能的普及，Python开发者可以利用开源库和AI模型，快速构建自定义语音助手。本文由浅入深，详细介绍如何使用Python开发AI语音助手，涵盖基础功…...

编程新知 2026/2/20 5:41:17

BERT：面向语言理解的深度双向Transformer预训练

背景

贡献

相关工作

方法

模型

输入和输出

相关文章：

BERT：面向语言理解的深度双向Transformer预训练

5-1.（OOP）初步分析MCV架构模式

如何利用React和Flutter构建跨平台移动应用

npm install / webdriver-manager update报错 unable to get local issuer certificate

电商项目高级篇-02 elasticsearch-下

计算机竞赛深度学习人体跌倒检测 -yolo 机器视觉 opencv python

CloseableHttpClient详解

从mysql 5.7 升级到 8.0 的一些注意事项

喜迎中秋国庆双节，华为云Astro Canvas之我的中秋节设计大屏

C++ stoi()函数的用法

Learn Prompt- Midjourney案例:动漫设计

亚马逊无线鼠标FCC认证办理 FCC ID

MySQL常见数据类型、特点以及使用场景

vue markdown显示为html

Spring整合RabbitMQ——生产者（利用配置类）

Linux基础工具|代码调试工具gdb的使用

Ribbon负载均衡器

初级软件测试入门教程

4项简化IT服务台任务的ChatGPT功能

idea创建同级项目-纠结是SB

变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析

Flask RESTful 示例

Prompt Tuning、P-Tuning、Prefix Tuning的区别

golang循环变量捕获问题

逻辑回归：给不确定性划界的分类大师

STM32F4基本定时器使用和原理详解

srs linux

Python Einops库：深度学习中的张量操作革命

给网站添加live2d看板娘

AI语音助手的Python实现