BERT:让AI真正“读懂”语言的革命
BERT:让AI真正“读懂”语言的革命
——图解谷歌神作《BERT: Pre-training of Deep Bidirectional Transformers》
2018年,谷歌AI团队扔出一篇核弹级论文,引爆了整个NLP领域。这个叫BERT的模型在11项任务中屠榜,甚至超越人类表现!它背后的秘密是什么?本文将用最通俗的方式揭秘它的工作原理。
一、传统AI的致命缺陷:单向理解
想象你教AI完形填空:
“小明买了__去北京。”
- 旧方法(GPT):只能从左向右看 → “买了__”
可能猜:”车票“(但正确答案可能是”机票“或”高铁票“) - 人类思维:同时看左右上下文 → ”去北京“暗示需长途交通工具
BERT的突破在于:首次让模型同时看到整个句子,像人类一样双向理解语境!
二、BERT核心设计:双向Transformer
1. 模型架构(简单版)
输入句子 → [Transformer编码器] x 12/24层 → 输出每个词的深度表示
- 抛弃解码器:只保留Transformer的编码器部分
- 堆叠多层:12层(BERT-Base)或24层(BERT-Large),每层学习不同抽象特征
2. 输入处理:三合一嵌入
BERT将每个词转换为包含三种信息的向量:
[词嵌入] + [段落嵌入] + [位置嵌入]
▲ 例如:区分“银行”在“河岸”vs“存款”的不同含义(图源:Jay Alammar)
三、预训练:让AI博览群书
BERT通过两个自监督任务学习语言本质:
任务1:掩码语言模型(MLM)
随机遮盖15%的词,让AI预测:
“人工智能[MASK]改变世界。” → 答案应为“将”
关键技巧:
- 80%用[MASK]替换
- 10%换随机词(如“人工智能吃改变世界”)
- 10%保留原词 → 强迫模型深度分析语境
任务2:下一句预测(NSP)
判断两句话是否连续:
输入A:”猫在沙发上睡觉“
输入B:”它梦见抓老鼠“ → 连续(标签=IsNext)
输入B:”火箭发射升空“ → 不连续(标签=NotNext)
作用:学习句子间逻辑关系(对问答/推理任务至关重要)
四、微调:快速适配具体任务
预训练后的BERT已成为“语言通才”,通过简单改造就能解决不同任务:
任务类型 | 改造方式 | 实例 |
---|---|---|
文本分类 | 用[CLS] 对应输出接分类层 | 情感分析 |
问答任务 | 输出答案起止位置概率 | SQuAD数据集 |
序列标注 | 每个词输出接标签分类层 | 命名实体识别(NER) |
句子关系判断 | 输入两个句子用[SEP] 分隔 | 文本蕴含推理 |
▲ BERT的变形金刚能力(图源:Chris McCormick)
五、为什么BERT如此强大?
1. 上下文双向感知
旧模型: ”苹果股价上涨,因为它发布了新__“ → 可能填”产品“
BERT: ”苹果股价上涨,因为它发布了新__“ → 看到”股价“填”财报“
2. 迁移学习范式
- 预训练:用海量无标签数据(维基百科+图书语料)学习通用语言知识
- 微调:用少量标注数据快速适配下游任务(训练速度提升100倍!)
3. 注意力机制
每个词都与其他词建立连接权重:
"银行"的注意力: [存款:0.7, 账户:0.2, 河流:0.05, ...]
自动聚焦关键信息,解决长距离依赖问题。
六、BERT的影响:NLP的工业革命
里程碑成果
- GLUE基准:得分提升7.6% (80.4% → 88.0%)
- SQuAD 2.0:F1分数首次超越人类(90.9% vs 89.0%)
- 引爆大模型时代:直接催生GPT-3、T5等千亿级模型
典型应用场景
七、动手体验BERT
使用Hugging Face库3行代码调用BERT:
from transformers import pipeline
classifier = pipeline('fill-mask', model='bert-base-uncased')
print(classifier("Artificial Intelligence [MASK] change the world."))
# 输出:[{'token_str': 'will', 'score': 0.89}, ...]
在线体验:BERT Playground
结语:
BERT的成功证明:通过大规模预训练+简单微调,AI能真正理解语言本质。它像给机器安装了“语言大脑”,使NLP从手工作坊进入工业化时代。正如论文作者所说:
“BERT为所有人提供了强大的NLP基础模型,
就像计算机视觉领域的ImageNet预训练模型一样。”
如今,尽管更大模型层出不穷,BERT仍是工业界部署最广泛的NLP引擎——它当之无愧地重塑了人工智能的语言理解能力。
论文:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
开源代码:Google Research GitHub
相关文章:

BERT:让AI真正“读懂”语言的革命
BERT:让AI真正“读懂”语言的革命 ——图解谷歌神作《BERT: Pre-training of Deep Bidirectional Transformers》 2018年,谷歌AI团队扔出一篇核弹级论文,引爆了整个NLP领域。这个叫BERT的模型在11项任务中屠榜,甚至超越人类表现…...
【计算机组成原理】SPOOLing技术
SPOOLing技术 关键点内容核心思想通过输入/输出井虚拟化独占设备,实现共享,即让多个作业共享一台独占设备依赖条件1. 外存(井文件)2. 多道程序设计虚拟实现多道程序技术磁盘缓冲数据流方向输入设备 → 输入井 → CPU → 输出井 →…...

冷雨泉教授团队:新型视觉驱动智能假肢手,拟人化抓握技术突破,助力截肢者重获生活自信
研究背景:日常生活中,健康人依靠手完成对物体的操作。对于手部截肢患者,手部的缺失导致他们难以有效地操作物体,进而影响正常的日常生活。拥有一个能够实现拟人地自然抓取多种日常物体的五指动力假手是手部截肢患者的夙愿…...
CanvasGroup篇
🎯 Unity UI 性能优化终极指南 — CanvasGroup篇 🧩 什么是 CanvasGroup? CanvasGroup 是UGUI的透明控制器,用于整体控制一组UI元素的: 可见性 (alpha)交互性 (interactable)射线检测 (blocksRaycasts) 🎯…...
[Java 基础]银行账户程序
编写一个 Java 控制台应用程序,模拟一个简单的银行账户。该程序应允许用户执行以下操作: 查询账户余额。 账户初始余额设置为 1000.0 元。向账户存入资金。 用户可以输入存款金额,程序应更新账户余额。存款金额必须为正数。从账户提取资金。…...
2025.6.4总结
工作:今天效率比较高,早上回归4个问题,下午找了3个bug,晚上二刷了科目一(贪吃蛇系统),写了四个点,唯一没达标的就是两自动化没完成。美中不足的是电脑上下载不了PC版的番茄工作软件。…...
将音频数据累积到缓冲区,达到阈值时触发处理
实现了音频处理中的 AEC(声学回声消除)和 AES(音频增强)功能,其核心功能是: 数据缓冲管理:将输入的麦克风和扬声器音频数据块累积到缓冲区中块处理机制:当缓冲区填满预设大小&#…...

pikachu靶场通关笔记14 XSS关卡10-XSS之js输出(五种方法渗透)
目录 一、源码分析 1、进入靶场 2、代码审计 二、渗透实战 1、根据提示输入tmac 2、XSS探测 3、注入Payload1 4、注入Payload2 5、注入Payload3 6、注入Payload4 7、注入Payload5 本系列为通过《pikachu靶场通关笔记》的XSS关卡(共10关)渗透集合&#x…...
5.Promise,async,await概念(1)
Promise 是 JavaScript 原生提供的异步处理机制,而 async 和 await 是基于 Promise 的语法糖,由 JavaScript 语言和其运行时环境(如浏览器、Node.js)支持,用于更清晰地编写异步代码,从而避免回调地狱。 Pr…...

李沐-动手学深度学习:RNN
1.RNN从零开始实现 import math import torch from torch import nn from torch.nn import functional as F from d2l import torch as d2l#8.3.4节 #batch_size:每个小批量中子序列样本的数目,num_steps:每个子序列中预定义的时间步数 #loa…...
Windows系统下npm报错node-gyp configure got “gyp ERR“解决方法
感谢原博主,此文参考网址:https://zhuanlan.zhihu.com/p/398279220 确保已经安装node.js (官方网址:https://nodejs.org/zh-cn/download) 首先在命令窗口执行命令安装windows-build-tools: npm install -…...
Elasticsearch中的文档(Document)介绍
在Elasticsearch(ES)中,文档(Document)是最基本的数据单元,类似于关系型数据库中的“行”。它以JSON格式存储,包含多个字段(Field),每个字段可以是不同类型(如文本、数值、日期等)。文档是索引(Index)的组成部分,通过唯一ID标识,并支持动态映射(Dynamic Mappi…...
15个基于场景的 DevOps 面试问题及答案
第一部分:持续集成和部署 (CI/CD) 场景 1:构建中断 “您的 CI 流水线突然出现‘找不到依赖项’的错误。您会如何处理这个问题?” 回答:首先,我会检查是否有新的依赖项被添加到需求文件中,但这些依赖项并未包含在需求文件中。我还会验证构建服务器是否可以访问互联网来下…...
今日主题二分查找(寻找峰值 力扣162)
峰值元素是指其值严格大于左右相邻值的元素。 给你一个整数数组 nums,找到峰值元素并返回其索引。数组可能包含多个峰值,在这种情况下,返回 任何一个峰值 所在位置即可。 你可以假设 nums[-1] nums[n] -∞ 。 你必须实现时间复杂度为 O(…...

【教学类-36-10】20250531蝴蝶图案描边,最适合大小(一页1图1图、2图图案不同、2图图案相同对称)
背景说明: 之前做了动物头像扇子(描边20),并制作成一页一套图案对称两张 【教学类-36-09】20250526动物头像扇子的描边(通义万相)对称图40张,根据图片长宽,自动旋转图片,最大化图片-CSDN博客文章浏览阅读1k次,点赞37次,收藏6次。【教学类-36-09】20250526动物头像…...

高效DBA的日常运维主题沙龙
2024年11月10日,在宁波组织了高效DBA的日常运维沙龙活动,大概有20人左右现场参加。会议的主题为: 目标: 1、识别高频低效操作并制定自动化方案 2、建立关键运维指标健康度体系 3、输出可立即落地的优化清单 会议议程 一、效能瓶…...

AAAI 2025论文分享│STD-PLM:基于预训练语言模型的时空数据预测与补全方法
本文详细介绍了一篇发表于人工智能顶级会议AAAI 2025的论文《STD-PLM: Understanding Both Spatial and Temporal Properties of Spatial-Temporal Data with PLM》。该论文提出了一种基于预训练语言模型(Pre-trained Language Model,PLM)的…...

Ethernet/IP转DeviceNet网关:驱动大型矿山自动化升级的核心纽带
在大型矿山自动化系统中,如何高效整合新老设备、打通数据孤岛、实现统一控制,是提升效率与安全的关键挑战。JH-EIP-DVN疆鸿智能EtherNet/IP转DeviceNet网关,正是解决这一难题的核心桥梁,为矿山各环节注入强劲连接力: …...
Android 11以上App主动连接WIFI的完整方案
早期Android版本App内连接指定的WIFI还是比较简单的,但是随着Android版本的提升,限制也越来越多。以下是一套完整的Android 11以上的WIFI应用内主动连接方案。 第一步:添加到建议连接: val wifiManager getSystemService(WIFI_…...

[蓝桥杯]模型染色
模型染色 题目描述 在电影《超能陆战队》中,小宏可以使用他的微型机器人组合成各种各样的形状。 现在他用他的微型机器人拼成了一个大玩具给小朋友们玩。为了更加美观,他决定给玩具染色。 小宏的玩具由 nn 个球型的端点和 mm 段连接这些端点之间的边…...
力扣上C语言编程题
一. 简介 本文简单记录一下力扣上 C语言编程题。作为自己做题笔记。 二. 力扣上 C 语言编程题 1. 从数组中找到两个元素之和,等于一个 target目标值 具体题目说明:给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为…...

卡西欧模拟器:Windows端功能强大的计算器
引言 大家还记得初中高中时期用的计算器吗?今天给大家分享的就是一款windows端的卡西欧计算器。 软件介绍 大家好,我是逍遥小欢。 CASIO fx-9860G是一款功能强大的图形计算器,适用于数学、科学和工程计算。以下是其主要功能和特点的详细介…...
鸿蒙OSUniApp结合机器学习打造智能图像分类应用:HarmonyOS实践指南#三方框架 #Uniapp
UniApp结合机器学习打造智能图像分类应用:HarmonyOS实践指南 引言 在移动应用开发领域,图像分类是一个既经典又充满挑战的任务。随着机器学习技术的发展,我们现在可以在移动端实现高效的图像分类功能。本文将详细介绍如何使用UniApp结合Ten…...

机器学习基础(三) 逻辑回归
目录 逻辑回归的概念核心思想 Sigmoid 函数 逻辑回归的原理和底层优化手段伯努利分布最大似然估计 Maximum Likelihood Estimation (MLE)伯努利分布的似然函数交叉熵损失函数(Cross-Entropy Loss),也称为 对数损失&…...
系统调试——ADB 工具
ADB 工具 1.1 概述 ADB(Android Debug Bridge) 是 Android SDK 里的一个工具, 用这个工具可以操作管理Android 模拟器或真实的 Android 设备。 主要功能有: 运行设备的 shell(命令行)管理模拟器或设备的端…...

Qwen-3 微调实战:用 Python 和 Unsloth 打造专属 AI 模型
虽然大家都忙着在 DeepSeek 上构建应用,但那些聪明的开发者们却悄悄发现了 Qwen-3 的微调功能,这可是一个隐藏的宝藏,能把通用型 AI 变成你的专属数字专家。 通过这篇文章,你将学到如何针对特定用途微调最新的 Qwen-3 模型。无论…...

微软Build 2025:Copilot Studio升级,解锁多智能体协作未来
微软Build 2025大会圆满落幕,作为年度科技盛会,它一直是开发与AI技术突破性创新的重要展示平台。对于工程师、创作者和领域专家来说,这是了解微软生态未来动向的关键时刻。今年,Microsoft Copilot Studio推出了一系列新功能&#…...

设计模式——系统数据建模设计
摘要 本文主要介绍了UML在软件系统分析和设计中的应用,详细阐述了六大类关系(泛化、实现、依赖、关联、聚合、组合)及其在UML类图中的表示方法,并通过具体例子说明了这些关系在实际编程中的应用。同时,文章还概述了UM…...

解决docker运行zentao 报错:ln: failed to create symbolic link ‘/opt/zbox/tmp/mysq
1 背景描述 禅道使用docker部署运行过一段,服务正常。 后因服务器断电重启,禅道服务也随docker一起启动,但是服务却无法访问。如下如: 2 查看日志,定位原因 查看禅道日志: # docker logs zentao容器di…...
Spring Boot MVC自动配置与Web应用开发详解
Spring Boot MVC自动配置机制 Spring Boot通过自动配置功能为MVC应用提供了开箱即用的默认配置,开发者无需手动配置即可获得完整的Web支持。以下是核心功能的实现原理: 静态资源支持 默认情况下,Spring Boot会自动从以下classpath目录提供…...