当前位置：首页 > article >正文

BERT、T5、ViT 和 GPT-3 架构概述及代表性应用

article 2026/2/8 1:12:51

BERT、T5、ViT 和 GPT-3 架构概述

1. BERT（Bidirectional Encoder Representations from Transformers）

架构特点
- 基于 Transformer 编码器：BERT 使用多层双向 Transformer 编码器，能够同时捕捉输入序列中每个词的左右上下文信息。
- 预训练任务：
  - 掩码语言模型（Masked Language Model, MLM）：随机遮蔽输入序列中的部分词，模型需预测被遮蔽的词。
  - 下一句预测（Next Sentence Prediction, NSP）：预测两个句子是否连续。
- 应用场景：文本分类、命名实体识别、问答系统等。
优势：
- 双向上下文理解能力强，适合需要深入理解语义的任务。
- 预训练模型可微调以适应多种下游任务。

代表性应用

自然语言理解：
- 文本分类：情感分析、垃圾邮件检测、新闻分类等。
- 命名实体识别（NER）：从文本中提取人名、地名、组织名等实体。
- 问答系统：理解用户问题并生成答案，如机器阅读理解任务。
医疗领域：
- 用于医学文献分析，提取疾病、药物、症状等关键信息。
金融领域：
- 分析金融报告，识别风险因素或市场趋势。

2. T5（Text-to-Text Transfer Transformer）

架构特点

基于 Transformer 编码器-解码器：T5 将所有自然语言处理任务统一为文本到文本的转换任务。
预训练任务：
- Span Corruption：随机遮蔽输入文本中的连续词，模型需恢复被遮蔽的部分。
应用场景：文本生成、机器翻译、摘要生成、问答系统等。
优势：
- 统一的任务框架，灵活性高，适合多种自然语言处理任务。
- 通过微调可快速适应新任务。

代表性应用

文本生成：
- 摘要生成：将长文档压缩为简洁的摘要。
- 对话系统：生成自然流畅的对话回复。
机器翻译：
- 支持多语言互译，提升翻译质量。
代码生成：
- 根据自然语言描述生成代码片段。
教育领域：
- 自动生成练习题、解答或学习材料

3. ViT（Vision Transformer）

架构特点

基于 Transformer 的视觉模型：ViT 将图像分割为固定大小的补丁（patches），并将这些补丁视为序列输入到 Transformer 编码器中。
预训练任务：通常在大规模图像数据集上进行自监督学习（如掩码补丁预测）。
应用场景：图像分类、目标检测、图像分割等。
优势：
- 突破了传统卷积神经网络（CNN）在视觉任务中的主导地位。
- 适用于大规模数据集，且在迁移学习中表现出色。

代表性应用

计算机视觉：
- 图像分类：识别图像中的物体类别。
- 目标检测：定位图像中的多个物体并分类。
- 图像分割：将图像分割为多个区域，每个区域对应不同物体。
医学影像分析：
- 用于X光、CT扫描等医学图像的分析，辅助疾病诊断。
自动驾驶：
- 实时处理摄像头图像，识别道路、交通标志和其他车辆

4. GPT-3（Generative Pre-trained Transformer 3）

架构特点

基于 Transformer 解码器：GPT-3 使用多层自回归 Transformer 解码器，生成文本时逐步预测下一个词。
预训练任务：
- 自回归语言建模：根据前文预测下一个词。
应用场景：文本生成、对话系统、代码生成、知识推理等。
优势：
- 参数规模巨大（最高达 1750 亿），生成能力极强。
- 支持零样本学习（Zero-shot Learning）和少样本学习（Few-shot Learning），无需微调即可完成新任务。

代表性应用

自然语言生成：
- 创意写作：生成小说、诗歌、剧本等。
- 技术文档：自动生成产品说明、用户手册等。
对话系统：
- 构建智能客服、虚拟助手，提供自然语言交互。
知识推理：
- 回答复杂问题，提供详细解释和推理过程。
代码辅助：
- 根据自然语言描述生成代码，或提供代码建议。

总结对比

模型	架构类型	预训练任务	优势	应用场景
BERT	双向 Transformer 编码器	MLM + NSP	双向上下文理解能力强	文本分类、问答、命名实体识别
T5	Transformer 编码器-解码器	Span Corruption	统一任务框架，灵活性高	文本生成、翻译、摘要
ViT	Transformer 编码器	掩码补丁预测	突破 CNN 限制，迁移学习出色	图像分类、目标检测
GPT-3	自回归 Transformer 解码器	自回归语言建模	生成能力强，支持零样本学习	文本生成、对话、代码生成

这些模型分别在自然语言处理和计算机视觉领域取得了显著进展，推动了深度学习技术的发展。

BERT：专注于自然语言理解，擅长分类、命名实体识别等任务。
T5：以文本到文本的框架为核心，适用于生成、翻译、代码生成等多样化任务。
ViT：将Transformer引入计算机视觉，推动图像分类、检测和分割的进步。
GPT-3：以强大的自然语言生成能力著称，支持创意写作、对话系统和知识推理。

这些模型在各自领域推动了技术边界，为实际应用提供了高效、灵活的解决方案。

以下是BERT相关应用的视频，提供了BERT在自然语言处理中的应用介绍，可供参考:

好看视频-轻松有收获

时长：02:51

革新语言处理领域:深度学习巨擘BERT在自然语言处理的应用

好看视频-轻松有收获

时长：00:26

国外最具代表性的人工智能大模型-Bert

BERT、T5、ViT 和 GPT-3 架构概述及代表性应用

BERT、T5、ViT 和 GPT-3 架构概述 1. BERT（Bidirectional Encoder Representations from Transformers） 架构特点基于 Transformer 编码器：BERT 使用多层双向 Transformer 编码器，能够同时捕捉输入序列中每个词的左右上下文信息…...

编程日记 2026/2/5 4:41:34

倚光科技：以创新之光，雕琢全球领先光学设计公司

在光学技术飞速发展的当下，每一次突破都可能为众多领域带来变革性的影响。而倚光（深圳）科技有限公司，作为光学设计公司的一颗璀璨之星，正以其卓越的创新能力和深厚的技术底蕴，引领着光学设计行业的发展潮流…...

编程日记 2026/2/7 5:37:51

数据结构（六)——红黑树及模拟实现

目录前言红黑树的概念及性质红黑树的效率红黑树的结构红黑树的插入变色不旋转单旋变色双旋变色插入代码如下所示： 红黑树的查找红黑树的验证红黑树代码如下所示： 小结前言在前面的文章我们介绍了AVL这一棵完全二叉搜索树&…...

编程日记 2026/2/7 1:54:07

【家政平台开发(48)】家政平台安全“攻防战”：渗透测试全解析

本【家政平台开发】专栏聚焦家政平台从 0 到 1 的全流程打造。从前期需求分析，剖析家政行业现状、挖掘用户需求与梳理功能要点，到系统设计阶段的架构选型、数据库构建，再到开发阶段各模块逐一实现。涵盖移动与 PC 端设计、接口开发及性能优化，测试阶段多维度保障平台质量，…...

编程日记 2026/1/17 5:49:43

Python爬虫-爬取全球股市涨跌幅和涨跌额数据

前言本文是该专栏的第52篇，后面会持续分享python爬虫干货知识，记得关注。本文中，笔者将基于Python爬虫，实现批量采集全球股市行情（亚洲，美洲，欧非，其他等）的各股市“涨跌幅”以及“涨跌额”数据。具体实现思路和详细逻辑，笔者将在正文结合完整代码进行详细介绍。…...

编程日记 2026/1/14 18:13:59

解决 Vue 中 input 输入框被赋值后，无法再修改和编辑的问题

目录需求： 出现 BUG： Bug 代码复现解决问题： 解决方法1： 解决方法2 关于 $set() 的补充： 需求： 前段时间，接到了一个需求：在选择框中选中某个下拉菜单时，对应的…...

编程日记 2026/2/6 5:43:26

【差分隐私相关概念】瑞丽差分隐私（RDP）-瑞丽散度约束了贝叶斯因子后验变化

分步解释和答案： 在Rnyi差分隐私（RDP）框架中，通过贝叶斯因子和Rnyi散度的关系可以推导出关于后验变化的概率保证。以下是关键步骤的详细解释： 1. 贝叶斯因子的定义与分解设相邻数据集 D D D 和 D ′ D D′&#x…...

编程日记 2026/2/5 1:51:21

基础用法 / 语法糖写法 <script> import { onMounted } from vue;// 选项式 API 写法 export default {setup() {onMounted(() > {console.log(组件已挂载);});} } </script><script setup> onMounted(() > {console.log(组件已挂载); }); </scrip…...

编程日记 2025/11/29 6:16:11

Dockerfile 文件常见命令及其作用

Dockerfile 文件包含一系列命令语句，用于定义 Docker 镜像的内容、配置和构建过程。以下是一些常见的命令及其作用： FROM：指定基础镜像，后续的操作都将基于该镜像进行。例如，FROM python:3.9-slim-buster 表示使用 Pyt…...

编程日记 2025/11/28 10:24:15

前端快速入门——JavaScript函数、DOM

1.JavaScript函数函数是一段可重复使用的代码块，它接受输入(参数)、执行特定任务，并返回输出。 <scricpt>function add(a,b){return ab;}let cadd(5,10);console.log(c); </script>2.JavaScript事件 JavaScript绑定事件的方法&#xff1…...

编程日记 2026/2/6 10:27:39

shell 编程之循环语句

目录一、for 循环语句二、while 循环语句三、until 循环语句四、总结扩展 1. 循环对比 2. 调试技巧 3. 易混淆点解析 4. 进阶技巧一、for 循环语句 1. 基础概念含义： 用于遍历一个已知的列表，逐个执行同一组命令核心作用&#xff1a…...

编程日记 2026/1/15 1:35:12

10【模块学习】LCD1602（二）：6路温度显示+实时时钟

项目：6路温度显示实时时钟 1、6路温度显示①TempMenu.c文件的代码②TempMenu.h文件的代码③main.c文件的代码④Timer.c文件的代码⑤Delay.c文件的代码⑥Key.c文件的代码 2、实时时钟显示①BeiJingTime.c文件的代码②BeiJingTime.h文件的代码③main.c文件的代码如下④…...

编程日记 2026/2/5 18:57:35

Linux基础14

一、搭建LAMP平台安装包：mariadb-server、php、php-mysqlnd、php-xml、php-json 搭建平台步骤： php步骤： 创建网页：index.php 网页内编写php语言： > eg：<?p…...

编程日记 2026/1/14 21:15:58

PDF处理控件Aspose.PDF指南：使用 C# 从 PDF 文档中删除页面

需要从 PDF 文档中删除特定页面？本快速指南将向您展示如何仅用几行代码删除不需要的页面。无论您是清理报告、跳过空白页，还是在共享前自定义文档，C# 都能让 PDF 操作变得简单高效。学习如何以编程方式从 PDF 文档中选择和删除特定页面&#…...

编程日记 2026/2/6 22:31:10

如何在不同版本的 Elasticsearch 之间以及集群之间迁移数据

作者：来自 Elastic Kofi Bartlett 当你想要升级一个 Elasticsearch 集群时，有时候创建一个新的独立集群并将数据从旧集群迁移到新集群会更容易一些。这让用户能够在不冒任何停机或数据丢失风险的情况下，在新集群上使用所有应用程序测试其所有…...

编程日记 2026/2/5 1:51:23

Vue3生命周期钩子详解

Vue 3 的生命周期钩子函数允许开发者在组件不同阶段执行特定逻辑。与 Vue 2 相比，Vue 3 在 Composition API 中引入了新名称，并废弃了部分钩子。以下是详细说明： 一、Vue 3 生命周期阶段与钩子函数 1. 组件创建阶段 setup() 替代 Vue 2 的 b…...

编程日记 2026/2/7 17:50:14

Day08【基于预训练模型分词器实现交互型文本匹配】

基于预训练模型分词器实现交互型文本匹配目标数据准备参数配置数据处理模型构建主程序测试与评估总结目标本文基于预训练模型bert分词器BertTokenizer，将输入的文本以文本对的形式，送入到分词器中得到文本对的词嵌入向量，之后经过若干网络…...

编程日记 2026/2/8 1:07:48

npm和npx的作用和区别

npx 和 npm 是 Node.js 生态系统中两个常用的工具，它们有不同的作用和使用场景。 1. npm（Node Package Manager） 作用： npm 是 Node.js 的包管理工具，主要用于： 安装、卸载、更新项目依赖（包&a…...

编程日记 2026/2/5 1:55:00

mysql按条件三表并联查询

下面为你呈现一个 MySQL 按条件三表并联查询的示例。假定有三个表：students、courses 和 enrollments，它们的结构和关联如下： students 表：包含学生的基本信息，有 student_id 和 student_name 等字段。courses 表&…...

编程日记 2026/2/4 11:17:54

C++学习之金融类安全传输平台项目git

目录 1.知识点概述 2.版本控制工具作用 3.git和SVN 4.git介绍 5.git安装 6.工作区暂存区版本库概念 7.本地文件添加到暂存区和提交到版本库 8.文件的修改和还原 9.查看提交的历史版本信息 10.版本差异比较 11.删除文件 12.本地版本管理设置忽略目录 13.远程git仓…...

编程日记 2026/2/2 14:59:08

CCF CSP 第36次（2024.12）（1_移动_C++）

CCF CSP 第36次（2024.12）（1_移动_C） 解题思路：思路一： 代码实现代码实现（思路一）： 时间限制： 1.0 秒空间限制： 512 MiB 原题链接解题思路&…...

编程日记 2026/2/4 15:03:44

7.thinkphp的路由

一．路由简介 1. 路由的作用就是让URL地址更加的规范和优雅，或者说更加简洁； 2. 设置路由对URL的检测、验证等一系列操作提供了极大的便利性； 3. 路由是默认开启的，如果想要关闭路由，在config/app.php配置…...

编程日记 2026/2/5 19:50:49

Browser-use 是连接你的AI代理与浏览器的最简单方式

AI MCP 系列 AgentGPT-01-入门介绍 Browser-use 是连接你的AI代理与浏览器的最简单方式 AI MCP(大模型上下文)-01-入门介绍 AI MCP(大模型上下文)-02-awesome-mcp-servers 精选的 MCP 服务器 AI MCP(大模型上下文)-03-open webui 介绍是一个可扩展、功能丰富且用户友好的…...

编程日记 2025/11/29 8:59:07

（五）机器学习---决策树和随机森林

在分类问题中还有一个常用算法：就是决策树。本文将会对决策树和随机森林进行介绍。目录一.决策树的基本原理 （1）决策树 （2）决策树的构建过程 （3）决策树特征选择 （4&#xff0…...

编程日记 2026/2/6 21:45:05

【项目管理】第16章项目采购管理-- 知识点整理

项目管理-相关文档，希望互相学习，共同进步风123456789～-CSDN博客 （一）知识总览项目管理知识域知识点： （项目管理概论、立项管理、十大知识域、配置与变更管理、绩效域） 对应&…...

编程日记 2026/2/8 1:08:53

2025年4月15日百度一面面经

目录 1. 代理相关从静态代理到动态代理 2. cglib可以代理被final修饰的类吗，为什么 3. JVM 体系结构 4. 垃圾回收算法 5. 什么是注解如何使用底层原理 6. synchronized和reentrantlock 7. 讲一下你项目中 redis的分布式锁与java自带的锁有啥区别 8. post 请求和 ge…...

编程日记 2025/11/29 1:00:25

从图像“看出动作”

📘 第一部分：运动估计（Motion Estimation） 🧠 什么是运动估计？ 简单说： 👉 给你一段视频，计算机要“看懂”里面什么东西动了、往哪动了、有多快。比如： 一…...

编程日记 2026/2/5 1:51:35

鸿蒙案例---生肖抽卡

案例源码： Zodiac_cards: 鸿蒙生肖抽奖卡片效果演示初始布局 1. Badge 角标组件此处为语雀内容卡片，点击链接查看：https://www.yuque.com/kevin-nzthp/lvl039/rccg0o4pkp3v6nua 2. Grid 布局 // 定义接口 interface ImageCount {url:…...

编程日记 2026/2/5 1:53:06

达梦数据库-学习-18-ODBC数据源配置（Linux）

一、环境信息名称值CPU12th Gen Intel(R) Core(TM) i7-12700H操作系统CentOS Linux release 7.9.2009 (Core)内存4G逻辑核数2DM版本1 DM Database Server 64 V8 2 DB Version: 0x7000c 3 03134284194-20240703-234060-20108 4 Msg Versi…...

编程日记 2025/11/29 5:37:29

Conda 入门指令教程

Conda 入门指令教程 Conda 是一个强大的包和环境管理工具，广泛应用于数据科学和机器学习项目中。本文将介绍 Conda 的常用指令，帮助你快速上手。 1. Conda 基础操作查看 Conda 版本 conda --version显示当前安装的 Conda 版本。更新 Conda conda…...

编程日记 2025/11/28 4:08:05

BERT、T5、ViT 和 GPT-3 架构概述

1. BERT（Bidirectional Encoder Representations from Transformers）

架构特点

代表性应用

2. T5（Text-to-Text Transfer Transformer）

架构特点

代表性应用

3. ViT（Vision Transformer）

架构特点

代表性应用

4. GPT-3（Generative Pre-trained Transformer 3）

架构特点

代表性应用

总结对比

相关文章：