当前位置：首页 > news >正文

模型优势缺陷整理

news 2025/7/16 1:16:38

（1）BERT

1. 计算资源消耗：bert模型是一个相对较大的模型，具有数亿个参数。因此，为了训练和使用bert模型，需要大量的计算资源和时间。

2. 学习不足问题：尽管bert模型在大规模语料库上进行了预训练，但在某些任务上，它可能会出现学习不足的问题，导致性能下降。否定学习能力差。

3. 处理长文本困难：bert模型只能处理长度较短的文本，而不能直接处理超过512个标记的文本。

4. 预训练数据集限制：bert模型的预训练数据集主要来自于英文****等大型英语语料库，并且对其他语言的支持相对较少，这可能会影响其在其他语言上的性能表现。

（2）Transformer

1. 需要大量的计算资源：transformer模型通常比传统的循环神经网络（rnn）和卷积神经网络（cnn）更复杂，并且需要更多的计算资源和存储空间，使得训练和部署变得更加困难。

2. 输入长度限制：由于transformer模型是基于自注意力机制实现的，输入序列中所有的标记都需要同时考虑到，因此在处理长序列时，可能会遇到内存限制或计算效率低下等问题。

3. 数据稀疏性问题：对于某些应用场景，如推荐系统，数据往往是非常稀疏的。然而，由于transformer模型是建立在密集向量上的，这可能会导致在处理稀疏数据时性能下降。

4. 过拟合风险：由于transformer模型具有非常强的表示学习能力，当训练数据不充分或噪声较大时，可能会出现过拟合的问题。因此，在训练和部署transformer模型时，需要注意数据质量和模型正则化等问题。

（3）GNN

1. 局限性：GNN模型依赖于图结构，因此不适用于非图结构数据。此外，它们只能处理静态图，无法很好地适应动态环境。

2. 计算复杂度高：由于每个节点的邻居节点数不同，进行相互之间特征聚合的计算量较大，导致GNN模型的训练和推理速度较慢。

3. 超参数选择问题：gnn模型有许多超参数需要调整，例如网络架构、损失函数、学习率等，这需要大量的实验来找到最佳的超参数组合，消耗时间和计算资源。

4. 过拟合问题：gnn模型在处理大规模图时容易过拟合，这意味着模型在训练集上表现良好，但在测试数据上表现差。

5. 随机性问题：gnn模型具有一定的随机性，不同的初始权重或不同的采样顺序可能导致不同的结果，这对于模型的可复现性造成了影响。

6.对于大规模语料库来说，效率较低。gnn模型需要在整张图上进行计算，因此在处理大规模语料库时，它的效率会受到限制。相比之下，lstm、bert、cnn、transformer等模型通常采用逐个处理的方式，可以更好地处理大规模数据集。

7.对于长文本序列来说，效果可能不如其他模型。gnn模型不太适合处理长文本序列，这是因为gnn模型的设计初衷主要是为了捕捉局部特征以及节点之间的关系，而对于长序列来说，这种关系会变得十分复杂，同时可能会出现梯度消失或梯度**的问题。

（4）LSTM

优点：

长序列处理能力：lstm在处理长序列数据时非常有效，它可以记住先前的信息并将其应用于后续输入。这使得lstm在处理文本和语音等自然语言数据时表现出色。

防止梯度消失和问题**：由于lstm使用门控机制来控制信息流动，因此可以更好地解决梯度消失和梯度**问题。这使得lstm在训练深层神经网络时表现良好。

适应不同的输入长度：lstm可以接受变长的输入序列，并且可以对不同输入长度进行适应。这使得lstm成为处理自然语言序列数据的一种强大工具。

缺点：

计算资源消耗： lstm需要大量的计算资源，在训练和测试过程中需要较长的时间。在处理大规模数据时可能会遇到困难。

无法并行化： lstm在训练和推理过程中无法进行有效的并行化，这也导致了计算效率低下和训练时间较大的问题。

信息流动受限：lstm虽然可以解决梯度消失和**的问题，但是它仍然存在信息流动受限的问题。这可能导致网络在处理长序列时出现性能下降的情况。

相较于transformer，不能并行并且前面的信息容易遗忘

（5）CNN

优点

计算速度快cnn模型具有高效的并行计算能力，可以处理nlp中的大规模数据集，适用于需要实时预测的场景。

局部特征提取能力强：cnn模型通过卷积操作和池化操作可以对输入的局部特征进行提取，能够捕捉到文本中的局部信息，使得其对短文本分类有着很好的表现。

参数共享：cnn模型采用参数共享机制，可以减少模型的参数数量，降低过拟合的风险，同时也加快了训练速度。

稳定性好：cnn模型对输入的噪声和变形具有一定的鲁棒性，因此在处理一些存在噪声或变形的文本数据时，cnn模型能够表现出比其他模型更好的鲁棒性。

缺点

无法捕捉长期依赖关系：cnn模型只能对局部特征进行提取，难以捕捉长期依赖关系，因此在处理需要对历史信息进行建模的任务时不如lstm和transformer模型。

对文本长度不敏感：cnn模型采用固定大小的卷积核，无法灵活地处理不同长度的输入，因此在处理不同长度的文本数据时需要进行填充或者截断操作，这可能会导致信息的丢失。

缺乏全局语义信息：由于cnn模型只关注输入的局部特征，因此其对全局语义信息的捕捉能力相对较弱，不如bert和transformer等模型。

（6）n-gram

n-gram引入马尔科夫假设，假设当前单词出现的概率只与前n-1个单词有关。

优点：

(1) 采用极大似然估计，参数易训练；(2) 完全包含了前 n-1 个词的全部信息；(3) 可解释性强，直观易理解。

缺点：

(1) 缺乏长期依赖，只能建模到前 n-1 个词；(2) 随着 n 的增大，参数空间呈指数增长；(3) 数据稀疏，难免会出现OOV的问题；(4) 单纯的基于统计频次，泛化能力差。

模型优势缺陷整理

（1）BERT 1. 计算资源消耗：bert模型是一个相对较大的模型，具有数亿个参数。因此，为了训练和使用bert模型，需要大量的计算资源和时间。 2. 学习不足问题：尽管bert模型在大规模语料库上进行了预训…...

编程日记 2023/5/29 21:33:24

编写猫咪相册应用 HTML

文章目录1. 标题元素标签2. p元素用于在网站上创建一段文本3. 注释4. 页面主要部分标识标签5. 通过使用img元素来为你的网站添加图片6. 使用锚点元素(a)链接到另一个页面7. 使用 section 元素将照片内容与未来的内容分开8. 无序列表(ul)元素，列表项(li)元素在列表中…...

编程日记 2023/4/17 19:39:29

基于Arduino与LabVIEW的远程家庭监控系统

在基于Arduino与LabVIEW的远程家庭监控系统中，Arduino Uno控制器需要完成以下功能：1）通过W5100网络模块接收并判断命令，采集和传输温度、煤气浓度、热释电传感器的数据，并通过W5100网络模块上传给LabVIEW软件。2&#…...

编程日记 2023/4/17 19:34:28

使用FRP（快速反向代理）实现内网穿透——以腾讯云服务器为例

一、FRP简介 FRP，即快速反向代理技术（fast reverse proxy）。本文的FRP程序是基于github开源项目GitHub - fatedier/frp。当前，该程序可实现：“将位于 NAT 或防火墙后面的本地服务器暴露给互联网”。它目前支持 TCP 和…...

编程日记 2023/5/31 11:00:35

d跨语言链接优化

原文使用LDC的(LTO)链接时优化的简短文章,包含演示了如何提高程序性能的简单示例.因为LTO在LLVMIR级别工作,因此可跨越C/D语言优化! 重要提示:LDC/LLVM的LTO在窗口上不可用. 链接时优化 (LTO)链接时优化是指链接时的程序优化.链接器提取所有目标文件在一起,并合并到一个程序…...

编程日记 2023/4/17 19:24:25

【Linux】-- 进程概念的引入

目录硬件冯诺依曼体系结构冯诺依曼体系结构推导重点概念网络数据流向软件操作系统(Operator System - OS) 概念定位进程内核数据结构PCB（task_struct） 通过系统调用创建进程-fork初始 fork基本用法使用if进行分流查看运行效果 …...

编程日记 2023/5/31 20:57:41

一文看懂“低代码、零代码”是什么？有什么区别？

低代码和零代码近几年热度一直居高不下，乍一看，很容易混淆低代码和零代码开发平台—— 因为它们都是传统开发的替代方案，旨在通过类似于可视化编程的功能加速软件开发过程。但二者根本不是一回事。从开发人员经验、目标角色到使用场景&…...

编程日记 2023/4/17 19:14:23

【华为OD机试真题】去除多余的空格（java）

去除多余空格知识点字符串数组Q队列时间限制：2s空间限制：256MB限定语言：不限题目描述：去除文本多余空格，但不去除配对单引号之间的多余空格。给出关键词的起始和结束下标，去除多余空格后刷新关键词的起始和结束下标。输入： Life is painting a picture, not …...

编程日记 2023/5/31 21:03:08

【SQL 必知必会】- 第十三课创建高级联结

目录使用表别名 Oracle 中没有AS 使用不同类型的联结自联结用自联结而不用子查询自然联结外联结全外联结使用带聚集函数的联结使用联结和联结条件使用表别名 SQL 除了可以对列名和计算字段使用别名，还允许给表名起别名。这样做有两个主要理由&#xff…...

编程日记 2023/4/17 19:04:20

ios逆向工具有那些

以下是一些常用的 iOS 逆向工具： Cycript：一种用于在运行时动态分析和修改 iOS 应用程序的强大工具，可以与应用程序进行交互式调试和注入代码。 Frida：一个强大的动态二进制插桩工具，可以在运行时修改应用程序的行为&…...

编程日记 2023/4/17 18:59:18

【软件设计师14】UML建模

UML建模稳定出一个，但是由于UML的图比较多，所以这种题比数据流图和数据库难度高一般都会考用例图和类图，再附加其他的图 1. 用例图包含关系include：比如登记外借信息必须先有用户登录扩展关系extend：修改书籍…...

编程日记 2023/4/17 18:54:17

容器镜像的设计原理

1 概述： 1.1 历史概要 2016年，Docker制定了镜像规范v2，并在Docker 1.10中实现了这个规范。镜像规范v2分为Schema 1和Schema 2。 Schema 1主要兼容使用v1规范的Docker客户端（从2017年2月起，镜像规范v1不再被Registry支…...

编程日记 2023/4/17 18:49:16

arm64异常向量表1 arm64异常向量表2 linux arm64异常向量表3 kernel_ventry宏4 异常向量表的保存4. VBAR_ELx寄存器4.2 __primary_switched4.3 __primary_switched1 arm64异常向量表 When an exception occurs, the processor must execute handler code which corresponds to …...

编程日记 2023/4/17 18:44:15