当前位置：首页 > news >正文

BARTBERT

news 文章来源：https://blog.csdn.net/GDHBFTGGG/article/details/142286451 2025/5/13 21:00:52

BART和BERT都是基于Transformer架构的预训练语言模型。

模型架构：
- BERT (Bidirectional Encoder Representations from Transformers) 主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本，并生成文本的表示。BERT特别擅长理解语言的上下文，因为它在预训练阶段使用了掩码语言模型（MLM）任务，即随机遮蔽一些单词，然后让模型预测这些被遮蔽的单词。
- BART 是一个解码器（Decoder）模型，它使用了Transformer的解码器部分。BART在预训练阶段使用了类似于BERT的MLM任务，但它还包括了一个下一句预测（NSP）任务，这使得BART在生成文本方面更为擅长。
预训练任务：
- BERT的预训练任务主要是MLM，它随机遮蔽输入文本中的一些单词，并让模型预测这些单词。
- BART的预训练任务除了MLM，还包括一个句子排列任务，即模型需要预测给定句子序列的正确顺序。
应用场景：
- BERT通常用于需要理解文本的任务，如文本分类、命名实体识别、问答系统等。
- BART则更适合于文本生成任务，如摘要、翻译、文本填空等。
生成方式：
- BERT是一个自回归模型，它在生成文本时是逐词生成的，每次只预测一个词。
- BART也是一个自回归模型，但它在生成文本时可以更灵活地处理序列到序列的任务，例如在机器翻译中将一个句子从一种语言翻译成另一种语言。
使用以下代码来加载BERT模型并进行一个简单的文本分类任务： from transformers import BertTokenizer, BertForSequenceClassification
import torch

# 加载预训练的BERT模型和分词器
model_name = "bert-base-uncased" # 选择一个BERT模型
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name)

# 准备输入数据
text = "This is a positive example." # 一个正面的例子
encoded_input = tokenizer(text, return_tensors='pt')

# 模型预测
model.eval() # 将模型设置为评估模式
with torch.no_grad():
output = model(**encoded_input)

# 输出预测结果
predictions = torch.nn.functional.softmax(output.logits, dim=-1)
print(predictions)
对于BART模型，进行文本摘要任务，可以使用以下代码： from transformers import BartTokenizer, BartForConditionalGeneration
import torch

# 加载预训练的BART模型和分词器
model_name = "facebook/bart-large-cnn" # 选择一个BART模型，这里使用CNN新闻摘要任务的预训练模型
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 准备输入数据
text = "The quick brown fox jumps over the lazy dog." # 一个完整的句子
encoded_input = tokenizer(text, return_tensors='pt', max_length=512, truncation=True)

# 生成摘要
model.eval() # 将模型设置为评估模式
with torch.no_grad():
output = model.generate(**encoded_input, max_length=20)

# 输出生成的摘要
print(tokenizer.decode(output[0], skip_special_tokens=True))
模型目标：
- BERT的目标是提高对文本的理解能力，通过预训练的上下文表示来增强下游任务的性能。
- BART的目标是提高文本生成的能力，通过预训练的序列到序列表示来增强生成文本的连贯性和准确性。

尽管BART和BERT在设计和应用上有所不同，但它们都利用了Transformer的强大能力来处理自然语言，并在NLP领域取得了显著的成果。

BARTBERT

BART和BERT都是基于Transformer架构的预训练语言模型。模型架构： BERT (Bidirectional Encoder Representations from Transformers) 主要是一个编码器（Encoder）模型，它使用了Transformer的编码器部分来处理输入的文本&#xff0…...

编程日记 2024/9/16 7:58:37

C++ 11新特性（1）

文章目录 C11新特性之auto和decltype知识点autoauto推导规则什么时候使用auto？ decltypedecltype推导规则 auto和decltype的配合使用 C11新特性之左值引用、右值引用、移动语义、完美转发左值、右值纯右值、将亡值纯右值将亡值左值引用、右值引用移动语义深拷贝、浅…...

编程日记 2024/9/16 7:54:32

彻底理解浅拷贝和深拷贝

目录浅拷贝实现深拷贝实现自己手写浅拷贝浅拷贝是指创建一个新对象，这个对象具有原对象属性的精确副本基本数据类型（如字符串、数字等），在浅拷贝过程中它们是通过值传递的，而不是引用传递，修改值并不…...

编程日记 2024/9/16 7:53:31

Spring4-IoC2-基于注解管理bean

目录开启组件扫描使用注解定义bean Autowired注入场景一：属性注入场景二：set注入场景三：构造方法注入场景四：形参注入场景五：只有一个构造函数，无注解场景六：Autowired和Quali…...

编程日记 2024/9/16 7:51:29

AI基础 L22 Uncertainty over Time I 时间的不确定性

Time and Uncertainty 1 Time and Uncertainty States and Observations • discrete-time models: we view the world as a series of snapshots or time slices • the time interval ∆ between slices, we assume to be the same for every interval • Xt: denotes the se…...

编程日记 2024/9/16 7:48:20

中小型企业网络构建

1 什么是 VLAN？ VLAN，指的是虚拟局域网，是一种 2 层技术。可以在交换机上实现广播域的隔离。从而可以减小数据广播风暴对交换网络的影响，降低了网络管理难度，同时可以实现网络规模的灵活扩展。 2 Trunk 链路与 Acces…...

编程日记 2024/9/16 7:47:19

PXE服务

一.PXE服务的功能介绍 1.无盘启动：PXE允许计算机在没有本地存储设备的情况下启动操作系统。这对于构建无盘工作站非常有用，因为计算机可以直接从网络加载操作系统和其他应用程序1。 2.远程安装操作系统：PXE技术可以用于远程安装操作系统&…...

编程日记 2024/9/16 7:45:17

Docker技术深度解析与实践应用

Docker技术深度解析与实践应用引言在现代软件开发与部署的浪潮中，Docker作为一种轻量级的容器化技术，凭借其高效、一致和灵活的特性，逐渐成为云原生应用开发和部署的基石。本文将深入探讨Docker的核心概念、技术原理、实践应用&#xff0…...

编程日记 2024/9/16 7:44:16

链动321模式小程序开发源码

链动31模式概述链动31模式是一种基于技术的新型商业模式，它通过激励用户分享和推广，实现用户、企业和平台的共赢。该模式通常涉及商品展示、积分系统、分享推广和排行榜等功能，旨在通过用户之间的社交裂变来扩大销售和品牌影响力。如何开发这…...

编程日记 2024/9/16 7:43:15

java开发中间件学习记录（持续更新中~）

1 Redis 2JVM 3 java基础底层 4Mysql 5 spring 6 微服务 7.......(持续更新) One:Redis篇 1:Redis 1.穿透 1.1缓存穿透 1.1.1布隆过滤器 1.2缓存击穿 2：击穿 1.3：缓存雪崩 1.4:双写一致 1.5.持久化（RDB,AOF） 1.6…...

编程日记 2024/9/16 7:42:14

（批处理）无限弹窗cmd

代码部分 echo off echo 好了，可以退出了 pause>nul echo 再点就要无限弹窗了！ pause >nul echo 你还点？ pause >nul echo 再给你最后一次机会，别点了，再点准备重启 pause >nul echo 点击任意键变身奥特曼…...

编程日记 2024/9/16 7:40:12

解决ubuntu 24.04 ibus出现卡死、高延迟问题

问题描述 ubuntu中使用ibus经常会出现卡死、高延迟的问题，网上找了一些解决方法就手动输入命令是重启。但是键盘卡死了没法输入，不能很有效的解决问题。解决思路通过一个bash脚本监测ibus进程，当出现进程卡死的时候自动重启。 bash代码…...

编程日记 2024/9/16 7:39:11

减少脏页标记技术中处理时间的方法

减少脏页标记技术中处理时间的方法一、引言在数据库系统中，脏页标记技术对于确保数据的一致性和持久性至关重要。然而，脏页标记过程可能会消耗一定的处理时间，影响数据库的性能。因此，寻找有效的方法来减少脏页标记技术中的处理时间具有重要意义。二、优化数据结构 …...

编程日记 2024/9/16 7:38:10

828华为云征文 | 华为云Flexusx与Docker技术融合，打造个性化WizNote服务

前言华为云Flexus X实例携手Docker技术，创新融合打造高效个性化WizNote服务。华为云Flexus X实例的柔性算力与Docker的容器化优势相结合，实现资源灵活配置与性能优化，助力企业轻松构建稳定、高效的云端笔记平台。828华为云企业上云节特惠来袭…...

编程日记 2024/9/16 7:37:09

JavaScript事件处理和常用对象

文章目录前言一、事件处理程序 1.JavaScript 常用事件2.事件处理程序的调用二、常用对象 1.Window 对象2.String 对象3.Date 对象总结前言 JavaScript 语言是事件驱动型的。这意味着，该门语言可以通过事件触发来调用某一函数或者一段代码。该文还简单介绍了Window…...

编程日记 2024/9/16 7:34:07

Qt基础类05-尺寸类QSize

Qt基础类05-尺寸类QSize 摘要基本信息写在前面重要成员函数举例7个QSize QSize::boundedTo(const QSize &otherSize) constQSize QSize::expandedTo(const QSize &otherSize) constbool QSize::isEmpty() constbool QSize::isNull() constbool QSize::isValid() constQ…...

编程日记 2024/9/16 7:33:05

Vue 2中的this指向详解

在JavaScript中，this的指向是许多开发者经常遇到的问题，尤其是在使用Vue这样的框架时。在Vue 2中，理解this的指向对于正确地访问组件的数据和方法至关重要。 1. this在Vue组件中的指向在Vue组件的选项中，this通常指向当前组件实…...

编程日记 2024/9/16 7:32:04

长业务事务的离线并发问题

事务指代一组操作同时成功或同时失败，事务可分为两类： 系统事务：即关系数据库事务，一次数据库连接中由start transaction或begin开启，commit表示提交，rollback表示回滚；业务事务：完…...

编程日记 2024/9/16 7:30:02

黑马程序员Java笔记整理(day01)

1.windowsR进入运行，输入cmd 2.环境变量 3.编写java第一步 4.使用idea 5.注释 6.字面量 7.变量 8.二进制 9.数据类型 10.关键词与标识符...

编程日记 2024/9/16 7:27:59

VMware Tools系列一：安装VMware Tools的作用

最近笔者安装了VMware Workstation pro 17，同时在VMware中安装了华为的Open Euler服务器，由于虚拟机Open Euler经常需要与宿主机win10交换数据，很不方便，而安装VMware Workstation pro 17并没有自动安装了VMware Tools &#xff0…...

编程日记 2024/9/16 7:26:59

使用大语言模型（LLM）修正小段乱码（Mojibake）为正常文本

Python方案在上一篇文章ftfy：修正小段乱码（Mojibake）为正常文本的Python库中，我介绍了ftfy这个库。但随着持续的开发，我发现它仍然有一些解决不了的转换。如下： >>> ftfy.fix_text(‡›‘…...

编程日记 2024/9/16 7:25:58

C++ 访问限定符

个人主页：Jason_from_China-CSDN博客所属栏目：C系统性学习_Jason_from_China的博客-CSDN博客所属栏目：C知识点的补充_Jason_from_China的博客-CSDN博客概念概述 C一种实现封装的方式，用类将对象的属性与方法结合在一块&#xf…...

编程日记 2024/9/16 7:24:57

几种mfc140u.dll常见错误情况，以及mfc140u.dll文件修复的方法

如果你遇到与mfc140u.dll 文件相关的错误，这通常指的是该mfc140u.dll文件可能丢失、损坏或与您的应用程序不兼容。详细分析关于mfc140u.dll文件错误会对系统有什么影响，mfc140u.dll文件处于什么样的位置？以下是几种常见的错误情况及其修复方法…...

编程日记 2024/9/16 7:23:35

[产品管理-21]：NPDP新产品开发 - 19 - 产品设计与开发工具 - 详细设计与规格定义

目录前言： 一、详细设计与规格定义概述 1、产品详细设计 2、规格定义 3、详细设计与规格定义的关系 4、实际应用中的注意事项二、详细设计与规格定义主要工具 2.1 质量功能展开QFD - 需求跟踪矩阵 1、QFD的基本原理 2、QFD的实施步骤 3、QFD的优势与应…...

编程日记 2024/9/16 7:22:31

powershell@文件大小排序@文件夹磁盘占用分析

文章目录 abstractpowershell对于列出子目录大小的支持状况按文件大小排序指定目录下所有文件扩展的专用函数介绍统计目录或文件的大小👺对指定目录以友好的格式列出所有文件和子目录的大小函数灵活性说明👺 综合用例其他相关软件易用系列 abstract 在…...

编程日记 2024/9/16 7:19:07

详解c++多态---上

virtual关键字 1.可以修饰原函数，为了完成虚函数的重写，满足多态的条件之一。 class Person { public:virtual void BuyTicket() { cout << "买票-全价" << endl; } };class Student : public Person { public:virtual void Buy…...

编程日记 2024/9/16 7:17:05

emWin5的图片半透明之旅

文章目录目标过程直接使用png (失败了)通过 BmpCvt.exe 转换一下（成功了）通过bmp转 （半成功吧） 补充工程结构整理目标显示半透明效果，类似png那种，能透过去，看到背景。过程直接使用png …...

编程日记 2024/9/16 7:09:00

【RabbitMQ 项目】项目概述

项目概述一.角色划分二.服务器模块概述1.本地模块2.网络模块3.服务器模块三.模块详细划分1.服务端2.客户端一.角色划分该项目的模型是一个跨主机的生产消费模型，有三种角色：生产者，消费者，中间人。对应就要实现三个大模块&…...

编程日记 2024/9/16 7:05:57

【VSCode】VSCode Background 背景插件辅助窗口程序

前排贴上Github项目链接 GitHub窗口项目链接这是一个基于VSCode上由shalldie上传的background扩展制作的windows窗口程序。该程序旨在通过窗口程序尽可能的完善该扩展原有的功能。 background - shalldie 的最大优势是我目前仅在其扩展上发现了UseFront的选项，这…...

编程日记 2024/9/16 7:03:56

gdb 前端：kdbg 安装使用

文章目录 1. 前言2. kdbg 安装使用2.1 安装 kdbg2.2 使用 kdbg 1. 前言限于作者能力水平，本文可能存在谬误，因此而给读者带来的损失，作者不做任何承诺。 2. kdbg 安装使用 2.1 安装 kdbg kdbg 是 gdb 的图形化界面的前端，在 …...

编程日记 2024/9/16 6:59:51

相关文章：