当前位置：首页 > news >正文

自然语言处理-BERT处理框架-transformer

news 2026/2/10 8:50:03

1.介绍

2.Transformer

2.1 引言

2.2 传统RNN网络的问题

2.3 整体架构

2.4 Attention

2.5 Self-Attention如何计算

3.multi-headed机制

4. BERT训练方法

1.介绍

BERT：当前主流的解决框架，一站式搞定NLP任务。（解决一个NLP任务时的考虑方法之一）

BERT：google开源的框架

BERT：自然语言的通用解决框架

必备知识：Word2vec,RNN(了解词向量模型，RNN模型如何建模)

重点：Transformer网络架构

训练方法： BERT训练方法

google开源提供预训练模型，直接使用

2.Transformer

2.1 引言

BERT时基于Transformer框架的，所以了解Tansformer就基本了解BERT。

提出问题：transformer要做一件什么事呢？？

答：就像将自然语言翻译成计算机语言，让其学习。

其基本组成依旧是机器翻译模型中常见的Seq2Seq网络。输入输出都很直观，其核心就是中间的网络架构了。

2.2 传统RNN网络的问题

可以看出这种依次计算的方式，计算效率不高，且后面的计算需要依赖前面的计算结果。

预训练好的词向量就不会改变了，这种对于复杂语境应用不好。所以能不能让其并行计算，提高运算效率，且词向量的构成考虑到上下文的语境呢？？？

答案：self-Attention机制来考虑进行并行计算，输出结果的是同时你算出来的，现在已经基本取代RNN了。

2.3 整体架构

接下来我们将围绕这几个问题来展开对Tansformer的介绍：
1. 输入如何编码？
2.输出结果是什么？

3.Attemtion的目的？

4.怎样组合在一起？

2.4 Attention

对于输入的数据，你的关注点是什么？（不同的数据，关注点不同，比如：一张带背景的人像，关注点是人像而不是背景）

如何才能让计算机关注到这些有价值的信息？

Self-Attention是计算机自己判断。

每个词不能只考虑到自己，在训练的过程中，所有词构成句子，但是每个词分配的权重不同。在编码时，不能只考虑自己，要把上下文都融入，编码成向量。

例如：

it代表的东西不同，怎么让计算机识别出来呢？每个词都要考虑上下文，结合每个词对它的影响来进行编码。

2.5 Self-Attention如何计算

其实，说到底，Self-Attention就是如何编码，提取特征。

1. 通过Embedding随机或者其他什么方式去初始化词向量表， $W^Q,W^K,W^v$ 权重矩阵

2. 训练这三个矩阵

得到 $X*W^Q$ , $Q1,Q2$ 同理得到 $K1,K2;V1,V2$

当两个向量求内积，若是两个向量垂直表示其线性无关，其值为0，若是两个向量线性相关其值越大表示两个向量相关性越大。那么 $q_i*k_j(i,j\in n)$ 表示上下文每个词相关性，值越大相关性越大。

为了不让分值随着向量维度增大而增加，让计算难度增大，最终除以 $\sqrt{d_k}$

每一个词的Attention计算

softmax后就得到整个加权结果

经过上述一系列分析，Self-Attention解决了并行计算和词向量的构建编码考虑到了上下文语境的问题。

3.multi-headed机制

4. BERT训练方法

transformer中Encoder是重要的，就是编码方式。再将其进行下游任务微调，使其变成分类，预测等类型的任务。是自然语言处理的万金油模板。

自然语言处理-BERT处理框架-transformer

目录 1.介绍 2.Transformer 2.1 引言 2.2 传统RNN网络的问题 2.3 整体架构 2.4 Attention 2.5 Self-Attention如何计算 3.multi-headed机制 4. BERT训练方法 1.介绍 BERT：当前主流的解决框架，一站式搞定NLP任务。（解决一个NLP任务时的考虑…...

编程日记 2024/6/30 4:20:16

Kafka~消息系列问题解决：消费顺序问题解决、消息丢失问题优化（不能保证100%）

消息消费顺序问题使用消息队列的过程中经常有业务场景需要严格保证消息的消费顺序，比如我们同时发了 2 个消息，这 2 个消息对应的操作分别对应的数据库操作是： 用户等级升级。根据用户等级下的订单价格假如这两条消息的消费顺序不一样造…...

编程日记 2024/6/30 4:19:15

如何确保日常安全运维中的数据加密符合等保2.0标准？

等保2.0标准下的数据加密要求等保2.0标准是中国信息安全等级保护制度的升级版，它对信息系统的安全保护提出了更为严格的要求。在日常安全运维中，确保数据加密符合等保2.0标准，主要涉及以下几个方面： 数据加密技术的选择&#xff…...

编程日记 2024/6/30 4:17:13

下一代的JDK - GraalVM

GraalVM是最近几年Java相关的新技术领域不多的亮点之一， 被称之为革命性的下一代JDK，那么它究竟有什么神奇之处，又为当前的Java开发带来了一些什么样的改变呢，让我们来详细了解下下一代的JDK 官网对GraalVM的介绍是 “GraalVM 是…...

编程日记 2024/6/30 4:16:12

Java三方库-单元测试

文章目录 Junit注解常用类无参数单测带参数的单测 Junit 主要版本有4和5版本，注解不太一样， 4迁移5参考官方文档主要记录下常用的一些操作其他复杂操作见官网 https://junit.org/junit5/docs/current/user-guide/#overview-java-versions 引入5.9…...

编程日记 2024/6/30 4:15:11

p2p、分布式，区块链笔记: libp2p基础

通信密钥 noise::{Keypair, X25519Spec} X25519/Ed25519类似RSA 算法。Noise 用于设计和实现安全通信协议。它允许通信双方在没有预先共享密钥的情况下进行安全的密钥交换，并通过加密和身份验证保护通信内容。libp2p 提供了对 Noise 协议的原生支持，它允…...

编程日记 2024/6/30 4:13:10

企业本地大模型用Ollama+Open WebUI+Stable Diffusion可视化问答及画图

最近在尝试搭建公司内部用户的大模型，可视化回答，并让它能画图出来，主要包括四块： Ollama 管理和下载各个模型的工具Open WebUI 友好的对话界面Stable Diffusion 绘图工具Docker 部署在容器里，提高效率以上运行环境Win10, Ollama,SD直接装在windows10下，然后安装Docker…...

编程日记 2024/6/30 4:11:06

使用Log进行调试使用Debug.Log方法可以将一些运行时信息打印到Console窗口中。打印时间戳 //获取时间 Debug.Log(DateTime.Now.ToString());//打印毫秒级的时间 Debug.Log(((DateTime.Now.ToUniversalTime().Ticks - 621355968000000000) / 10000) * 0.001); 打印自定义文…...

编程日记 2024/6/30 4:10:05

Py之dashscope：dashscope的简介、安装和使用方法、案例应用之详细攻略

Py之dashscope：dashscope的简介、安装和使用方法、案例应用之详细攻略目录 dashscope的简介 1、产品的主要特点和优势包括： dashscope的安装和使用方法 1、安装 2、使用方法 dashscope的案例应用 1、通义千问-Max：通义千问2.5系列 2…...

编程日记 2024/6/30 4:09:04

Go使用Gin框架开发的Web程序部署在Linux时，无法绑定监听Ipv4端口

最近有写一部分go语言开发的程序，在部署程序时发现，程序在启动后并没有绑定ipv4的端口，而是直接监听绑定ipv6的端口。当我用netstat -antup | grep 3601查找我的gin服务启动的端口占用情况的时候发现，我的服务直接绑定了tcp6 &a…...

编程日记 2024/6/30 4:06:01

【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn

【图解大数据技术】Hadoop、HDFS、MapReduce、Yarn HadoopHDFSHDFS架构写文件流程读文件流程 MapReduceMapReduce简介MapReduce整体流程 Yarn Hadoop Hadoop是Apache开源的分布式大数据存储与计算框架，由HDFS、MapReduce、Yarn三部分组成。广义上的Hadoop其实是指H…...

编程日记 2024/6/30 4:05:00

AGPT•intelligence：带你领略全新量化交易的风采

随着金融科技的快速发展，量化交易已经成为了投资领域的热门话题。越来越多的投资者开始关注和使用量化交易软件来进行投资决策。在市场上有许多量化交易软件可供选择。 Delaek，是一位资深的金融科技专家，在 2020年成立一家专注于数字资产量化…...

编程日记 2024/6/30 4:03:59

HarmonyOS Next开发学习手册——创建轮播 (Swiper)

Swiper 组件提供滑动轮播显示的能力。Swiper本身是一个容器组件，当设置了多个子组件后，可以对这些子组件进行轮播显示。通常，在一些应用首页显示推荐的内容时，需要用到轮播显示的能力。针对复杂页面场景，可以使用 Sw…...

编程日记 2024/6/30 4:02:57

【计算机视觉】mmcv库详细介绍

文章目录 MMVC库概览特点和优势主要组件应用案例示例一：数据加载和处理示例二：模型训练和验证MMVC库概览 MMCV 是一个用于计算机视觉研究的开源库，它为各种视觉任务提供了底层的、高度优化的 API。该库涵盖了从数据加载到模型训练的各个方面，广泛应用于开源项目，如 MMDet…...

编程日记 2024/6/30 4:00:55

【面试系列】Go 语言高频面试题

欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏： ⭐️ 全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题. ⭐️ AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、…...

编程日记 2024/6/30 3:59:54

React 扩展

文章目录 PureComponent1. 使用 React.Component，不会进行浅比较2. 使用 shouldComponentUpdate 生命周期钩子，手动比较3. 使用 React.PureComponent，自动进行浅比较 Render Props1. 使用 Children props（通过组件标签体传入结构&…...

编程日记 2024/6/30 3:58:52

IT入门知识第八部分《云计算》（8/10）

目录云计算：现代技术的新篇章 1. 云计算基础 1.1 云计算的起源和发展云计算的早期概念云计算的发展历程 1.2 云计算的核心特点按需自助服务广泛的网络访问资源池化快速弹性按使用量付费 1.3 云计算的优势和挑战成本效益灵活性和可扩展性维…...

编程日记 2024/6/30 3:57:51

Linux-笔记全志T113移植正点4.3寸RGB屏幕笔记

目录前言线序整理软件显示调试触摸调试背光调试前言由于手头有一块4.3寸的RGB屏幕(触摸IC为GT1151)，正好开发板上也有40Pin的RGB接口，就想着给移植一下，前期准备工作主要是整理好线序，然后用转接板与杜邦线连接验证好…...

编程日记 2024/6/30 3:56:50

Linux shell编程学习笔记59： ps 获取系统进程信息，类似于Windows系统中的tasklist 命令

0 前言系统进程信息是电脑网络信息安全检查中的一块重要内容，对于使用Linux和基于Linux作为操作系统的电脑来说，可以使用ps命令。 1 ps命令的功能、格式和选项说明 1.1 ps命令的功能 Linux 中的ps（意为：process status&…...

编程日记 2024/6/30 3:55:49

在Android中使用ProgressBar显示进度

在Android中使用ProgressBar显示进度大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天我们将探讨如何在Android应用中使用ProgressBar来显示进度。ProgressB…...

编程日记 2024/6/30 3:54:48

【网络安全产品大调研系列】2. 体验漏洞扫描

前言 2023 年漏洞扫描服务市场规模预计为 3.06（十亿美元）。漏洞扫描服务市场行业预计将从 2024 年的 3.48（十亿美元）增长到 2032 年的 9.54（十亿美元）。预测期内漏洞扫描服务市场 CAGR（增长率&…...

编程新知 2026/2/4 12:43:08

基于Docker Compose部署Java微服务项目

一. 创建根项目根项目（父项目）主要用于依赖管理一些需要注意的点： 打包方式需要为 pom<modules>里需要注册子模块不要引入maven的打包插件，否则打包时会出问题 <?xml version"1.0" encoding"UTF-8…...

编程新知 2026/2/5 3:09:56

重启Eureka集群中的节点，对已经注册的服务有什么影响

先看答案，如果正确地操作，重启Eureka集群中的节点，对已经注册的服务影响非常小，甚至可以做到无感知。但如果操作不当，可能会引发短暂的服务发现问题。下面我们从Eureka的核心工作原理来详细分析这个问题。 Eureka的…...

编程新知 2025/9/24 3:38:34

华硕a豆14 Air香氛版，美学与科技的馨香融合

在快节奏的现代生活中，我们渴望一个能激发创想、愉悦感官的工作与生活伙伴，它不仅是冰冷的科技工具，更能触动我们内心深处的细腻情感。正是在这样的期许下，华硕a豆14 Air香氛版翩然而至，它以一种前所未有的方式&#x…...

编程新知 2026/1/29 14:27:00

uniapp 字符包含的相关方法

在uniapp中，如果你想检查一个字符串是否包含另一个子字符串，你可以使用JavaScript中的includes()方法或者indexOf()方法。这两种方法都可以达到目的，但它们在处理方式和返回值上有所不同。使用includes()方法 includes()方法用于判断一个字…...

编程新知 2025/9/28 19:00:18

省略号和可变参数模板

本文主要介绍如何展开可变参数的参数包 1.C语言的va_list展开可变参数 #include <iostream> #include <cstdarg>void printNumbers(int count, ...) {// 声明va_list类型的变量va_list args;// 使用va_start将可变参数写入变量argsva_start(args, count);for (in…...

编程新知 2025/11/21 0:25:40