当前位置: 首页 > news >正文

[论文笔记]GLM

引言

今天带来论文GLM: General Language Model Pretraining with Autoregressive Blank Infilling的笔记。论文中文标题为 通用语言模型预训练与自回归填空。

有很多不同类型的预训练架构,包括自编码模型(BERT、RoBERTa、ALBERT)、自回归模型(GPT系列)以及编码器-解码器模型(T5、MASS、BART、PALM)。然而,没有任何预训练框架能够在自然语言理解(NLU)、无条件生成和有条件生成这三个主要类别的所有任务中表现最佳。

作者提出了基于自回归填空的通用语言模型(GLM)来应对这一挑战。

GLM通过添加二维位置编码改进填空预训练,并允许以任意顺序预测文本片段(span),在NLU任务上相比BERT和T5取得了性能提升。同时,通过改变文本片段的数量和长度,GLM可以针对不同类型的任务进行预训练。在跨NLU、有条件和无条件生成的广泛任务范围内,GLM相比具有相同模型大小和数据的BERT、T5和GPT,在性能上表现更好。

总体介绍

通常,现存的预训练框架可以分成三类:自回归、自编码和编码器-解码器。

自回归模型,如GPT,学习自左向右的语言模型,成功应用在文本生成和扩容到十亿参数级别时的少样本学习能力。但其有一个本质缺点,即这种单向的注意力机制无法在NLU任务中完整捕获上下文信息。

自编码模型,如BERT,通过去噪(denoising)目标(MLM)学习双向上下文编码器。该编码器产生的上下文表示可以适用于NLU任务,但无法直接用于文本生成。

编码器-解码器模型也在编码器上采用双向注意力,在解码器上采用单向注意力,

相关文章:

[论文笔记]GLM

引言 今天带来论文GLM: General Language Model Pretraining with Autoregressive Blank Infilling的笔记。论文中文标题为 通用语言模型预训练与自回归填空。 有很多不同类型的预训练架构,包括自编码模型(BERT、RoBERTa、ALBERT)、自回归模型(GPT系列)以及编码器-解码器模型…...

漏洞扫描环境:win10系统用VMware Workstation打开虚拟机若干问题

win10系统用VMware Workstation打开虚拟机若干问题 一 .VMware打开虚拟机就蓝屏重启怎么解决?一. VMware打开虚拟机就蓝屏重启怎么解决?方法一:1、同时按下CTRLSHIFTESC打开任务管理器功能,之后依次点击-详细信息-性能后出现下列界…...

OpenCV实现模板匹配和霍夫线检测,霍夫圆检测

一,模板匹配 1.1代码实现 import cv2 as cv import numpy as np import matplotlib.pyplot as plt from pylab import mplmpl.rcParams[font.sans-serif] [SimHei]#图像和模板的读取 img cv.imread("cat.png") template cv.imread(r"E:\All_in\o…...

消息队列实现进程之间通信方式

1. snd 源代码 #include <myhead.h>#define ERR_MSG(msg) do{\fprintf(stderr,"__%d__:",__LINE__);\perror(msg);\ }while(0)typedef struct{ long msgtype; //消息类型char data[1024]; //消息正文 }Msg;#define SIZE sizeof(Msg)-sizeof(long)int main(i…...

用简单例子讲清楚webgl模板测试

文章目录 搭建简易的webgl环境绘制简单三角形&#xff08;不带stencilTest)绘制另一个三角形&#xff08;不带模板测试&#xff09;加入模板测试总结调参练习 搭建简易的webgl环境 一直以来&#xff0c;我只是想通过搭建纯webgl环境&#xff0c;进行开发&#xff0c;来清楚地了…...

区块链(8):p2p去中心化之websoket服务端实现业务逻辑

1 业务逻辑 例如 peer1和peer2之间相互通信 peer1通过onopen{ write(Mesage(QUERY_LATEST))} 向peer2发送消息“我要最新的区块”。 peer2通过onMessage收到消息,通过handleMessage方法对消息进行处理。 handleMessage根据消息类型进行处理 RESPONSE_BLOCKCHAIN:返回区块链…...

composer安装与设置

1、到官网下载 composer.phar。下载地址:Composer 2、将下载的composer.phar 复制到 composer 文件夹中 3、在composer文件夹中新建文件 composer.bat&#xff0c;内容为 php "%~dp0composer.phar" %* 5、设置环境变量的path&#xff0c;添加composer文件夹...

unordered_map/unordered_set的学习[unordered系列]

文章目录 1.老生常谈_遍历2.性能测试3.OJ训练3.1存在重复元素3.2两个数组的交集Ⅱ3.3两句话中的不常见单词3.4两个数组的交集3.5在长度2N的数组中找出重复N次的元素 1.老生常谈_遍历 #pragma once #define _CRT_SECURE_NO_WARNINGS #include <iostream> #include <l…...

C++位图—布隆过滤器

目录 位图概念位图应用 布隆过滤器简介布隆过滤器的优缺点布隆过滤器应用场景布隆过滤器实现布隆过滤器误判率分析 总结 位图概念 位图是一种数据结构&#xff0c;用于表示一组元素的存在或不存在&#xff0c;通常用于大规模数据集的快速查询。它基于一个位数组&#xff08;或位…...

SQL SELECT 语句进阶

之前探讨了SQL SELECT 语句的基础内容,包括语法、字段选择、记录限制和数据源指定。今天将进一步深入,探讨多表连接、过滤结果集和逻辑运算等高级主题,还有LIKE 模糊查询、ORDER BY 对结果集排序、运用聚合函数汇总结果以及 GROUP BY 子句与相关应用。 本文将继续使用《三国…...

Mac程序坞美化工具 uBar

uBar是一款为Mac用户设计的任务栏增强软件&#xff0c;它可以为您提供更高效和更个性化的任务管理体验。 以下是uBar的一些主要特点和功能&#xff1a; 更直观的任务管理&#xff1a;uBar改变了Mac上传统的任务栏设计&#xff0c;将所有打开的应用程序以类似于Windows任务栏的方…...

【数据结构】排序之插入排序和选择排序

&#x1f525;博客主页&#xff1a;小王又困了 &#x1f4da;系列专栏&#xff1a;数据结构 &#x1f31f;人之为学&#xff0c;不日近则日退 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 目录 一、排序的概念及其分类 &#x1f4d2;1.1排序的概念 &#x1f4d2;1.2排序…...

6.html表单

HTML表单&#xff08;HTML form&#xff09;是网页中用于收集用户输入数据的一种方式。表单由多个表单元素组成&#xff0c;通常包括输入框&#xff0c;复选框&#xff0c;单选按钮&#xff0c;下拉列表和提交按钮等。 HTML表单元素的基本结构如下&#xff1a; <form acti…...

【python学习第11节:numpy】

文章目录 一&#xff0c;numpy&#xff08;上&#xff09;1.1基础概念1.2数组的属性1.3数组创建1.4 类型转换1.5ndarry基础运算&#xff08;上&#xff09;矢量化运算1.6拷贝和视图1.6.1完全不复制1.6.2视图或浅拷贝1.6.3深拷贝 1.7索引&#xff0c;切片和迭代1.7.1一维数组1.7…...

Eclipse 主网即将上线迎空投预期,Zepoch 节点或成受益者?

目前&#xff0c;Zepoch 节点空投页面中&#xff0c;模块化 Layer2 Rollup 项目 Eclipse 出现在其空投列表中。 配合近期 Eclipse 宣布了其将由 SVM 提供支持的 Layer2 主网架构&#xff0c;并将在今年年底上线主网的消息后&#xff0c;不免引发两点猜测&#xff1a;一个是 Ecl…...

JavaSE | 初识Java(四) | 输入输出

基本语法 System.out.println(msg); // 输出一个字符串, 带换行 System.out.print(msg); // 输出一个字符串, 不带换行 System.out.printf(format, msg); // 格式化输出 println 输出的内容自带 \n, print 不带 \n printf 的格式化输出方式和 C 语言的 printf 是基本一致的 代码…...

车牌超分辨率:License Plate Super-Resolution Using Diffusion Models

论文作者&#xff1a;Sawsan AlHalawani,Bilel Benjdira,Adel Ammar,Anis Koubaa,Anas M. Ali 作者单位&#xff1a;Prince Sultan University 论文链接&#xff1a;http://arxiv.org/abs/2309.12506v1 内容简介&#xff1a; 1&#xff09;方向&#xff1a;图像超分辨率技术…...

如何制作在线流程图?6款在线工具帮你轻松搞定

流程图&#xff0c;顾名思义 —— 用视觉化的方式来描述一种过程或流程。它可以应用于各种领域&#xff0c;从业务流程&#xff0c;算法&#xff0c;到计算机程序等。然而&#xff0c;在创建流程图时&#xff0c;可能会遇到许多问题或者困惑&#xff0c;如缺乏专业的设计技能&a…...

反SSDTHOOK的另一种思路-0环实现自己的系统调用

反SSDTHOOK的另一种思路-0环实现自己的系统调用 大家都知道我们在应用层使用系统api除了gdi相关的都会走中断门或者systementer进0环然后在走ssdt表去执行0环的函数 这也就导致了ssdthook可以挡下大部分的api调用&#xff0c;那如果我们进0环走另外一条路线的话不通过ssdt就可…...

Certbot签发和续费泛域名SSL证书(通过DNS TXT记录来验证域名有效性)

我们在使用let’s encrypt获取免费的HTTPS证书的时候&#xff0c;let’s encrypt需要对域名进行验证&#xff0c;以确保域名是你自己的 之前用默认的文件验证方式总有奇怪的问题导致失败&#xff0c;我也是很无奈&#xff0c;于是改用验证DNS-TXT记录的方式来验证&#xff0c;而…...

妙趣AI:开源Agent工具链与AI导航平台的工程实践

1. 妙趣AI&#xff1a;一个AI工具导航与开源Agent生态的实践如果你和我一样&#xff0c;每天被各种新冒出来的AI工具、模型和概念搞得眼花缭乱&#xff0c;同时又对“AI Agent”这个听起来很酷但落地很虚的东西充满好奇&#xff0c;那么“妙趣AI”这个项目可能正是你需要的。它…...

libhv实战:300行构建C++异步RPC框架,集成Protobuf与evpp

1. 为什么需要C异步RPC框架 在微服务架构盛行的今天&#xff0c;服务间的通信效率直接决定了系统整体性能。传统同步RPC调用就像打电话&#xff0c;必须等对方接听才能开始对话&#xff0c;而异步RPC更像是发微信&#xff0c;发完消息就可以去做其他事情&#xff0c;等对方回复…...

BioClaw:基于自然语言对话的生物信息学智能分析平台

1. 项目概述&#xff1a;BioClaw&#xff0c;一个能聊天的生物信息学工具箱 如果你是一名生物医学领域的研究者&#xff0c;我猜你对下面这个场景一定不陌生&#xff1a;你刚拿到一批测序数据&#xff0c;需要先跑个FastQC看看质量&#xff1b;同时&#xff0c;实验室的师弟在…...

MAX31856在工业温控项目中的实战应用:从选型、电路设计到故障诊断避坑指南

MAX31856工业温控系统设计全流程&#xff1a;从芯片选型到抗干扰实战 工业温度监测系统的可靠性直接关系到生产安全与产品质量。在钢铁冶炼、化工反应等场景中&#xff0c;一个温度传感器的失效可能导致数百万损失。MAX31856作为工业级热电偶数字转换器&#xff0c;其45V过压保…...

荔枝派Zero V3s新手避坑指南:从源码编译到SPI Flash烧录u-boot的完整流程

荔枝派Zero V3s开发实战&#xff1a;从源码编译到SPI Flash烧录的避坑手册 第一次拿到荔枝派Zero V3s开发板时&#xff0c;那种既兴奋又忐忑的心情至今记忆犹新。作为全志V3s芯片的经典开发平台&#xff0c;它凭借64MB DDR2内存、内置WiFi和丰富的外设接口&#xff0c;成为嵌入…...

AI驱动的链上数据分析:Arkham工具实战与智能监控体系构建

1. 项目概述&#xff1a;一个面向链上数据的智能分析中枢如果你和我一样&#xff0c;在加密货币和Web3的世界里摸爬滚打了几年&#xff0c;你一定会对一个问题深有感触&#xff1a;链上数据浩如烟海&#xff0c;但真正能转化为有效决策的洞察却少之又少。我们每天面对着成千上万…...

基于MCP与Apify的ESG供应链风险智能评估工具实战指南

1. 项目概述&#xff1a;一个为AI工作流赋能的ESG供应链风险智能评估工具 如果你是一名ESG分析师、供应链合规官或者投资经理&#xff0c;那么你一定对“供应商ESG尽职调查”这件事又爱又恨。爱的是&#xff0c;它确实能帮你识别潜在的环境、社会和治理风险&#xff0c;避免“…...

多模态大模型在光谱分析中的应用:温度参数调优与性能评估

1. 项目概述&#xff1a;当光谱分析遇上多模态大模型光谱分析&#xff0c;无论是红外、拉曼还是近红外光谱&#xff0c;一直是材料科学、生物医药、环境监测等领域的“火眼金睛”。它能通过物质与光的相互作用&#xff0c;揭示出样品的成分、结构乃至状态信息。然而&#xff0c…...

NovelForge:AI长篇小说创作引擎,结构化写作与知识图谱实战

1. 项目概述&#xff1a;一个为长篇创作而生的AI写作伙伴如果你和我一样&#xff0c;是一个对长篇故事创作充满热情&#xff0c;但又时常被海量设定、角色关系、情节推进和前后一致性搞得焦头烂额的作者&#xff0c;那么NovelForge的出现&#xff0c;可能正是我们一直在等待的“…...

全景视频会议核心技术解析:从200°视场角到实时图像拼接

1. 项目概述&#xff1a;全景视频会议如何从概念走向现实视频会议这玩意儿&#xff0c;我们搞通信和消费电子这行的&#xff0c;这些年见得多了。从最早模糊不清的像素块&#xff0c;到后来高清但视角固定的摄像头&#xff0c;大家总觉得少了点什么。没错&#xff0c;少的就是那…...