当前位置：首页 > news >正文

检索模型预训练方法：RetroMAE

news 2025/12/16 21:30:44

论文title：https://arxiv.org/pdf/2205.12035RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
论文链接：https://arxiv.org/pdf/2205.12035

摘要

1.一种新的MAE工作流，编码器和解器输入进行了不同的掩码。编码器编码的句子向量和解码器的掩码输入通过语言模型进行重构问句。
2.非对称的模型结构，编码器拥有像BERT一样全尺寸的transformer，解码器只有一层的transformer。
3.非对称的掩码比例，编码器：15%-30%，解码器：50%-70%。

retroMAE这样设计的原因：

1.auto-encoding对于编码质量的要求更高，传统的自回归更关注前缀，传统的MLM只掩盖一小部(15%)的输入。retroMAE掩盖了更多的输入用于解码，因此重构不仅依赖解码器的输入，更加取决于句子嵌入，所以它迫使编码器捕捉更深层次的句子语义。
2.保证了训练信号来自于大多数的句子输入。另外解码器只有一层transformer，所以使用了双流注意力和特定位置注意掩码的增强解码。这样所有token都被用于了重建。

方法

编码器
编码器使用像bert一样12层transformer和768维度的向量输出，能够很好地捕捉句子的深层语义。问句输入中token的掩码比例为15%-30%，最终使用 [CLS]token的向量作为句子的嵌入表示。

解码器
解码器的结构为一层transformer，它的句子输入中token的掩码比例为50%-70%，会将编码器生成的嵌入向量和掩码token(位置编码)连接输入解码器。由于解码器的transformer层数较浅，句子掩码比例又高，所以重构任务更加依赖于编码器生成高质量的嵌入向量。

增强解码
解码过程的一个限制是训练信号，即交叉熵损失，只能从掩码标记导出。此外，每个掩码标记总是基于相同的上下文重构。所以解码增强希望1.从句子中获得更多的训练信号。2.重建任务可以基于更多样的上下文。所以提出了双流注意力和特定位置注意掩码的增强解码。

检索模型预训练方法：RetroMAE

摘要

方法

实验结果见论文

相关文章：

检索模型预训练方法：RetroMAE

OpenHarmony实战开发——宿舍全屋智能开发指南

等了10年，终于迎来RTX5/RTX4全家桶开源，开源，开源！且免费商用

Python 读取.shp文件并生成图幅编号

【算法】位运算算法——判断字符是否唯一

AAAI2024 基于扩散模型多类别工业异常检测 DiAD

JavaEE-Spring Controller(服务器控制以及Controller的实现和配置)

页面导出PDF，非可视区域如何解决

Android UI：ViewTree: 监听

【光伏干货】光伏无人机巡检步骤

『大模型笔记』从头开始代码构建GPT！

idea的project structure下project [lauguage ]()level 没有java的sdk17选项如何导入

JavaScript数据类型与转换

三十、openlayers官网示例解析Double click, Drag and Zoom——第二次点击鼠标拖拽缩放地图效果、取消地图双击放大事件

前端基础入门三大核心之网络安全篇：TLS/SSL的魔法之旅

Flutter 中的 SnackBarAction 小部件：全面指南

Point-Nerf 理论笔记和理解

深度学习中的梯度消失和梯度爆炸问题

Flink 通过 paimon 关联维表，内存降为原来的1/4

Python知识详解【1】~{正则表达式}

ubuntu搭建nfs服务centos挂载访问

DAY 47

三体问题详解

基于matlab策略迭代和值迭代法的动态规划

Angular微前端架构：Module Federation + ngx-build-plus (Webpack)

Proxmox Mail Gateway安装指南：从零开始配置高效邮件过滤系统

嵌入式常见 CPU 架构

react菜单，动态绑定点击事件，菜单分离出去单独的js文件，Ant框架

6.计算机网络核心知识点精要手册

基于谷歌ADK的智能产品推荐系统(2): 模块功能详解