检索模型预训练方法:RetroMAE
论文title:https://arxiv.org/pdf/2205.12035RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder
论文链接:https://arxiv.org/pdf/2205.12035
摘要
1.一种新的MAE工作流,编码器和解器输入进行了不同的掩码。编码器编码的句子向量和解码器的掩码输入通过语言模型进行重构问句。
2.非对称的模型结构,编码器拥有像BERT一样全尺寸的transformer,解码器只有一层的transformer。
3.非对称的掩码比例,编码器:15%-30%,解码器:50%-70%。

retroMAE这样设计的原因:
1.auto-encoding对于编码质量的要求更高,传统的自回归更关注前缀,传统的MLM只掩盖一小部(15%)的输入。retroMAE掩盖了更多的输入用于解码,因此重构不仅依赖解码器的输入,更加取决于句子嵌入,所以它迫使编码器捕捉更深层次的句子语义。
2.保证了训练信号来自于大多数的句子输入。另外解码器只有一层transformer,所以使用了双流注意力和特定位置注意掩码的增强解码。这样所有token都被用于了重建。
方法

编码器
编码器使用像bert一样12层transformer和768维度的向量输出,能够很好地捕捉句子的深层语义。问句输入中token的掩码比例为15%-30%,最终使用 [CLS]token的向量作为句子的嵌入表示。
解码器
解码器的结构为一层transformer,它的句子输入中token的掩码比例为50%-70%,会将编码器生成的嵌入向量和掩码token(位置编码)连接输入解码器。由于解码器的transformer层数较浅,句子掩码比例又高,所以重构任务更加依赖于编码器生成高质量的嵌入向量。
增强解码
解码过程的一个限制是训练信号,即交叉熵损失,只能从掩码标记导出。此外,每个掩码标记总是基于相同的上下文重构。所以解码增强希望1.从句子中获得更多的训练信号。2.重建任务可以基于更多样的上下文。所以提出了双流注意力和特定位置注意掩码的增强解码。
实验结果见论文
相关文章:
检索模型预训练方法:RetroMAE
论文title:https://arxiv.org/pdf/2205.12035RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder 论文链接:https://arxiv.org/pdf/2205.12035 摘要 1.一种新的MAE工作流,编码器和解器输入进行了不同的掩…...
OpenHarmony实战开发——宿舍全屋智能开发指南
项目说明 基于OpenAtom OpenHarmony(以下简称“OpenHarmony”)、数字管家开发宿舍全屋智能,实现碰一碰开门、碰一碰开灯、碰一碰开风扇以及烟感检测。因为各项目开发流程大体相似,本文主要以碰一碰开门为例介绍如何在现有OpenHar…...
等了10年,终于迎来RTX5/RTX4全家桶开源,开源,开源! 且免费商用
我们的V4, V5, V6 ,V7开发板都配套了大量的RTX4, RTX5教程和案例,从2015年发布首版RTX4内核教程以来,已经整整10年了。 1、制作这个RTX教程和案例,其实也承受了很大的压力,因为只有RTX内核是免费商用的,中间件并不免费…...
Python 读取.shp文件并生成图幅编号
代码适用于需要处理和分析地理空间数据的场景,如城市规划、环境监测或自然资源管理,其中它可以帮助用户读取特定区域的Shapefile文件,确定其地理边界,并基于这些边界计算出按照经纬度5度间隔的图幅编号,进而用于地图制…...
【算法】位运算算法——判断字符是否唯一
题解:判断字符是否唯一(位运算算法) 目录 1.题目2.题解3.位图参考代码4.细节5.总结 1.题目 题目链接:LINK 2.题解 题解有两种方法, 一是做一个哈希数组,去查重; 二是直接用一个变量每一位来对应表示是否有这个字母…...
AAAI2024 基于扩散模型 多类别 工业异常检测 DiAD
前言 本文分享一个基于扩散模型的多类别异常检测框架,用于检测工业场景的缺陷检测或异常检测。 设计SG语义引导网络,在重建过程中有效保持输入图像的语义信息,解决了LDM在多类别异常检测中的语义信息丢失问题。高效重建,通过在潜…...
JavaEE-Spring Controller(服务器控制以及Controller的实现和配置)
Spring Controller 服务器控制 响应架构 Spring Boot 内集成了 Tomcat 服务器,也可以外接 Tomcat 服务器。通过控制层接收浏览器的 URL 请求进行操作并返回数据。 底层和浏览器的信息交互仍旧由 servlet 完成,服务器整体架构如下: Server&…...
页面导出PDF,非可视区域如何解决
const exportToPDF () > {const element document.getElementById(chart-container);if (!element) return;const originalScrollHeight element.scrollHeight;// 临时解除滚动条限制,确保所有内容都可见element.style.height ${originalScrollHeight}px;// …...
Android UI:ViewTree: 监听
文章目录 涉及设计模式 观察者模式+策略模式API源码分析总结涉及设计模式 观察者模式+策略模式 被观察者:ViewTree ViewTree持有一个观察器ViewTreeObserver 系统在ViewRootImpl和View的相关方法中调用ViewTreeObserver上的注册的监听器的方法,…...
【光伏干货】光伏无人机巡检步骤
随着光伏产业的迅速发展和无人机技术的日益成熟,光伏无人机巡检已成为提高光伏电站运维效率、降低运维成本的重要手段。本文将详细介绍光伏无人机巡检的步骤,帮助读者更好地理解和应用这一技术。 一、前期准备 1、设备检查:对无人机及其相关…...
『大模型笔记』从头开始代码构建GPT!
从头开始代码构建GPT! 文章目录 一. 从头开始代码构建GPT!二. 参考文献一. 从头开始代码构建GPT! 我们构建了一个生成式预训练Transformer (GPT),遵循论文《Attention is All You Need》和OpenAI的GPT-2 / GPT-3的方法。我们讨论了与ChatGPT的联系,ChatGPT已经风靡全球。我…...
idea的project structure下project [lauguage ]()level 没有java的sdk17选项如何导入
idea的project structure下project lauguage level 没有java的sdk17选项如何导入 别导入了,需要升级idea版本。idea中没有project language level没有17如何添加 - CSDN文库 别听这文章瞎扯淡 2021版本就是没有,直接卸载升级到最新版本就可以了。没办法…...
JavaScript数据类型与转换
JavaScript是一种弱类型语言,在定义变量的时候不用规定数据的类型,但这部表示JavaScript没有规定数据类型。 数值 JavaScript中数值类型不区分浮点数与整数,所有的数值都以浮点型来表示。另外JavaScript核心,Math还提供了大量的…...
三十、openlayers官网示例解析Double click, Drag and Zoom——第二次点击鼠标拖拽缩放地图效果、取消地图双击放大事件
这篇展示了如何在地图上添加第二次按下鼠标移动鼠标实现拖拽缩放地图效果。 官网demo地址: Double click, Drag and Zoom 官网介绍文字的翻译如下: 示例比较简单,直接贴代码: const map new Map({//添加第二次点击拖拽缩放地图i…...
前端基础入门三大核心之网络安全篇:TLS/SSL的魔法之旅
前端基础入门三大核心之网络安全篇:TLS/SSL的魔法之旅 TLS/SSL:数据安全的守护神工作原理:四步走,安全到家1. 握手,你好吗?代码示例(伪代码):客户端发起握手请求 2. 身份…...
Flutter 中的 SnackBarAction 小部件:全面指南
Flutter 中的 SnackBarAction 小部件:全面指南 在 Flutter 中,SnackBar 是一种流行的用于提供轻量级反馈的方式,它可以在屏幕上短暂显示消息。SnackBarAction 则是与 SnackBar 结合使用的一种按钮组件,允许用户对显示的消息做出响…...
Point-Nerf 理论笔记和理解
文章目录 什么是point nerf 和Nerf 有什么区别Point Nerf 核心结构有哪些?什么是point-based radiance field? 点云位置以及置信度是怎么来Point pruning 和 Point Growing 什么是point nerf 和Nerf 有什么区别 基本的nerf 是通过过拟合MLP来完成任意视角场景的重…...
深度学习中的梯度消失和梯度爆炸问题
在深度学习领域,随着模型层数的增加,我们常常会遇到两个棘手的问题:梯度消失(Vanishing Gradients)和梯度爆炸(Exploding Gradients)。这两个问题严重影响了深度神经网络的训练效率和性能。本文…...
Flink 通过 paimon 关联维表,内存降为原来的1/4
你好,我是 shengjk1,多年大厂经验,努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注!你会有如下收益: 了解大厂经验拥有和大厂相匹配的技术等 希望看什么,评论或者私信告诉我! 文章目录 一…...
Python知识详解【1】~{正则表达式}
正则表达式是一种用于匹配字符串模式的文本工具,它由一系列普通字符和特殊字符组成,可以非常灵活地描述和处理字符串。以下是正则表达式的一些基本组成部分及其功能: 普通字符:大多数字母和数字在正则表达式中表示它们自己。例如…...
汽车软件测试实战指南:从MiL到HiL的测试体系与工程实践
1. 汽车软件测试:从术语迷雾到实战地图 干了十几年嵌入式,从消费电子一路干到汽车电子,最深的感触就是: “隔行如隔山” ,这话在汽车软件测试领域体现得淋漓尽致。刚入行那会儿,听到同事讨论MiL、SiL、Hi…...
MaterialSkin架构解析:现代化WinForms界面重构的技术实现
MaterialSkin架构解析:现代化WinForms界面重构的技术实现 【免费下载链接】MaterialSkin Theming .NET WinForms, C# or VB.Net, to Googles Material Design Principles. 项目地址: https://gitcode.com/gh_mirrors/mat/MaterialSkin MaterialSkin是一个专为…...
终极指南:如何彻底禁用iPhone过热降频,告别游戏卡顿和屏幕变暗
终极指南:如何彻底禁用iPhone过热降频,告别游戏卡顿和屏幕变暗 【免费下载链接】thermalmonitordDisabler A tool used to disable iOS daemons. 项目地址: https://gitcode.com/gh_mirrors/th/thermalmonitordDisabler 你是否在玩高画质游戏时突…...
Steam挂刀行情站:如何利用开源工具实现Steam饰品交易自动化监控
Steam挂刀行情站:如何利用开源工具实现Steam饰品交易自动化监控 【免费下载链接】SteamTradingSiteTracker Steam 挂刀行情站 —— 24小时更新的 BUFF & IGXE & C5 & UUYP & ECO 挂刀比例数据 | Track cheap Steam Community Market items on buff.…...
Newbie-Guideline数据库实战:SQL查询与ER模型设计的完整教程
Newbie-Guideline数据库实战:SQL查询与ER模型设计的完整教程 【免费下载链接】Newbie-Guideline 컴퓨터과학/공학 신입생 및 비전공자 신입을 위한 지침서 项目地址: https://gitcode.com/gh_mirrors/ne/Newbie-Guideline Newbie-Guideline是面向计算机科学/…...
STM32F407的PWM呼吸灯太简单?试试用DMA+定时器实现‘无CPU干预’的渐变效果
STM32F407的PWM呼吸灯进阶:DMA定时器实现零CPU占用的智能光效 在嵌入式开发中,PWM呼吸灯常被视为入门级练习,但将其提升到工业级应用时,传统CPU轮询方式会暴露明显缺陷。当系统需要同时处理网络通信、传感器采集等任务时ÿ…...
告别Resources和AssetBundle!用Unity Addressable重构你的资源管理(附迁移实战)
Unity Addressable系统深度重构:从传统资源管理到现代化架构的平滑迁移 在Unity项目开发中,资源管理一直是困扰开发者的核心难题之一。随着项目规模扩大,传统的Resources加载和AssetBundle管理方案逐渐暴露出性能瓶颈、热更新困难、依赖管理复…...
暗黑3终极宏工具D3KeyHelper:5分钟配置你的自动战斗系统
暗黑3终极宏工具D3KeyHelper:5分钟配置你的自动战斗系统 【免费下载链接】D3keyHelper D3KeyHelper是一个有图形界面,可自定义配置的暗黑3鼠标宏工具。 项目地址: https://gitcode.com/gh_mirrors/d3/D3keyHelper D3KeyHelper是一款专为暗黑破坏神…...
北京理工大学:数据中心节能降碳之算电协同——背景、技术、实践和展望 2026
这份由北京理工大学 2026 年初发布的《数据中心节能降碳之算电协同:背景、技术、实践和展望》报告,围绕算电协同,从背景、技术、实践、展望四方面系统分析,核心是推动算力与电力、热力深度融合,助力数据中心节能降碳、…...
5步掌握AlienFX Tools:开源Alienware控制的终极指南
5步掌握AlienFX Tools:开源Alienware控制的终极指南 【免费下载链接】alienfx-tools Alienware systems lights, fans, and power control tools and apps 项目地址: https://gitcode.com/gh_mirrors/al/alienfx-tools 厌倦了Alienware Command Center&#…...
