当前位置：首页 > news >正文

An Efficient Memory-Augmented Transformer for Knowledge-Intensive NLP Tasks

news 2025/7/7 4:11:44

本文是LLM系列文章，针对《An Efficient Memory-Augmented Transformer for
Knowledge

一种用于知识密集型NLP任务的高效内存增强转换器

摘要
1 引言
2 相关工作
3 高效内存增强Transformer
4 EMAT的训练流程
5 实验
6 分析
7 结论
局限性

摘要

获取外部知识对于许多自然语言处理任务至关重要，例如问答和对话。现有的方法通常依赖于将知识存储在其参数中的参数模型，或者使用可以访问外部知识源的检索增强模型。参数模型和检索增强模型在计算效率和预测准确性方面具有互补优势。为了结合这两种方法的优势，我们提出了高效内存增强Transformer（EMAT）——它将外部知识编码为键值内存，并利用快速最大内积搜索进行内存查询。我们还引入了预训练任务，允许EMAT对信息性键值表示进行编码，并学习将多个内存槽集成到Transformer中的隐式策略。在各种知识密集型任务（如问答和对话数据集）上的实验表明，使用我们的方法简单地扩充参数模型（T5基础）会产生更准确的结果（例如，25.8→ NQ上的44.3 EM）同时保持高吞吐量（例如NQ上1000个查询/s）。与检索的改进模型相比，EMAT在WoW和ELI5上运行得更快，结果更准确。

1 引言

2 相关工作

3 高效内存增强Transformer

4 EMAT的训练流程

5 实验

6 分析

7 结论

在这项工作中，我们提出了一种有效的内存改进Transformer（EMAT），它结合了参数模型和检索改进模型的优点。它将外部知识编码到键值存储器中，并利用快速MIPS搜索进行存储器查询。我们引入了预训练任务，以学习更好的键值表示和将多个内存槽集成到transformer中。在知识密集型任务上的实验，包括开放域问答、对话和长形式问答，表明了EMAT的准确性和快速性。在未来，我们将寻求改进，将更多样化的知识整合到记忆中，并将我们的方法推广到更多的下游任务中。

局限性

一个限制是内存检索模块需要弱监督才能进行训练。这可能意味着，当应用于不同的下游任务时，我们定义了不同的弱监管标签。可以使用端到端的训练技术，如Paranjape等人提出的技术，用解码器的梯度训练记忆检索模块，我们将其作为未来的工作。另一个潜在的限制是，我们需要存储密集的键值存储器M，这需要大约300GB的CPU RAM。但由于获得CPU RAM比GPU内存多的机器相对容易，而且大多数深度学习工作站都能达到这一要求，我们认为这并不是太大的限制。此外，在内存资源不足的情况下，我们可以使用LRU缓存来节省RAM。