当前位置：首页 > news >正文

RbFT：针对RAG中检索缺陷的鲁棒性微调

news 2025/7/10 7:41:25

今天给大家分享一篇最新的RAG论文：

论文题目：Enhancing Retrieval-Augmented Generation: A Study of Best Practices
论文链接：https://arxiv.org/pdf/2501.18365
论文代码：https://github.com/StibiumT16/Robust-Fine-tuning

研究动机

这篇论文旨在提高大型语言模型（LLMs）在检索增强型生成（Retrieval-Augmented Generation, RAG）系统中对检索缺陷的鲁棒性。具体来说，论文关注以下几个关键问题：

1. 检索缺陷的影响

RAG系统通过整合来自知识库的外部知识来增强LLMs，但其有效性受限于检索器和知识库的可靠性。现实世界中的检索器和知识库可能存在缺陷，导致检索到的文档包含不准确、不相关或误导性的信息。这会影响LLMs生成准确响应的能力，从而降低RAG系统的性能和可靠性。

2. 提高LLMs的鲁棒性

为了应对检索缺陷，论文提出了一种名为**Robust Fine-Tuning (RbFT)**的方法。该方法通过两个针对性的微调任务来增强LLMs对检索缺陷的抵抗力：

缺陷检测（Defects Detection）：识别检索结果中的缺陷，例如不准确或不相关的信息。
效用提取（Utility Extraction）：从检索结果中提取有用的信息，即使存在缺陷。

这两个任务共同提升了LLMs在面对有缺陷检索结果时生成准确响应的能力。

3. 保持高效率和兼容性

在提高鲁棒性的同时，RbFT还保持了高推理效率，并且能够与其他鲁棒性技术兼容。

核心内容

论文通过提出Robust Fine-Tuning（RbFT）方法来解决检索增强型生成（RAG）系统对检索缺陷的脆弱性问题。RbFT方法包含两个主要的微调任务，旨在增强大型语言模型（LLMs）对检索缺陷的鲁棒性：

缺陷检测（Defects Detection）：

此任务旨在训练LLM识别检索到的文档是否有助于回答用户的查询。
如果文档无用，LLM还需要将其分类为三种缺陷类型之一：噪声文档、不相关文档或反事实文档。
通过将原始检索文档替换为有缺陷的文档，并以一定的概率进行训练，增强LLM对输入的批判性评估能力。

效用提取（Utility Extraction）：

此任务旨在训练LLM从有缺陷的检索结果中提取尽可能多的有用信息。
LLM可以直接利用提取的相关信息，或者利用相关上下文激活其内部的参数知识以生成正确答案。
同时，效用提取训练还使LLM能够直接且高效地处理低质量或受污染的上下文，而无需事先清理。

通过联合训练这两个任务，RbFT使LLM在复杂输入环境中提高对干扰的抵抗力，从而增强RAG系统的整体鲁棒性。具体来说，RbFT通过以下方式解决问题：

增强LLM的自我检测和提取能力：使LLM能够在现实世界的场景中保持高效和准确的输出，即使面对不完美或恶意的检索结果。
减少对外部检索的依赖：通过直接在LLM上进行训练，以提高其处理有缺陷检索输入的能力，从而根本上增强RAG系统的鲁棒性。
提高系统效率：RbFT只对LLM进行微调，保持了与原始RAG相当的推理速度，同时提供了更好的性能和鲁棒性。

论文通过广泛的实验评估表明，RbFT在各种检索缺陷条件下的性能均显著优于现有的最先进方法，证明了其在提高RAG系统鲁棒性方面的有效性。

论文实验

论文中进行了一系列实验来评估Robust Fine-Tuning (RbFT)方法的有效性，具体实验包括：

数据集和评估指标

数据集：实验在三个广泛使用的问答（QA）数据集上进行：
- Natural Questions (NQ)
- HotpotQA (HQA)
- TriviaQA (TQA)
这些数据集涵盖了事实性问答和多跳问答任务。
评估指标：使用标准的QA评估指标：
- 精确匹配（Exact Match, EM）
- 令牌级别的F1分数（F1）

基线比较

RbFT与以下几种方法进行比较：

No RAG
Vanilla RAG
四种针对RAG系统的最先进的鲁棒性方法：
- RobustRAG
- CRAG
- InstructRAG
- AstuteRAG

数据生成

通过不同的方法模拟三种类型的缺陷文档：
- 噪声文档
- 不相关文档
- 反事实文档
使用不同的方法生成噪声和不相关文档，而反事实文档则采用两步生成策略。

实现细节

使用LLaMA-Factory工具包对两个LLMs进行微调：
- Llama-3.2-3B-Instruct
- Qwen2.5-3B-Instruct
微调进行了2个epoch，学习率为1e-5，每个设备的批次大小为16。
在评估阶段，使用不同的𝜏值（0.2, 0.4, 0.6, 0.8, 1.0）来模拟不同程度的检索缺陷，并特别关注：
- 𝜏 = 0.4（Normal设置）
- 𝜏 = 1.0（Hard设置）

主要结果

展示了在不同检索缺陷条件下所有方法的性能，包括在以下设置下的平均结果：
- Clean（𝜏 = 0）
- Normal（𝜏 = 0.4）
- Hard（𝜏 = 1.0）
评估了RbFT在平衡有效性和鲁棒性方面的表现，并与其他方法进行了比较。

消融研究

对RbFT中的两个微调任务进行了消融实验，以探索它们各自的角色和相互补充的效果：
- Defects Detection（缺陷检测）
- Utility Extraction（效用提取）

案例研究

通过分析LLMs在不同检索缺陷下对输入文档的注意力分布，进一步分析了RbFT如何增强LLM的防御能力。

效率分析

评估了不同方法在推理期间的时间效率，报告了每个RAG系统处理单个用户查询所需的平均时间。

论文总结

总体而言，这篇论文针对RAG系统在面对检索缺陷时的脆弱性问题，提出了一种有效的鲁棒性提升方法RbFT，并在多个数据集上验证了其有效性，为实际应用中提高RAG系统的鲁棒性提供了有价值的解决方案。