当前位置：首页 > article >正文

RAG架构中用到的模型学习思考

article 2025/11/21 17:43:13

前言

RAG（Retrieval-Augmented Generation，检索增强生成）架构结合了检索和生成能力，通过引入外部知识库来提升大语言模型（LLM）的回答准确性和可靠性。以下是RAG架构中常用的模型及其总结：

一、RAG架构核心模型分类

RAG架构主要由以下三类模型组成：

Embedding模型：用于将文本转换为向量表示，支持相似度检索。
LLM模型（生成模型）：用于生成自然语言回答。
可选的Reranker模型：用于对检索结果进行排序和优化。

二、RAG架构核心模型学习

一、Embedding模型

Embedding模型是RAG架构中检索模块的核心，用于将问题和文档转换为向量表示，以便通过相似度计算找到相关文档。

1. 开源Embedding模型

模型名称	开发者/机构	特点	适用场景
BGE Embedding	智源研究院	中文优化，性能优越，支持多语言	中文文档检索、多语言场景
text-embedding-ada-002	OpenAI	OpenAI官方Embedding模型，支持多语言，性能稳定	通用文档检索、多语言场景
Sentence-BERT	德国图宾根大学	基于BERT的句子Embedding模型，适用于短文本相似度计算	短文本检索、句子相似度计算

2. 结构化数据Embedding模型

SQLNet：用于将自然语言查询转换为SQL语句，适用于数据库检索场景。
BGE-M3：智源研究院推出的多模态Embedding模型，支持文本、图像等多模态检索。

二、LLM模型（生成模型）

LLM模型是RAG架构中生成模块的核心，用于根据检索到的文档生成自然语言回答。

1. 开源LLM模型

模型名称	开发者/机构	特点	适用场景
Qwen2	阿里云	支持多语言，性能优越，适合中文场景	中文问答、生成任务
Llama 3.1	Meta	开源大模型，支持多语言，性能强大	通用问答、生成任务
Mistral	Mistral AI	开源大模型，性能高效，适合企业级应用	通用问答、生成任务

2. 商业LLM模型

GPT-4o（OpenAI）：性能强大，支持多语言，适合高精度问答和生成任务。
通义千问（阿里云）：中文优化，适合企业级中文问答场景。
文心一言（百度）：中文优化，支持多模态生成，适合中文场景。

三、Reranker模型

Reranker模型用于对检索结果进行排序和优化，提升检索的准确性和相关性。

1. 开源Reranker模型

Cross-Encoder：基于BERT的交叉编码器，通过联合编码问题和文档对来计算相似度，性能优越但计算成本较高。
MonoT5：基于T5的单编码器Reranker，通过将问题和文档拼接后输入模型来计算相似度，性能和计算成本之间取得平衡。

2. 商业Reranker服务

OpenAI的Rerank API：提供高性能的Reranker服务，适合需要高精度排序的场景。
阿里云、百度等云服务商的Reranker服务：提供定制化的Reranker解决方案，适合企业级应用。

三、RAG架构中模型的选择总结

Embedding模型选择：
- 中文场景优先选择BGE Embedding或Qwen2的Embedding模块。
- 多语言场景可选择text-embedding-ada-002或Llama 3.1的Embedding模块。
- 结构化数据检索可选择SQLNet或BGE-M3。
LLM模型选择：
- 中文场景优先选择Qwen2或通义千问。
- 多语言场景可选择Llama 3.1或GPT-4o。
- 企业级应用可考虑Mistral等开源大模型或商业云服务。
Reranker模型选择：
- 对检索精度要求高的场景可选择Cross-Encoder或商业Reranker服务。
- 对计算成本敏感的场景可选择MonoT5或开源Reranker模型。

四、各种模型的获取方式小记

1. 开源Embedding模型

BGE Embedding（智源研究院）
- 下载地址：
  - GitHub仓库：GitHub - FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs
  - HuggingFace：https://huggingface.co/BAAI/bge-large-zh（中文版）
- 下载步骤：
  1. 访问GitHub仓库或HuggingFace页面。
  2. 找到模型文件（通常为.pt或.bin格式）。
  3. 使用git clone命令克隆仓库，或直接从HuggingFace下载模型文件。
  4. 将模型文件加载到Python环境中（使用transformers库）。
text-embedding-3-large（Xenova团队）
- 下载地址：
  - HuggingFace：https://huggingface.co/Xenova/text-embedding-3-large
- 下载步骤：
  1. 访问HuggingFace页面。
  2. 使用HuggingFace的transformers库直接加载模型：
```
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("Xenova/text-embedding-3-large")
model = AutoModel.from_pretrained("Xenova/text-embedding-3-large")
```

2. 开源LLM模型

Qwen2（阿里云）

下载地址：
- ModelScope平台：魔搭社区（搜索Qwen2）
- HuggingFace：https://huggingface.co/Qwen

下载步骤：

访问ModelScope或HuggingFace页面。
找到Qwen2模型并下载。

使用transformers库加载模型：

from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2-7B-Instruct", trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2-7B-Instruct", trust_remote_code=True)

Llama 3.1（Meta）
- 下载地址：
  - Meta官方GitHub仓库：GitHub - meta-llama/llama: Inference code for Llama models（需申请许可）
  - HuggingFace（部分版本）：https://huggingface.co/meta-llama
- 下载步骤：
  1. 访问Meta官方GitHub仓库，按照指引申请模型许可。
  2. 获得许可后，下载模型文件。
  3. 使用transformers库加载模型（需注意许可协议）。

3.Reranker模型下载总结

BAAI/bge-reranker系列
- 模型介绍：由北京智源人工智能研究院（BAAI）推出，包括bge-reranker-base、bge-reranker-large等版本，支持中文和英文，性能优越。
- 下载地址：
  - Hugging Face：
    - bge-reranker-base：https://huggingface.co/BAAI/bge-reranker-base
    - bge-reranker-large：https://huggingface.co/BAAI/bge-reranker-large
  - 魔搭社区（ModelScope）：可通过modelscope库下载

2.Cross-Encoder类模型

模型介绍：基于Transformer的交叉编码器模型，能够针对查询和文档对输出相似度分数，适用于精确重排序。
下载地址：
- Hugging Face：搜索cross-encoder或相关模型名称，例如cross-encoder/ms-marco-MiniLM-L-6-v2。

3.其他开源Reranker模型

模型介绍：如MonoT5、ColBERT等，可根据具体需求选择。
下载地址：
- Hugging Face：搜索相关模型名称。
- GitHub：搜索开源项目，例如通过git clone命令下载。

4.其他注意事项

模型许可证：下载和使用模型时，请务必查看模型的许可证协议（如Apache 2.0、MIT等），确保合规使用。
模型选择：根据具体需求选择合适的Reranker模型，例如：
- 对于需要高精度的场景，可选择性能更强的模型（如bge-reranker-large）。
- 对于中文场景，推荐使用bge-reranker系列模型。

五、本地化部署与集成方法总结

开源模型本地化部署：
- 下载模型文件后，使用transformers库加载到Python环境中。
- 结合向量数据库（如FAISS、Milvus）实现RAG架构的检索和生成功能。
商业模型调用：
- 通过API接口调用商业模型，无需本地部署。
- 注意API调用的频率限制和费用计算。
模型优化与调优：
- 对开源模型进行微调，以适应特定业务场景。
- 使用企业自有数据对模型进行进一步训练，提高模型的准确性和性能。

六、具体获取模型实战举例

安装必要的库
- 推荐安装transformers库，用于加载和使用Hugging Face上的模型：
```
pip install transformers
```
- 对于bge-reranker模型，还可安装FlagEmbedding库：
```
pip install -U FlagEmbedding
```

下载模型方法示例

通过Hugging Face下载：

from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = "BAAI/bge-reranker-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

通过ModelScope下载（如bge-reranker模型）：

from modelscope import snapshot_download
model_dir = snapshot_download("BAAI/bge-reranker-large")

使用FlagEmbedding库：

from FlagEmbedding import FlagReranker
reranker = FlagReranker('BAAI/bge-reranker-large', use_fp16=True)
query = "what is panda?"
passages = [
"hi",
"The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."
]
scores = reranker.compute_score([[query, passage] for passage in passages])
print(scores)

使用transformers库:

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
model_name = "BAAI/bge-reranker-large"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
model.eval()
pairs = [
["what is panda?", "hi"],
["what is panda?", "The giant panda (Ailuropoda melanoleuca), sometimes called a panda bear or simply panda, is a bear species endemic to China."]
]
with torch.no_grad():
inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
print(scores)

七、总结

RAG架构中用到的模型主要包括Embedding模型、LLM模型和可选的Reranker模型。我们在选择模型时，应根据自身需求、场景特点和计算资源进行综合考虑。通过合理选择和集成模型，可以构建出高效、准确的RAG系统，提升知识检索和生成的效率和质量。

前言

一、RAG架构核心模型分类

二、RAG架构核心模型学习

一、Embedding模型

1. 开源Embedding模型

2. 结构化数据Embedding模型

二、LLM模型（生成模型）

1. 开源LLM模型

2. 商业LLM模型

三、Reranker模型

1. 开源Reranker模型

2. 商业Reranker服务

三、RAG架构中模型的选择总结

Embedding模型选择：

LLM模型选择：

Reranker模型选择：

四、各种模型的获取方式小记

1. 开源Embedding模型

2. 开源LLM模型

3.Reranker模型下载总结

4.其他注意事项

五、本地化部署与集成方法总结

六、具体获取模型实战举例

七、总结

相关文章：