基于Qwen-14b的基础RAG实现及反思
1、概览
本文主要介绍RAG的基础实现过程,给初学者提供一些帮助,RAG即检索增强生成,主要是两个步骤:检索、生成,下面将基于这两部分进行介绍。
2、检索
检索的主要目的是在自定义的知识库kb中查询到与问题query相关的候选答案。过程中主要涉及的几个关键内容是:文本向量化模型、向量数据库,文本向量化模型如GTE、BGE等、向量数据库如faiss、weaviate、milvus等,对于选型本文不作介绍,读者可自行了解。
向量数据库主要用于存放文本向量化模型处理的知识库向量,并为检索相似候选答案提供快速的方法,下面以bge-large-zh及faiss库讲解一下检索的主要内容。
2.1 向量库构建
向量库构建前需要构建知识库,对知识库的处理五花八门,可以是pdf、docx、txt、pptx、web等等,本文以构建好的txt为例介绍,txt内容举例如下:
文本内容
文本内容
注:文本格式并无要求,可先随机复制一些文本内容,对于质量下文说明
文本内容的读取使用 langchain_community 工具封装好的方法,如下:
loader = TextLoader('test.txt')
当我们的文本内容校多时,可以遍历文件夹读取txt文件。
然后需要将文本内容转化为向量,内容如下,直接给出全部代码:
from langchain_community.document_loaders import TextLoader
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
import osembed_path = 'path/to/bge_model_weight'
faiss_path = 'faiss_db.index'filename = os.listdir('data')data = []for fn in filename:loader = TextLoader(f'data/{fn}')data.append(loader.load()[0])embeddings = HuggingFaceEmbeddings(model_name=embed_path, model_kwargs={'device': 'cuda'})
db = FAISS.from_documents(data, embeddings)
db.save_local(faiss_path)
其中,FAISS.from_documents(data, embeddings) 方法即为向量数据库构建,通过传入需要构建的数据及向量化模型,然后调用save_local方法将向量存储到向量数据库中,至此,向量数据库已构建完成。
2.2 向量库检索
向量库检索主要使用Faiss的 as_retriever() 方法,如下:
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISSembed_path = 'path/to/bge_model_weight'
faiss_path = 'faiss_db.index'embeddings = HuggingFaceEmbeddings(model_name=embed_path, model_kwargs={'device': 'cuda'})
db = FAISS.load_local(faiss_path, embeddings, allow_dangerous_deserialization=True)result = db.as_retriever().invoke('什么是RAG', return_scores=True)print(result)
其中,result默认会包含最相似的top4个候选答案,至此,向量库构建及检索均已完成,下面介绍生成应用。
3、生成
以qwen2.5-14b模型为例,搭建rag应用,实现如下:
from modelscope import AutoModelForCausalLM, AutoTokenizer
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISSmodel_name = "path/to/Qwen2.5-14B-Instruct"
embed_path = 'path/to/bge_model_weight'
faiss_path = 'faiss_db.index'model = AutoModelForCausalLM.from_pretrained(model_name,torch_dtype="auto",device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)RAG_prompt = """请根据输入内容总结回答"""messages = [{"role": "system", "content": RAG_prompt}# {"role": "user", "content": prompt}
]embeddings = HuggingFaceEmbeddings(model_name=embed_path, model_kwargs={'device': 'cuda'})
db = FAISS.load_local(faiss_path, embeddings, allow_dangerous_deserialization=True)while True:query = input("question: ")if query == "exit":breakresult = db.as_retriever().invoke(query)test_text = f"按照要求回答用户问题\n。参考文档:{result[0].page_content}.\n 用户问题是:{query}\n "messages.append({"role": "user", "content": test_text})text = tokenizer.apply_chat_template(messages,tokenize=False,add_generation_prompt=True)model_inputs = tokenizer([text], return_tensors="pt").to(model.device)generated_ids = model.generate(**model_inputs,max_new_tokens=512)generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]print("AI: " + response)print('*'*30)
生成过程的关键处理是构建test_text = f"按照要求回答用户问题\n。参考文档:{result[0].page_content}.\n 用户问题是:{query}\n "
即在构建prompt时传入候选答案,示例中使用了top1,即最相关的参考答案,然后其余步骤是利用大模型的语言能力根据参考答案回答用户问题。
4、思考
4.1 知识库质量
知识库质量是影响检索效果的关键因素,如上述的txt文件,每个相对独立的文件我们称为document,要注意你知识库的多个document并不是完全独立的,而是相对独立的,换句话说,至少上下文的语义是有相关性的,因此我们在处理document时要考虑重叠overlap,即docment1中要包含一些document2的内容;反之如果文档都是完全独立的,则不需要考虑,但这在实际情况中较少。
4.2 检索效果调整
检索效果调整我认为可以分为几个方面,无先后顺序
a、向量库质量-上文已说明
b、系统、问答提示词,不断优化prompt增强对大模型的要求
c、参考文档数量,可以增加参考文档以增强效果,如增加到4个,丰富候选集
d、重排reranker,增加重排模型,对检索的结果再次进行相似度处理,提升候选集准确率
e、增加llm参数,换用参数量大的llm,能力强
相关文章:
基于Qwen-14b的基础RAG实现及反思
1、概览 本文主要介绍RAG的基础实现过程,给初学者提供一些帮助,RAG即检索增强生成,主要是两个步骤:检索、生成,下面将基于这两部分进行介绍。 2、检索 检索的主要目的是在自定义的知识库kb中查询到与问题query相关的候…...

嵌入式培训之C语言学习完(十七)结构体、共用体、枚举、typedef关键字与位运算
目录 一、结构体(struct关键字) (一)声明一个结构体数据类型 (二)结构体的成员初始化与赋值 a、结构体变量赋值 b、结构体成员初始化 c、结构体的定义形式 (三)考点ÿ…...
极狐GitLab 命名空间的类型有哪些?
极狐GitLab 是 GitLab 在中国的发行版,关于中文参考文档和资料有: 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 命名空间 命名空间在极狐GitLab 中组织项目。因为每一个命名空间都是单独的,您可以在多个命名空间中使用相同的项…...
N6715C 基础型定制配置直流电源分析仪
N6715C 基础型定制配置直流电源分析仪 综述 N6715C 是一款可定制的直流电源分析仪系统,在装运之前已经过全面测试并组装完毕。 每台 N6715C 包括一个 N6705C 主机和 1 至 4 个模块。 模块作为 E6715C 的选件订购。 主要特点 ◆ ◆ 4 插槽主机最多可安装 4 个模块…...
4.1【LLaMA-Factory 实战】医疗领域大模型:从数据到部署的全流程实践
【LLaMA-Factory实战】医疗领域大模型:从数据到部署的全流程实践 一、引言 在医疗AI领域,构建专业的疾病诊断助手需要解决数据稀缺、知识专业性强、安全合规等多重挑战。本文基于LLaMA-Factory框架,详细介绍如何从0到1打造一个垂直领域的医…...

《软件项目经济性论证报告模板:全面解析与策略建议》
《软件项目经济性论证报告模板:全面解析与策略建议》 一、引言 1.1 项目背景阐述 在数字化浪潮席卷全球的当下,各行业对软件的依赖程度日益加深。[行业名称] 行业也不例外,随着业务规模的不断扩张、业务复杂度的持续提升以及市场竞争的愈发激烈,对高效、智能、定制化软件…...
腾讯云:数字世界的“量子熔炉”与硅基文明引擎
一、算力拓扑学:重新定义空间的计算密度 腾讯云的算力网络正在突破经典物理限制,其分布式架构通过“量子化”资源调度实现超维计算: 虚拟化跃迁:基于KVM的轻量级虚拟化技术,将单台物理服务器切割为百…...
Android 项目中配置了多个 maven 仓库,但依赖还是下载失败,除了使用代理,还有其他方法吗?
文章目录 前言解决方案gradlemaven 仓库 前言 我们在Android 开发的过程中,经常会遇到三方依赖下载不下来的问题。一般情况下我们会在项目的build.gradle文件中配置多个 maven 仓库来解决。 // Top-level build file where you can add configuration options com…...

关税冲击下,FBA国际物流企业如何靠智能拓客跑出增长“加速度”?
国际物流行业正迎来前所未有的增长机遇。据中研普华最新报告,2025年全球物流市场规模已突破6.27万亿美元,其中中国跨境物流市场预计达2.71万亿元。在全球化与数字化双轮驱动下,国际物流从“规模扩张”迈向“价值重构”。可以说,国…...

vue源代码采用的设计模式分解
No.大剑师精品GIS教程推荐0地图渲染基础- 【WebGL 教程】 - 【Canvas 教程】 - 【SVG 教程】 1Openlayers 【入门教程】 - 【源代码示例 300】 2Leaflet 【入门教程】 - 【源代码图文示例 150】 3MapboxGL【入门教程】 - 【源代码图文示例150】 4Cesium 【入门教程】…...
【java反射修改注解属性】java 通过反射,动态修改注解的某个属性值
有些情况为了偷懒,往往会使用注解来动态处理一些功能,比如Excel的导入以及导出等。但是一些情况下我们需要动态的修改注解的属性值,来完成一些特定场景的业务需求。 java动态修改注解的属性代码 public void updateFieldAnnotationVal(String…...

使用 JavaScript 实现数据导出为 Excel 和 CSV 文件
在 Web 开发中,经常会遇到需要将数据导出为文件的需求,例如将数据导出为 Excel 或 CSV 文件。今天,我们就来探讨如何使用 JavaScript 实现这一功能。 一、实现思路 我们通过 HTML 创建一个按钮,点击按钮时,触发 Java…...

eNSP中路由器RIP协议配置完整实验实验和命令解释
一、实验拓扑 二、配置命令 R1配置并先测试一下连通性 R1、R2和R3接口配置完后再测试连通性,直连路由可通 启动RIP进程,宣告直连网络 查看路由表,测试连通性 环回接口配置 三、命令解释及注意事项 配置命令逐行解释 system-view: 从用户视…...

密码学--AES
一、实验目的 1、完成AES算法中1轮加密和解密操作 2、掌握AES的4个基本处理步骤 3、理解对称加密算法的“对称”思想 二、实验内容 1、题目内容描述 (1)利用C语言实现字节代换和逆向字节代换,字节查S盒代换 (2)利…...

Vue项目中实现自定义连线图
需求描述 在vue项目中实现由自定义块元素组成的连线图。效果图 实现思路 Leader-Line 是一个用于 Web 的轻量级 JavaScript 库,专为创建从一个元素指向另一个元素的引导线而设计。它提供了高度自定义的能力,使得开发者能够轻松地在网页上实现各种指引用…...
linux中的日志分割
1.问题背景,nginx日志过大不好删除 [rootlocalhost cron.daily]# cd /lk/nginx/log/ [rootlocalhost log]# ll 总用量 2386188 -rw-r--r--. 1 root root 2078699697 5月 9 13:02 access.log -rw-r--r--. 1 root root 11138 5月 6 10:28 error.log [rootloc…...

C++编程语言:标准库:标准库概观(Bjarne Stroustrup)
第30章 标准库概观(Standard-Library Overview) 目录 30.1 引言 30.1.1 标准库设施 30.1.2 设计约束 30.1.3 描述风格 30.2 头文件 30.3 语言支持 30.3.1 对initializer_list的支持 30.3.2 对范围for的支持 30.4 异常处理 30.4.1 异常 30.4.1…...
独立自主的网络浏览器——Ladybird
独立自主的网络浏览器——Ladybird 随着互联网技术的飞速发展,浏览器作为人们探索网络世界的窗口,其技术创新和安全措施至关重要。然而,市场上绝大多数浏览器都是基于现有的成熟引擎进行开发,如何创新突破,成为一个独…...

Shiro(八):JWT介绍
1、什么是JWT? JWT(JSON Web Token,JSON Web令牌)是一种开放标准(RFC 7519),用于在网络应 用环境间安全地传递声明(claims)作为JSON对象;JWT会按指定的加密算…...

【HDLBits刷题】Verilog Language——1.Basics
目录 一、题目与题解 1.Simple wire(简单导线) 2.Four wires(4线) 3.Inverter(逆变器(非门)) 4.AND gate (与门) 5. NOR gate (或非门&am…...
SCDN是什么?
SCDN是安全内容分发网络的简称,它在传统内容分发网络(CDN)的基础上,集成了安全防护能力,旨在同时提升内容传输速度和网络安全性。 SCDN的核心功能有: DDoS防御:识别并抵御大规模分布式拒绝服务…...

Python 常用内置函数详解(十):help()函数——查看对象的帮助信息
目录 一、语法参考二、示例 一、语法参考 help() 函数的语法格式如下: 参数说明: request:可选参数,要查看其帮助信息的对象,如类、函数、模块、数据类型等;返回值:返回对象的帮助信息。 二…...

【Python系列】Python 中的 HTTP 请求处理
💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…...

辉芒微离线烧录器“文件格式错误”问题解决
最近在使用辉芒微离线烧录器烧录程序时,提示“文件格式错误”,记录一下解决方法。 一、问题现象 经过多次尝试和排查,发现以下几种情况: 情况一:使用离线烧录器导入固件1(boot程序),…...
buck和boost总结
目录 1. 基本概念与原理 2. 工作模式 3. 典型应用场景 4. Buck-Boost电路:升降压结合 5. 核心区别与选择 1. 基本概念与原理 Buck电路(降压电路) 通过开关器件(如MOSFET)周期性地导通和关断,控制电感充…...
Ansible内置模块之package
原创:厦门微思网络 Ansible内置模块之 package ansible.builtin.package 模块用于管理基于 Linux 系统上的软件包。它是一个通用模块,支持多个包管理器(如 apt、yum、dnf、zypper 等),可以安装、更新和删除软件包。其…...
RISC-V AIA SPEC学习(五)
第六章 Interrupts for Virtual Machines(VS Level) 核心内容 1.VS级别外部中断支持: 客户中断文件(Guest Interrupt File):虚拟机的每个vCPU拥有独立的IMSIC中断文件,允许直接接收设备MSI。vstopi CSR:类似stopei,用于虚拟机内部处理最高优先级中…...

【软件设计师:体系结构】15.计算机体系结构概论
计算机体系结构是指计算机系统的功能和属性,是程序员所看到的计算机的属性。它主要研究计算机体系的概念性结构和功能特性,包括指令集、数据类型、存储器寻址技术、I/O机制等。例如,计算机是否具备乘法指令的功能,这是一个体系结构的问题。 一、机内代码及运算 一、数的进…...
CVE-2025-24813:Apache Tomcat RCE 漏洞分析
CVE-2025-24813 是 Apache Tomcat 中的一个严重远程代码执行 (RCE) 漏洞,源于路径等效缺陷,允许攻击者绕过安全约束并远程执行任意代码。 CYFIRMA 的研究发现了一些活跃的漏洞利用,一些 PoC 漏洞在地下论坛上流传。攻击者利用基于 HTTP PUT 的任意文件上传、NTFS 连接漏洞利…...

vscode 配置doxygen注释和snippet
vscode 配置doxygen注释和snippet Doxygen的C/C注释原则 基于Doxygen的C/C注释原则 标注总述 1.文件头标注 2. 命名空间标注 3. 类、结构、枚举标注 4. 函数注释原则 5. 变量注释 6. 模块标注 7. 分组标注指令表格 命令字段名语法file文件名file [< name >]brief简介b…...