当前位置：首页 > news >正文

二、使用langchain搭建RAG:金融问答机器人--数据清洗和切片

news 2026/5/18 3:32:44

选择金融领域的专业文档作为源文件

这里选择《博金大模型挑战赛-金融千问14b数据集》，这个数据集包含若干公司的年报，我们将利用这个年报搭建金融问答机器人。
具体下载地址这里

在这里插入图片描述

git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset.git

具体目录如下：
在这里插入图片描述
这里直接使用已经识别的纯文本数据，即pdf_txt_file目录下的文件。

选择词向量模型

这里选用m3e-base。M3E是专注于中文文本处理,具有强大的文本处理能力和灵活的部署选项,适合资源受限或需要私有化的应用场景

这里

在这里插入图片描述

git clone https://www.modelscope.cn/Jerry0/m3e-base.git

读取与清洗数据

1, 读取文件列表

import osdir_path = "bs_challenge_financial_14b_dataset/pdf_txt_file"
all_files = os.listdir(dir_path)
print(all_files)

在这里插入图片描述
2，清洗数据
从结果我们可以观察到文件名都是乱码，我们需要把文件名改成公司名，可以一看就看出是哪个公司的年报，并且在后续处理的时候把公司名加入到每个chuck中，在后续检索的时候对应指定公司的query就能匹配这个公司相关的一系列信息。
（1），读取数据

import re
for file in all_files:with open(os.path.join(dir_path, file), "r",encoding = "utf-8") as f:lst = f.readlines()pattern = ".*发行人.*股份有限公司\n"name = ""         for line in lst[-20:]:            if re.match(pattern, line): name = linename = name.split("：")[-1]                breakif name == "" :pattern = ".*股份有限公司\n"for line in lst:            if re.match(pattern, line): name = lineif "：" in name:name = name.split("：")[-1]                break        name = name.strip() #找到公司名后：创建一个新文件夹存放if name != "" :           print(file,name)try:with open("financial_dataset/{}.txt".format(name), "w",encoding = "utf-8") as f:for line in lst:f.write(line)except Exception as e:print(e)continue

（2）经过研究，文本里会含有多个股份有限公司，所以想过滤一次“.*发行人.*股份有限公司”，再过滤“.*股份有限公司” 。然后把新文件放到独立的目录下

import osdir_path = "financial_dataset"
files = os.listdir(dir_path)
files

在这里插入图片描述
（3）然后对文件名做最后的筛选，公司名称一般不超过20个字符。

new_files = []
for item_file in files:if len(item_file) > 20:continueelse:if " " in item_file:continueif "、" in item_file:continuenew_files.append(item_file)
new_files

在这里插入图片描述
至此数据清洗完毕。如果还有其他需求可以自行再根据规则清洗。

读取无结构文本内并切片

1，使用UnstructuredFileLoader加载文件

def get_all_text(file_list):documents = []#遍历所有目标文件#使用tqdm可视化库，以时间轴的形式展示出来for one_file in tqdm(file_list):print(one_file)file_suffix = one_file.split(".")[-1]if file_suffix == "txt":loader = TextLoader(one_file,encoding = "utf-8")else:continuedocuments.extend(loader.load())return documentsfile_list = [os.path.join(dir_path, item) for item in new_files]
docs = get_all_text(file_list)

在这里插入图片描述
2，数据切片
由于1个文档的内容比较多，超过大模型的上下文窗口限制，所以需要把数据切片。
调用langchain里的text_splitter分割为chunk,每个chunk设置为350个大小，同时overlap为150，也就是前一个chunk的后150个字符跟后一个chunk的前150个字符是一样的。通过这样的方式避免在分chunk的时候遗漏相关信息

from langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(chunk_size=350, chunk_overlap=150)
split_docs = text_splitter.split_documents(docs)
print(split_docs[0])

在这里插入图片描述
可以看page_content里没公司名称，但我们在query的时候希望与公司相关，所有把公司名也放到page_content里

for one_chunk in split_docs:one_chunk.page_content = one_chunk.metadata["source"].split("/")[-1] +  one_chunk.page_content + one_chunk.metadata["source"].split("/")[-1]
print(split_docs[0])

在这里插入图片描述

数据向量化并保存到向量数据库中

使用词向量模型把前面切分的chunk转化成词向量，保存到向量数据库中。

from langchain_huggingface import HuggingFaceEmbeddings
embeddings = HuggingFaceEmbeddings(model_name="m3e-base") from langchain.vectorstores import Chroma
# 定义持久化路径
persist_directory = 'data_base/chroma'
# 加载数据库
vectordb = Chroma.from_documents(documents=split_docs[:20000],#由于自己电脑性能有限，如果很久没完成的时候，可以重新启动执行，改成取1000或者500。记得删除已经生成的向量数据库文件。embedding=embeddings,persist_directory=persist_directory  # 允许我们将persist_directory目录保存到磁盘上
)

会自动保存到磁盘上:
在这里插入图片描述

数据清洗和切片已完毕。

二、使用langchain搭建RAG:金融问答机器人--数据清洗和切片

选择金融领域的专业文档作为源文件

选择词向量模型

读取与清洗数据

读取无结构文本内并切片

数据向量化并保存到向量数据库中

相关文章：

二、使用langchain搭建RAG:金融问答机器人--数据清洗和切片

【Linux】-- linux 配置用户免密登录本机

泷羽sec学习打卡-brupsuite8伪造IP和爬虫审计

【uniapp蓝牙】基于native.js链接ble和非ble蓝牙

.NET Core 各版本特点、差异及适用场景详解

Linux中自动检测并定时关闭KDialog程序

CSS学习记录12

【Java基础面试题016】JavaObject类中有什么主要方法，作用是什么？

实践环境-docker安装mysql8.0.40步骤

边缘智能创新应用大赛获奖作品系列一：智能边缘计算✖软硬件一体化，开启全场景效能革命新征程

决策树的生成与剪枝

蓝桥杯算法训练黑色星期五

MySQL存储引擎-存储结构

理解torch函数bmm

2024 年的科技趋势

win服务器的架设、windows server 2012 R2 系统的下载与安装使用

leetcode45.跳跃游戏II

边缘智能创新应用大赛获奖作品系列三：边缘智能强力驱动，机器人天团花式整活赋能千行百业

基于语义的NLP任务去重：大语言模型应用与实践

使用阿里云Certbot-DNS-Aliyun插件自动获取并更新免费SSL泛域名（通配符）证书

从Scratch图形化到Python代码：用树莓派给LeArm机械臂做二次开发实战

保姆级教程：在Ubuntu 20.04上从源码编译aarch64-linux-gnu交叉工具链（GCC 9.2.0 + Glibc 2.30）

【技术解析】基于主成分分析与神经网络的航空安全风险建模：从QAR数据预处理到实时预警仿真

Netgear路由器终极救援指南：用nmrpflash免费快速修复变砖设备

Godot卡牌游戏框架终极指南：3小时从零构建专业级卡牌游戏

高效视频帧提取终极指南：为深度学习构建专业数据集

LVGL在无显存TFT屏上的驱动适配：双缓冲与DMA优化实践

OpenClaw 小龙虾智能体联动 DeepSeek 大模型部署实操攻略

Claude模型思维链评估框架claweval：原理、实战与高级定制指南

Python邮件自动化实战：基于mymailclaw的监控报警与Slack集成