当前位置：首页 > article >正文

DataWhale llm universe

article 2026/4/24 19:37:36

搭建向量知识库

向量以及向量知识库

向量词与向量

词向量：是一种以单词为单位的将每个单词转化为实数向量的技术，这些实数可以被计算机更好的理解，如果是相近的理念或者相关的对象在向量空间中距离很近
词向量实际上将单词转化为固定的静态向量，在一定程度上捕获表达文本中的语义信息，但是忽略了单词在不同语境中的意思会受到影响这个事实，所以在RAG的时候一般使用通用文本向量，和词向量不同的是向量的量化单位是输入文本

RAG：（检索增强生成）

向量比文字更适合检索，如果数据库是文字，通过关键词方法找到对应的语义信息，通过计算问题的余弦相似度，欧氏距离，余弦距离，等指标获得问题与数据在语义层次上的相似度
向量比其他的媒体的综合信息能力更强，传统的文字，声音，图像，视频等很难构建关联，但是用向量可以将多种数据映射为统一的向量模式

搭建RAG系统，往往可以通过向量模型构造向量

使用各个公司的API接口
在本地使用向量模型将数据转化为向量

向量数据库

向量数据库用于高效的计算管理大向量数据的解决方法，主要是关注向量数据的特征和相似性。数据表示为向量形式，对数据的存储，处理和检索的算法处理效率大于传统的数据库

数据处理

数据读取

读取PDF，使用PyMuPDFLoader

from langchain_community.document_loaders import PyMuPDFLoader# 创建一个 PyMuPDFLoader Class 实例，输入为待加载的 pdf 文档路径
loader = PyMuPDFLoader("../../data_base/knowledge_db/pumkin_book/pumpkin_book.pdf")# 调用 PyMuPDFLoader Class 的函数 load 对 pdf 文件进行加载
pdf_pages = loader.load()
pdf_page = pdf_pages[1]
print(f"载入后的变量类型为：{type(pdf_pages)}，",  f"该 PDF 一共包含 {len(pdf_pages)} 页")
print(f"每一个元素的类型：{type(pdf_page)}.", f"该文档的描述性数据：{pdf_page.metadata}", f"查看该文档的内容:\n{pdf_page.page_content}", sep="\n------\n")

读取MarkDown文件

from langchain_community.document_loaders.markdown import UnstructuredMarkdownLoaderloader = UnstructuredMarkdownLoader("../../data_base/knowledge_db/prompt_engineering/1. 简介 Introduction.md")
md_pages = loader.load()print(f"载入后的变量类型为：{type(md_pages)}，",  f"该 Markdown 一共包含 {len(md_pages)} 页")md_page = md_pages[0]
print(f"每一个元素的类型：{type(md_page)}.", f"该文档的描述性数据：{md_page.metadata}", f"查看该文档的内容:\n{md_page.page_content[0:][:200]}", sep="\n------\n")

数据清洗

希望数据库的数据是有序的，优质的，精简的，可能需要将文本中的回车删除，使用正则匹配删除\n

import re
pattern = re.compile(r'[^\u4e00-\u9fff](\n)[^\u4e00-\u9fff]', re.DOTALL)
pdf_page.page_content = re.sub(pattern, lambda match: match.group(0).replace('\n', ''), pdf_page.page_content)
print(pdf_page.page_content)
# 删除其他的无意义的符号
pdf_page.page_content = pdf_page.page_content.replace('•', '')
pdf_page.page_content = pdf_page.page_content.replace(' ', '')
print(pdf_page.page_content)

文档分割

由于单个文档会超过模型支持的文本的上下文，导致检索的知识超出模型的处理能力，对文档进行分割，将文档长度按照固定的规则分割成若干的chunk，Langchain中文文本分割根据Chunk_size（块大小）和chunk_overlap进行分割

chunk_size: 指每个块包含的字符和Token
chunk_overlap 指两个块之间共享的字符数量，用于保持上下文的连贯性，避免分割丢失上下文

Langchain 提供多种文档分割方式，区别在怎么确定块与块之间的边界、块由哪些字符/token组成、以及如何测量块大小

RecursiveCharacterTextSplitter(): 按字符串分割文本，递归地尝试按不同的分隔符进行分割文本。
CharacterTextSplitter(): 按字符来分割文本。
MarkdownHeaderTextSplitter(): 基于指定的标题来分割markdown 文件。
TokenTextSplitter(): 按token来分割文本。
SentenceTransformersTokenTextSplitter(): 按token来分割文本
Language(): 用于 CPP、Python、Ruby、Markdown 等。
NLTKTextSplitter(): 使用 NLTK（自然语言工具包）按句子分割文本。
SpacyTextSplitter(): 使用 Spacy按句子的切割文本。

搭建使用向量数据库

前序配置

from langchain_community.document_loaders import PyMuPDFLoader
from langchain_community.document_loaders import UnstructuredMarkdownLoader# 遍历文件路径并把实例化的loader存放在loaders里
loaders = []for file_path in file_paths:file_type = file_path.split('.')[-1]if file_type == 'pdf':loaders.append(PyMuPDFLoader(file_path))elif file_type == 'md':loaders.append(UnstructuredMarkdownLoader(file_path))
# 下载文件并存储到text
texts = []for loader in loaders: texts.extend(loader.load())text = texts[1]
print(f"每一个元素的类型：{type(text)}.", f"该文档的描述性数据：{text.metadata}", f"查看该文档的内容:\n{text.page_content[0:]}", sep="\n------\n")

构建Chrome数据库

向量检索

sim_docs = vectordb.similarity_search(question,k=3)
print(f"检索到的内容数：{len(sim_docs)}")
for i, sim_doc in enumerate(sim_docs):print(f"检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")

最大边际相关性使得在保持相关性时候可以增加内容的丰富性
核心思想是在选择一个相关性高的文档之后，选择一个与选择的文档相关性低但是内容丰富的文档，增加多样性

mmr_docs = vectordb.max_marginal_relevance_search(question,k=3)
for i, sim_doc in enumerate(mmr_docs):print(f"MMR 检索到的第{i}个内容: \n{sim_doc.page_content[:200]}", end="\n--------------\n")

DataWhale llm universe

搭建向量知识库向量以及向量知识库向量词与向量词向量：是一种以单词为单位的将每个单词转化为实数向量的技术，这些实数可以被计算机更好的理解，如果是相近的理念或者相关的对象在向量空间中距离很近词向量实际上将单词转化为固定的静态…...

编程日记 2026/4/18 11:12:56

LLaMA-Factory微调LLM-Research/Llama-3.2-3B-Instruct模型

1、GPU环境 nvidia-smi 2、pyhton环境安装 git clone https://github.com/hiyouga/LLaMA-Factory.git conda create -n llama_factory python3.10 conda activate llama_factory cd LLaMA-Factory pip install -e .[torch,metrics] 3、微调模型下载（LLM-Research/…...

编程日记 2026/4/21 2:13:58

DB-MongoDB-00002--Workload Generator for MongoDB

## DB-MongoDB-00002–Workload Generator for MongoDB 1、介绍 Workload Generator for MongoDB was designed to help MongoDB users effortlessly generate data and simulate workloads for both sharded and non-sharded clusters. The generated workloads include s…...

编程日记 2026/4/13 4:04:47

3.8.1 利用RDD实现词频统计

在本次实战中，我们通过Spark的RDD实现了词频统计功能。首先，准备了包含单词的文件并上传至HDFS。接着，采用交互式方式逐步完成词频统计，包括创建RDD、单词拆分、映射为二元组、按键归约以及排序等操作。此外，还通过创建…...

编程日记 2026/4/21 2:14:43

Spring Ioc和Aop，Aop的原理和实现案例，JoinPoint，@Aspect，@Before，@AfterReturning

DAY25.2 Java核心基础 Spring两大核心：Ioc和Aop IOC Ioc容器：装载bean的容器，自动创建bean 三种方式： 1、基于xml配置：通过在xml里面配置bean，然后通过反射机制创建bean，存入进Ioc容器中 …...

编程日记 2026/4/24 11:38:20

[解决conda创建新的虚拟环境没用python的问题]

问题复现使用conda create -n env的时候，在对应的虚拟环境的文件里面找不到对应的python文件为什么首先，我们来看一下创建环境时的触发链路： 这表明当前环境中找不到Python可执行文件。解决方法所以很明显，我们需要指定…...

编程日记 2026/4/21 2:13:10

【优秀三方库研读】在 quill 开源库 LogMarcos.h 中知识点汇总及讲解

以下是LogMarcos.h中的主要知识点汇总及详细讲解：大纲目录编译时日志级别过滤预处理宏与条件编译可变参数处理技巧格式化字符串生成日志宏的分发机制线程本地存储（TLS）零成本抽象设计动态日志级别支持结构化日志标签日志频率限制机制1. 编译时日志级别过滤核心宏：QUILL…...

编程日记 2026/4/24 3:48:44

jvm安全点(五)openjdk17 c++源码垃圾回收之安全点阻塞状态线程在安全点同步中无需调用block函数的详细流程解析

关于阻塞状态线程在安全点同步中无需调用block函数的详细流程解析： 1. 安全点同步入口：SafepointSynchronize::begin() VM线程调用此函数启动安全点，核心步骤如下： 获取线程锁（Threads_lock）：防…...

编程日记 2026/4/21 6:06:48

C++ 中的常变量与宏变量比较

🔍 C 中的常变量与宏变量比较 C 中定义不可修改值的方式主要有两种：常变量（const/constexpr） 和宏变量（#define）。它们在机制、类型安全性、作用域和调试支持方面存在显著差异。 ✅ 1. 常变量&#x…...

编程日记 2026/4/20 0:30:05

【C++】控制台小游戏

移动：W向上，S上下，A向左，D向右程序代码： #include <iostream> #include <conio.h> #include <windows.h> using namespace std;bool gameOver; const int width 20; const int height 17; int …...

编程日记 2026/4/21 2:15:18

配合本专栏前端文章对应的后端文章——从模拟到展示：一步步搭建传感器数据交互系统

对应文章：进一步完善前端框架搭建及vue-konva依赖的使用（Vscode）-CSDN博客目录一、后端开发 1.模拟传感器数据 2.前端页面呈现数据后端互通 2.1更新模拟传感器数据程序（多次请求） 2.2🧩 功能目标 …...

编程日记 2026/4/21 2:14:17

React中常用的钩子函数:

一. 基础钩子 (1)useState 用于在函数组件中添加局部状态。useState可以传递一个参数，做为状态的初始值，返回一个数组，数组的第一个元素是返回的状态变量，第二个是修改状态变量的函数。 const [state, setState] useState(ini…...

编程日记 2026/3/4 0:13:29

springboot IOC

springboot IOC IoC Inversion of Control Inversion 反转依赖注入 DI （dependency injection ） dependency 依赖 injection 注入 Qualifier 预选赛一文带你快速理解JavaWeb中分层解耦的思想及其实现，理解 IOC和 DI https://zhuanlan.…...

编程日记 2026/4/21 2:13:16

java面试每日一背 day2

1.什么是缓存击穿？怎么解决？ 缓存击穿是指在高并发场景下，某个热点key突然过期失效，此时大量请求同时访问这个已经过期的key，导致所有请求都直接打到数据库上，造成数据库瞬时压力过大甚至崩溃的情况。解…...

编程日记 2026/2/25 10:30:00

Ajax01-基础

一、AJAX 1.AJAX概念使浏览器的XMLHttpRequest对象与服务器通信浏览器网页中，使用 AJAX技术（XHR对象）发起获取省份列表数据的请求，服务器代码响应准备好的省份列表数据给前端，前端拿到数据数组以后，展…...

编程日记 2026/4/21 2:13:19

（37）服务器增加ipv6配置方法

（1）172.25.38.93服务器，IPv6地址如下： IPv6地址：2405:6F00:E033:B800:0000:0000:0003:0A5D IPv6掩码：/120 IPv6网关地址：2405:6F00:E033:B800:0000:0000:0003:0AFF 配置： # 静态 IPv6 地址和前缀（根据实际情况填写） IPV6ADDR=2405:6F00:E033:B800:0000:0000:0003:0…...

编程日记 2026/3/11 14:41:22

生成树协议（STP）配置详解：避免网络环路的最佳实践

生成树协议（STP）配置详解：避免网络环路的最佳实践生成树协议（STP）配置详解：避免网络环路的最佳实践一、STP基本原理二、STP 配置示例（华为交换机）1. 启用生成树协议2. 配置根桥3. 查…...

编程日记 2026/4/21 2:43:00

面向 C 语言项目的系统化重构实战指南

摘要：在实际开发中，C 语言项目往往随着功能演进逐渐变得混乱：目录不清、宏滥用、冗余代码、耦合高、测试少……面对这样的“技术债积累”，盲目大刀阔斧只会带来更多混乱。本文结合 C 语言的特点，从项目评估、目录规划、宏与内联、接口封装、冗余剔除、测试与 CI、迭代重构…...

编程日记 2026/4/21 2:13:19

网络层——蚂蚁和信鸽的关系VS路由原理和相关配置

前言（🐜✉️🕊️） 今天内容的主角是蚂蚁（动态路由）和信鸽（静态路由），为什么这么说呢，来看一则小故事吧。森林里，森林邮局要送一份重要信件&am…...

编程日记 2026/4/21 9:52:02

Python Pandas库简介及常见用法

Python Pandas库简介及常见用法一、 Pandas简介1. 简介2. 主要特点（一）强大的数据结构（二）灵活的数据操作（三）时间序列分析支持（四）与其他库的兼容性 3.应用场景（一&…...

编程日记 2026/4/19 1:47:45

第十六届蓝桥杯复盘

文章目录 1.数位倍数2.IPv63.变换数组4.最大数字5.小说6.01串7.甘蔗8.原料采购省赛过去一段时间了，现在复盘下，省赛报完名后一直没准备所以没打算参赛，直到比赛前两天才决定参加，赛前两天匆匆忙忙下载安装了比赛要用的编译器ecli…...

编程日记 2026/4/24 6:14:17

【已解决】HBuilder X编辑器在外接显示器或者4K显示器怎么界面变的好小问题

触发方式：主要涉及DPI缩放问题，可能在电脑息屏有概率触发修复方式： 1.先关掉软件直接更改屏幕缩放，然后打开软件，再关掉软件恢复原来的缩放，再打开软件就好了 2.(不推荐）右键HBuilder在属性里…...

编程日记 2026/4/21 2:13:18

直线型绝对值位移传感器：精准测量的科技利刃

在科技飞速发展的今天，精确测量成为了众多领域不可或缺的关键环节。无论是工业自动化生产线上的精细操作，还是航空航天领域中对零部件位移的严苛把控，亦或是科研实验中对微小位移变化的精准捕捉，都离不开一款高性能的测量设备——…...

编程日记 2026/4/21 2:13:49

解决服务器重装之后vscode Remote-SSH无法连接的问题

在你的windows命令窗口输入： ssh-keygen -R 服务器IPssh-keygen 不是内部或外部命令 .找到Git(安装目录)/usr/bin目录下的ssh-keygen.exe(如果找不到，可以在计算机全局搜索) 2.属性–>高级系统设置–>环境变量–>系统变量,找到Path变量&#…...

编程日记 2026/3/3 12:57:32