【RAG】ragflow源码亮点:文档embedding向量化加权融合
引言:
最近在看ragflow源码,其中有一个较为巧妙地设计:分别将 文字 、 标题 行向量化 之后,直接根据权重,进行加法运算,得到向量融合,增强了文本向量化的表示能力,这里开始讨论一下,为什么这里可以直接对向量进行加法运算,而得到一个增强的表示
加权代码片段:
title_w = 0.1 是标题的权重
tts 是标题进行embedding向量化后的矩阵
cnts 是将内容进行embedding向量化后的矩阵
vects 生成的最终的文档向量
vects = (title_w * tts + (1 - title_w) *cnts) if len(tts) == len(cnts) else cnts
目的:优化表示
单独使用标题向量可能丢失细节(如标题 “报告” 无法区分是 “营收报告” 还是 “技术报告”);单独使用内容向量可能因信息冗余导致主题模糊(如大段无关描述覆盖核心主题)。通过加权融合,可弥补单一模态的缺陷。
完整embedding代码
async def embedding(docs, mdl, parser_config=None, callback=None):if parser_config is None:parser_config = {}batch_size = 16tts, cnts = [], []for d in docs:tts.append(d.get("docnm_kwd", "Title"))c = "\n".join(d.get("question_kwd", []))if not c:c = d["content_with_weight"]c = re.sub(r"</?(table|td|caption|tr|th)( [^<>]{0,12})?>", " ", c)if not c:c = "None"cnts.append(c)tk_count = 0if len(tts) == len(cnts):vts, c = await trio.to_thread.run_sync(lambda: mdl.encode(tts[0: 1]))tts = np.concatenate([vts for _ in range(len(tts))], axis=0)tk_count += ccnts_ = np.array([])for i in range(0, len(cnts), batch_size):vts, c = await trio.to_thread.run_sync(lambda: mdl.encode([truncate(c, mdl.max_length-10) for c in cnts[i: i + batch_size]]))if len(cnts_) == 0:cnts_ = vtselse:cnts_ = np.concatenate((cnts_, vts), axis=0)tk_count += ccallback(prog=0.7 + 0.2 * (i + 1) / len(cnts), msg="")cnts = cnts_title_w = float(parser_config.get("filename_embd_weight", 0.1))vects = (title_w * tts + (1 - title_w) *cnts) if len(tts) == len(cnts) else cntsassert len(vects) == len(docs)vector_size = 0for i, d in enumerate(docs):v = vects[i].tolist()vector_size = len(v)d["q_%d_vec" % len(v)] = vreturn tk_count, vector_size
问题:为什么可以直接简单地通过加法进行融合?
要理解“向量值的含义”和“加法为何能融合特征”,我们需要从语义向量空间的本质和特征融合的数学逻辑两个层面入手,结合具体场景(如文档向量化)解释:
一、向量值的本质:语义空间中的坐标
在自然语言处理(NLP)中,文本向量化(Embedding)的核心是将文本映射到一个高维语义空间中,向量的每个维度对应空间中的一个“语义特征”。==向量值(即每个维度的数值)本质是文本在该特征上的“得分” ==
举个具体例子
假设我们有一个简化的3维语义空间,三个维度分别代表:
- 维度1:“技术”相关程度(数值越大,文本越可能涉及技术);
- 维度2:“财务”相关程度(数值越大,文本越可能涉及财务);
- 维度3:“时间”(数值越大,文本越可能涉及时间描述)。
现在有两个文本:
- 标题:“2023年公司技术研发报告”
其向量可能是[0.8, 0.2, 0.7]
(表示:技术相关度80%,财务相关度20%,时间相关度70%)。 - 内容:“本年度研发投入5000万元,用于AI算法优化”
其向量可能是[0.7, 0.6, 0.3]
(技术相关度70%,财务相关度60%,时间相关度30%)。
这里的每个数值(如0.8、0.2)并非绝对的“分数”,而是模型通过预训练学习到的相对语义关联程度。向量整体则表示文本在这个语义空间中的“位置”——相似文本会在空间中相邻(向量余弦相似度高)。
二、为什么向量加法可以融合特征?
向量加法能融合特征的前提是:标题向量与内容向量在同一语义空间中(即由同一模型编码,维度相同且每个维度的语义含义一致)。此时,加法操作的本质是将两个向量在同一空间中的坐标按比例叠加,从而合并两者的语义信息。
从数学角度看:线性叠加保留所有特征
假设标题向量为 ( \mathbf{T} = [t_1, t_2, …, t_n] ),内容向量为 ( \mathbf{C} = [c_1, c_2, …, c_n] ),融合后的向量为 ( \mathbf{V} = w*\mathbf{T} + (1-w)*\mathbf{C} )(( w ) 是标题权重)。
每个维度 ( v_i ) 的计算为:
[ v_i = w*t_i + (1-w)*c_i ]
这相当于:
- 对标题在维度 ( i ) 的语义得分 ( t_i ),按权重 ( w ) 保留;
- 对内容在维度 ( i ) 的语义得分 ( c_i ),按权重 ( (1-w) ) 保留;
- 最终 ( v_i ) 是两者的加权和,同时包含标题和内容在该维度的信息。
从语义角度看:互补信息的融合
回到前面的例子,标题和内容的向量各维度得分如下:
维度 | 标题向量 ( \mathbf{T} ) | 内容向量 ( \mathbf{C} ) | 融合后 ( \mathbf{V} )(( w=0.3 )) |
---|---|---|---|
技术相关度 | 0.8 | 0.7 | ( 0.30.8 + 0.70.7 = 0.24 + 0.49 = 0.73 ) |
财务相关度 | 0.2 | 0.6 | ( 0.30.2 + 0.70.6 = 0.06 + 0.42 = 0.48 ) |
时间相关度 | 0.7 | 0.3 | ( 0.30.7 + 0.70.3 = 0.21 + 0.21 = 0.42 ) |
融合后的向量 ( \mathbf{V} = [0.73, 0.48, 0.42] ) 同时体现了:
- 标题的“时间相关度高”(原0.7,融合后0.42);
- 内容的“财务相关度高”(原0.6,融合后0.48);
- 两者共同的“技术相关度高”(原0.8和0.7,融合后0.73)。
这比单独使用标题(可能忽略财务细节)或内容(可能弱化时间信息)的向量更全面。
三、为什么必须用同一模型编码?
如果标题和内容用不同模型编码(例如标题用模型A,内容用模型B),它们的向量可能不在同一语义空间(维度不同,或同一维度的语义含义不同)。此时加法无意义。
例如:
- 模型A的维度1表示“技术相关度”;
- 模型B的维度1可能表示“长度”(文本字数);
- 两者的维度1数值无法直接相加(一个是语义得分,一个是字数统计)。
而代码中标题和内容均使用 mdl.encode
(同一模型),确保了向量在同一空间中,加法操作才有语义意义。
总结
向量值的本质是文本在高维语义空间中的坐标,每个维度对应一个语义特征的“得分”。同一模型编码的标题和内容向量处于同一空间,加法操作通过线性叠加合并了两者在各维度的得分,从而融合了标题的概括性特征和内容的细节性特征。这就像将两种颜色按比例混合——最终颜色同时保留了两种颜色的成分,且比例由权重参数控制。
相关文章:
【RAG】ragflow源码亮点:文档embedding向量化加权融合
引言: 最近在看ragflow源码,其中有一个较为巧妙地设计:分别将 文字 、 标题 行向量化 之后,直接根据权重,进行加法运算,得到向量融合,增强了文本向量化的表示能力,这里开始讨论一下…...

大模型学习笔记day2 LoRA微调
LORA的核心思想基准模型不进行变化,我额外引入一部分参数来做专属内容处理,同时加上原有模型的推理能力,这部分新增加的的内容就是要训练出来的参数矩阵。 本征维度(Intrinsic Dimension):是指数据或空间中…...

Maven-概述-介绍安装
目录 1.项目对象模型 2.依赖管理模型 3.仓库:用于存储资源,管理各种jar包 4.本地仓库路径 5.Maven配置本地仓库 5.1在Maven路径下新建文件夹用于本地仓库存储 5.2 复制本地仓库路径 5.3 找到配置文件路径,使用VSCode方式打开 5.4 新…...

GitHub Page填写域名显示被占用
问题描述 在Github上使用github page搭建个人博客,在项目中的Settings->Pages页面里面填写个人的域名时,出现如下报错信息,显示域名被占用情况 The custom domain example.com is already taken. If you are the owner of this domain, c…...
js实现监听Ctrl/Cmd+C复制、Ctrl/Cmd+Z撤销 等快捷键
使用document.addEventListener监听keydown事件即可: 上代码: document.addEventListener(keydown, function(e) {// 判断是否按下 Ctrl/Cmd Zif ((e.ctrlKey || e.metaKey) && e.key z && !e.shiftKey) {e.preventDefault(); // 阻…...

java高级 -动态代理
动态代理的概念 动态代理是一种在运行时生成代理对象的机制,无需手动编写代理类。 代理就类似于中介公司,为明星置办各种前期准备。例如歌声需要开演唱会唱歌,那么此时就需要代理对象进行置办场地,设备,然后明星只需要…...

机器学习算法:线性回归
1. 基础概念 线性回归是一种用于建模连续型目标变量(如价格、销量、温度)与一个或多个特征变量(如面积、广告投入、时间)之间线性关系的统计方法。 核心思想:找到一条直线(或超平面)࿰…...
NotePad++编辑Linux服务器文档
参考资料: 参考文章 相关插件链接:链接: https://pan.baidu.com/s/1PBX9NY0pPz0sBqtfNxngXA 提取码: r3t7 概要: 通常简单的文件编辑,可以直接在Linux服务器,或客户端利用VIM命令编辑,编辑即可 但是过于复杂的文件,比如Mycat的XML编辑,就很不方便,需要利用Notepad++…...

常见小问题(Open Folder as PyCharm Project)
1.删除pycharm鼠标右键快捷键打开项目 winr键打开,输入regedit,运行注册器 找到下面的路径:计算机\HKEY_CLASSES_ROOT\Directory\Background\shell\PyCharm 删除即可...

第四十四节:目标检测与跟踪-模板匹配
一、引言 模板匹配的核心思想是通过在输入图像中搜索与预定义模板最相似的区域来定位目标。这种方法计算效率高、实现简单,特别适用于目标外观变化不大且背景相对简单的场景。本文将深入探讨模板匹配的原理、OpenCV中的实现方法、优化技巧以及实际应用案例。 二、模板匹配基础…...
Trae中使用mcp连接MariaDB
开启mariadb远程权限 -- 登录 MariaDB(如果需要密码,会提示输入) mysql -u root -p -- 切换到权限管理数据库 USE mysql; -- 创建允许从任何 IP 访问的 root 用户(推荐使用强密码) GRANT ALL PRIVILEGES ON *.* …...
第12次04 :首页展示用户名
登录后,跳转到首页,首页会展示用户名;未登录时,首页将展示登录与注册的选项。 第一步:index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml…...
MFC: 文件加解密(单元测试模块)
背景: 对敏感配置文件(如 XML 格式的配置文件、用户信息等)进行加密,防止被人以文本形式直接查看。软件启动前加载加密的配置或资源文件,运行时再进行解密使用,提高逆向破解门槛。在传输 XML 文件…...

vue+ThreeJs 创建过渡圆圈效果
嗨,我是小路。今天主要和大家分享的主题是“vueThreeJs 创建过渡圆圈效果”。 今天在做着色器过渡效果练习,发现出现了很多新的函数,这些都超出了js之外,需要更多的掌握和学习。以下是自己的复盘和梳理。 1.获取距离 定…...

MySQL:12_视图
视图 跟事务里讲的视图没有任何关系 视图是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。视图的数据变化会影响到基表,基表的数据变化也会影响到视图。 一.基本使用 创建视图 create view 视图名 …...
2025 年开源 LLM 发展趋势细致解读
1. 模型性能的持续跃进与架构创新 到 2025 年,开源 LLM 在性能上不仅持续追赶,甚至在特定任务和评估基准上已经能够与顶级的闭源模型并驾齐驱或展现出独特优势。MoE (Mixture of Experts) 架构的成熟和广泛应用是这一趋势中的核心驱动力之一。 MoE (Mix…...

win11+vs2022 安装opencv 4.11.0图解教程
1. 下载opencv opencv官网下载地址:Releases - OpenCV 2. 双击运行该exe,即可进行安装,安装文件夹可自行选择 安装后目录如下: 3. 配置环境变量 使用win键搜索环境变量,选中系统变量中的Path,然后点击编辑…...

n8n 读写本地文件
1.Docker Desktop 创建容器 docker run -d --name n8n -p 5566:5678 -v D:\docker\n8n_data:/home/node/.n8n -v D:\docker\n8n_files:/home/node/Files n8nio/n8n:latest 参数说明: 1.-d :表示以 detached 模式运行容器(后台运行) 2.--name n8n :指定容器名称为n8n。 3.-p 55…...
详解3DGS
4 可微分的3D高斯 splatting 核心目标与表示选择 我们的目标是从无法线的稀疏SfM点出发,优化出一种能够实现高质量新视角合成的场景表示。为此,我们选择3D高斯作为基本图元,它兼具可微分的体表示特性和非结构化的显式表示优势,既…...
DEBUG设置为False 时,django默认的后台样式等静态文件丢失的问题
1. 处理静态文件(解决后台样式丢失) 当 DEBUG False 时,Django 不再自动处理静态文件(CSS、JS 等),需手动配置: 步骤: 配置 STATIC_ROOT 和 STATIC_URL 在 settings.py 中确保以下…...
如何提高服务器的QPS来应对618活动的并发流量
在电商行业,618大促是继双十一之后最重要的一次“流量大战”。大量用户在短时间内涌入网站下单、抢购,服务器面临前所未有的并发压力。QPS(Queries Per Second,即每秒请求数)作为衡量服务器处理能力的重要指标,直接关系到用户体验…...

LlamaFirewall:开源框架助力检测与缓解AI核心安全风险
LlamaFirewall 是一款面向大语言模型(LLM)应用的系统级安全框架,采用模块化设计支持分层自适应防御。该框架旨在缓解各类AI代理安全风险,包括越狱攻击(jailbreaking)、间接提示注入(indirect pr…...

java基础知识回顾3(可用于Java基础速通)考前,面试前均可用!
目录 一、基本算数运算符 二、自增自减运算符 三、赋值运算符 四、关系运算符 五、逻辑运算符 六、三元运算符 七、 运算符的优先级 八、小案例:在程序中接收用户通过键盘输入的数据 声明:本文章根据黑马程序员b站教学视频做的笔记,可…...
嵌入式软件架构规范之 - 分层设计
一、规范的核心思想:驱动文件的“独立性”与“复用性” 该规范的本质是通过分层隔离,实现驱动代码的高复用性、低耦合性,确保驱动模块仅关注“硬件操作逻辑”,不依赖上层业务或下层硬件接口的具体实现细节。其核心要求包括&#…...

电脑无法识别打印机usb设备怎么办 一键解决!
在当今高度数字化的工作环境中,打印机作为重要的办公设备之一,承担着文件打印、扫描等关键任务。然而,有时我们可能会遇到一个令人头疼的问题——电脑无法识别通过USB连接的打印机。这种情况不仅会影响工作效率,还可能打断正常的工…...

Elasticsearch Synthetic _source
_source 字段包含索引时传入的原始 JSON 文档体。_source 字段本身不被索引(因此不可搜索),但会被存储,以便在执行获取请求(如 get 或 search)时返回。 如果磁盘使用很重要,可以考虑以下选项&a…...

C++ -- vector
vector 1. 关于vector1.1 对比原生数组1.2 vector的核心优势 2. 扩容2.1 底层实现2.2 扩容过程 3. 构造函数4. 接口模拟实现4.1 实现迭代器4.2 扩容4.3 重载[]4.4 插入和删除4.5 构造函数和析构函数 5. 迭代器失效5.1 扩容后失效5.2 越界失效 6. 深浅拷贝 1. 关于vector 1.1 对…...
GitLab-CI简介
概述 持续集成(CI)和 持续交付(CD) 是一种流行的软件开发实践,每次提交都通过自动化的构建(测试、编译、发布)来验证,从而尽早的发现错误。 持续集成实现了DevOps, 使开发人员和运维人员从繁琐的工作中解…...

深入研究Azure 容器网络接口 (CNI) overlay
启用cni overlay 在通过portal创建aks的时候,在networking配置上,选中下面的选项即可启用。 通过CLI创建AKS 要创建具有 CNI 覆盖网络的 AKS 群集,需要在创建群集时指定 --network-plugin azure 和 --network-plugin-mode 覆盖选项。 还需要指定 --pod-cidr 选项来定义群…...

Python打卡第37天
浙大疏锦行 早停策略和模型权重的保存 作业:对信贷数据集训练后保存权重,加载权重后继续训练50轮,并采取早停策略 import torch import torch.nn as nn import pandas as pd import matplotlib.pyplot as plt import torch.optim as optim fr…...