FastGPT 引申:混合检索完整实例
文章目录
- FastGPT 引申:混合检索完整实例
- 1. 各检索方式的初始结果
- 2. RRF合并过程
- 3. 合并后的结果
- 4. Rerank重排序后
- 5. 最终RRF合并
- 6. 内容总结
FastGPT 引申:混合检索完整实例
下边通过一个简单的例子说明不同检索方式的分值变化过程,假设我们有一个查询:“如何使用Python进行数据分析”
1. 各检索方式的初始结果
向量检索结果 (相似度分数0-1):
1. {id: "doc1",q: "Python数据分析基础教程",score: 0.85,type: "embedding"
}
2. {id: "doc2",q: "数据分析工具pandas使用",score: 0.78,type: "embedding"
}
全文检索结果 (BM25分数):
1. {id: "doc2",q: "数据分析工具pandas使用",score: 8.5,type: "fullText"
}
2. {id: "doc3",q: "Python编程基础",score: 6.2,type: "fullText"
}
2. RRF合并过程
使用公式: score = 1/(k + rank),这里 k=60
向量检索RRF分数:
doc1: 1/(60 + 1) = 0.0164
doc2: 1/(60 + 2) = 0.0161
全文检索RRF分数:
doc2: 1/(60 + 1) = 0.0164
doc3: 1/(60 + 2) = 0.0161
3. 合并后的结果
1. {id: "doc2", // 出现在两个结果中q: "数据分析工具pandas使用",score: [{type: "embedding", value: 0.78},{type: "fullText", value: 8.5},{type: "rrf", value: 0.0325} // 0.0161 + 0.0164]
}2. {id: "doc1",q: "Python数据分析基础教程",score: [{type: "embedding", value: 0.85},{type: "rrf", value: 0.0164}]
}3. {id: "doc3",q: "Python编程基础",score: [{type: "fullText", value: 6.2},{type: "rrf", value: 0.0161}]
}
4. Rerank重排序后
假设重排序模型对这些文档评分:
1. {id: "doc2",q: "数据分析工具pandas使用",score: [{type: "embedding", value: 0.78},{type: "fullText", value: 8.5},{type: "rrf", value: 0.0325},{type: "rerank", value: 0.92}]
}2. {id: "doc1",q: "Python数据分析基础教程",score: [{type: "embedding", value: 0.85},{type: "rrf", value: 0.0164},{type: "rerank", value: 0.88}]
}3. {id: "doc3",q: "Python编程基础",score: [{type: "fullText", value: 6.2},{type: "rrf", value: 0.0161},{type: "rerank", value: 0.75}]
}
5. 最终RRF合并
将重排序结果作为第三个来源(k=58)进行最终 RRF 合并:
doc2: 0.0325 + 1/(58 + 1) = 0.0325 + 0.0169 = 0.0494
doc1: 0.0164 + 1/(58 + 2) = 0.0164 + 0.0167 = 0.0331
doc3: 0.0161 + 1/(58 + 3) = 0.0161 + 0.0164 = 0.0325
6. 内容总结
展示如下环节:
- 不同检索方式的分数范围不同
- RRF 如何将不同分数统一到相同尺度
- 多次出现的文档如何累加 RRF 分数
- 重排序如何提供额外的相关性评分
文档排序综合考虑:
- 语义相似度(向量检索)
- 关键词匹配(全文检索)
- 语义理解(重排序)
- 在不同搜索结果中的排名位置(RRF)
相关文章:
FastGPT 引申:混合检索完整实例
文章目录 FastGPT 引申:混合检索完整实例1. 各检索方式的初始结果2. RRF合并过程3. 合并后的结果4. Rerank重排序后5. 最终RRF合并6. 内容总结 FastGPT 引申:混合检索完整实例 下边通过一个简单的例子说明不同检索方式的分值变化过程,假设我…...
一、Prometheus架构
Prometheus 云原生十二要素是一套最佳实践和规范,旨在帮助开发人员更好地构建云原生应用 这十二个要素分别是: 单一职责独立部署无状态声明式API服务发现容错处理自适应算法自动化运维响应式编程通信协议服务注册与发现数据持久化一、Prometheus 是什么 Prometheus 是一个…...
蓝桥杯C组真题——巧克力
题目如下 思路 代码及解析如下 谢谢观看...
【大模型】大模型分类
大模型(Large Models)通常指参数量巨大、计算能力强大的机器学习模型,尤其在自然语言处理(NLP)、计算机视觉(CV)等领域表现突出。以下是大模型的常见分类方式: 1. 按应用领域分类 …...
WebUSB的常用API及案例
WebUSB API 允许网页与 USB 设备进行交互,但出于安全考虑,浏览器要求在调用 requestDevice 方法(用于请求用户选择一个 USB 设备并授予网页访问权限)时,必须是在处理用户手势(例如点击按钮)的过…...
在线研讨会 | 加速游戏和AI应用,全面认识Imagination DXTP GPU
近日,Imagination宣布推出 Imagination DXTP GPU IP,该产品重新定义了智能手机和其他功耗受限设备的图形和计算加速。它专为高效的效率而设计,能够提供运行AI、游戏和用户界面体验所需的性能,确保这些体验可以全天候流畅且持续地运…...
The Rust Programming Language 学习 (三)
所有权 所有权(系统)是 Rust 最为与众不同的特性,它让 Rust 无需垃圾回收器(garbage collector)即可保证内存安全。因此,理解 Rust 中所有权的运作方式非常重要。 这里是非常重非常重的一个知识点,这里一…...
【一个月备战蓝桥算法】递归与递推
字典序 在刷题和计算机科学领域,字典序(Lexicographical order)也称为词典序、字典顺序、字母序,是一种对序列元素进行排序的方式,它模仿了字典中单词的排序规则。下面从不同的数据类型来详细解释字典序: …...
【零基础到精通Java合集】第二十九集:SQL常用优化手段
课程标题:SQL常用优化手段——15分钟快速提升数据库性能 目标:掌握10+核心SQL优化技巧,解决慢查询、高负载等生产问题 0-1分钟:优化核心原则——减少数据扫描量 本质逻辑:通过索引、分页、过滤条件等手段,最小化磁盘I/O和内存计算。 反例:SELECT * FROM orders(全表扫…...
ArcGIS操作:07 绘制矢量shp面
1、点击目录 2、右侧显示目录 3、选择要存储的文件夹,新建shp 4、定义名称、要素类型、坐标系 5、点击开始编辑 6、点击创建要素 7、右侧选择图层、创建面 8、开始绘制,双击任意位置结束绘制...
如何远程访问svn中的URL
简介: 主要opencascade相关知识学习 格言: 万丈高楼平地起 要远程访问 SVN(Subversion)仓库中的 URL,通常需要以下步骤和注意事项: 1. 确认远程 SVN 服务器的访问协议 SVN 支持多种协议访问远程仓库&…...
归并排序:分治哲学的完美演绎与时空平衡的艺术
引言:跨越世纪的算法明珠 在计算机科学的璀璨星河中,归并排序犹如一颗恒久闪耀的明星。1945年,现代计算机之父冯诺伊曼在EDVAC计算机的研发过程中首次系统性地提出了这一算法,其精妙的分治思想不仅奠定了现代排序算法的理论基础&…...
【电控笔记z69】电机选型-机械特性
转矩特性 启动转矩 定义:指电机在启动瞬间所能提供的转矩。对于一些需要快速启动负载的设备,如起重机起升机构、电动汽车起步等,较大的启动转矩至关重要。影响因素:电机的类型、绕组参数、电源电压等都会影响启动转矩。例如,直流电机通过调节电枢电压和励磁电流可以在较大…...
Axure原型模板与元件库APP交互设计素材(附资料)
为了高效地进行APP和小程序的设计与开发,原型设计工具Axure凭借其强大的功能和灵活性,成为了众多产品经理和设计师的首选。本文将详细介绍Axure原型模板APP常用界面组件元件库、交互设计素材,以及多套涵盖电商、社区服务、娱乐休闲、农业农村…...
<网络> TCP协议
目录 TCP协议 与系统相关联 文件与套接字的关系 C语言的多态 谈谈可靠性 TCP协议格式 目的端口号 4位首部长度 16位窗口大小 序号与确认序号 32位序号 32位确认序号 标志位 TCP连接 三次握手 四次挥手 三次握手状态变化 四次挥手状态变化 流量控制 滑动窗口 拥塞控制 延迟应…...
自学微信小程序的第十三天
DAY13 1、使用map组件在页面中创建地图后,若想在JS文件中对地图进行控制,需要通过地图API来完成。先通过wx.createMapContext()方法创建MapContext(Map上下文)实例,然后通过该实例的相关方法来操作map组件。 const m…...
JAVA编程【jvm垃圾回收的差异】
jvm垃圾回收的差异 JVM(Java Virtual Machine)的垃圾回收(GC)机制是自动管理内存的一种方式,能够帮助开发者释放不再使用的内存,避免内存泄漏和溢出等问题。不同的垃圾回收器(GC)有…...
VBA信息获取与处理第五节:如何在单个工作表中查找某个给定值
《VBA信息获取与处理》教程(版权10178984)是我推出第六套教程,目前已经是第一版修订了。这套教程定位于最高级,是学完初级,中级后的教程。这部教程给大家讲解的内容有:跨应用程序信息获得、随机信息的利用、电子邮件的发送、VBA互…...
linux一些使用技巧
linux一些使用技巧 文件名称和路径的提取切换用户执行当前脚本一行演示单引号与双引号的使用curl命令仅输出响应头信息,不输出body体文件名称和路径的提取 文件路径为 /tmp/tkgup/test.sh 方式获取文件名获取文件路径获取文件全路径方式一basename ${file}dirname ${file}real…...
ubuntu20.04 安装离线版docker-20.10.0
1. 安装步骤 步骤一:官网下载 docker 安装包 wget https://download.docker.com/linux/static/stable/x86_64/docker-20.10.0.tgz步骤二:解压安装包; tar -zxvf docker-20.10.0.tgz 步骤三:将解压之后的docker文件移到 /usr/bin目录下; c…...
K8s 1.27.1 实战系列(一)准备工作
一、准备服务器 主机IP 操作系统计算资源 说明 192.168.202.23 CentOS74核8G内存50G硬盘 k8s-master 192.168.202.24 CentOS74核8G内存50G硬盘 k8s-node1 192.168.202.25 CentOS74核8G内存50G硬盘 k8s-node2 二、准备环境(所有节点) 1、关闭防火墙&…...
【推荐算法】python游戏数据分析可视化推荐系统(完整系统源码+数据库+开发笔记+详细部署教程)✅
目录 一、项目背景 二、项目拟解决问题 (1)数据价值断层 (2)用户画像模糊 (3)推荐策略单一 (4)决策可视化缺失 三、研究目的 (1)轻量化服务架构验证 …...
一文读懂深度学习中的损失函数quantifying loss —— 作用、分类和示例代码
在深度学习中,quantifying loss(量化损失)是指通过数学方法计算模型预测值与真实值之间的差异,以衡量模型的性能。损失函数(Loss Function)是量化损失的核心工具,它定义了模型预测值与真实值之间…...
Vue 3 整合 WangEditor 富文本编辑器:从基础到高级实践
本文将详细介绍如何在 Vue 3 项目中集成 WangEditor 富文本编辑器,实现图文混排、自定义扩展等高阶功能。 一、为什么选择 WangEditor? 作为国内流行的开源富文本编辑器,WangEditor 具有以下优势: 轻量高效:压缩后仅…...
筑牢网络安全防线:守护您的数据安全
在数字化时代,数据安全已成为企业和个人不容忽视的重要议题。近日印尼国家数据中心遭黑客袭击的事件,不仅扰乱了机场的移民检查,还影响了众多机构的服务运行。黑客利用恶意软件对数据中心进行攻击,索要巨额赎金,给印尼…...
基于Asp.net的农产品销售管理系统
作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…...
android11使用gpio口控制led状态灯
目录 一、简介 二、解决方法 A、底层驱动 B、上层调用 C、验证 一、简介 1、需求:这里是用2个gpio口来控制LED灯,开机时默认亮蓝灯,按开机键,休眠亮红灯,唤醒亮蓝灯。 原理图: 这里由于主板上电阻R63…...
解决最长无重复子串问题
在编程面试中,字符串处理常常是考察算法能力的重要部分。今天,我们将探讨一个经典问题——最长无重复子串问题,并给出 Python 代码实现。 问题描述 给定一个字符串 s,你需要找到其中最长的无重复字符的子串,并返回它…...
ASP .NET Core 学习(.NET9)Serilog日志整合
Serilog 是一个功能强大的 .NET 日志库,以其简洁的配置和灵活的输出方式而受到开发者喜爱。支持多种日志输出目标(如控制台、文件、数据库等),并且可以通过结构化日志的方式记录丰富的上下文信息,便于后续的日志分析和…...
基于python+flask+mysql的川渝地区天气数据分析系统
系统首页 天气数据分析 历史天气数据查询 python爬虫代码展示 import requests import re import time as delay from bs4 import BeautifulSoup import pandas as pd import pymysql import json# 定义一个函数,用于获取网页的源代码 def get_page(url, headers)…...
