当前位置：首页 > news >正文

FastGPT 引申：基于 Python 版本实现 Java 版本 RRF

news 2025/11/7 8:11:53

文章目录

- FastGPT 引申：基于 Python 版本实现 Java 版本 RRF
- - 函数定义
  - 使用示例

FastGPT 引申：基于 Python 版本实现 Java 版本 RRF

函数定义

使用 Java 实现 RRF 相关的两个函数：合并结果、过滤结果

import java.util.*;// 搜索结果类型定义
public class SearchDataResponseItem {private String id;private String q;private String a;private List<Score> score;private double rrfScore;  // 临时存储RRF分数// 其他字段...// getter和setter方法
}// 分数类型定义
public class Score {private String type;private double value;private int index;// getter和setter方法
}// 搜索结果合并工具类
public class DatasetSearchUtils {/*** RRF搜索结果合并* @param searchResults 搜索结果列表,包含k值和结果列表* @return 合并后的结果*/public static List<SearchDataResponseItem> datasetSearchResultConcat(List<SearchResultGroup> searchResults) {// 过滤空结果searchResults = searchResults.stream().filter(item -> !item.getList().isEmpty()).collect(Collectors.toList());// 处理边界情况if (searchResults.isEmpty()) {return new ArrayList<>();}if (searchResults.size() == 1) {return searchResults.get(0).getList();}// 用Map存储合并结果Map<String, SearchDataResponseItem> resultMap = new HashMap<>();// RRF算法实现for (SearchResultGroup group : searchResults) {int k = group.getK();List<SearchDataResponseItem> list = group.getList();for (int i = 0; i < list.size(); i++) {SearchDataResponseItem data = list.get(i);int rank = i + 1;double score = 1.0 / (k + rank);SearchDataResponseItem record = resultMap.get(data.getId());if (record != null) {// 合并分数List<Score> concatScore = new ArrayList<>(record.getScore());for (Score dataScore : data.getScore()) {Optional<Score> sameScore = concatScore.stream().filter(s -> s.getType().equals(dataScore.getType())).findFirst();if (sameScore.isPresent()) {sameScore.get().setValue(Math.max(sameScore.get().getValue(), dataScore.getValue()));} else {concatScore.add(dataScore);}}// 更新记录record.setScore(concatScore);record.setRrfScore(record.getRrfScore() + score);resultMap.put(data.getId(), record);} else {// 新记录data.setRrfScore(score);resultMap.put(data.getId(), data);}}}// 排序List<SearchDataResponseItem> results = new ArrayList<>(resultMap.values());results.sort((a, b) -> Double.compare(b.getRrfScore(), a.getRrfScore()));// 格式化结果for (int i = 0; i < results.size(); i++) {SearchDataResponseItem item = results.get(i);Optional<Score> rrfScore = item.getScore().stream().filter(s -> s.getType().equals("rrf")).findFirst();if (rrfScore.isPresent()) {rrfScore.get().setValue(item.getRrfScore());rrfScore.get().setIndex(i);} else {Score newScore = new Score();newScore.setType("rrf");newScore.setValue(item.getRrfScore());newScore.setIndex(i);item.getScore().add(newScore);}// 清除临时RRF分数item.setRrfScore(0);}return results;}/*** 按最大Token数过滤结果* @param list 搜索结果列表* @param maxTokens 最大token限制* @return 过滤后的结果*/public static List<SearchDataResponseItem> filterSearchResultsByMaxChars(List<SearchDataResponseItem> list, int maxTokens) {List<SearchDataResponseItem> results = new ArrayList<>();int totalTokens = 0;for (SearchDataResponseItem item : list) {// 注意:这里需要实现countPromptTokens方法int tokens = countPromptTokens(item.getQ() + item.getA());totalTokens += tokens;if (totalTokens > maxTokens + 500) {break;}results.add(item);if (totalTokens > maxTokens) {break;}}// 确保至少返回一条结果if (results.isEmpty() && !list.isEmpty()) {results.add(list.get(0));}return results;}/*** 计算文本的token数量* 注意:这是一个示例实现,实际需要根据具体的分词算法来实现*/private static int countPromptTokens(String text) {// 这里需要实现实际的token计算逻辑// 可以使用各种NLP库或自定义的分词算法return text.length(); // 示例实现}
}// 搜索结果分组类
class SearchResultGroup {private int k;private List<SearchDataResponseItem> list;// getter和setter方法
}

使用示例

// 使用示例
List<SearchResultGroup> searchResults = new ArrayList<>();
// ... 添加搜索结果// 合并结果
List<SearchDataResponseItem> mergedResults = DatasetSearchUtils.datasetSearchResultConcat(searchResults);// 过滤结果
List<SearchDataResponseItem> filteredResults = DatasetSearchUtils.filterSearchResultsByMaxChars(mergedResults, 1500);

FastGPT 引申：基于 Python 版本实现 Java 版本 RRF

文章目录 FastGPT 引申：基于 Python 版本实现 Java 版本 RRF函数定义使用示例 FastGPT 引申：基于 Python 版本实现 Java 版本 RRF 函数定义使用 Java 实现 RRF 相关的两个函数：合并结果、过滤结果 import java.util.*;// 搜索结果类型定义…...

编程日记 2025/3/6 1:24:08

面试八股文--数据库基础知识总结(3)MySQL优化

目录 1、慢查询 Q1：在mysql中如何定位慢查询？ Q2：SQL语句执行很慢，如何分析？ 2、索引 Q3：什么是索引？ Q4：什么是聚簇索引和非聚簇索引？ Q5：什么是回表查…...

编程日记 2025/3/6 1:23:07

汇编前置知识学习第11-13天

今天要做什么？ 1:虚拟机准备环境 2:virtualBox 创建虚拟硬盘，配置bochs文件启动一： VMDK（VMWare 虚拟机） VDI（VirtualBox虚拟机） VHD（virtual-PC/Hyper-V 虚拟机）…...

编程日记 2025/3/6 1:22:05

springboot在业务层校验对象/集合中字段是否符合要求

springboot在业务层校验对象参数是否必填 1.场景说明2.代码实现 1.场景说明为什么不在控制层使用Validated或者Valid注解直接进行校验呢？例如通过excel导入数据，将excel数据转为实体类集合后，校验集合中属性是否符合要求。 2.代码实现定义…...

编程日记 2025/3/6 1:18:01

python二级考试中会考到的第三方库

在 Python 二级考试中，可能会涉及一些常用的第三方库。这些库可以帮助考生更好地理解和应用 Python 编程。以下是一些在 Python 二级考试中可能会用到的第三方库及其简要介绍：1. requests 用途：用于发送 HTTP 请求。安装：pip install requests示例代码：import requestsres…...

编程日记 2025/3/6 1:09:52

Linux中死锁问题的探讨

在 Linux 中，死锁（Deadlock） 是指多个进程或线程因为竞争资源而相互等待，导致所有相关进程或线程都无法继续执行的状态。死锁是一种严重的系统问题，会导致系统资源浪费，甚至系统崩溃。死锁的定义死锁是指…...

编程日记 2025/3/6 1:08:51

【实战 ES】实战 Elasticsearch：快速上手与深度实践-2.3.1 避免频繁更新（Update by Query的代价）

👉 点击关注不迷路 👉 点击关注不迷路 👉 点击关注不迷路文章大纲 Elasticsearch数据更新与删除深度解析：2.3.1 避免频繁更新（Update by Query的代价）案例背景1. Update by Query的内部机制解析1.1 文档更…...

编程日记 2025/3/6 0:57:40

【Python项目】基于Python的书籍售卖系统

【Python项目】基于Python的书籍售卖系统技术简介：采用Python技术、MYSQL数据库等实现。系统简介：书籍售卖系统是一个基于B/S结构的在线图书销售平台，主要分为前台和后台两部分。前台系统功能模块分为（1）用户中心模…...

编程日记 2025/3/6 0:55:38

参考文档：https://blog.csdn.net/weixin_44215249/article/details/117376417?fromshareblogdetail&sharetypeblogdetail&sharerId117376417&sharereferPC&sharesourceqxpapt&sharefromfrom_link. spring boot vue 搭建环境一、浏览器二、jd…...

编程日记 2025/3/6 0:54:37

Linux下的shell指令（一）

作业 1> 在终端提示输入一个成绩，通过shell判断该成绩的等级 [90,100] : A [80, 90) : B [70, 80) : C [60, 70) : D [0, 60) : 不及格 #!/bin/bash read -p "请输入学生成绩:" score if [ "$score" -ge 90 ] && [ "$scor…...

编程日记 2025/3/6 0:50:32

JS禁止web页面调试

前言由于前端在页面渲染的过程中会调用很多后端的接口，而有些接口是不希望别人看到的，所以前端调用后端接口的行为动作就需要做一个隐藏。禁用右键菜单 document.oncontextmenu function() {console.log("禁用右键菜单");return false;…...

编程日记 2025/3/6 0:49:31

GIt分支合并

分支 1: C0 → C1 → C2 → C3（最新） 分支 2: C0 → C4 → C5 → C6（最新）1. 找到共同父节点 C0 Git 会先找出 branch1 和 branch2 的共同祖先节点 C0。这通常借助 git merge-base 命令达成，虽然在日常使用 git merge…...

编程日记 2025/3/6 0:47:29

Sqli-labs

1.搭建【前提是已经下载安装好phpstudy_pro】 1.1源码准备 1.1.1源码下载这里从github下载 https://codeload.github.com/Audi-1/sqli-labs/zip/masterhttps://codeload.github.com/Audi-1/sqli-labs/zip/master 1.1.2下载的靶场源码放到WWW下将刚才下载的压缩包解压到…...

编程日记 2025/3/6 0:46:27

unreal engine gameplay abiliity 获取ability的cooldown剩余时间

unreal engine gameplay abiliity 获取ability的cooldown 版本 5.4.4 参考测试代码 if (HasAuthority() && AbilitySystemComponent){TArray<FGameplayAbilitySpecHandle> OutAbilityHandles;AbilitySystemComponent->GetAllAbilities(OutAbilityHandles…...

编程日记 2025/3/6 0:43:23

【GenBI优化】提升text2sql准确率：建议使用推理大模型，增加重试

引言 Text-to-SQL（文本转 SQL）是自然语言处理（NLP）领域的一项重要任务，旨在将自然语言问题自动转换为可在数据库上执行的 SQL 查询语句。这项技术在智能助手、数据分析工具、商业智能（BI）平台等领域具有广泛的应用前景，能够极大地降低数据查询和分析的门槛，让非技术用…...

编程日记 2025/3/6 0:40:19

【六祎 - Note】SQL备忘录；DDL,DML,DQL,DCL

SQL备忘录 from to : 点击访问源地址...

编程日记 2025/3/6 0:39:18

高频 SQL 50 题（基础版）_1341. 电影评分

高频 SQL 50 题（基础版）_1341. 电影评分思路思路 (select Users.name results from Users left join MovieRating on Users.user_id MovieRating.user_id group by(Users.name) order by count(MovieRating.movie_id) desc,Users.name asc limit 1) u…...

编程日记 2025/3/6 0:36:14

JavaScript 变量命名规范

在编写JavaScript代码时，选择合适的变量名对于代码的清晰度、可读性和可维护性至关重要。一个良好的变量命名规范不仅能帮助团队成员更好地理解代码意图，还能减少错误发生的可能性。本文将介绍一些广泛接受的JavaScript变量命名规则和最佳实践。命名的…...

编程日记 2025/3/6 0:32:09

解决 uView-UI和uv-ui 中 u-tabs 组件在微信小程序中出现横向滚动条的问题

问题描述在微信小程序中使用 uView-UI 的 u-tabs 组件时，用户可能会遇到横向滚动条的问题。这不仅影响了页面的美观，还可能导致用户误操作。问题原因该问题的根本原因是未在微信小程序环境下屏蔽滚动条。uView-UI 的 u-tabs 组件默认只在 H5 环境下…...

编程日记 2025/3/6 0:31:08

20250304解决在飞凌的OK3588-C的Linux R4下解决使用gstreamer保存的mp4打不开

sync poweroff rootok3588:/# sync rootok3588:/# sync rootok3588:/# cd 107 rootok3588:/107# ls -l total 0 rootok3588:/107# sync rootok3588:/107# poweroff 20250304解决在飞凌的OK3588-C的Linux R4下解决使用gstreamer保存的mp4打不开 2025/3/4 10:58 缘起&#xff1a…...

编程日记 2025/3/6 0:30:06

谷歌浏览器插件

项目中有时候会用到插件 sync-cookie-extension1.0.0：开发环境同步测试 cookie 至 localhost，便于本地请求服务携带 cookie 参考地址：https://juejin.cn/post/7139354571712757767 里面有源码下载下来，加在到扩展即可使用FeHelp…...

编程新知 2025/8/16 3:55:30

Linux 文件类型，目录与路径，文件与目录管理

文件类型后面的字符表示文件类型标志普通文件：-（纯文本文件，二进制文件，数据格式文件） 如文本文件、图片、程序文件等。目录文件：d（directory） 用来存放其他文件或子目录。设备…...

编程新知 2025/11/1 0:21:42

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

医院信息管理系统 1. 课程设计内容在 visual studio 2017 平台上，开发一个“医院信息管理系统”Web 程序。 2. 课程设计目的综合运用 c#.net 知识，在 vs 2017 平台上，进行 ASP.NET 应用程序和简易网站的开发；初步熟悉开发一…...

编程新知 2025/11/1 2:29:10

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

今天呢，博主的学习进度也是步入了Java Mybatis 框架，目前正在逐步杨帆旗航。那么接下来就给大家出一期有关 Mybatis 逆向工程的教学，希望能对大家有所帮助，也特别欢迎大家指点不足之处，小生很乐意接受正确的建议&…...

编程新知 2025/11/1 20:38:11

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

第一章引言：语义表示的新时代挑战与Qwen3的破局之路 1.1 文本嵌入的核心价值与技术演进在人工智能领域，文本嵌入技术如同连接自然语言与机器理解的“神经突触”——它将人类语言转化为计算机可计算的语义向量，支撑着搜索引擎、推荐系统、…...

编程新知 2025/11/6 8:47:31

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

引擎版本： 3.8.1 语言： JavaScript/TypeScript、C、Java 环境：Window 参考：Java原生反射机制您好，我是鹤九日！ 回顾在上篇文章中：CocosCreator Android项目接入UnityAds 广告SDK。我们简单讲…...

编程新知 2025/11/2 15:13:29

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别直接训练提示词嵌入向量的核心区别您提到的代码： prompt_embedding = initial_embedding.clone().requires_grad_(True) optimizer = torch.optim.Adam([prompt_embedding...

编程新知 2025/7/4 0:50:01

如何理解 IP 数据报中的 TTL？

目录前言理解前言面试灵魂一问：说说对 IP 数据报中 TTL 的理解？我们都知道，IP 数据报由首部和数据两部分组成，首部又分为两部分：固定部分和可变部分，共占 20 字节，而即将讨论的 TTL 就位于首…...

编程新知 2025/11/2 8:55:38

Pinocchio 库详解及其在足式机器人上的应用

Pinocchio 库详解及其在足式机器人上的应用 Pinocchio (Pinocchio is not only a nose) 是一个开源的 C 库，专门用于快速计算机器人模型的正向运动学、逆向运动学、雅可比矩阵、动力学和动力学导数。它主要关注效率和准确性，并提供了一个通用的框架&…...

编程新知 2025/10/30 3:23:02

动态 Web 开发技术入门篇

一、HTTP 协议核心 1.1 HTTP 基础协议全称 ：HyperText Transfer Protocol（超文本传输协议） 默认端口 ：HTTP 使用 80 端口，HTTPS 使用 443 端口。请求方法 ： GET ：用于获取资源，…...

编程新知 2025/10/3 0:42:17

FastGPT 引申：基于 Python 版本实现 Java 版本 RRF

文章目录

FastGPT 引申：基于 Python 版本实现 Java 版本 RRF

函数定义

使用示例

相关文章：

FastGPT 引申：基于 Python 版本实现 Java 版本 RRF

面试八股文--数据库基础知识总结(3)MySQL优化

汇编前置知识学习第11-13天

springboot在业务层校验对象/集合中字段是否符合要求

python二级考试中会考到的第三方库

Linux中死锁问题的探讨

【实战 ES】实战 Elasticsearch：快速上手与深度实践-2.3.1 避免频繁更新（Update by Query的代价）

【Python项目】基于Python的书籍售卖系统

spring boot + vue 搭建环境

Linux下的shell指令（一）

JS禁止web页面调试

GIt分支合并

Sqli-labs

unreal engine gameplay abiliity 获取ability的cooldown剩余时间

【GenBI优化】提升text2sql准确率：建议使用推理大模型，增加重试

【六祎 - Note】SQL备忘录；DDL,DML,DQL,DCL

高频 SQL 50 题（基础版）_1341. 电影评分

JavaScript 变量命名规范

解决 uView-UI和uv-ui 中 u-tabs 组件在微信小程序中出现横向滚动条的问题

20250304解决在飞凌的OK3588-C的Linux R4下解决使用gstreamer保存的mp4打不开

谷歌浏览器插件

Linux 文件类型，目录与路径，文件与目录管理

基于ASP.NET+ SQL Server实现（Web）医院信息管理系统

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

Qwen3-Embedding-0.6B深度解析：多语言语义检索的轻量级利器

CocosCreator 之 JavaScript/TypeScript和Java的相互交互

OpenPrompt 和直接对提示词的嵌入向量进行训练有什么区别

如何理解 IP 数据报中的 TTL？

Pinocchio 库详解及其在足式机器人上的应用

动态 Web 开发技术入门篇