FastGPT 引申:奥运选手知识图谱构建与混合检索应用
目录
- FastGPT 引申:奥运选手知识图谱构建与混合检索应用
- 第一部分:数据构建流程
- 1. 数据抽取与预处理
- 2. 向量化处理
- 3. 知识图谱构建
- 4. 数据持久化
- 第二部分:混合检索应用
- 1. 用户查询处理
- 2. 混合检索技术细节
- 3. 返回结果示例
- 4. 性能指标
FastGPT 引申:奥运选手知识图谱构建与混合检索应用
第一部分:数据构建流程
1. 数据抽取与预处理
目标:从奥运官网抓取土耳其射击选手信息
工具链:
- Firecrawl:动态网页抓取
- Unstructured.io:PDF/HTML解析
- Mistral-7B:信息抽取模型
# 数据抓取与清洗
from camel.tools import FirecrawlScraper, TextCleanerscraper = FirecrawlScraper(api_key="fc_123")
raw_data = scraper.scrape(url="olympics.com/tr/shooting")cleaner = TextCleaner()
structured_text = cleaner.clean(raw_data, chunk_strategy="section", # 按章节分块keep_headers=True # 保留标题结构
)
信息抽取结果示例:
{"athlete": "Yusuf Dikeç","nationality": "Turkey","event": "10m Air Pistol","medal": "Silver","game": {"year":2024, "location":"Paris"}
}
2. 向量化处理
技术栈:
- Mistral Embed:生成768维向量
- Qdrant:向量数据库存储
from camel.embeddings import MistralEmbed
from qdrant_client import QdrantClientembedder = MistralEmbed(model="large-v2")
qdrant = QdrantClient(host="localhost", port=6333)# 批量生成向量
vectors = [embedder.encode(text) for text in structured_text]# 向量存储
qdrant.upsert(collection_name="olympic_docs",points=[{"id": idx, "vector": vec, "payload": {"text": text}}for idx, (vec, text) in enumerate(zip(vectors, structured_text))]
)
3. 知识图谱构建
Neo4j节点关系建模:
// 节点定义
CREATE (:Athlete {id: "ATH_TR_001",name: "Yusuf Dikeç",nationality: "Turkey"
})CREATE (:Event {id: "EVT_10MAP",discipline: "10m Air Pistol"
})CREATE (:Game {id: "OG_2024",year: 2024,location: "Paris"
})// 关系建立
MATCH (a:Athlete {id:"ATH_TR_001"}), (e:Event {id:"EVT_10MAP"})
CREATE (a)-[:WON_MEDAL {type: "Silver",score: 243.7
}]->(e)MATCH (e:Event {id:"EVT_10MAP"}), (g:Game {id:"OG_2024"})
CREATE (e)-[:BELONGS_TO]->(g)
索引优化:
CREATE INDEX FOR (a:Athlete) ON (a.nationality)
CREATE INDEX FOR (g:Game) ON (g.year)
4. 数据持久化
| 存储类型 | 技术方案 | 数据示例 |
|---|---|---|
| 原始文本 | MongoDB (分片集群) | HTML/PDF原始文档 |
| 向量数据 | Qdrant (分布式部署) | 768维向量+文本元数据 |
| 图谱数据 | Neo4j (因果集群) | 节点+关系网络 |
第二部分:混合检索应用
1. 用户查询处理
输入:“查找2024年获得射击奖牌的土耳其选手”
智能体协作流程:
-
查询解析智能体(Mistral-7B)
from camel.agents import QueryAnalyzeranalyzer = QueryAnalyzer(model="mistral-7b") parsed = analyzer.parse("查找2024年获得射击奖牌的土耳其选手",params={"max_entities":3} ) # 输出: {'nationality':'Turkey', 'year':2024, 'sport':'Shooting'} -
混合检索执行
from camel.retrievers import HybridRetrieverretriever = HybridRetriever(vector_db="qdrant",graph_db="neo4j",fusion_ratio=0.65, # 向量检索权重semantic_threshold=0.7
)results = retriever.search(query_text="查找2024年获得射击奖牌的土耳其选手",vector_top_k=50,graph_depth=3
)
2. 混合检索技术细节
向量检索阶段:
- Qdrant执行ANN搜索,返回Top50候选文本
- 语义相似度计算:余弦相似度 > 0.7
图谱验证阶段:
// 自动生成的Cypher查询
MATCH (a:Athlete)-[r:WON_MEDAL]->(e:Event)-[:BELONGS_TO]->(g:Game)
WHERE a.nationality = "Turkey" AND g.year = 2024 AND e.discipline CONTAINS "Shooting"
RETURN a.name, r.type, e.discipline
结果融合算法:
# 综合得分计算
final_score = 0.65 * cosine_sim + 0.35 * graph_confirmation
3. 返回结果示例
{"hybrid_results": [{"type": "融合记录","data": {"text": "Yusuf Dikeç在巴黎奥运会10米气手枪项目以243.7环获得银牌","graph_verified": {"athlete": "Yusuf Dikeç","medal": "Silver","event": "10m Air Pistol","game": "2024巴黎奥运会"},"confidence": 0.92},"sources": ["qdrant_doc:789", "neo4j_path:ATH_TR_001->EVT_10MAP"]},{"type": "关联信息","data": "该选手在2023世界杯同一项目获得金牌","confidence": 0.85}]
}
4. 性能指标
| 指标 | 纯向量检索 | 纯图谱查询 | 混合检索 |
|---|---|---|---|
| 响应时间(ms) | 120 | 80 | 150 |
| 准确率(%) | 68 | 75 | 89 |
| 可解释性评分 | 2.1/5 | 4.7/5 | 4.5/5 |
| 复杂查询支持度 | 不支持嵌套查询 | 支持3跳查询 | 支持5跳推理 |
混合检索完整流程:
前端请求→查询分析→并行检索→结果融合→智能验证→最终输出
相关文章:
FastGPT 引申:奥运选手知识图谱构建与混合检索应用
目录 FastGPT 引申:奥运选手知识图谱构建与混合检索应用第一部分:数据构建流程1. 数据抽取与预处理2. 向量化处理3. 知识图谱构建4. 数据持久化 第二部分:混合检索应用1. 用户查询处理2. 混合检索技术细节3. 返回结果示例4. 性能指标 FastGPT…...
GitHub CI流水线
GitHub CI流水线 build.yml 路径:.github/workflows/build.yml name: Docker Image CIon:workflow_dispatch:jobs:build:runs-on: ubuntu-lateststeps:- uses: actions/checkoutv4- name: Set up JDK 8uses: actions/setup-javav4with:java-version: 8distributi…...
探索.NET 10 的新特性,开发效率再升级!
前言 最近,.NET 10 发布啦,作为长期支持(LTS)版本,接下来的 3 年里它会给开发者们稳稳的幸福。今天咱就来唠唠它都带来了哪些超实用的新特性。可在指定链接下载。 新特性 下面将介绍了.NET 10的新特性,其…...
算法·搜索
搜索问题 搜索问题本质也是暴力枚举,一般想到暴力也要想到利用回溯枚举。 排序和组合问题 回溯法 去重问题:定义全局变量visited还是局部变量visited实现去重? 回溯问题 图论中的搜索问题 与一般的搜索问题一致,只不过要多…...
【图像处理与OpenCV:技术栈、应用和实现】
引言 图像处理作为计算机视觉领域的重要分支,在各个行业中扮演着越来越重要的角色。从医疗诊断、自动驾驶、安防监控到人工智能领域的图像识别,图像处理无处不在。随着计算机硬件性能的提升和深度学习的快速发展,图像处理技术也在不断演进&a…...
《水利水电安全员考试各题型对比分析及应对攻略》
《水利水电安全员考试各题型对比分析及应对攻略》 单选题: 特点:四个选项中只有一个正确答案,相对难度较小。主要考查对基础知识的掌握程度。 应对攻略:认真审题,看清题目要求。对于熟悉的知识点,直接选择…...
鸿蒙HarmonyOS-Navagation基本用法
Navagation基本用法 Navigation组件是路由导航的根视图容器,一般作为Page页面的根容器使用,其内部默认包含了标题栏,内容栏和公工具栏,其中内容区默认首页显示导航内容(Navigation的子组件)或非首页显示&am…...
第16章 直接定址表
目录 16.1 描述了单元长度的标号16.2 在其它段中使用数据标号16.3 直接定址表16.4 程序入口地址的直接定址表实验16 编写包含多个功能子程序的中断例程 16.1 描述了单元长度的标号 assume cs:code code segment a db 1,2,3,4,5,6,7,8 b dw 0 start: mov si,0 mov cx…...
【AI深度学习网络】卷积神经网络(CNN)入门指南:从生物启发的原理到现代架构演进
深度神经网络系列文章 【AI深度学习网络】卷积神经网络(CNN)入门指南:从生物启发的原理到现代架构演进【AI实践】基于TensorFlow/Keras的CNN(卷积神经网络)简单实现:手写数字识别的工程实践 引言 在当今…...
江科大51单片机笔记【10】蜂鸣器播放提示器音乐(下)
一、蜂鸣器播放提示器 这里我们要用Key,Delay,Nixie模块 并且把Nixie.c函数里的这两句注释,因为之前是动态显示,延时后马上清零,现在是静态显示,所以需要把他注释掉 // Delay(1); // P00x00; 先验…...
Milvus JSON数据存储优化方案
无论是json数据还是string/varchar 类型数据,其长度都不能超过65536,这是根本,不像ES的text类型数据一样,可以无限长。 总结 数据类型适用场景最大长度STRINGMilvus <2.2.x 的短文本(<65KB)隐式 ≈65,535 字节VARCHAR(N)Milvus ≥2.2.x 的文本显式 N≤65,535 字符…...
MySQL 数据库连接池爆满问题排查与解决
目录 MySQL 数据库连接池爆满问题排查与解决 一、问题影响 二、问题确认 三、收集信息 四、SQL 语句分析 五、应用层代码分析 六、连接池配置检查 七、监控工具使用 八、案例分析 在实际的应用开发中,我们可能会遇到 MySQL 数据库连接池爆满的情况。这种情…...
PyTorch深度学习的梯度消失和梯度爆炸的识别、解决和最佳实践
通过结合梯度监控、网络架构改进和优化策略,可以有效应对梯度消失/爆炸问题。建议在模型开发初期就加入梯度监控机制,这有助于快速定位问题层。对于超深网络(>50层),建议优先考虑使用预激活残差结构(Res…...
Nginx1.19.2不适配OPENSSL3.0问题
Nginx 1.19.2 是较老的版本,而 Nginx 1.21 版本已经适配 OpenSSL 3.0,所以建议 升级 Nginx 到 1.25.0 或更高版本: wget http://nginx.org/download/nginx-1.25.0.tar.gz tar -xzf nginx-1.25.0.tar.gz cd nginx-1.25.0 ./configure --prefix…...
蓝桥杯 Excel地址
Excel地址 题目描述 Excel 单元格的地址表示很有趣,它使用字母来表示列号。 比如, A 表示第 1 列, B 表示第 2 列, Z 表示第 26 列, AA 表示第 27 列, AB 表示第 28 列, BA 表示第 53 列&#x…...
免费pdf格式转换工具
基本功能 - 支持单文件转换和批量转换两种模式 - 内置PDF文件预览功能 - 支持8种常见格式转换:Word、Excel、JPG/PNG图片、HTML、文本、PowerPoint和ePub 单文件转换功能 - 文件选择:支持浏览和选择单个PDF文件 - 输出位置:可自定义设置输出…...
I²C总线应用场景及1.8V与3.3V电压选择
以下是关于IC总线应用场景及1.8V与3.3V电压选择的详细分析: 一、IC总线的典型应用场景 1. 板内通信(主要场景) 描述:IC 最初设计是为电路板(PCB)上的芯片间短距离通信,尤其适用于集成度高的系统。典型器件: 传感器模块(如温湿度传感器BME280)。存储芯片(如EEPROM 2…...
css错峰布局/瀑布流样式(类似于快手样式)
当样式一侧比较高的时候会自动换行,尽量保持高度大概一致, 例: 一侧元素为5,另一侧元素为6 当为5的一侧过于高的时候,可能会变为4/7分部dom节点 如果不需要这样的话删除样式 flex-flow:column wrap; 设置父级dom样…...
Deepseek中的MoE架构的改造:动态可变参数激活的MoE混合专家架构(DVPA-MoE)的考虑
大家好,我是微学AI,今天给大家介绍一下动态可变参数激活MoE架构(Dynamic Variable Parameter-Activated MoE, DVPA-MoE)的架构与实际应用,本架构支持从7B到32B的等多档参数动态激活。该架构通过细粒度难度评估和分层专家路由,实现“小问题用小参数,大问题用大参数”的精…...
docker-compose Install reranker(fastgpt支持) GPU模式
前言BGE-重新排名器 与 embedding 模型不同,reranker 或 cross-encoder 使用 question 和 document 作为输入,直接输出相似性而不是 embedding。 为了平衡准确性和时间成本,cross-encoder 被广泛用于对其他简单模型检索到的前 k 个文档进行重…...
doris: MySQL
Doris JDBC Catalog 支持通过标准 JDBC 接口连接 MySQL 数据库。本文档介绍如何配置 MySQL 数据库连接。 使用须知 要连接到 MySQL 数据库,您需要 MySQL 5.7, 8.0 或更高版本 MySQL 数据库的 JDBC 驱动程序,您可以从 Maven 仓库下载最新或指定版本的…...
JVM参数调整
一、内存相关参数 1. 堆内存控制 -Xmx:最大堆内存(如 -Xmx4g,默认物理内存1/4)。-Xms:初始堆内存(建议与-Xmx相等,避免动态扩容带来的性能波动)。-Xmn:新生代大小&…...
【DeepSeek问答】访问QStandardItemModel::index(r,c)获取的空索引导致程序崩溃
好的,我现在来仔细思考一下用户的问题。用户在使用QStandardItemModel的setItem方法时,调用了setItem(4,6,item),也就是在第4行第6列的位置设置了一个item。然后他们尝试通过index(3,6)来获取这个位置的项目,想知道会有什么后果。…...
基于websocket的多用户网页五子棋 --- 测试报告
目录 功能测试自动化测试性能测试 功能测试 1.登录注册页面 2.游戏大厅页面 3.游戏房间页面 自动化测试 1.使用脑图编写web自动化测试用例 2.创建自动化项目,根据用例通过selenium来实现脚本 根据脑图进行测试用例的编写: 每个页面一个测试类&am…...
在 macOS 上使用 CLion 进行 Google Test 单元测试
介绍 Google Test(GTest)是 Google 开源的 C 单元测试框架,它提供了简单易用的断言、测试夹具(Fixtures)和测试运行机制,使 C 开发者能够编写高效的单元测试。 本博客将介绍如何在 macOS 上使用 CLion 配…...
深度解码!清华大学第六弹《AIGC发展研究3.0版》
在Grok3与GPT-4.5相继发布之际,《AIGC发展研究3.0版》的重磅报告——这份长达200页的行业圣经,不仅预测了2025年AI技术爆发点,更将「天人合一」的东方智慧融入AI伦理建构,堪称数字时代的《道德经》。 文档:清华大学第…...
【论文笔记】Attentive Eraser
标题:Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance Source:https://arxiv.org/pdf/2412.12974 收录:AAAI 25 作者单位:浙工商,字节&#…...
97k倍区间
97k倍区间 ⭐️难度:中等 🌟考点:暴力,2017省赛 📖 📚 import java.util.Scanner;public class Main {static int N 100010;public static void main(String[] args) {Scanner sc new Scanner(System.…...
cursor使用经验分享(java后端服务开发向)
前言 cursor是一款基于vscode,并集成AI能力的代码编辑器,其功能包括但不限于代码生成及补全、AI对话(能够直接将代码环境作为上下文)、即时应用建议等等,是一款面向未来的代码编辑器。 对于vscode,最先想…...
SpringBoot3—场景整合:AOT
一、AOT与JIT AOT:Ahead-of-Time(提前编译):程序执行前,全部被编译成机器码 JIT:Just in Time(即时编译): 程序边编译,边运行; 编译:源代码&am…...
