当前位置: 首页 > article >正文

FastGPT 引申:奥运选手知识图谱构建与混合检索应用

目录

    • FastGPT 引申:奥运选手知识图谱构建与混合检索应用
    • 第一部分:数据构建流程
      • 1. 数据抽取与预处理
      • 2. 向量化处理
      • 3. 知识图谱构建
      • 4. 数据持久化
    • 第二部分:混合检索应用
      • 1. 用户查询处理
      • 2. 混合检索技术细节
      • 3. 返回结果示例
      • 4. 性能指标

FastGPT 引申:奥运选手知识图谱构建与混合检索应用


第一部分:数据构建流程

1. 数据抽取与预处理

目标:从奥运官网抓取土耳其射击选手信息
工具链

  • Firecrawl:动态网页抓取
  • Unstructured.io:PDF/HTML解析
  • Mistral-7B:信息抽取模型
# 数据抓取与清洗
from camel.tools import FirecrawlScraper, TextCleanerscraper = FirecrawlScraper(api_key="fc_123")
raw_data = scraper.scrape(url="olympics.com/tr/shooting")cleaner = TextCleaner()
structured_text = cleaner.clean(raw_data, chunk_strategy="section",  # 按章节分块keep_headers=True          # 保留标题结构
)

信息抽取结果示例

{"athlete": "Yusuf Dikeç","nationality": "Turkey","event": "10m Air Pistol","medal": "Silver","game": {"year":2024, "location":"Paris"}
}

2. 向量化处理

技术栈

  • Mistral Embed:生成768维向量
  • Qdrant:向量数据库存储
from camel.embeddings import MistralEmbed
from qdrant_client import QdrantClientembedder = MistralEmbed(model="large-v2")
qdrant = QdrantClient(host="localhost", port=6333)# 批量生成向量
vectors = [embedder.encode(text) for text in structured_text]# 向量存储
qdrant.upsert(collection_name="olympic_docs",points=[{"id": idx, "vector": vec, "payload": {"text": text}}for idx, (vec, text) in enumerate(zip(vectors, structured_text))]
)

3. 知识图谱构建

Neo4j节点关系建模

// 节点定义
CREATE (:Athlete {id: "ATH_TR_001",name: "Yusuf Dikeç",nationality: "Turkey"
})CREATE (:Event {id: "EVT_10MAP",discipline: "10m Air Pistol"
})CREATE (:Game {id: "OG_2024",year: 2024,location: "Paris"
})// 关系建立
MATCH (a:Athlete {id:"ATH_TR_001"}), (e:Event {id:"EVT_10MAP"})
CREATE (a)-[:WON_MEDAL {type: "Silver",score: 243.7
}]->(e)MATCH (e:Event {id:"EVT_10MAP"}), (g:Game {id:"OG_2024"})
CREATE (e)-[:BELONGS_TO]->(g)

索引优化

CREATE INDEX FOR (a:Athlete) ON (a.nationality)
CREATE INDEX FOR (g:Game) ON (g.year)

4. 数据持久化

存储类型技术方案数据示例
原始文本MongoDB (分片集群)HTML/PDF原始文档
向量数据Qdrant (分布式部署)768维向量+文本元数据
图谱数据Neo4j (因果集群)节点+关系网络

第二部分:混合检索应用

1. 用户查询处理

输入:“查找2024年获得射击奖牌的土耳其选手”

智能体协作流程

  1. 查询解析智能体(Mistral-7B)

    from camel.agents import QueryAnalyzeranalyzer = QueryAnalyzer(model="mistral-7b")
    parsed = analyzer.parse("查找2024年获得射击奖牌的土耳其选手",params={"max_entities":3}
    )
    # 输出: {'nationality':'Turkey', 'year':2024, 'sport':'Shooting'}
    
  2. 混合检索执行

from camel.retrievers import HybridRetrieverretriever = HybridRetriever(vector_db="qdrant",graph_db="neo4j",fusion_ratio=0.65,  # 向量检索权重semantic_threshold=0.7
)results = retriever.search(query_text="查找2024年获得射击奖牌的土耳其选手",vector_top_k=50,graph_depth=3
)

2. 混合检索技术细节

向量检索阶段

  • Qdrant执行ANN搜索,返回Top50候选文本
  • 语义相似度计算:余弦相似度 > 0.7

图谱验证阶段

// 自动生成的Cypher查询
MATCH (a:Athlete)-[r:WON_MEDAL]->(e:Event)-[:BELONGS_TO]->(g:Game)
WHERE a.nationality = "Turkey" AND g.year = 2024 AND e.discipline CONTAINS "Shooting"
RETURN a.name, r.type, e.discipline

结果融合算法

# 综合得分计算
final_score = 0.65 * cosine_sim + 0.35 * graph_confirmation

3. 返回结果示例

{"hybrid_results": [{"type": "融合记录","data": {"text": "Yusuf Dikeç在巴黎奥运会10米气手枪项目以243.7环获得银牌","graph_verified": {"athlete": "Yusuf Dikeç","medal": "Silver","event": "10m Air Pistol","game": "2024巴黎奥运会"},"confidence": 0.92},"sources": ["qdrant_doc:789", "neo4j_path:ATH_TR_001->EVT_10MAP"]},{"type": "关联信息","data": "该选手在2023世界杯同一项目获得金牌","confidence": 0.85}]
}

4. 性能指标

指标纯向量检索纯图谱查询混合检索
响应时间(ms)12080150
准确率(%)687589
可解释性评分2.1/54.7/54.5/5
复杂查询支持度不支持嵌套查询支持3跳查询支持5跳推理

混合检索完整流程:
前端请求→查询分析→并行检索→结果融合→智能验证→最终输出

相关文章:

FastGPT 引申:奥运选手知识图谱构建与混合检索应用

目录 FastGPT 引申:奥运选手知识图谱构建与混合检索应用第一部分:数据构建流程1. 数据抽取与预处理2. 向量化处理3. 知识图谱构建4. 数据持久化 第二部分:混合检索应用1. 用户查询处理2. 混合检索技术细节3. 返回结果示例4. 性能指标 FastGPT…...

GitHub CI流水线

GitHub CI流水线 build.yml 路径:.github/workflows/build.yml name: Docker Image CIon:workflow_dispatch:jobs:build:runs-on: ubuntu-lateststeps:- uses: actions/checkoutv4- name: Set up JDK 8uses: actions/setup-javav4with:java-version: 8distributi…...

探索.NET 10 的新特性,开发效率再升级!

前言 最近,.NET 10 发布啦,作为长期支持(LTS)版本,接下来的 3 年里它会给开发者们稳稳的幸福。今天咱就来唠唠它都带来了哪些超实用的新特性。可在指定链接下载。 新特性 下面将介绍了.NET 10的新特性,其…...

算法·搜索

搜索问题 搜索问题本质也是暴力枚举,一般想到暴力也要想到利用回溯枚举。 排序和组合问题 回溯法 去重问题:定义全局变量visited还是局部变量visited实现去重? 回溯问题 图论中的搜索问题 与一般的搜索问题一致,只不过要多…...

【图像处理与OpenCV:技术栈、应用和实现】

引言 图像处理作为计算机视觉领域的重要分支,在各个行业中扮演着越来越重要的角色。从医疗诊断、自动驾驶、安防监控到人工智能领域的图像识别,图像处理无处不在。随着计算机硬件性能的提升和深度学习的快速发展,图像处理技术也在不断演进&a…...

《水利水电安全员考试各题型对比分析及应对攻略》

《水利水电安全员考试各题型对比分析及应对攻略》 单选题: 特点:四个选项中只有一个正确答案,相对难度较小。主要考查对基础知识的掌握程度。 应对攻略:认真审题,看清题目要求。对于熟悉的知识点,直接选择…...

鸿蒙HarmonyOS-Navagation基本用法

Navagation基本用法 Navigation组件是路由导航的根视图容器,一般作为Page页面的根容器使用,其内部默认包含了标题栏,内容栏和公工具栏,其中内容区默认首页显示导航内容(Navigation的子组件)或非首页显示&am…...

第16章 直接定址表

目录 16.1 描述了单元长度的标号16.2 在其它段中使用数据标号16.3 直接定址表16.4 程序入口地址的直接定址表实验16 编写包含多个功能子程序的中断例程 16.1 描述了单元长度的标号 assume cs:code code segment a db 1,2,3,4,5,6,7,8 b dw 0 start: mov si,0      mov cx…...

【AI深度学习网络】卷积神经网络(CNN)入门指南:从生物启发的原理到现代架构演进

深度神经网络系列文章 【AI深度学习网络】卷积神经网络(CNN)入门指南:从生物启发的原理到现代架构演进【AI实践】基于TensorFlow/Keras的CNN(卷积神经网络)简单实现:手写数字识别的工程实践 引言 在当今…...

江科大51单片机笔记【10】蜂鸣器播放提示器音乐(下)

一、蜂鸣器播放提示器 这里我们要用Key,Delay,Nixie模块 并且把Nixie.c函数里的这两句注释,因为之前是动态显示,延时后马上清零,现在是静态显示,所以需要把他注释掉 // Delay(1); // P00x00; 先验…...

Milvus JSON数据存储优化方案

无论是json数据还是string/varchar 类型数据,其长度都不能超过65536,这是根本,不像ES的text类型数据一样,可以无限长。 总结 数据类型适用场景最大长度STRINGMilvus <2.2.x 的短文本(<65KB)隐式 ≈65,535 字节VARCHAR(N)Milvus ≥2.2.x 的文本显式 N≤65,535 字符…...

MySQL 数据库连接池爆满问题排查与解决

目录 MySQL 数据库连接池爆满问题排查与解决 一、问题影响 二、问题确认 三、收集信息 四、SQL 语句分析 五、应用层代码分析 六、连接池配置检查 七、监控工具使用 八、案例分析 在实际的应用开发中&#xff0c;我们可能会遇到 MySQL 数据库连接池爆满的情况。这种情…...

PyTorch深度学习的梯度消失和梯度爆炸的识别、解决和最佳实践

通过结合梯度监控、网络架构改进和优化策略&#xff0c;可以有效应对梯度消失/爆炸问题。建议在模型开发初期就加入梯度监控机制&#xff0c;这有助于快速定位问题层。对于超深网络&#xff08;>50层&#xff09;&#xff0c;建议优先考虑使用预激活残差结构&#xff08;Res…...

Nginx1.19.2不适配OPENSSL3.0问题

Nginx 1.19.2 是较老的版本&#xff0c;而 Nginx 1.21 版本已经适配 OpenSSL 3.0&#xff0c;所以建议 升级 Nginx 到 1.25.0 或更高版本&#xff1a; wget http://nginx.org/download/nginx-1.25.0.tar.gz tar -xzf nginx-1.25.0.tar.gz cd nginx-1.25.0 ./configure --prefix…...

蓝桥杯 Excel地址

Excel地址 题目描述 Excel 单元格的地址表示很有趣&#xff0c;它使用字母来表示列号。 比如&#xff0c; A 表示第 1 列&#xff0c; B 表示第 2 列&#xff0c; Z 表示第 26 列&#xff0c; AA 表示第 27 列&#xff0c; AB 表示第 28 列&#xff0c; BA 表示第 53 列&#x…...

免费pdf格式转换工具

基本功能 - 支持单文件转换和批量转换两种模式 - 内置PDF文件预览功能 - 支持8种常见格式转换&#xff1a;Word、Excel、JPG/PNG图片、HTML、文本、PowerPoint和ePub 单文件转换功能 - 文件选择&#xff1a;支持浏览和选择单个PDF文件 - 输出位置&#xff1a;可自定义设置输出…...

I²C总线应用场景及1.8V与3.3V电压选择

以下是关于IC总线应用场景及1.8V与3.3V电压选择的详细分析: 一、IC总线的典型应用场景 1. 板内通信(主要场景) 描述:IC 最初设计是为电路板(PCB)上的芯片间短距离通信,尤其适用于集成度高的系统。典型器件: 传感器模块(如温湿度传感器BME280)。存储芯片(如EEPROM 2…...

css错峰布局/瀑布流样式(类似于快手样式)

当样式一侧比较高的时候会自动换行&#xff0c;尽量保持高度大概一致&#xff0c; 例&#xff1a; 一侧元素为5&#xff0c;另一侧元素为6 当为5的一侧过于高的时候&#xff0c;可能会变为4/7分部dom节点 如果不需要这样的话删除样式 flex-flow:column wrap; 设置父级dom样…...

Deepseek中的MoE架构的改造:动态可变参数激活的MoE混合专家架构(DVPA-MoE)的考虑

大家好,我是微学AI,今天给大家介绍一下动态可变参数激活MoE架构(Dynamic Variable Parameter-Activated MoE, DVPA-MoE)的架构与实际应用,本架构支持从7B到32B的等多档参数动态激活。该架构通过细粒度难度评估和分层专家路由,实现“小问题用小参数,大问题用大参数”的精…...

docker-compose Install reranker(fastgpt支持) GPU模式

前言BGE-重新排名器 与 embedding 模型不同&#xff0c;reranker 或 cross-encoder 使用 question 和 document 作为输入&#xff0c;直接输出相似性而不是 embedding。 为了平衡准确性和时间成本&#xff0c;cross-encoder 被广泛用于对其他简单模型检索到的前 k 个文档进行重…...

doris: MySQL

Doris JDBC Catalog 支持通过标准 JDBC 接口连接 MySQL 数据库。本文档介绍如何配置 MySQL 数据库连接。 使用须知​ 要连接到 MySQL 数据库&#xff0c;您需要 MySQL 5.7, 8.0 或更高版本 MySQL 数据库的 JDBC 驱动程序&#xff0c;您可以从 Maven 仓库下载最新或指定版本的…...

JVM参数调整

一、内存相关参数 1. 堆内存控制 -Xmx&#xff1a;最大堆内存&#xff08;如 -Xmx4g&#xff0c;默认物理内存1/4&#xff09;。-Xms&#xff1a;初始堆内存&#xff08;建议与-Xmx相等&#xff0c;避免动态扩容带来的性能波动&#xff09;。-Xmn&#xff1a;新生代大小&…...

【DeepSeek问答】访问QStandardItemModel::index(r,c)获取的空索引导致程序崩溃

好的&#xff0c;我现在来仔细思考一下用户的问题。用户在使用QStandardItemModel的setItem方法时&#xff0c;调用了setItem(4,6,item)&#xff0c;也就是在第4行第6列的位置设置了一个item。然后他们尝试通过index(3,6)来获取这个位置的项目&#xff0c;想知道会有什么后果。…...

基于websocket的多用户网页五子棋 --- 测试报告

目录 功能测试自动化测试性能测试 功能测试 1.登录注册页面 2.游戏大厅页面 3.游戏房间页面 自动化测试 1.使用脑图编写web自动化测试用例 2.创建自动化项目&#xff0c;根据用例通过selenium来实现脚本 根据脑图进行测试用例的编写&#xff1a; 每个页面一个测试类&am…...

在 macOS 上使用 CLion 进行 Google Test 单元测试

介绍 Google Test&#xff08;GTest&#xff09;是 Google 开源的 C 单元测试框架&#xff0c;它提供了简单易用的断言、测试夹具&#xff08;Fixtures&#xff09;和测试运行机制&#xff0c;使 C 开发者能够编写高效的单元测试。 本博客将介绍如何在 macOS 上使用 CLion 配…...

深度解码!清华大学第六弹《AIGC发展研究3.0版》

在Grok3与GPT-4.5相继发布之际&#xff0c;《AIGC发展研究3.0版》的重磅报告——这份长达200页的行业圣经&#xff0c;不仅预测了2025年AI技术爆发点&#xff0c;更将「天人合一」的东方智慧融入AI伦理建构&#xff0c;堪称数字时代的《道德经》。 文档&#xff1a;清华大学第…...

【论文笔记】Attentive Eraser

标题&#xff1a;Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance Source&#xff1a;https://arxiv.org/pdf/2412.12974 收录&#xff1a;AAAI 25 作者单位&#xff1a;浙工商&#xff0c;字节&#…...

97k倍区间

97k倍区间 ⭐️难度&#xff1a;中等 &#x1f31f;考点&#xff1a;暴力&#xff0c;2017省赛 &#x1f4d6; &#x1f4da; import java.util.Scanner;public class Main {static int N 100010;public static void main(String[] args) {Scanner sc new Scanner(System.…...

cursor使用经验分享(java后端服务开发向)

前言 cursor是一款基于vscode&#xff0c;并集成AI能力的代码编辑器&#xff0c;其功能包括但不限于代码生成及补全、AI对话&#xff08;能够直接将代码环境作为上下文&#xff09;、即时应用建议等等&#xff0c;是一款面向未来的代码编辑器。 对于vscode&#xff0c;最先想…...

SpringBoot3—场景整合:AOT

一、AOT与JIT AOT&#xff1a;Ahead-of-Time&#xff08;提前编译&#xff09;&#xff1a;程序执行前&#xff0c;全部被编译成机器码 JIT&#xff1a;Just in Time&#xff08;即时编译&#xff09;: 程序边编译&#xff0c;边运行&#xff1b; 编译&#xff1a;源代码&am…...