当前位置: 首页 > article >正文

RAG-Challenge-2多公司比较问答:查询路由与答案聚合技术

RAG-Challenge-2多公司比较问答查询路由与答案聚合技术【免费下载链接】RAG-Challenge-2Implementation of my RAG system that won all categories in Enterprise RAG Challenge 2项目地址: https://gitcode.com/gh_mirrors/ra/RAG-Challenge-2RAG-Challenge-2是一个企业级RAG系统实现在企业RAG挑战赛中赢得了所有类别的冠军。该系统专注于多公司比较问答场景核心技术包括查询路由与答案聚合能够高效处理来自不同公司报告的复杂查询。多公司问答的核心挑战在处理多公司比较问答时系统面临两大核心挑战如何准确识别查询涉及的公司查询路由以及如何将来自不同公司的信息有效整合答案聚合。传统RAG系统往往难以处理跨多个文档源的复杂比较查询而RAG-Challenge-2通过创新的技术架构解决了这一问题。查询路由精准定位相关公司查询路由是多公司问答系统的第一道关卡。系统需要能够理解用户查询的意图识别出查询涉及的一个或多个公司然后从相应的公司报告中检索相关信息。RAG-Challenge-2的查询路由功能主要由src/retrieval.py中的代码实现。系统提供了多种检索器包括BM25Retriever、VectorRetriever和HybridRetriever它们都实现了retrieve_by_company_name方法能够根据公司名称从相应的文档中检索信息。def retrieve_by_company_name(self, company_name: str, query: str, top_n: int 3, return_parent_pages: bool False) - List[Dict]: # 查找指定公司的报告 # 加载相应的检索模型 # 根据查询从报告中检索相关内容 # 返回检索结果这种设计使得系统能够精准定位到用户查询所涉及的公司报告为后续的答案生成提供准确的信息来源。答案聚合智能整合多公司信息在完成查询路由并从相关公司报告中检索到信息后系统需要将这些来自不同公司的信息进行整合生成一个全面、准确的比较答案。这就是答案聚合的过程。RAG-Challenge-2的答案聚合功能主要在src/pipeline.py中实现。系统提供了多种配置选项如parent_document_retrieval和llm_reranking这些选项可以根据具体需求调整答案聚合的策略。max_config RunConfig( use_serialized_tablesTrue, parent_document_retrievalTrue, llm_rerankingTrue, parallel_requests20, submission_nameIlia Ris v.2, pipeline_detailsCustom pdf parsing table serialization vDB Router Parent Document Retrieval reranking SO CoT; llm GPT-4o, answering_modelgpt-4o-2024-08-06, config_suffix_max )通过这些配置系统能够智能地整合来自多个公司的信息生成高质量的比较答案。系统架构与实现RAG-Challenge-2的系统架构设计精巧主要由以下几个核心模块组成PDF解析与处理系统首先需要解析和处理各个公司的PDF报告。这一功能由src/pdf_parsing.py实现它能够将PDF文件解析为结构化数据为后续的检索和问答做好准备。文本分块与向量化解析后的文本需要进行分块处理以便于高效检索。这一功能由src/text_splitter.py实现。分块后的文本会被向量化存储到向量数据库中这一过程由src/ingestion.py中的VectorDBIngestor处理。检索与排序系统提供了多种检索方法包括BM25检索、向量检索和混合检索。这些检索方法在src/retrieval.py中实现。检索到的结果还会通过LLM进行重排序以提高答案的质量这一功能由src/reranking.py实现。问题处理与答案生成最后系统会处理用户的问题通过查询路由找到相关的公司报告检索相关信息然后通过答案聚合生成最终的回答。这一过程由src/questions_processing.py实现。快速开始使用RAG-Challenge-2要开始使用RAG-Challenge-2系统您需要按照以下步骤操作1. 克隆仓库首先克隆项目仓库到本地git clone https://gitcode.com/gh_mirrors/ra/RAG-Challenge-22. 安装依赖进入项目目录安装所需的依赖cd RAG-Challenge-2 pip install -r requirements.txt3. 配置系统根据您的需求修改src/pipeline.py中的配置。例如您可以选择使用max_nst_o3m_config配置这是在挑战赛中表现最佳的配置之一max_nst_o3m_config RunConfig( use_serialized_tablesFalse, parent_document_retrievalTrue, llm_rerankingTrue, parallel_requests25, submission_nameIlia Ris v.4, pipeline_detailsCustom pdf parsing vDB Router Parent Document Retrieval reranking SO CoT; llm o3-mini, answering_modelo3-mini-2025-01-31, config_suffix_max_nst_o3m )4. 运行系统您可以通过运行src/pipeline.py来启动系统。例如要处理问题并生成答案您可以取消注释以下代码if __name__ __main__: root_path here() / data / test_set pipeline Pipeline(root_path, run_configmax_nst_o3m_config) pipeline.process_questions()然后运行python src/pipeline.py结语RAG-Challenge-2系统通过创新的查询路由和答案聚合技术为多公司比较问答提供了高效、准确的解决方案。无论是企业分析师需要比较不同公司的财务报告还是研究人员需要分析多个机构的研究成果RAG-Challenge-2都能提供有力的支持。通过灵活的配置选项和模块化的设计RAG-Challenge-2可以适应不同的应用场景和需求。希望本文能够帮助您更好地理解和使用RAG-Challenge-2系统为您的工作和研究带来便利。【免费下载链接】RAG-Challenge-2Implementation of my RAG system that won all categories in Enterprise RAG Challenge 2项目地址: https://gitcode.com/gh_mirrors/ra/RAG-Challenge-2创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关文章:

RAG-Challenge-2多公司比较问答:查询路由与答案聚合技术

RAG-Challenge-2多公司比较问答:查询路由与答案聚合技术 【免费下载链接】RAG-Challenge-2 Implementation of my RAG system that won all categories in Enterprise RAG Challenge 2 项目地址: https://gitcode.com/gh_mirrors/ra/RAG-Challenge-2 RAG-Cha…...

PlantUML Editor终极指南:代码驱动UML设计的完整解决方案

PlantUML Editor终极指南:代码驱动UML设计的完整解决方案 【免费下载链接】plantuml-editor PlantUML online demo client 项目地址: https://gitcode.com/gh_mirrors/pl/plantuml-editor 你是否厌倦了用鼠标拖拽来绘制UML图?是否希望像写代码一样…...

终极指南:Switch大气层1.7.1稳定版完整安装与优化教程

终极指南:Switch大气层1.7.1稳定版完整安装与优化教程 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable 想要解锁Nintendo Switch的全部潜能吗?大气层(Atm…...

利用 Taotoken 统一 API 简化多智能体系统的模型管理

利用 Taotoken 统一 API 简化多智能体系统的模型管理 在构建一个包含多种职能智能体的复杂系统时,一个常见的工程挑战是模型管理。不同的智能体可能根据其任务特性,需要调用不同的大语言模型。如果每个智能体都直接对接多个原厂 API,开发团队…...

Thorium浏览器:超越Chrome的开源性能怪兽,为何成为技术爱好者的新宠?

Thorium浏览器:超越Chrome的开源性能怪兽,为何成为技术爱好者的新宠? 【免费下载链接】thorium Chromium fork named after radioactive element No. 90. Source code and Linux releases. Windows/MacOS/ARM builds served in different rep…...

避坑指南:用51单片机驱动HC-SR04超声波模块,这5个细节没处理好,测距肯定不准!

51单片机驱动HC-SR04超声波模块的五大实战避坑指南 超声波测距在嵌入式开发中应用广泛,但很多开发者在使用51单片机驱动HC-SR04模块时,常常会遇到测距不准、数据跳变甚至完全无法工作的问题。本文将深入剖析五个最容易被忽视的关键细节,这些细…...

ReactiveViewModel 高级应用:跨平台开发与 UI 状态管理

ReactiveViewModel 高级应用:跨平台开发与 UI 状态管理 【免费下载链接】ReactiveViewModel Model-View-ViewModel, using ReactiveCocoa 项目地址: https://gitcode.com/gh_mirrors/re/ReactiveViewModel ReactiveViewModel 是一个基于 Model-View-ViewMode…...

如何利用ChatPaper自动识别研究论文核心章节:3步掌握AI论文结构分析功能

如何利用ChatPaper自动识别研究论文核心章节:3步掌握AI论文结构分析功能 【免费下载链接】ChatPaper Use ChatGPT to summarize the arXiv papers. 全流程加速科研,利用chatgpt进行论文全文总结专业翻译润色审稿审稿回复 项目地址: https://gitcode.co…...

agent-skills中的JWT认证:无状态身份验证的实用技巧

agent-skills中的JWT认证:无状态身份验证的实用技巧 【免费下载链接】agent-skills Production-grade engineering skills for AI coding agents. 项目地址: https://gitcode.com/GitHub_Trending/agentskill/agent-skills agent-skills是一个专注于提供生产…...

3分钟解锁QQ音乐加密格式:让Mac用户的音乐重获自由播放权

3分钟解锁QQ音乐加密格式:让Mac用户的音乐重获自由播放权 【免费下载链接】QMCDecode QQ音乐QMC格式转换为普通格式(qmcflac转flac,qmc0,qmc3转mp3, mflac,mflac0等转flac),仅支持macOS,可自动识别到QQ音乐下载目录,默…...

vscode-dark-islands的面包屑聚焦状态:色彩与样式优化指南

vscode-dark-islands的面包屑聚焦状态:色彩与样式优化指南 【免费下载链接】vscode-dark-islands VSCode theme based off the easemate IDE and Jetbrains islands theme 项目地址: https://gitcode.com/GitHub_Trending/vs/vscode-dark-islands vscode-dar…...

UnityMeshSimplifier常见问题排查:从安装到部署的完整解决方案

UnityMeshSimplifier常见问题排查:从安装到部署的完整解决方案 【免费下载链接】UnityMeshSimplifier Mesh simplification for Unity. 项目地址: https://gitcode.com/gh_mirrors/un/UnityMeshSimplifier UnityMeshSimplifier是一款强大的3D网格简化工具&am…...

MilkyTracker与Amiga ProTracker兼容性:复古音效的现代重现

MilkyTracker与Amiga ProTracker兼容性:复古音效的现代重现 【免费下载链接】MilkyTracker A Fasttracker II compatible music editor 项目地址: https://gitcode.com/gh_mirrors/mi/MilkyTracker MilkyTracker是一款与Fasttracker II兼容的音乐编辑器&…...

ComfyUI-Florence2完整指南:5分钟解锁微软视觉语言模型的终极力量

ComfyUI-Florence2完整指南:5分钟解锁微软视觉语言模型的终极力量 【免费下载链接】ComfyUI-Florence2 Inference Microsoft Florence2 VLM 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-Florence2 如果你正在寻找一款能够一站式解决所有视觉AI任务…...

SAP ABAP开发避坑指南:BAPI_PO_CREATE1批量创建采购订单时,这个字段不传会报错

SAP ABAP开发实战:BAPI_PO_CREATE1批量创建采购订单的隐藏陷阱与解决方案 在SAP系统集成与批量数据处理场景中,BAPI_PO_CREATE1是采购订单创建的核心接口。许多开发者在使用单个调用时游刃有余,却在批量处理场景中频繁遭遇莫名报错。本文将深…...

040、定时器与PWM生成:STM32实战

040、定时器与PWM生成:STM32实战 上周调试一个四轴机械臂的关节电机,PWM输出突然在500Hz附近出现周期性抖动,示波器上占空比像心电图一样上下跳。查了三天,最后发现是定时器更新中断里塞了个printf——这种低级错误说出来都丢人,但确实暴露了一个核心问题:很多人对STM32…...

Matrix智能聊天机器人部署指南:集成OpenAI与LocalAI的私有化AI助手

1. 项目概述:一个功能强大的Matrix智能聊天机器人如果你正在寻找一个能无缝集成到Matrix去中心化通讯网络中的智能助手,并且希望它能像ChatGPT一样对话、生成图片,甚至能“看懂”你发的截图,那么hibobmaster/matrix_chatgpt_bot这…...

XXMI启动器终极指南:一站式管理6款热门游戏模组的完整解决方案

XXMI启动器终极指南:一站式管理6款热门游戏模组的完整解决方案 【免费下载链接】XXMI-Launcher Modding platform for GI, HSR, WW and ZZZ 项目地址: https://gitcode.com/gh_mirrors/xx/XXMI-Launcher 你是否厌倦了为《原神》、《星穹铁道》、《绝区零》等…...

LogCabin客户端编程:C++ API的完整使用教程

LogCabin客户端编程:C API的完整使用教程 【免费下载链接】logcabin LogCabin is a distributed storage system built on Raft that provides a small amount of highly replicated, consistent storage. It is a reliable place for other distributed systems to…...

深度解析 MCP (Model Context Protocol):打破 AI Agent 与外部工具的壁垒

深度解析 MCP (Model Context Protocol):打破 AI Agent 与外部工具的壁垒 摘要 随着大语言模型(LLM)的快速发展,AI Agent(智能体)已成为技术实现的新范式。然而,如何让 AI Agent 稳定、安全且标…...

Driver Store Explorer:5分钟掌握Windows驱动管理的终极免费方案

Driver Store Explorer:5分钟掌握Windows驱动管理的终极免费方案 【免费下载链接】DriverStoreExplorer Driver Store Explorer 项目地址: https://gitcode.com/gh_mirrors/dr/DriverStoreExplorer 您是否发现Windows系统运行越来越慢?C盘空间莫名…...

HPH构造揭秘:建筑省钱新法宝

在建筑这个领域当中,一场围绕着效率跟成本的革新此时正在静悄悄发生着。HPH构造,它的全称是“高预应力混杂配筋”,正借助着其特有的设计思想而变成了行业的焦点所在。这项技术最开始是源自装配式建筑的探索,现如今已经被广泛运用在…...

深蓝词库转换工具:跨平台输入法词库迁移的终极解决方案

深蓝词库转换工具:跨平台输入法词库迁移的终极解决方案 【免费下载链接】imewlconverter ”深蓝词库转换“ 一款开源免费的输入法词库转换程序 项目地址: https://gitcode.com/gh_mirrors/im/imewlconverter 你是否曾因更换操作系统而面临输入法词库丢失的困…...

Genshin FPS Unlock:原神帧率解锁终极指南 - 突破60FPS限制的完整解决方案

Genshin FPS Unlock:原神帧率解锁终极指南 - 突破60FPS限制的完整解决方案 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock Genshin FPS Unlock 是一个开源工具,专…...

GitHub打包下载终极指南:一键下载单个文件或文件夹的完整解决方案

GitHub打包下载终极指南:一键下载单个文件或文件夹的完整解决方案 【免费下载链接】DownGit github 资源打包下载工具 项目地址: https://gitcode.com/gh_mirrors/dow/DownGit 还在为GitHub下载单个文件而烦恼吗?DownGit作为一款免费的GitHub资源…...

ThinkPad风扇控制难题?TPFanCtrl2免费开源工具帮你实现智能散热

ThinkPad风扇控制难题?TPFanCtrl2免费开源工具帮你实现智能散热 【免费下载链接】TPFanCtrl2 ThinkPad Fan Control 2 (Dual Fan) for Windows 10 and 11 项目地址: https://gitcode.com/gh_mirrors/tp/TPFanCtrl2 你的ThinkPad风扇是不是经常在安静的环境里…...

从‘听不清’到‘看得明’:采样率Fs和点数N如何塑造你的数字世界(以音频信号为例)

从‘听不清’到‘看得明’:采样率Fs和点数N如何塑造你的数字世界(以音频信号为例) 当你用手机录制一段语音备忘录,或是用专业设备捕捉一场音乐会时,背后隐藏着两个关键参数在默默定义着声音的"清晰度"——采…...

保姆级教程:用LAMMPS模拟单晶铜纳米压痕,从建模到出图一步到位

零基础实战:LAMMPS单晶铜纳米压痕模拟全流程解析 第一次打开LAMMPS的in文件时,那些密密麻麻的代码行就像天书——这是我带过的研究生小张的原话。作为材料模拟领域的入门课题,单晶铜纳米压痕确实是最佳练手项目,但90%的新手会在环…...

终极指南:如何免费解锁《原神》帧率限制,享受丝滑游戏体验

终极指南:如何免费解锁《原神》帧率限制,享受丝滑游戏体验 【免费下载链接】genshin-fps-unlock unlocks the 60 fps cap 项目地址: https://gitcode.com/gh_mirrors/ge/genshin-fps-unlock 你是否厌倦了《原神》60帧的硬性限制?想在高…...

Glowby OSS:本地优先AI编码代理工作流,实现可控的代码生产化改造

1. 项目概述:Glowby OSS,一个本地优先的AI编码代理工作流 如果你和我一样,对AI辅助编程充满兴趣,但又对把代码和数据完全交给云端服务商感到不安,那么Glowby OSS的出现,绝对值得你花上十分钟了解一下。简单…...