当前位置: 首页 > article >正文

RAG多模态检索

RAG 多模态检索:文本+图像+表格的统一检索方案引言传统的RAG系统主要处理文本数据,但现实世界的信息以多种形式存在:产品图片、数据表格、扫描文档、技术图表等。多模态RAG(Multimodal RAG)打破了单一文本的限制,让AI能够理解和检索图像、表格、文档等多种类型的信息,真正实现"所见即所得"的智能检索。为什么需要多模态RAG?信息多样性:企业知识库包含PDF、图片、Excel等多种格式语义完整性:图表往往比文字更直观地表达信息检索准确性:某些信息只能通过视觉特征识别用户体验:用户希望用图片搜索图片,用表格搜索数据多模态RAG架构整体架构┌─────────────────────────────────────────────────────────────┐ │ Multimodal RAG System │ ├─────────────────────────────────────────────────────────────┤ │ │ │ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │ │ │ 文本处理 │ │ 图像处理 │ │ 表格处理 │ │ │ │ Text Engine │ │ Image Engine │ │ Table Engine │ │ │ └──────┬───────┘ └──────┬───────┘ └──────┬───────┘ │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ Multimodal Embedding Space │ │ │ │ (统一向量空间) │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ │ ┌────────────────┼────────────────┐ │ │ ▼ ▼ ▼ │ │ ┌────────────┐ ┌────────────┐ ┌────────────┐ │ │ │ 文本检索 │ │ 图像检索 │ │ 表格检索 │ │ │ └────────────┘ └────────────┘ └────────────┘ │ │ │ │ │ ▼ │ │ ┌──────────────┐ │ │ │ 结果融合 │ │ │ │ Fusion │ │ │ └──────────────┘ │ │ │ └─────────────────────────────────────────────────────────────┘核心挑战挑战说明解决方案表示差异文本、图像、表格的向量空间不同统一嵌入模型 / 跨模态对齐检索融合如何合并不同模态的检索结果多模态融合策略存储管理多模态数据存储和索引分层存储 + 元数据管理查询理解用户查询可能是文本或图像查询类型识别 + 多模态查询文本检索增强基础文本处理fromlangchain_text_splittersimportRecursiveCharacterTextSplitterfromlangchain_openaiimportOpenAIEmbeddingsfromlangchain_community.vectorstoresimportChromafromlangchain_core.documentsimportDocumentclassTextProcessor:"""文本处理器"""def__init__(self,chunk_size:int=500,chunk_overlap:int=50,embedding_model:str="text-embedding-3-small"):self.splitter=RecursiveCharacterTextSplitter(chunk_size=chunk_size,chunk_overlap=chunk_overlap,separators=["\n\n","\n","。","!","?",";"," ",""])self.embeddings=OpenAIEmbeddings(model=embedding_model)defprocess_text(self,text:str,metadata:dict=None)-list:"""处理文本"""# 分割文本chunks=self.splitter.split_text(text)# 创建文档documents=[Document(page_content=chunk,metadata={**(metadataor{}),"chunk_index":i,"modality":"text"})fori,chunkinenumerate(chunks)]returndocumentsdefprocess_file(self,file_path:str)-list:"""处理文件"""withopen(file_path,'r',encoding='utf-8')asf:text=f.read()returnself.process_text(text,{"source":file_path})# 使用processor=TextProcessor()docs=processor.process_text("这是一段很长的文本..."*100,{"source":"example","author":"test"})print(f"生成{len(docs)}个文本块")语义分块fromtypingimportListimportnumpyasnpclassSemanticTextSplitter:"""语义分块器 - 按语义边界分割"""def__init__(self,embeddings:OpenAIEmbeddings,similarity_threshold:float=0.7,min_chunk_size:int=100):self.embeddings=embeddings self.similarity_threshold=similarity_threshold self.min_chunk_size=min_chunk_sizedefsplit_by_semantics(self,text:str)-List[str]:"""按语义分割文本"""# 1. 按句子分割sentences=self._split_sentences(text)iflen(sentences)2:return[text]# 2. 计算句子嵌入sentence_embeddings=self.embeddings.embed_documents(sentences)# 3. 计算相邻句子相似度similarities=[]foriinrange(len(sentence_embeddings)-1):sim=self._cosine_similarity(sentence_embeddings[i],sentence_embeddings[i+1])similarities.append(sim)# 4. 找到语义边界(相似度低的地方)boundaries=[0]fori,siminenumerate(similarities):ifsimself.similarity_threshold:boundaries.append(i+1)boundaries.append(len(sentences))# 5. 合并句子为块chunks=[]foriinrange(len(boundaries)-1):start=boundaries[i]end=boundaries[i+1]chunk="".join(sentences[start:end])# 确保块大小iflen(chunk)=self.min_chunk_sizeori==len(boundaries)-2:chunks.append(chunk)elifchunks:# 合并到前一个块chunks[-1]+=chunkreturnchunksdef_split_sentences(self,text:str)-List[str]:"""分割句子"""importre# 中英文句子分割sentences=re.split(r'([。!?.!?])',text)# 重新组合标点sentences=[sentences[i]+(sentences[i+1]ifi+1len(sentences)else'')foriinrange(0,len(sentences)-1,2)]return[s.strip()forsinsentencesifs.strip()]def_cosine_similarity(self,vec1:List[float],vec2:List[float])-float:"""计算余弦相似度"""vec1=np.array(vec1)vec2=np.array(vec2)returnnp.dot(vec1,vec2)/(np.linalg.norm(vec1)*np.linalg.norm(vec2))# 使用semantic_splitter=SemanticTextSplitter(OpenAIEmbeddings())chunks=semantic_splitter.split_by_semantics("第一段讲AI技术。第二段讲机器学习。第三段讲深度学习应用。")图像检索实现图像嵌入生成fromtypingimportList,Dictimportbase64fromPILimportImageimportioclassImageProcessor:"""图像处理器"""def__init__(self,model:str="clip-ViT-B-32"):# 使用sentence-transformers的CLIP模型fromsentence_transformersimportSentenceTransformer self.model=SentenceTransformer(model)defencode_image(self,image_path:str)-str:"""图像转base64"""withopen(image_path,"rb")asf:returnbase64.b64encode(f.read()).decode()defget_image_embedding(self,image_path:str)-List[float]:"""获取图像嵌入"""fromPILimportImage img=Image.open(image_path)embedding=self.model.encode(img)returnembedding.tolist()defget_text_embedding(self,text:str)-List[float]:"""获取文本嵌入(用于跨模态检索)"""embedding=self.model.encode(text)returnembedding.tolist()defprocess_image(self,image_path:str,metadata:dict=None)

相关文章:

RAG多模态检索

RAG 多模态检索:文本+图像+表格的统一检索方案 引言 传统的RAG系统主要处理文本数据,但现实世界的信息以多种形式存在:产品图片、数据表格、扫描文档、技术图表等。多模态RAG(Multimodal RAG)打破了单一文本的限制,让AI能够理解和检索图像、表格、文档等多种类型的信息…...

IP被封禁应急处理,动态IP池快速更换入门

IP地址被封禁是很多用户在使用代理IP、开展网络业务时的常见痛点,无论是爬虫采集、多账号运营,还是远程访问、跨境业务,一旦IP被封禁,会直接导致业务中断、效率下降,甚至造成经济损失。面对IP封禁,最高效的…...

Flutter AppBar自定义全攻略:从基础布局到实现抖音式沉浸顶部栏

Flutter AppBar自定义全攻略:从基础布局到实现抖音式沉浸顶部栏 在移动应用开发中,顶部导航栏(AppBar)是用户界面的重要组成部分,它不仅承载着品牌标识和导航功能,更是用户体验的关键触点。Flutter作为跨平台开发框架,…...

别再死记硬背定义了!用魔方和时钟,5分钟搞懂什么是‘群’和‘阿贝尔群’

别再死记硬背定义了!用魔方和时钟,5分钟搞懂什么是‘群’和‘阿贝尔群’ 数学课本上那些晦涩的群论定义,是不是总让你一头雾水?今天我们不背公式、不写符号,就用你手边的魔方和墙上的时钟,带你像玩游戏一样…...

6种二极管的区别和用法

一、通用二极管代表型号:1N4001~1N4007、M1、M4、M7等;1.1 特性单向导通、PN结反向耐压高,通常为50~1kv;正向压降0.6~1.5V左右,根据材料不同以及导通电流不同而变化;开关速度慢-us级别下面列出M7-通用二极管的数据手册…...

VLC for Android跨平台多媒体应用架构设计与大屏优化实现

VLC for Android跨平台多媒体应用架构设计与大屏优化实现 【免费下载链接】vlc-android VLC for Android, Android TV and ChromeOS 项目地址: https://gitcode.com/gh_mirrors/vl/vlc-android VLC for Android作为一款跨平台的多媒体播放解决方案,在Androi…...

飞书审批对接-自建企业应用的主要作用

自建企业应用在第三方系统对接飞书审批流程中扮演着核心枢纽的角色!让我详细解释它的作用和与审批表单的关系。1. 自建企业应用的主要作用1.1 身份认证和权限中心javascript// 自建应用负责处理所有API调用的认证 class FeishuAppAuth {constructor(appId, appSecre…...

C# + OpenCvSharp实战:用轮廓匹配搞定工业零件缺陷检测(附完整项目源码)

C# OpenCvSharp实战:工业零件缺陷检测的轮廓匹配技术解析 在工业自动化领域,视觉检测系统正逐渐取代传统人工质检,成为生产线上的"火眼金睛"。想象一下这样的场景:传送带上的金属零件以每分钟上百个的速度通过摄像头&a…...

Charles抓包实战:从零配置到成功解密微信小程序/H5页面请求

Charles抓包实战:解密微信小程序与H5页面流量的全链路指南 当你盯着手机屏幕上那个加载缓慢的H5页面,或是调试一个行为诡异的微信小程序时,是否曾渴望能像X光一样透视所有网络请求?作为从业十年的全栈开发者,我经历过太…...

网站怎么创建?

网站怎么创建?现在很多公司企业都会有自己的网站,即使是没有网站的公司也抓紧时间纷纷入局,希望能在互联网的流量中分到一杯羹。那么网站怎么创建呢?下面给大家简单说一说。网站怎么创建步骤1:首先我们准备好一个域名。…...

从日志到模型:手把手教你用Python实战用户行为异常检测(附代码)

从日志到模型:手把手教你用Python实战用户行为异常检测(附代码) 当服务器日志以每秒数百条的速度滚动时,真正的挑战不是收集数据,而是如何让这些沉默的字节开口说话。某电商平台曾发现,凌晨3点的异常登录尝…...

别再死记硬背了!用AI钢笔工具画Logo,记住这3个快捷键就够了

用AI钢笔工具高效绘制Logo的3个核心快捷键解析 刚接触Adobe Illustrator的设计新手往往会被钢笔工具的强大功能所吸引,却又在复杂的操作面前望而却步。实际上,掌握几个关键快捷键就能让这个看似复杂的工具变得简单易用。本文将聚焦于绘制Logo这一具体场…...

告别手动画刀版!用JavaScript给Adobe Illustrator写个插件,5分钟搞定包装盒展开图

5分钟打造包装盒刀版神器:零代码实现AI脚本自动化 每次面对包装盒刀版设计时,你是否也经历过这样的崩溃时刻?反复测量尺寸、手动绘制线条、调整粘口位置,一个简单的纸盒展开图可能就要耗费大半天时间。更可怕的是,当客…...

Phi-4-mini-flash-reasoning精彩案例:‘甲乙丙丁谁说真话’类经典逻辑题全自动求解

Phi-4-mini-flash-reasoning精彩案例:甲乙丙丁谁说真话类经典逻辑题全自动求解 1. 模型介绍与逻辑推理能力 Phi-4-mini-flash-reasoning是一款专为复杂推理任务设计的轻量级AI模型,特别擅长解决需要多步推理的逻辑难题。不同于普通聊天AI,它…...

Phi-3.5-mini-instruct部署避坑指南:首次加载延迟、端口冲突、日志排查全流程

Phi-3.5-mini-instruct部署避坑指南:首次加载延迟、端口冲突、日志排查全流程 1. 开篇介绍 Phi-3.5-mini-instruct是一款轻量级文本生成模型,特别适合中文问答、总结归纳、内容改写等场景。这个镜像已经完成了网页封装,用户可以直接在页面上…...

图神经网络完全指南:从入门到精通的学习路线图

图神经网络完全指南:从入门到精通的学习路线图 【免费下载链接】graph-based-deep-learning-literature links to conference publications in graph-based deep learning 项目地址: https://gitcode.com/gh_mirrors/gr/graph-based-deep-learning-literature …...

从‘Access-Control-Allow-Origin’报错到实战:一次搞定OAuth 2.0授权接口的本地调试

从CORS报错到OAuth 2.0授权接口的本地调试实战指南 当你在本地开发环境中调用类似https://aip.baidubce.com/oauth/2.0/token这样的OAuth 2.0授权接口时,十有八九会遇到那个令人头疼的CORS错误。这不是一个普通的跨域问题,而是涉及OAuth安全机制与本地开…...

私有化音视频系统/视频直播点播/高清点播/音视频点播EasyDSS以核心技术重构企业音视频协同体验

随着数字化协同向纵深发展,企业对视频会议的需求已超越简单的“看得见、听得清”,转向安全可控、稳定高效、灵活适配、深度协同的综合体验。市面上多数平台聚焦通用场景,却难以满足政企用户对数据主权、定制开发、内网运行、跨系统联动的严苛…...

快速掌握今日热榜:一站式聚合全网热门头条的终极指南

快速掌握今日热榜:一站式聚合全网热门头条的终极指南 【免费下载链接】TopList 今日热榜,一个获取各大热门网站热门头条的聚合网站,使用Go语言编写,多协程异步快速抓取信息,预览:https://mo.fish 项目地址: https://…...

终极指南:如何在现代Windows上让经典游戏联机重生

终极指南:如何在现代Windows上让经典游戏联机重生 【免费下载链接】ipxwrapper 项目地址: https://gitcode.com/gh_mirrors/ip/ipxwrapper 你是否曾经怀念那些经典的局域网游戏时光?《红色警戒2》、《暗黑破坏神》、《帝国时代》等经典游戏在现代…...

WebUploader能否支持航空航天领域的目录结构上传?

作为一名前端开发工程师,我近期接手了公司一个有些年头的旧项目改造工作。这次改造的核心需求,是要给这个旧项目增添大文件上传功能,尤其得支持 10G 左右文件的上传,并且还要具备断点续传的能力。 在众多解决方案中,我…...

Vue-Tetris 终极指南:如何用Vue.js打造经典俄罗斯方块游戏

Vue-Tetris 终极指南:如何用Vue.js打造经典俄罗斯方块游戏 【免费下载链接】vue-tetris Use Vue, Vuex to code Tetris.使用 Vue, Vuex 做俄罗斯方块 项目地址: https://gitcode.com/gh_mirrors/vu/vue-tetris Vue-Tetris是一个使用Vue和Vuex构建的经典俄罗…...

ERPNext自动化部署终极指南:5分钟完成企业级ERP系统安装

ERPNext自动化部署终极指南:5分钟完成企业级ERP系统安装 【免费下载链接】erpnext_quick_install Unattended install script for ERPNext Versions, 13, 14 and 15 项目地址: https://gitcode.com/gh_mirrors/er/erpnext_quick_install 想要在5分钟内搭建一…...

从图像分类到目标检测:手把手教你用PyTorch复现ViT和DETR的核心模块(附代码)

从图像分类到目标检测:手把手教你用PyTorch复现ViT和DETR的核心模块 当Transformer架构在自然语言处理领域大放异彩后,计算机视觉研究者们开始思考:这种基于自注意力的强大模型能否同样革新图像理解任务?Vision Transformer&#…...

ROS2 仿真入门01 Gazebo 核心界面功能全解析

1. Gazebo初体验:从零启动到界面认知 第一次打开Gazebo的感觉,就像走进了一个充满机关的机器人实验室。作为ROS2仿真生态的核心工具,这个开源的3D物理仿真环境能让你在虚拟世界中构建从简单机械臂到自动驾驶系统的任何场景。还记得我刚开始接…...

一张图让90%的开发者看懂区块链+AI融合架构:软件测试的专业视角

当“区块链”与“人工智能”这两大技术浪潮交汇,对于软件测试从业者而言,其意义远不止于概念上的叠加。理解一项新技术的核心,关键在于厘清其架构、数据流与验证逻辑。两者融合催生的并非简单的功能互补,而是一种全新的、具备“可…...

HunyuanVideo-Foley惊艳效果:AI生成的‘老式打字机’音效获专业录音师认可

HunyuanVideo-Foley惊艳效果:AI生成的老式打字机音效获专业录音师认可 1. 专业级音效生成能力展示 HunyuanVideo-Foley作为一款集视频生成与专业音效合成于一体的AI工具,近期因其生成的"老式打字机"音效获得了专业录音师的高度评价。这款基于…...

告别系统休眠困扰:MouseJiggler鼠标模拟工具全解析

告别系统休眠困扰:MouseJiggler鼠标模拟工具全解析 【免费下载链接】mousejiggler Mouse Jiggler is a very simple piece of software whose sole function is to "fake" mouse input to Windows, and jiggle the mouse pointer back and forth. 项目地…...

别再只盯着铜箔了!FPC软板选材实战:从PI基材到屏蔽膜,工程师避坑指南

FPC软板选材实战:从基材到屏蔽层的工程决策指南 在可穿戴设备折叠屏和车载摄像头小型化的浪潮中,柔性印刷电路板(FPC)正经历前所未有的技术迭代。当某头部TWS耳机厂商因基材选择失误导致批量性断裂时,当新能源汽车摄像头模组因屏蔽材料失效引…...

【研报331】新能源汽车行业ESG白皮书:多元能源的落地挑战

本报告提供限时下载,请查看文后提示以下仅为报告部分内容:摘要:新能源汽车赛道已从“电动单一解”转向多元能源共生的新阶段,氢能、甲醇、生物质、天然气、太阳能等路线正重塑产业ESG底色。《新能源汽车行业ESG白皮书》系统拆解不…...