当前位置：首页 > article >正文

简化物业数据管理：使用 Indexify 进行高级数据提取与检索

article 2026/5/5 14:37:57

原文towardsdatascience.com/streamline-property-data-management-advanced-data-extraction-retrieval-with-indexify-3b037054ffc2https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/6805c2fece89c143c0d1977b3507d6d3.png由 Tierra Mallorca 在 Unsplash 上拍摄的照片TLDR:传统的数据提取方法往往无法从非结构化内容中挖掘出更深层次的见解尤其是在房地产领域。本文探讨了使用 Indexify一个用于实时、多模态数据提取的开源框架以更好地分析物业文档。你将学习如何设置 Indexify包括服务器设置、提取图创建、文档摄入和数据查询以及如何创建自定义提取器。实施 Indexify 可以增强物业文档分析从而获得更准确的见解、更好的决策和简化的管理。目录· 简介 · Indexify 概述 ∘ 提取器 ∘ 协调器 · 教程的先决条件 · 为高级文档分析设置 Indexify ∘ 安装和配置 Indexify ∘ 准备文档集合 · 使用 Indexify 摄入和处理文档 ∘ 设置提取图 ∘ 自定义提取器 ∘ 上传文档 · 使用 Indexify 提出复杂问题 ∘ 语义搜索与查询构建 ∘ 检索和分析结果 · 大规模存储和查询数据 ∘ 与 LangChain 扩展 ∘ 在数据库中存储查询结果 · 总结 · 参考文献和额外资源简介传统的数据提取方法往往无法解锁隐藏在非结构化内容中的更深、更复杂的见解。大多数方法仅捕捉到表面信息而未能揭示更深层次的见解。随着企业的成长和文档集合的扩大对高级工具的需求变得至关重要这些工具可以解析、分析和理解这浩瀚的信息海洋。这种深度对于驱动明智的决策、识别趋势和保持竞争优势至关重要。房地产领域正适合进行由人工智能驱动的转型。通过整合先进的 AI 解决方案组织可以增强文档分析解析物业记录并简化管理流程。更好的数据提取策略可以提升房地产数据分析提供更准确和可操作的物业文档洞察从而实现高效的维护、销售以及更多。在本文中我将探讨使用 Indexify 进行数据提取和检索Indexify 是一个由Tensorlake提供的开源框架。我还会展示这个可扩展系统在处理和分析与房产相关的文件方面的能力。Indexify 概述Indexify是一个开源的摄取和提取引擎旨在为实时 LLM 应用提供动力。它能够以极低的延迟从非结构化源实时提取数据。它还支持可应用于各种用例的多模态提取工作流程包括从文档中提取实体和嵌入、音频转录、摘要以及从图像或视频中检测对象。它还支持高效的数据索引、存储和检索使其成为可扩展实时 RAG 系统的强力候选者。任何工作流程都可以通过 4 个基本步骤轻松实现启动 Indexify 服务器和提取器。创建提取图。以您需要的格式视频、图像、音频、PDF 等摄取数据。检索提取的数据。提取器提取器模块是 Indexify 的核心功能。提取器可以从任何模态的非结构化数据中提取并返回结构化信息。例如从 PDF 中获取特定信息并以 JSON 格式将数据转换为嵌入并在视频中识别面部或对象。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ee138082ddd03a359d546b1d77f86724.png图片由作者提供提取器通常接收非结构化数据作为输入并输出一系列内容对象和特征。非结构化数据的原始字节存储在 blob 存储中提取的特征存储在向量存储和结构化存储中以便检索。任何用于处理非结构化数据的模型或算法都可以通过扩展提取器 SDK 中提供的抽象类来实现为提取器。协调员这些是 Indexify 中使用的高性能任务调度器。当数据开始被摄取时它们将任务分配给提取器帮助实现卓越的速度和性能。要获取有关 Indexify 的更深入信息请查看他们的文档。教程的先决条件对于这个教程请确保您有 Python 3.11 或更高版本以获得最佳性能。其他安装说明将在稍后提供。我将使用Groq作为 LLM 引擎。要开始请访问这个页面并创建一个 API 密钥。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/afddbe6843eafc9e0d0354e2478a1be4.png图片由作者提供此外还需要安装库。pip install groq对于数据我准备了一些房地产手册作为 PDF 文件。请随意使用您自己的与物业管理相关的文档集合。为高级文档分析设置 Indexify安装和配置 Indexify在 Linux 系统上设置 Indexify 很容易。对于开发你需要运行 3 个终端窗口。终端 1用于下载和运行 Indexify 服务器。终端 2用于运行 Indexify 提取器这些提取器处理结构化提取、分块和嵌入。终端 3用于运行 Python 脚本来加载和查询 Indexify 服务器中的数据。你可以使用以下命令启动和运行 Indexify 服务器。请记住检查命令在哪个终端上运行。TERMINAL1curl https://getindexify.ai|sh./indexify server-d服务器将在localhost:8900上运行。接下来创建一个 Python 环境并安装所有必要的库和提取器。我将在本教程中详细讨论所需的特定提取器。TERMINAL2pip3 install indexify-extractor-sdk indexify wikipedia indexify-extractor download tensorlake/paddleocr_extractor indexify-extractor download tensorlake/minilm-l6 indexify-extractor download tensorlake/chunk-extractor.下载后使用以下命令运行提取器服务器TERMINAL2indexify-extractor join-server系统现在已准备好开发。我将在整个教程过程中保持两个终端运行。准备文档集合第一步是组织你的文档集合。在这个工作流程中我将使用 PDF 文档。对于多个文档你可以按照以下结构组织目录将所有文档作为 PDF 文件添加到data目录。对于其他数据类型你必须使用其他提取器或定义自定义提取器我将在本博客的后续部分讨论。└── data ├── doc1 ├── doc2 ├── doc3 ├── doc4 ├── venv ├── indexifyfile├── ingest_document.py ├── query_doc.py └── setup_extraction_graph.py使用 Indexify 消费和处理文档设置提取图Indexify 可以通过其核心功能提取器处理和存储任何模态的数据。这些提取器被设计用来从大量非结构化数据中提取内容。通过将不同的提取器链接在一起你可以创建一个管道简化整个数据提取和存储过程。这个过程通过创建提取图来管理。对于本教程我将构建以下提取图paddle_ocr用于从房地产宣传册中识别和提取文本。chunk_extract将数据分割成块以供 RAG 使用。minilm-l6: 将数据转换为嵌入表示。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/23c5c895100ca39f9561d206caf2ae31.png图片由作者提供配置 Indexify 客户端并使用以下 YAML 格式定义流程。# setup_extraction_graph.pyfromindexifyimportExtractionGraph,IndexifyClient clientIndexifyClient()extraction_graph_spec name: propertyQA extraction_policies: - extractor: tensorlake/paddleocr_extractor name: textextract - extractor: tensorlake/chunk-extractor name: chunker input_params: chunk_size: 1000 overlap: 100 content_source: textextract - extractor: tensorlake/minilm-l6 name: pdfembedding content_source: chunker extraction_graphExtractionGraph.from_yaml(extraction_graph_spec)client.create_extraction_graph(extraction_graph)运行命令以创建提取图。TERMINAL3python3./setup_extraction_graph.py自定义提取器为了捕获超出基本字段之外复杂的数据点我可以创建自定义提取器并将它们添加到我们的提取图中。你可以使用以下模板定义它们。frompydanticimportBaseModelfromtypingimportListfromindexify_extractor_sdkimportExtractor,Content,Featurefromindexify_extractor_sdk.base_extractorimportContentimportjsonclassInputParams(BaseModel):a:int0b:strclassMyExtractor(Extractor):nameyour-docker-hub-username/MyExtractordescriptionDescription of the extractor goes here.# Any python dependencies included in the extractor must be listed here.python_dependencies[torch,transformers]# Any system dependencies that the python code here depends on needs to be listed here. We use Ubuntu base images, so any ubuntu package can be installed here.system_dependencies[]input_mime_types[text/plain]def__init__(self):super().__init__()defextract(self,content:Content,params:InputParams)-List[Content]:return[Content.from_text(textHello World,featureFeature.embedding(values[1,2,3])),Content.from_text(textPipe Baz,featureFeature.embedding(values[1,2,3])),Content.from_text(textHello World,featureFeature.metadata(valuejson.dumps({key:value})),),]defsample_input(self)-Content:Content.from_text(textHello World)if__name____main__:MyExtractor().extract_sample_input()InputParams类使用 Pydantic 定义了可以用来配置提取器行为的参数。MyExtractor是实现提取器的主要类。它指定了可以处理的名字、描述、依赖项和输入类型。任何被 Indexify 消费但与这些 MIME 类型不匹配的内容将不会被发送到这个提取器。extract方法是其核心功能。它处理输入内容并返回一个包含如元数据等特征的转换内容对象列表。sample_input方法提供了一个用于测试的示例输入。例如这是一个自定义提取器它以 JSON 格式返回属性详情。# custom_extractor.pyfrompydanticimportBaseModelfromtypingimportListfromindexify_extractor_sdkimportExtractor,Content,Featurefromindexify_extractor_sdk.base_extractorimportContentimportjsonimportreclassInputParams(BaseModel):price_regex:strr$(d{1,3}(,d{3})*(.d)?)sqft_regex:strr(d)s*sqs*ftlocation_regex:strrlocatedsins([^.])classPropertyExtractor(Extractor):nameyour-docker-hub-username/PropertyExtractordescriptionExtracts property price, square footage, and location from text.python_dependencies[re]system_dependencies[]input_mime_types[text/plain]def__init__(self):super().__init__()defextract(self,content:Content,params:InputParams)-List[Content]:textcontent.text()price_matchre.search(params.price_regex,text)sqft_matchre.search(params.sqft_regex,text)location_matchre.search(params.location_regex,text)property_info{property_price:price_match.group(1)ifprice_matchelse,property_square_feet:sqft_match.group(1)ifsqft_matchelse,property_location:location_match.group(1).strip()iflocation_matchelse}return[Content.from_text(textjson.dumps(property_info),featureFeature.metadata(valuejson.dumps(property_info)))]defsample_input(self)-Content:returnContent.from_text(textPriced at $500,000 with 2,000 sq ft of living space, located in San Francisco.)if__name____main__:PropertyExtractor().extract_sample_input()您可以将提取器打包到容器中以用于生产或者使用以下命令在本地安装提取器并在提取图中使用它。indexify-extractor install-local custom_extractor:PropertyExtractor上传文档当提取图设置好时数据目录中的每个文档都应该通过管道并以嵌入的形式存储在向量存储中。Indexify 内置了一个向量存储您可以使用它来存储、查询和检索数据。# ingest_document.pyimportosimportrequestsfromindexifyimportIndexifyClient# Initialize IndexifyClientclientIndexifyClient()folder_pathdataforfilenameinos.listdir(folder_path):iffilename.endswith(.pdf):# Construct the full file pathfile_pathos.path.join(folder_path,filename)# Upload the PDF to Indexifyclient.upload_file(propertyQA,file_path)print(fUploaded:{filename})您可以使用 Indexify UI 在localhost:8900/ui查看向量存储和索引。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7087bda534161d371f6b1ef69aace058.png作者图片您也可以使用客户端访问索引fromindexifyimportIndexifyClient clientIndexifyClient()content_ids[content.idforcontentinclient.list_content(propertyQA)]extractclient.get_extracted_content(content_ids[1],propertyQA,textextract)embeddingclient.get_extracted_content(content_ids[1],propertyQA,pdfembedding)在 Indexify 中摄取的数据也存储在 SQL 表中允许您使用内置 API 和 SQL 查询查询数据。resultclient.sql_query(select * from propertyQA;)输出SqlQueryResult(result[{content_id:d6e584685d74a21d,type:text},{content_id:e32fd65fc2bbebf3,type:text}])使用 Indexify 提出复杂问题语义搜索与查询构建Indexify 的高级提取引擎赋予用户构建和执行超出基本数据提取的复杂查询的能力。Indexify 可以解释您文档的上下文和语义从而允许提出更复杂的问题。Indexify 从创建的索引中检索相关上下文并返回一个内容对象。该对象的信息可用于构建复杂的提示这些提示可以传递给 LLM 以生成适当的响应。让我们看看这是如何工作的。resultsclient.search_index(nameindex,queryquestion,top_k3)contextforresultinresults:contextcontextfcontent id:{result[content_id]}n npassage:{result[text]}n在这里Indexify 通过索引执行简单的语义搜索并返回最相关的段落以及如内容 ID 等元数据让您了解结果上下文和重要性。text参数中的数据可用于构建上下文。获取和分析结果语义搜索和复杂查询允许您深入挖掘您的文档集合提取出那些并非一目了然的见解。复杂问题的示例“根据历史数据哪些属性维护问题风险最高”“地震损坏的风险有哪些采取了哪些缓解措施”LLM 可以帮助以描述性和准确性的方式回答此类查询。从上一步检索到的上下文可以用来构建复杂的提示。You are a real estate expert and you have to help me manage my property. Answer the question, based on the context. Answer Informationnotfound if there is no context. Do not hallucinate. nquestion: {question} ncontext: {context}构建的提示随后用于查询 LLM。对于教程我使用了 Groq 的gemma-7b模型。以下是工作流程的完整代码。#query_doc.pyfromindexifyimportIndexifyClientfromgroqimportGroq clientIndexifyClient()groq_clientGroq(api_keyAPI_KEY,)defget_context(question:str,index:str,top_k3):resultsclient.search_index(nameindex,queryquestion,top_k3)contextforresultinresults:contextcontextfcontent id:{result[content_id]}n npassage:{result[text]}nreturncontextdefcreate_prompt(question,context):returnfYou are a real estate expert and you have to help me manage my property. Answer the question, based on the context. Answer Informationnotfound if there is no context. Do not hallucinate. nquestion: {question} ncontext: {context}defgenerate_response(prompt):chat_completiongroq_client.chat.completions.create(messages[{role:user,content:prompt,}],modelgemma-7b-it,)returnchat_completion.choices[0].message.content questionWhat are the risks of earthquake damage and what mitigation measures are taken?contextget_context(question,propertyQA.pdfembedding.embedding)promptcreate_prompt(question,context)responsegenerate_response(prompt)print(response)运行此文件以获取响应。TERMINAL3python3./query_doc.py**Risks of Earthquake Damage:**The provided text doesnotinclude information regarding the specific risks of earthquake damage,so this information cannot be extractedfromthe given context.**Mitigation Measures:**The provided text mentions that the structureisearthquake resistanceasper IS Standards.Specific mitigation measures mentioned include:-Metal/Fibre strip reinforcement onalljoints to avoid cracks.-Sharp edges avoided on fabrications to provide safety especiallyforchildren.一旦检索了数据您就可以分析它以识别规模化的物业管理中的趋势、异常和可操作的见解。可视化工具对于映射趋势和传达发现至关重要。例如在房地产数据分析中您可能会发现某些物业的维修成本较高这表明需要主动维护。规模化存储和查询数据使用 LangChain 进行扩展优化您的系统以实现高效的索引和检索以管理大规模的属性数据和房地产分析。这涉及到配置向量存储以高效地管理大量嵌入。在生产环境中Indexify 可以水平扩展到多个服务器实例和协调器以并行化实时数据提取和存储。您还可以在提取图中微调chunk_size和overlap等参数以在粒度和性能之间取得平衡。extractor:tensorlake/chunk-extractorname:chunkerinput_params:chunk_size:1000overlap:100content_source:textextractIndexify 与流行的 LangChain 框架很好地集成这是一个用于构建 AI 应用程序的高度可扩展框架。要开始请安装库。TERMINAL3pip install indexify-langchain langchain-groq我正在使用 LangChain 的基于 Indexify 的检索器。我将传递我准备好的索引和top_k参数。fromindexifyimportIndexifyClient clientIndexifyClient()fromindexify_langchainimportIndexifyRetriever params{name:propertyQA.pdfembedding.embedding,top_k:2}retrieverIndexifyRetriever(clientclient,paramsparams)这里是完整的代码# langchain_query_doc.pyimportrequestsimportdotenv# Setup retrieverfromindexifyimportIndexifyClientfromindexify_langchainimportIndexifyRetriever clientIndexifyClient()params{name:propertyQA.pdfembedding.embedding,top_k:2}retrieverIndexifyRetriever(clientclient,paramsparams)fromlangchain_groqimportChatGroq llmChatGroq(modelgemma-7b-it,temperature0,max_tokensNone,timeoutNone,max_retries2,api_keyAPI_KEY,)# Setup Chat Prompt Templatefromlangchain.promptsimportChatPromptTemplate template You are a real estate expert and you have to help me manage my property. Answer the question, based on the context. Answer Information not found if there is no context. Do not hallucinate. nquestion: {question} ncontext: {context} promptChatPromptTemplate.from_template(template)fromlangchain.schema.runnableimportRunnablePassthroughfromlangchain.schema.output_parserimportStrOutputParser rag_chain({context:retriever,question:RunnablePassthrough()}|prompt|llm|StrOutputParser())# QueryqueryWhat are the risks of earthquake damage and what mitigation measures are taken?print(rag_chain.invoke(query))这使用IndexifyRetriever根据查询检索最相关的段落。然后使用ChatPromptTemplate创建一个针对上下文的提示。该提示传递给 LLM其中模型处理信息并生成响应。在数据库中存储查询结果一旦执行了查询并检索了结果将此数据存储在结构化数据库中确保您可以引用它并进行进一步的分析。首先为了在数据库中存储查询结果设置一个关系型数据库并定义一个可以容纳 Indexify 返回的复杂数据结构的模式。下面是一个如何在 PostgreSQL 数据库中存储查询结果的示例importpsycopg2# Connect to your PostgreSQL databaseconnpsycopg2.connect(dbnameindexify_results,useryour_username,passwordyour_password,hostlocalhost,port5432)cursorconn.cursor()# Create a table to store query resultscursor.execute( CREATE TABLE IF NOT EXISTS query_results ( id SERIAL PRIMARY KEY, query TEXT, content_id VARCHAR(255), passage TEXT ); )conn.commit()# Example function to store resultsdefstore_results(question:str,results:list):forresultinresults:cursor.execute( INSERT INTO query_results (query, content_id, passage) VALUES (%s, %s, %s); ,(question,result[content_id],result[text]))conn.commit()# Retrieve and store query resultsquestionWhich properties are likely to require renovation next year?resultsclient.search_index(namepropertyQA.pdfembedding.embedding,queryquestion,top_k5)store_results(question,results)# Close the database connectioncursor.close()conn.close()在定义数据库模式时请考虑数据的关系和复杂性。该模式应容纳内容 ID 和段落文本以及元数据如时间戳、文档来源以及任何相关的标签或类别。这里是一个您可以考虑的示例模式。CREATE TABLE query_results(idSERIAL PRIMARY KEY,query TEXT,content_id VARCHAR(255),passage TEXT,timestamp TIMESTAMP DEFAULT CURRENT_TIMESTAMP,document_source VARCHAR(255),tags TEXT[]);https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/4b017e35e113ead44ea7005fbfab1241.png作者图片总结我们通过房地产行业的例子介绍了 Indexify 如何为需要更深入实时分析的应用程序提供高效的数据提取和检索。我们详细说明了 Indexify 的工作原理包括如何构建用于数据检索的知识库。此外我们还探讨了如何为更大的数据集和更高的吞吐量扩展系统。最后我们讨论了将结果存储在结构化数据库中以供未来参考和深入分析的方法。完整的代码可以在 GitHub 链接这里找到。作为下一步您可以探索并构建利用自定义模型和 LLM大型语言模型的各种用例的定制提取器。同时查看 Indexify 如何与其他数据库和向量存储一起使用。参考文献补充资源[1] Indexify 文档 (2023)。文档[2] Tensorlake Github 仓库(2023)。代码库Codebase[3] Tensorlake Discord 频道(2023)。Discord图片如果没有特别说明所有图像均由作者创建。

简化物业数据管理：使用 Indexify 进行高级数据提取与检索

相关文章：

简化物业数据管理：使用 Indexify 进行高级数据提取与检索

精简数据管道：如何使用 PySpark 和 WhyLogs 进行高效的数据分析和验证

开源技能库构建指南：从个人工具箱到团队知识中枢

使用 Python、Kafka 和 Faust 进行流处理

保姆级教程：在Ubuntu上为RK3588开发板配置交叉编译环境（含完整脚本）

实战指南：通达信缠论量化分析插件的智能化解决方案

WarcraftHelper：5大核心优化功能让魔兽争霸3重获新生

Depth Anything深度估计：ComfyUI中AI图像处理的终极指南

Tiny11Builder终极指南：如何快速构建精简版Windows 11系统镜像

B站CC字幕高效提取工具：3分钟掌握免费下载与格式转换

用GPT-4当老师，手把手教你复现LLaVA多模态模型（附代码与数据集）

告别数据跳动！用STM32F103驱动ADS1220进行精密电压测量的5个关键配置与调试技巧

PHP订单幂等性设计失效全复盘（2024真实生产事故溯源）

【PHP 8.9错误处理终极指南】：5大精准管控机制+3个生产环境避坑实战案例

生信分析实战：用MetaPhlAn4处理完测序数据后，这些结果文件怎么用？（附常用脚本）

手把手教你用51单片机和ADC0832做个CO2监测仪（附Proteus仿真和Keil源码）

FanControl终极指南：5分钟学会Windows风扇精准控制，告别噪音烦恼

Go语言高效开发实战：并发模式、性能优化与工程化实践

多核处理器与高速互连技术在雷达信号处理中的应用

终极Windows清理方案：用Windows Cleaner彻底告别C盘爆红困扰

别再手动算权重了！用SPSSAU搞定面板数据财务排名（熵权TOPSIS保姆级教程）

ChatGPT Adapter：统一AI接口网关，轻松集成多模型服务

ROS机器人Web控制面板：从架构设计到安全部署的完整实践

日本麻将助手HTTPS配置终极指南：安全连接与本地证书完整教程

APKMirror：安全高效的安卓应用管理开源解决方案

如何零基础掌握SVG在线编辑器：告别专业软件的高门槛创作

别再只调阈值了！用OpenCV的Sobel梯度法提升低对比度图像缺陷检出率

从飞控模拟到游戏UI：Qt姿态仪(ADI)的二次开发与数据接入指南（附源码）

重庆大学LaTeX论文模板终极指南：3步完成专业论文排版

别再只会拖模块了！用MATLAB Function模块在Simulink里写自定义逻辑（附if/for/persistent实战）