当前位置：首页 > article >正文

基于DWS构建RAG框架生成行业调研报告

article 2026/3/29 6:42:49

1. 前言适用版本【DWS 9.1.1.200及以上】在信息爆炸的时代行业调研报告的生成正面临数据规模庞大、信息碎片化、人工处理效率低等多重挑战。检索增强生成RAG, Retrieval-Augmented Generation作为一种新兴技术范式通过融合信息检索与大语言模型LLM的能力为自动化生成高质量行业报告提供了可行路径先从海量文档中精准召回相关内容再由LLM整合生成逻辑连贯、内容翔实的文本从而在保证专业性的同时显著提升产出效率与准确性。本文将系统介绍如何构建一个以文本检索为核心的RAG框架用于自动化生成行业调研报告。我们将围绕数据准备、检索优化、生成控制与结果评估等关键环节探讨如何设计高效稳定的处理流程——包括文档的预处理与索引构建、检索策略的调优、提示工程的设计以及多源异构文档如PDF、网页、报告的适配方法。通过该框架组织可降低对人工经验的依赖实现调研报告的快速迭代与规模化生产为战略研判与业务决策提供及时、可靠的信息支撑。2. DWS AI Function和向量化计算DWS 9.1.1.200集成pgai插件支持库内调用LLM和Embedding模型的能力并且提供文本过滤textfilter、文本总结summarize、情感分析sentiment等24个AI Functions。同时集成pgvector插件提供向量存储和快速检索能力。3. 基于DWS构建的RAG架构Naive RAGNaive RAGRetrieval-Augmented Generation框架的核心思想是在大语言模型LLM生成文本前先通过检索模块从外部知识库中获取与任务高度相关的信息并将其作为上下文注入生成过程。这一机制有效缓解了LLM幻觉、知识滞后和领域适配性弱等问题特别适用于需依赖特定领域知识的复杂任务如专业问答、长文档摘要、行业调研报告生成等。检索阶段Retrieval根据用户输入的问题或提示从预构建的知识库中检索出若干相关文本片段如段落或文档块生成阶段Generation将检索结果与原始查询组合为结构化提示Prompt交由LLM生成最终输出确保回答内容有据可依、逻辑严谨。在系统初始化阶段原始文本数据源Data Sources会被预处理并切分为语义完整的文本块chunks每个chunk经Embedding模型转换为高维向量后持久化存储于向量数据库如DWS支持向量存储和计算能力。当接收到用户查询时系统同步将查询文本编码为向量并在DWS中执行近似最近邻搜索ANN召回语义最相关的Top-K文本块。这些检索结果与用户原始查询共同构成增强型Prompt输入LLM以生成准确、可溯源的响应。4. 案例4.1 案例介绍一篇调研报告的生成往往需要从众多的长文本语料中提取与调研报告相关性最高的内容然后通过整合相关内容以获取一篇合格的调研报告。本案例将介绍如何在DWS中通过对众多的长文本语料分析生成一篇调研报告。4.2 存储表介绍长文本语料表CREATE TABLE documents(id SERIAL PRIMARY KEY, topic text, content text);documents表中每一行代表一个长文本语料id作为主键区分行topic记录长文本语料的主题content记录长文本语料的所有内容。长文本向量化表CREATE TABLE chunk_text(id SERIAL PRIMARY KEY, chunk text, embedding vector); CREATE INDEX ON chunk_text USING hnsw(embedding vector_cosine_ops);chunk_text表中记录的是所有长文本分块后的内容chunk记录分块后的文本内容embedding记录分块后的文本其向量化后的内容。调研报告结果表CREATE TABLE reports(id SERIAL PRIMARY KEY, content text);reports表每一行代表一篇调研报告content中存储一篇调研报告的文本内容。4.3 模型api准备设置base-url和api-keySELECT ai.dws_pgai_encrypt_info(baseurl, apikey);设置期望函数所使用的api服务中的模型名称本案例中使用且需要api服务的函数有openai_embed、openai_chat_complete、rank模型名称根据api服务提供的模型名称确定openai_embed使用文本Embedding模型openai_chat_complete和rank使用常规的LLM。SELECT ai.set_func_model(函数名称, 模型名称);4.4 RAG基本操作流程将所有的长文本语料通过以下方式导入到documents表中。INSERT INTO documents(topic, content) VALUES (主题内容, 长文本语料内容);将长文本语料做chunk切分并且存入chunk_text表中。chunk_text_recursivelychunk_size设置为1000可根据需要修改返回的是一个text[]需要使用unnest将text[]转换成多行WITH chunks AS ( SELECT unnest(ai.chunk_text_recursively(长文本语料, 1000)) AS chunk ) INSERT INTO chunk_text (chunk) SELECT chunk FROM chunks;将chunk_text表中的chunk转换成向量存储在embedding列中。UPDATE chunk_text SET embedding ai.openai_embed(chunk)::VECTOR;将用户问题转换成向量并且与chunk_text表中的向量化chunk进行近似比较返回相似度最高的10个chunk。WITH query_embedding AS ( SELECT ai.openai_embed(用户问题)::VECTOR AS embedding ) SELECT ct.id, ct.chunk, (ct.embedding qe.embedding) AS similarity FROM chunk_text ct, query_embedding qe ORDER BY similarity LIMIT 10;用chunk和用户问题组装prompt与LLM交互获取调研报告内容并且存入reports表中。WITH report AS ( SELECT ai.openai_chat_complete( jsonb_build_array( jsonb_build_object( role, system, content, 请基于我给你的问题和文本内容生成一份调研报告 ), jsonb_build_object( role, user, content, 用户问题 || chunk_text表中被选中的多个chunk属性值\n ) ) ) AS report_content ) INSERT INTO reports (content) SELECT report_content FROM report;4.5 完整示例假设所有的长文本语料都已导入到documents表中示例数据如下。INSERT INTO documents(topic, content) VALUES (数据库市场需求, 随着数字化转型的加速全球数据库市场需求不断攀升。企业在数据驱动决策、提升效率和创新方面的需求推动了数据库技术的广泛应用。从传统的关系型数据库RDBMS到新兴的非关系型数据库NoSQL不同类型的数据库在各种行业中得到了应用尤其是在金融、电商、医疗和物联网领域。尤其是大数据分析的普及使得企业需要处理海量数据并快速从中提取有价值的信息这推动了对分布式数据库和高性能数据库的需求增长。此外云计算的普及也是推动数据库市场需求的一个重要因素。越来越多的企业选择将数据库迁移到云端利用云数据库的弹性和可扩展性来支持其快速发展的业务需求。根据市场研究公司Gartner的数据2023年全球云数据库市场将达到约60亿美元预计未来几年将继续增长。尤其是在企业对快速数据访问和分析的需求日益增加的背景下数据库技术的角色变得愈发重要。从数据安全的角度来看随着数据泄露事件的频发数据库安全性已成为企业不可忽视的议题。越来越多的企业开始重视数据加密、身份验证、访问控制等安全功能这对数据库厂商提出了更高的技术要求。企业不仅希望从数据库中获得高效的数据处理能力还要求其具备强大的安全保护能力。); INSERT INTO documents(topic, content) VALUES (数据库技术热点, 近年来数据库技术持续创新出现了一些显著的技术热点。首先分布式数据库逐渐成为技术发展的主流。随着云计算、大数据以及人工智能的不断发展传统的单机数据库难以满足处理海量数据的需求。分布式数据库通过将数据存储和计算任务分配到多个节点提供了更高的可扩展性和容错能力。像 Google Spanner 和 CockroachDB 等数据库产品正逐步成为企业解决大规模数据存储和高可用性的首选方案。其次多模态数据库和图数据库正在引领数据库技术的另一个热点。多模态数据库能够支持不同的数据模型如文档型、关系型、图形、列存储等使得企业能够在同一个平台上处理各种类型的数据。图数据库尤其是 Neo4j 和 Amazon Neptune 等产品因其在社交网络、推荐系统和路径分析等领域的强大优势而受到越来越多企业的关注。另外随着人工智能AI 和机器学习ML 的发展智能数据库成为了一个新兴趋势。智能数据库通过集成AI功能能够自动化数据处理过程包括自动索引优化、查询优化、异常检测等。这不仅提高了数据库的效率还帮助用户降低了维护成本。Serverless 和无服务器数据库也是当前的热点技术之一特别是在云数据库领域。这种架构使得用户只需为使用的计算资源付费而无需管理和维护数据库实例。无服务器架构简化了数据库管理特别适合短期、大量负载波动的应用场景。); INSERT INTO documents(topic, content) VALUES (数据库未来方向, 未来数据库行业将朝着更高效、更智能、更安全的方向发展。一方面随着数据量的剧增自动化和智能化将成为未来数据库技术发展的重要方向。AI和ML的集成将使得数据库能够自主学习、优化自身的性能例如通过预测查询负载、自动调整索引等方式来提升整体效率。数据库的自动化管理也将大大减轻开发人员和运维人员的负担提升企业的生产力。云数据库的进一步普及和无服务器架构的推广也是未来的关键发展趋势。随着更多企业采用混合云和多云架构云数据库的弹性、扩展性和成本效益将成为企业选择云数据库的主要动力。云数据库不仅能够支持高效的数据存储还能够为企业提供高可用性、容错性和灾难恢复能力。此外随着数据隐私保护和合规性要求的不断提高数据库厂商将不断增强数据加密、访问控制和审计等功能。区块链技术也有望在数据库领域得到应用通过去中心化的方式提升数据安全性和透明度尤其是在涉及敏感数据和财务数据的场景中。边缘计算的兴起也将影响数据库技术的发展。未来的数据库不仅仅会在数据中心中运行还将能够在网络边缘设备上运行支持实时数据处理和低延迟的应用场景特别是在物联网IoT和智能设备领域数据库将具备更强的边缘计算能力。); INSERT INTO documents(topic, content) VALUES (数据库营收状态, 近年来数据库市场的营收状态整体呈现出稳定增长的态势。根据IDC和Gartner的数据显示2022年全球数据库市场的整体规模达到了近500亿美元。随着数字化转型的推进企业对数据库的需求不断增长预计未来几年这一市场将继续扩展。云数据库的普及尤其推动了市场的增长许多大型云服务提供商如 Amazon Web Services (AWS)、Microsoft Azure 和 Google Cloud的云数据库产品不断取得市场份额成为营收增长的重要来源。其中**数据库即服务DBaaS**作为云计算的一个重要分支正在成为最具增长潜力的市场之一。DBaaS能够为企业提供即插即用的数据库服务减少了企业在硬件、软件、运维等方面的投入。因此DBaaS已成为一些数据库厂商如 MongoDB、Snowflake的主要营收来源。在传统数据库厂商中如 Oracle 和 Microsoft SQL Server尽管其依然在全球市场占据领先地位但其增长速度相对放缓。为了应对云数据库的挑战这些传统厂商也在逐步将其数据库产品转向云端提供混合云数据库和云数据库服务。特别是 Oracle Autonomous Database 和 SQL Server on Azure 等服务帮助它们在云市场中获得了新的增长点。此外随着更多企业将数据存储和计算需求迁移到云端NoSQL 数据库和 NewSQL 数据库的兴起为市场提供了新的增长动力。随着大数据和人工智能应用场景的增加这些数据库产品的市场需求也在不断扩大进一步推动了数据库行业的营收增长。);创建所需扩展。CREATE EXTENSION ai; CREATE EXTENSION pgvector;为了提高匹配的效率避免对所有的长文本都进行匹配可以首先用rank函数将documents表中的topic与用户问题先进行一次粗略的相关性匹配返回相关性最高的5个长文本语料逐个利用函数chunk_text_recursively划分chunk存入chunk_text表中。此外对于持久化存储的长文本语料可以预先在存入数据库时就使用函数处理chunk的划分和向量化过程这样在后续检索过程中可以省去向量化过程的开销更快地完成检索和生成任务。WITH topics AS ( SELECT array_agg(topic) AS topics_array FROM documents ), rank_result AS ( SELECT ai.rank(请生成一份2020年到2025年数据库行业的发展情况的调研报告重点涵盖市场需求、技术热点和未来方向三个方面, topics_array) AS result FROM topics ), rank_score AS ( SELECT (jsonb_each_text(result)).key AS content, (jsonb_each_text(result)).value AS score FROM rank_result ), related_documents AS ( SELECT content, score FROM rank_score ORDER BY score DESC LIMIT 5 ) INSERT INTO chunk_text (chunk) SELECT unnest(ai.chunk_text_recursively(rd.content, 300)) AS chunk FROM related_documents rd;完成chunk_text中的chunk转化为向量。UPDATE chunk_text SET embedding ai.openai_embed(chunk)::VECTOR;选取相关性高的chunks组装prompt生成最终的调研报告。WITH query_embedding AS ( SELECT ai.openai_embed(请生成一份2020年到2025年数据库行业的发展情况的调研报告重点涵盖市场需求、技术热点和未来方向三个方面)::VECTOR AS embedding ), similarity_chunks AS ( SELECT ct.id, ct.chunk, (ct.embedding qe.embedding) AS similarity FROM chunk_text ct, query_embedding qe ORDER BY similarity LIMIT 10 ), chunks AS ( SELECT string_agg(chunk, ) AS concatenated_chunks FROM similarity_chunks ), report AS ( SELECT ai.openai_chat_complete( jsonb_build_array( jsonb_build_object( role, system, content, 请基于我给你的问题和文本内容生成一份调研报告 ), jsonb_build_object( role, user, content, 请生成一份2020年到2025年数据库行业的发展情况的调研报告重点涵盖市场需求、技术热点和未来方向三个方面 || concatenated_chunks ) ) ) AS report_content FROM chunks ) INSERT INTO reports (content) SELECT report_content FROM report;示例结果展示示例的结果是将markdown格式以纯文本的形态存入reports表中可以直接导出content保存为.md文件。SELECT * FROM reports; id | content ------------------------------------------------------------------------------------------------------------------------------------------------------------------- 1 | | | ### 2020-2025年数据库行业调研报告 | **——市场需求、技术热点与未来方向分析** | | --- | | #### **一、摘要** | 本报告基于2020年至2025年数据库行业的市场数据、技术演进及行业趋势系统分析了市场需求变化、技术热点演进及未来发展方向。核心结论如下 | - **市场需求**全球数据库市场规模从2020年的450亿美元增长至2025年的780亿美元复合年增长率CAGR达15%主要驱动力来自数字化转型、数据量激增及云原生需求。 | - **技术热点**分布式数据库、多模数据处理、AI与数据库融合成为核心趋势云原生存储与弹性扩展技术显著提升市场竞争力。 | - **未来方向**边缘计算与数据库协同、量子数据库探索、可持续性设计如绿色数据库将成为关键创新领域。 | | --- | | #### **二、市场需求分析** | 1. **市场规模与增长** | - **营收状态** | - 2020年全球数据库市场营收约450亿美元2025年预计突破780亿美元IDC数据。 | - 云数据库占比从2020年的35%提升至2025年的60%成为市场增长核心驱动力。 | - **区域分布** | - 北美40%、亚太30%、欧洲25%为三大市场亚太地区增速最快CAGR 18%受益于中国、印度数字化转型。 | | 2. **需求驱动因素** | - **数字化转型**企业对实时数据处理、业务敏捷性需求推动数据库升级如金融、电商、医疗行业对高可用性数据库的依赖度提升。 | - **数据量激增**全球数据总量从2020年的49ZB增长至2025年的175ZBStatista非结构化数据占比超80%推动多模数据库如支持文档、图、时空数据需求。 | - **云原生与混合云**企业从传统本地部署向云迁移2025年全球云数据库用户渗透率超70%。 | | 3. **行业痛点与挑战** | - 数据安全与合规如GDPR成本上升。 | - 传统数据库性能瓶颈难以满足实时分析需求。 | | --- | | #### **三、技术热点演进** | 1. **核心趋势** | - **分布式数据库** | - 跨区域数据复制与分布式事务技术成熟如Google Spanner、阿里云PolarDB-X成为企业级首选。 | - 2025年分布式数据库市场份额占比超45%。 | - **多模数据处理** | - 综合支持SQL、NoSQL、图数据库、时空数据的多模数据库如MongoDB 5.0、Amazon Neptune普及率提升。 | - **AI与数据库融合** | - 智能查询优化如Oracle Autonomous Database、自动索引调优、异常检测等AI功能成为主流。 | | 2. **技术创新案例** | - **云原生存储**基于容器化和微服务架构的数据库如MySQL on Kubernetes实现弹性扩展资源利用率提升30%。 | - **实时分析引擎**Apache Flink与数据库的集成如DorisDB支持实时OLAP场景。 | - **隐私计算**同态加密与联邦数据库技术如Microsoft Azure SQL Database解决数据共享安全问题。 | | 3. **技术挑战** | - 复杂查询性能优化与分布式事务一致性难以兼顾。 | - 开源与商业数据库竞争加剧企业面临技术选型困境。 | | --- | | #### **四、未来方向展望** | 1. **边缘计算与数据库协同** | - 针对物联网IoT场景边缘数据库EdgeDB将实现本地化实时处理减少云端传输延迟。预计2025年后边缘数据库市场规模年增长超25%。 | | 2. **量子数据库探索** | - 量子计算与数据库的结合如IBM Quantum Database将突破经典数据库的计算极限但短期内仍处于实验阶段。 | | 3. **可持续性设计** | - **绿色数据库**通过智能资源调度如动态休眠节点和低功耗硬件优化减少数据中心能耗。 | - 2025年后环保法规将推动“碳足迹可追踪数据库”成为行业标准。 | | 4. **行业垂直化创新** | - 医疗、金融、制造等行业的定制化数据库如医疗影像数据库、金融风控数据库将成为差异化竞争重点。 | | --- | | #### **五、结论与建议** | 1. **结论** | - 数据库行业正从“存储中心”向“智能决策中心”转型技术与场景的深度融合是核心趋势。 | - 企业需关注云原生、分布式架构及AI赋能技术以应对数据量与复杂性双增长的挑战。 | | 2. **建议** | - **技术投资**优先布局分布式数据库、多模数据处理及边缘计算相关技术。 | - **市场策略**针对亚太新兴市场及行业垂直场景如智能制造、智慧城市制定本地化解决方案。 | - **合规与可持续性**构建符合GDPR、碳中和要求的数据库产品体系。 | | --- (1 row)4.6 Markdown文件导出结果展示以下为reports表中content列导出文本数据的Markdown展示。报告中具体数值在本示例中仅供参考不代表具体真实结果2020-2025年数据库行业调研报告——市场需求、技术热点与未来方向分析一、摘要本报告基于2020年至2025年数据库行业的市场数据、技术演进及行业趋势系统分析了市场需求变化、技术热点演进及未来发展方向。核心结论如下市场需求全球数据库市场规模从2020年的450亿美元增长至2025年的780亿美元复合年增长率CAGR达15%主要驱动力来自数字化转型、数据量激增及云原生需求。技术热点分布式数据库、多模数据处理、AI与数据库融合成为核心趋势云原生存储与弹性扩展技术显著提升市场竞争力。未来方向边缘计算与数据库协同、量子数据库探索、可持续性设计如绿色数据库将成为关键创新领域。二、市场需求分析市场规模与增长营收状态2020年全球数据库市场营收约450亿美元2025年预计突破780亿美元IDC数据。云数据库占比从2020年的35%提升至2025年的60%成为市场增长核心驱动力。区域分布北美40%、亚太30%、欧洲25%为三大市场亚太地区增速最快CAGR 18%受益于中国、印度数字化转型。需求驱动因素数字化转型企业对实时数据处理、业务敏捷性需求推动数据库升级如金融、电商、医疗行业对高可用性数据库的依赖度提升。数据量激增全球数据总量从2020年的49ZB增长至2025年的175ZBStatista非结构化数据占比超80%推动多模数据库如支持文档、图、时空数据需求。云原生与混合云企业从传统本地部署向云迁移2025年全球云数据库用户渗透率超70%。行业痛点与挑战数据安全与合规如GDPR成本上升。传统数据库性能瓶颈难以满足实时分析需求。三、技术热点演进核心趋势分布式数据库跨区域数据复制与分布式事务技术成熟如Google Spanner、阿里云PolarDB-X成为企业级首选。2025年分布式数据库市场份额占比超45%。多模数据处理综合支持SQL、NoSQL、图数据库、时空数据的多模数据库如MongoDB 5.0、Amazon Neptune普及率提升。AI与数据库融合智能查询优化如Oracle Autonomous Database、自动索引调优、异常检测等AI功能成为主流。技术创新案例云原生存储基于容器化和微服务架构的数据库如MySQL on Kubernetes实现弹性扩展资源利用率提升30%。实时分析引擎Apache Flink与数据库的集成如DorisDB支持实时OLAP场景。隐私计算同态加密与联邦数据库技术如Microsoft Azure SQL Database解决数据共享安全问题。技术挑战复杂查询性能优化与分布式事务一致性难以兼顾。开源与商业数据库竞争加剧企业面临技术选型困境。四、未来方向展望边缘计算与数据库协同针对物联网IoT场景边缘数据库EdgeDB将实现本地化实时处理减少云端传输延迟。预计2025年后边缘数据库市场规模年增长超25%。量子数据库探索量子计算与数据库的结合如IBM Quantum Database将突破经典数据库的计算极限但短期内仍处于实验阶段。可持续性设计绿色数据库通过智能资源调度如动态休眠节点和低功耗硬件优化减少数据中心能耗。2025年后环保法规将推动“碳足迹可追踪数据库”成为行业标准。行业垂直化创新医疗、金融、制造等行业的定制化数据库如医疗影像数据库、金融风控数据库将成为差异化竞争重点。

基于DWS构建RAG框架生成行业调研报告

相关文章：

基于DWS构建RAG框架生成行业调研报告

AI净界-RMBG-1.4企业落地：制造业产品手册高清图自动透明化处理

如何通过CPUDoc免费优化CPU性能：5大核心功能全面指南

NPU加速！DeepSeek-V3大模型极速体验攻略

OptiScaler完全指南：如何为你的游戏解锁跨厂商上采样技术

PyTorch/TensorFlow张量加速实战：3个被90%工程师忽略的底层CUDA内核调优技巧

3大突破！AnythingLLM让多格式文档处理效率提升10倍

OpenClaw技能分享：GLM-4.7-Flash社区优秀案例解析

工业软件集成：在SolidWorks中嵌入Qwen3-ASR-0.6B实现语音指令操作

Alpamayo-R1-10B详细步骤：从supervisorctl服务管理到日志实时监控

3个高效功能让Maccy成为macOS必备剪贴板管理器

MediaPipe人体骨骼检测：零配置Web应用，上传图片秒出骨架图

Source Han Serif CN：7种字重如何改变你的中文排版体验？

29、【Agent】【OpenCode】模型配置（OpenCode Zen）（二）

美团天天神券自动化脚本终极指南：告别手动抢券，每月轻松省下200元

SiameseUIE在CSDN社区的应用：技术文章智能分析

OpenClaw学习路径：从nanobot镜像入门到开发自定义技能

Allegro PCB Design GXL (legacy) - 动态网格铜的避让技巧

保姆级教程：手把手教你用Xinference-v1.17.1在Jupyter里玩转开源大模型

CLIP-GmP-ViT-L-14模型API接口详解：从调用到错误处理

Unity热力图性能优化实战：如何用ScriptableObject管理数据，让MeshRenderer渲染百个热点不卡顿

PROJECT MOGFACE镜像部署详解：针对STM32开发者的AI赋能入门

Swift-All快速上手：小白也能轻松搞定大模型训练与部署

LeetCode刷题实战：用并查集(Union-Find)秒杀“朋友圈”和“岛屿数量”这类题目（附Python/Java代码）

Alpamayo-R1-10B保姆级教程：Windows WSL2环境下通过NVIDIA Container Toolkit部署

Flink 1.11.2 + ClickHouse实战：手把手教你搭建实时商品浏览看板（附Tableau自动刷新技巧）

MinerU-Diffusion：文档OCR解码提速3.2倍新方案

EEGLAB进阶实战：从原始EEG到ERP成分的精准提取与可视化分析

DAMOYOLO-S边缘端部署指南：STM32F103C8T6嵌入式平台推理优化

06_gstack发布运营：一键发布与文档同步机制