当前位置: 首页 > article >正文

【RAG】【Data-Processor】【node_parsers03】语义双重合并分块(Semantic Double Merging Chunking)案例分析

本案例展示了如何使用LlamaIndex中的语义双重合并分块器(SemanticDoubleMergingSplitterNodeParser)来智能地分割文本这是一种更高级的语义分块方法通过双重合并过程来创建语义连贯的文本块。1. 案例目标本案例的主要目标是演示语义双重合并分块的工作原理展示如何通过双重合并过程创建语义连贯的文本块。展示参数调优的重要性说明如何根据文本特点调整阈值参数以获得最佳分块效果。比较不同spaCy模型的效果展示不同语言模型对分块结果的影响。2. 技术栈与核心依赖LlamaIndex用于构建索引和查询的核心框架SemanticDoubleMergingSplitterNodeParserLlamaIndex中的语义双重合并分块器spaCy用于自然语言处理和语义相似度计算en_core_web_mdspaCy的中型英语模型用于计算语义相似度LanguageConfig用于配置语言设置和spaCy模型3. 环境配置在运行本案例前需要安装以下依赖# 安装spaCy !pip install spacy # 下载spaCy英语模型 !python3 -m spacy download en_core_web_md4. 案例实现4.1 数据准备案例使用Paul Graham的一篇散文作为示例数据from llama_index.core import SimpleDirectoryReader # 加载文档 documents SimpleDirectoryReader(input_files[pg_essay.txt]).load_data()4.2 创建语义双重合并分块器创建语义双重合并分块器配置语言设置和各种阈值参数from llama_index.core.node_parser import ( SemanticDoubleMergingSplitterNodeParser, LanguageConfig, ) # 配置语言设置 config LanguageConfig(languageenglish, spacy_modelen_core_web_md) # 创建分块器 splitter SemanticDoubleMergingSplitterNodeParser( language_configconfig, initial_threshold0.4, # 初始阈值 appending_threshold0.5, # 附加阈值 merging_threshold0.5, # 合并阈值 max_chunk_size5000, # 最大块大小 )4.3 分块处理使用语义双重合并分块器处理文档# 获取分块结果 nodes splitter.get_nodes_from_documents(documents)5. 案例效果5.1 分块效果展示语义双重合并分块器生成的文本块具有以下特点第一个示例块包含了作者从大学前到大学期间的编程经历从IBM 1401到微计算机再到学习AI和Lisp的完整历程。这些内容在语义上是高度相关的被合并到一个块中。第二个示例块包含了作者搬到纽约后的生活经历包括住房情况、经济状况以及与艺术家的交往。这些内容围绕纽约艺术家生活这一主题形成了语义连贯的块。5.2 参数调优效果通过调整不同的阈值参数可以控制分块的粒度和语义连贯性initial_threshold控制初始分块的相似度阈值较低的值会产生更多初始块。appending_threshold控制将句子附加到现有块的阈值。merging_threshold控制合并相邻块的阈值。max_chunk_size限制块的最大大小防止产生过大的块。6. 案例实现思路6.1 语义双重合并分块原理语义双重合并分块的核心思想是初始分块使用初始阈值(initial_threshold)将文本分割成初步的语义块。句子附加根据附加阈值(appending_threshold)决定是否将后续句子附加到现有块。块合并根据合并阈值(merging_threshold)决定是否合并相邻的语义块。大小限制确保每个块不超过最大块大小(max_chunk_size)。6.2 spaCy模型的作用spaCy模型在语义双重合并分块中扮演关键角色句子分割使用spaCy的句子分割器将文本分解为句子。语义相似度计算使用spaCy的词向量计算句子之间的语义相似度。语言特性处理利用spaCy的语言特定功能处理英语文本的特性。7. 扩展建议7.1 多语言支持当前实现主要针对英语可以扩展支持其他语言# 中文示例 config LanguageConfig(languagechinese, spacy_modelzh_core_web_md) # 其他语言示例 config LanguageConfig(languagegerman, spacy_modelde_core_news_md)7.2 自定义阈值策略可以根据文本类型和内容动态调整阈值而不是使用固定值# 根据文本长度调整阈值 text_length len(document.text) if text_length 10000: initial_threshold 0.3 # 长文本使用更低的阈值 else: initial_threshold 0.5 # 短文本使用更高的阈值7.3 领域特定优化针对特定领域训练专门的spaCy模型提高领域内语义相似度的准确性# 使用领域特定的spaCy模型 config LanguageConfig(languageenglish, spacy_modelen_legal_core_web_md)7.4 与其他分块方法结合可以将语义双重合并分块与其他分块方法结合形成混合策略# 先使用语义双重合并分块再对过大的块使用固定大小分块 semantic_nodes semantic_splitter.get_nodes_from_documents(documents) final_nodes [] for node in semantic_nodes: if len(node.text) max_size: sub_nodes fixed_splitter.get_nodes_from_documents([node]) final_nodes.extend(sub_nodes) else: final_nodes.append(node)7.5 性能优化对于大规模文档可以考虑以下优化策略并行处理对文档的不同部分并行进行分块处理。缓存机制缓存计算过的句子向量避免重复计算。增量处理对于动态更新的文档只处理新增部分。8. 总结语义双重合并分块是一种高级的文本分割方法它通过双重合并过程创建语义连贯的文本块。与简单的语义分块相比它能够更好地处理复杂的文本结构生成更高质量的文本块。本案例展示了如何使用LlamaIndex中的SemanticDoubleMergingSplitterNodeParser实现语义双重合并分块并通过调整不同的阈值参数来优化分块效果。通过spaCy模型的支持该方法能够准确计算句子之间的语义相似度从而实现智能的文本分割。语义双重合并分块特别适用于处理具有复杂结构和多主题的文档如学术论文、技术文档和长篇文章。它能够有效地保持文本的语义连贯性提高检索和问答系统的性能。需要注意的是不同的spaCy模型和参数值可能在特定文本上表现不同。对于主题明显变化的文本应使用较低的阈值以便更容易检测这些变化相反对于主题非常统一的文本应使用较高的阈值以帮助将文本分割成更多的块。

相关文章:

【RAG】【Data-Processor】【node_parsers03】语义双重合并分块(Semantic Double Merging Chunking)案例分析

本案例展示了如何使用LlamaIndex中的语义双重合并分块器(SemanticDoubleMergingSplitterNodeParser)来智能地分割文本,这是一种更高级的语义分块方法,通过双重合并过程来创建语义连贯的文本块。1. 案例目标本案例的主要目标是:演示语义双重合…...

深入浅出计算机网络基石:详解 OSI 模型、TCP/IP 模型及数据通信全过程

前言大家好,这里是程序员阿亮,今天也是在公司里面当起黑奴了,实习生,大小周,不包饭,吃公司饭还要收钱。。。但是博客还是要写滴今天来给大家讲解一下OSI七层模型和TCP/IP模型这是计算机网络中的基础架构&am…...

【“小白致命坑”】[特殊字符] 备战蓝桥杯C++:别再写嵌套循环了!一招掌握 STL 结构体多级排序

【“小白致命坑”】🚀 备战蓝桥杯C:别再写嵌套循环了!一招掌握 STL 结构体多级排序 在备战蓝桥杯的过程中,我们经常会遇到一类非常经典的排序题(比如历年真题中的“奖学金”问题): “先按总分从…...

C语言_指针函数double字面量运算符

1、/除法运算符 //printf( 1/3); 输出是0, 无打印 printf( 4/3); 报错 printf(“%d\n”, 4/3); 正常,输出1 确保printf的第一个参数是一个字符串字面量,即直接用双引号括起来的字符串。 2、指针: 地址运算符& 和间接运算符 * &nur…...

免费开源毕设:基于YOLO的道路缺陷检测系统

🛣️ 基于 YOLO 的道路缺陷检测系统 (Road Defect Detection System) 本项目是一个功能完整的道路缺陷(如路面坑洼 Pothole)智能检测系统。基于最新的 Ultralytics YOLO 系列模型构建,并提供了一个美观、易用的 Streamlit Web 交…...

Java必背45道

一、Java基础8道 1. 和 equals() 的区别是什么? 在java中 和 equals()主要的区别在于比较的内容不同。是一个运算符,对于基本数据类型来说,比较的是数值本身,比如比较两个int 数值是否相同;对于引用数据类型&#xf…...

Phi-3-vision-128k-instruct惊艳案例:宠物照片→品种识别+健康风险+喂养建议

Phi-3-vision-128k-instruct惊艳案例:宠物照片→品种识别健康风险喂养建议 1. 模型简介 Phi-3-Vision-128K-Instruct 是一款轻量级的多模态模型,专注于高质量的文本和视觉数据处理。作为 Phi-3 模型家族的一员,它支持长达128K的上下文长度&…...

【Docker 27集群调度优化终极指南】:20年SRE亲测的7大反模式与5个生产级调优阈值

第一章:Docker 27集群调度优化的认知跃迁Docker 27(即 Docker Engine v27.x)引入了调度器内核级重构与资源感知型调度策略,标志着从静态标签匹配向动态拓扑感知的范式转变。传统基于 docker service create --constraint 的硬性约…...

DeOldify图像上色服务MySQL数据管理实战:任务记录与结果存储

DeOldify图像上色服务MySQL数据管理实战:任务记录与结果存储 老照片修复和上色,听起来是个挺有情怀的事儿,但如果你是一家需要处理成千上万张历史照片的机构,比如档案馆、博物馆或者影视制作公司,这事儿立马就从“情怀…...

Alpamayo-R1-10B WebUI深度使用:调整Samples=3生成多候选轨迹并评估置信度排序

Alpamayo-R1-10B WebUI深度使用:调整Samples3生成多候选轨迹并评估置信度排序 1. 项目概述 Alpamayo-R1-10B是专为自动驾驶研发设计的开源视觉-语言-动作(VLA)模型,其核心能力在于通过类人因果推理生成车辆行驶轨迹。该模型基于100亿参数架构&#xff…...

StructBERT情感分类模型在科技产品评测分析中的实践

StructBERT情感分类模型在科技产品评测分析中的实践 1. 引言 科技产品评测和用户反馈中蕴含着大量有价值的情感信息,但人工分析海量文本既耗时又容易主观偏差。最近我们在实际项目中尝试了StructBERT情感分类模型,用它来自动分析科技产品的用户评价&am…...

无需编程基础!cv_resnet18_ocr-detection图形化界面操作全解析

无需编程基础!cv_resnet18_ocr-detection图形化界面操作全解析 1. 引言:OCR文字检测的零门槛解决方案 在日常工作和生活中,我们经常需要从图片中提取文字信息——可能是扫描的合同文档、产品包装上的说明文字,或是手机拍摄的会议…...

基于Git-RSCLIP的新闻图片自动标注系统

基于Git-RSCLIP的新闻图片自动标注系统 1. 引言 每天新闻编辑室都要处理成千上万的图片,每张图片都需要准确标注才能进入发布流程。传统的人工标注方式不仅耗时耗力,还容易出现标注不一致的问题。想象一下,一位编辑需要为几百张新闻图片逐一…...

lingbot-depth-pretrain-vitl-14开源可部署优势:无需GPU驱动重装,兼容主流云平台

lingbot-depth-pretrain-vitl-14开源可部署优势:无需GPU驱动重装,兼容主流云平台 想快速体验一个强大的深度估计模型,但被复杂的GPU环境配置、驱动版本冲突搞得头大?如果你也有过这种烦恼,那么今天介绍的lingbot-dept…...

RexUniNLU Docker镜像详解:3.11-slim基础镜像+加速推理配置,适配国产算力平台

RexUniNLU Docker镜像详解:3.11-slim基础镜像加速推理配置,适配国产算力平台 1. 镜像概览与核心价值 RexUniNLU是一个基于DeBERTa-v2架构的零样本通用自然语言理解模型,专门针对中文信息抽取任务进行了优化。这个Docker镜像将完整的推理环境…...

MedGemma-X开箱即用体验:预装环境,零配置快速体验智能诊断

MedGemma-X开箱即用体验:预装环境,零配置快速体验智能诊断 1. 为什么选择MedGemma-X进行智能影像诊断 在医疗影像诊断领域,传统CAD系统往往存在两个痛点:一是只能提供简单的二分类结果(阳性/阴性)&#x…...

Phi-3-vision-128k-instruct一文详解:Phi-3多模态家族中128K上下文的技术突破点

Phi-3-vision-128k-instruct一文详解:Phi-3多模态家族中128K上下文的技术突破点 1. 模型简介与技术亮点 Phi-3-Vision-128K-Instruct是微软Phi-3模型家族中的多模态成员,代表了当前轻量级开放模型的最先进水平。这个模型最引人注目的特点是支持128K的超…...

同态加密性能优化指南:如何让Go实现的Paillier算法快10倍

Go实现的Paillier同态加密性能优化实战:从理论到10倍加速 在金融科技、医疗数据共享和隐私计算领域,同态加密技术正成为解决数据"可用不可见"难题的关键方案。作为加法同态加密的经典实现,Paillier算法因其数学简洁性和实用价值&am…...

AD画板不想手绘封装?立创EDA封装库一键迁移保姆教程(含3D预览技巧)

AD画板不想手绘封装?立创EDA封装库一键迁移保姆教程(含3D预览技巧) 在PCB设计领域,Altium Designer(AD)用户经常面临一个棘手问题:官方库中找不到所需元器件的封装。传统解决方案是手动绘制封装…...

Qwen3-14b_int4_awq效果对比:在C-Eval、CMMLU等中文基准测试中的表现

Qwen3-14b_int4_awq效果对比:在C-Eval、CMMLU等中文基准测试中的表现 1. 模型简介 Qwen3-14b_int4_awq是基于Qwen3-14b模型的int4量化版本,采用AngelSlim技术进行压缩优化,专门针对文本生成任务进行了性能调优。该模型通过先进的量化技术&a…...

Java性能调优实战:为什么System.nanoTime()比currentTimeMillis()更适合高精度计时?

Java高精度计时实战:为何nanoTime()是性能调优的首选? 在游戏开发、算法性能测试等对时间精度要求极高的场景中,Java开发者常常面临一个关键选择:System.currentTimeMillis()还是System.nanoTime()?这个看似简单的选择…...

Proteus 8.0安装避坑指南:从下载到破解的完整流程(附百度网盘资源)

Proteus 8.0 高效安装与配置实战手册 在电子设计与仿真领域,Proteus 8.0 作为一款功能强大的EDA工具,其安装过程往往成为新手面临的第一个挑战。不同于普通软件的"下一步"式安装,Proteus 8.0 的部署涉及多个技术环节,从…...

ROS机器人导航优化:yocs_smoother_velocity平滑算法实战解析

1. 为什么你的机器人总是"抖抖病"? 每次看到机器人移动时那种卡顿、抖动的样子,就像看一个刚学会走路的小孩,心里总忍不住想:这货是不是该送去维修了?其实大多数情况下,问题并不出在硬件上。我在…...

逆向解析App中的Protobuf协议:从抓包到proto文件还原

1. 认识Protobuf协议逆向分析 第一次接触Protobuf协议逆向时,我和大多数人一样感到无从下手。这种高效的二进制传输协议在移动App中越来越常见,但抓包工具里看到的往往是一堆难以理解的二进制数据。经过多次实战,我发现逆向解析Protobuf协议其…...

差分隐私联邦学习:从理论基石到前沿突破

1. 差分隐私联邦学习的基础理论 差分隐私联邦学习是近年来隐私计算领域最受关注的技术方向之一。简单来说,它就像是一群医生在讨论病例时,既想分享医疗经验,又不想泄露具体病人的隐私信息。这种技术结合了差分隐私的数学严谨性和联邦学习的分…...

Cesium实战:地形贴合技术与Entity高级应用指南

1. 地形贴合技术基础与核心参数 在三维地理场景开发中,让各种实体完美贴合地形表面是个常见需求。想象一下,如果你要在数字地球上标注一座山峰的位置,肯定不希望这个标注点飘在空中,而是希望它稳稳地"站"在山顶上。这就…...

长尾关键词在推动SEO优化效果中的策略应用与实践探索

本文将探讨长尾关键词在SEO优化中的应用,强调其选择与使用方法。本段落将概述长尾关键词的定义及其在提升搜索引擎排名和网站流量方面的重要性,为后续深入讨论奠定基础。长尾关键词是较低竞争度但能精准满足用户意图的关键词,这使得它们在网站…...

【笔试真题】- 顺丰-2026.03.15

📌 点击直达笔试专栏 👉《大厂笔试突围》 💻 春秋招笔试突围在线OJ 👉 笔试突围在线刷题 bishipass.com 顺丰-2026.03.15 1. 等距货架 问题描述 LYA 正在整理一排长度为 n n n 的货架,第 i i...

CentOS 7下快速部署Easy Connect的完整指南

1. 环境准备:为什么需要桌面和依赖? 很多朋友第一次在CentOS 7上装Easy Connect时,可能会直接去下载那个rpm包,然后rpm -ivh命令一敲,结果发现要么装不上,要么装上了打不开。我刚开始也踩过这个坑&#xff…...

从模块开发到实时处理:解锁FreeSWITCH语音流的核心路径

1. FreeSWITCH语音流处理的核心逻辑 第一次接触FreeSWITCH语音流处理时,我被它强大的灵活性震撼到了。这个开源的软交换平台就像个乐高积木,允许开发者通过模块化方式扩展功能。在实际项目中,我们经常需要获取实时语音流进行ASR识别或质检分析…...