RAG - 五大文档切分策略深度解析
文章目录
- 切分策略
- 1. 固定大小分割(Fixed-Size Chunking)
- 2. 滑动窗口分割(Sliding Window Chunking)
- 3. 自然语言单元分割(Sentence/Paragraph Segmentation)
- 4. 语义感知分割(Semantic-Aware Segmentation)
- 5. 结构化分割(Hierarchical/Structural Segmentation)
- 应用场景举例
- 一、固定大小切分:舆情监控的基石策略
- 二、语义切分:医疗知识库的救星
- 三、结构感知切分:法律合同解析的黄金标准
- 四、LLM智能切分:科研论文处理的新范式
- 五、混合策略:电商场景的终极解决方案
- 企业级选型指南
- 演进路线建议
- 选择策略的建议
在RAG(检索增强生成)系统中,文本切分策略对检索效果和生成质量至关重要。我们来看下RAG五大核心切分策略及其特点
切分策略
1. 固定大小分割(Fixed-Size Chunking)
-
方法:将文本按预设的固定长度(如字符数、词数或Token数)均匀分割。
-
优点:实现简单,计算效率高,适合处理大批量文本。
-
缺点:可能截断语义完整的句子或段落,导致上下文丢失。
-
应用场景:通用文档处理,对速度要求高于语义完整性的场景。
2. 滑动窗口分割(Sliding Window Chunking)
- 方法:允许相邻块之间部分重叠(如后一块包含前一块末尾的若干句子),减少信息断裂。
- 优点:缓解上下文不连贯问题,提升检索相关性。
- 缺点:增加计算和存储开销,可能引入冗余信息。
- 应用场景:长文本处理(如科研论文、技术文档),需保留连续上下文的场景。
3. 自然语言单元分割(Sentence/Paragraph Segmentation)
- 方法:基于自然语言结构(如句子、段落或章节)切分文本,依赖标点符号或换行符。
- 优点:保持语义完整性,符合人类阅读习惯。
- 缺点:对格式不规范或结构松散的文本效果较差。
- 应用场景:结构清晰的文本(如新闻文章、书籍章节)。
4. 语义感知分割(Semantic-Aware Segmentation)
- 方法:利用嵌入模型(如BERT、Sentence-BERT)计算句子相似度,在语义变化处切分。
- 优点:动态识别语义边界,适应复杂文本。
- 缺点:计算成本高,依赖模型性能。
- 应用场景:多主题混合或领域专业性强的内容(如法律合同、医学报告)。
5. 结构化分割(Hierarchical/Structural Segmentation)
- 方法:依据文档结构(如标题、列表、表格)切分,结合元数据(如Markdown标题层级)。
- 优点:保留逻辑结构,增强检索的精准性。
- 缺点:依赖文档格式标准化,需预处理解析工具。
- 应用场景:格式规范的文档(如API文档、技术手册)。
应用场景举例
一、固定大小切分:舆情监控的基石策略
技术实现:以512个token为基本单元,设置15%重叠区域的滑动窗口
典型案例:
- 今日头条舆情系统采用动态分块算法,对突发新闻进行实时处理。通过设置"紧急事件防护栏",当检测到关键词(如"地震"、“疫情”)时自动切换至256token细粒度切分,使灾害预警响应速度提升60%
- Stack Overflow论坛分析平台采用Markdown代码块保护机制,确保
python\nprint("Hello")\n等代码片段不被截断,技术问答匹配准确率提升至89%
优化技巧:
- 使用SentencePiece分词器预判token边界
- 对数学公式等特殊内容启用LaTeX语法感知
- 通过正则表达式自动修复被截断的医学术语(如"冠状动脉[被截断]“→"冠状动脉粥样硬化”)
二、语义切分:医疗知识库的救星
技术实现:基于Sentence-BERT计算相邻段落相似度,阈值设为0.25
突破性案例:
- 平安好医生AI问诊系统在解析《内科学手册》时,通过动态合并相关段落,完整保留"临床表现→实验室检查→鉴别诊断"的医学逻辑链。测试显示,在胸痛鉴别诊断场景中,生成建议的临床符合率从58%提升至94%
- 中国法律智能库采用语义分块+法律实体识别,在处理《民法典》第1260条时,精准保持"不可抗力"条款的完整性,相关案例检索F1值达91.2%
算法创新:
def semantic_split(text):chunks = []buffer = []for para in text.split("\n"):if buffer and cosine_sim(embed(buffer[-1]), embed(para)) < 0.25:chunks.append("\n".join(buffer))buffer = [para]else:buffer.append(para)return chunks
三、结构感知切分:法律合同解析的黄金标准
技术实现:基于XPath解析PDF目录树,结合递归切分
标杆案例:
- 金杜律师事务所的"合同审查AI"系统,在解析并购协议时:
- 按"鉴于条款→交割条件→赔偿条款"划分章节
- 对超过2000字的"陈述与保证"条款进行二次切分
使关键条款召回率从67%飙升至98%,人工复核时间减少73%
- 广联达BIM设计文档处理平台,通过识别"建筑→结构→机电"专业标签,实现技术规范精准检索,图纸修改建议采纳率提升41%
四、LLM智能切分:科研论文处理的新范式
技术实现:使用GPT-4生成分块指令,成本降低方案:
请将以下论文按【研究背景、方法创新、实验结果、局限讨论】四部分切分,用XML标签包裹。若某部分超过500字,添加<subchunk>子块。
创新应用:
- 中国知网推出的"ResearchDigest"系统,在解析Nature论文时:
- 自动提取Figure 3对应的实验描述
- 将"方法"部分拆分为"材料制备→表征测试→模拟计算"
使跨论文综述生成效率提升3倍,被国家自然科学基金委采用
- 药明康德药物研发平台,通过切分"化合物结构→活性数据→毒性分析",使分子相似性检索准确率突破92%
五、混合策略:电商场景的终极解决方案
技术架构:
- 粗切分:按1000字符分割商品描述
- 精处理:Qwen-72B提取"材质成分→适用场景→保养说明"
- 知识融合:Neo4j链接商品参数与用户评论
阿里云实战数据:
- 家电类目检索响应时间从2.1s降至0.7s
- "羽绒服含绒量"等关键属性召回率达96%
- 通过关联"用户问:洗衣机噪音大"与"评论:脱水时震动明显",生成建议采纳率提升65%
企业级选型指南
典型组合方案:
- 金融研报解析:结构切分(章节)→LLM切分(财报表格)→语义合并
- 社交舆情分析:固定切分(实时流)→语义聚类(话题演化)
- 设备手册处理:OCR分栏→结构切分(故障代码)→Q&A对提取
演进路线建议
- 初创验证期:采用固定切分+重叠窗口,快速验证核心场景(1-2周)
- 垂直深耕期:引入语义切分+领域词典,提升专业场景准确率(如法律术语库)
- 平台化阶段:构建多路召回架构,支持结构/语义/LLM切分的动态路由
哈啰出行实践启示:在智能客服升级中,通过混合策略使骑行保险条款解析准确率从40%提升至83%,关键在於建立分块质量评估体系:
- 人工标注500组问答对作为测试集
- 定义【信息完整性】【边界合理性】等评估维度
- 采用SWARMS优化分块参数组合
选择策略的建议
| 文档类型 | 推荐策略 | 典型场景 |
|---|---|---|
| 非结构化文本 | 语义切分 + 滑动窗口 | 社交媒体分析 |
| 专业领域文档 | 结构感知 + 递归切分 | 法律条款检索 |
| 多模态内容 | LLM切分 + 模式特定分块 | 研报图表解析 |
| 实时性要求高 | 固定切分 + 动态防护栏 | 舆情监控系统 |
- 平衡效率与质量:固定大小或滑动窗口适合快速处理,语义分割适合高精度需求。
- 结合混合策略:例如先按结构分大块,再对每块进行语义分割。
- 动态调整:根据下游任务反馈优化切分参数(如块大小、重叠比例)。
文档切分是RAG系统的"地基工程",需要根据数据特征、业务场景、计算预算进行动态调整。建议企业建立分块策略矩阵,持续通过A/B测试优化方案,真正释放大模型的知识处理潜能。通过灵活应用这些策略,可显著提升RAG系统的检索效果和生成内容的准确性。

相关文章:
RAG - 五大文档切分策略深度解析
文章目录 切分策略1. 固定大小分割(Fixed-Size Chunking)2. 滑动窗口分割(Sliding Window Chunking)3. 自然语言单元分割(Sentence/Paragraph Segmentation)4. 语义感知分割(Semantic-Aware Seg…...
keil中文注释出现乱码怎么解决
keil中文注释出现乱码怎么解决 在keil–edit–configuration中encoding改为chinese-GB2312...
论文阅读笔记——ReconDreamer
ReconDreamer 论文 在 DriveDreamer4D 的基础上,通过渐进式数据更新,解决大范围机动(多车道连续变道、紧急避障)的问题。同时 DriveDreamer4D生成轨迹后直接渲染,而 ReconDreamer 会实时通过 DriveRestorer 检测渲染结…...
鸿蒙harmonyOS:笔记 正则表达式
从给出的文本中,按照既定的相关规则,匹配出符合的数据,其中的规则就是正则表达式,使用正则表达式,可以使得我们用简洁的代码就能实现一定复杂的逻辑,比如判断一个邮箱账号是否符合正常的邮箱账号࿰…...
计算机网络——传输层(TCP)
传输层 在计算机网络中,传输层是将数据向上向下传输的一个重要的层面,其中传输层中有两个协议,TCP,UDP 这两个协议。 TCP 话不多说,我们直接来看协议报头。 源/目的端口号:表示数据从哪个进程来࿰…...
英伟达与通用汽车深化合作,澳特证券am broker助力科技投资
在近期的GTC大会上,英伟达CEO黄仁勋宣布英伟达将与通用汽车深化合作,共同推进AI技术在自动驾驶和智能工厂的应用。此次合作标志着自动驾驶汽车时代的加速到来,同时也展示了英伟达在AI技术领域的最新进展。 合作内容包括:…...
Visual Studio 2022静态库与动态库创建及使用完全指南
在C开发中,库(Library)是代码复用的重要方式。本教程将详细介绍如何在Visual Studio 2022中创建和使用静态库(.lib)和动态库(.dll),每种库类型都会有完整的创建步骤和实际示例。 第…...
C++中常见符合RAII思想的设计有哪些
文章目录 **一、标准库中的 RAII 类**1. **智能指针**2. **文件操作类**3. **锁管理类**4. **容器类**5. **线程管理** **二、自定义 RAII 类的常见场景**1. **数据库连接**2. **图形资源管理(如 OpenGL 纹理)**3. **网络套接字**4. **事务处理**5. **临…...
CUDA Memory Fence 函数的功能与硬件实现细节
CUDA Memory Fence 函数的功能与硬件实现细节 Memory Fence 的基本功能 CUDA中的memory fence函数用于控制内存操作的可见性顺序,确保在fence之前的内存操作对特定范围内的线程可见。主要功能包括: 排序内存操作:确保fence之前的内存操作在…...
CSS学习笔记5——渐变属性+盒子模型阶段案例
目录 通俗易懂的解释 渐变的类型 1、线性渐变 渐变过程 2、径向渐变 如何理解CSS的径向渐变,以及其渐变属性 通俗易懂的解释 渐变属性 1. 形状(Shape) 2. 大小(Size) 3. 颜色停靠点(Color Sto…...
[Java微服务架构]4_服务通信之客户端负载均衡
欢迎来到啾啾的博客🐱,一个致力于构建完善的Java程序员知识体系的博客📚,记录学习的点滴,分享工作的思考、实用的技巧,偶尔分享一些杂谈💬。 欢迎评论交流,感谢您的阅读😄…...
基于SpringBoot实现的高校实验室管理平台功能四
一、前言介绍: 1.1 项目摘要 随着信息技术的飞速发展,高校实验室的管理逐渐趋向于信息化、智能化。传统的实验室管理方式存在效率低下、资源浪费等问题,因此,利用现代技术手段对实验室进行高效管理显得尤为重要。 高校实验室作为…...
吴恩达深度学习复盘(1)神经网络与深度学习的发展
一、神经网络的起源与生物学动机 灵感来源 神经网络的最初动机源于对生物大脑的模仿。20 世纪 50 年代,科学家试图通过软件模拟神经元的工作机制(如树突接收信号、轴突传递信号),构建类似人类大脑的信息处理系统。 生物神经元的简…...
用Python实现资本资产定价模型(CAPM)
使用 Python 计算资本资产定价模型(CAPM)并获取贝塔系数(β)。 步骤 1:导入必要的库 import pandas as pd import yfinance as yf import statsmodels.api as sm import matplotlib.pyplot as plt 步骤 2࿱…...
Linux进程管理之子进程的创建(fork函数)、子进程与线程的区别、fork函数的简单使用例子、子进程的典型应用场景、父进程等待子进程结束后自己再结束
收尾 进程终止:子进程通过exit()或_exit()终止,父进程通过wait()或waitpid()等待子进程终止,并获取其退出状态。?其实可以考虑在另一篇博文中来写 fork函数讲解 fork函数概述 fork() 是 Linux 中用于创建新进程的系统调用。当…...
妙用《甄嬛传》中的选妃来记忆概率论中的乘法公式
强烈推荐最近在看的不错的B站概率论课程 《概率统计》正课,零废话,超精讲!【孔祥仁】 《概率统计》正课,零废话,超精讲!【孔祥仁】_哔哩哔哩_bilibili 其中概率论中的乘法公式,老师用了《甄嬛传…...
虚幻基础:UI
文章目录 控件蓝图可以装载其他控件蓝图可以安装其他蓝图接口 填充:相对于父组件填充水平框尺寸—填充—0.5:改变填充的尺寸填充—0.5:改变与父组件的距离 锚点:相对于父组件的控件坐标系原点,屏幕比例改变时ÿ…...
【MySQL篇】事务管理,事务的特性及深入理解隔离级别
目录 一,什么是事务 二,事务的版本支持 三,事务的提交方式 四,事务常见操作方式 五,隔离级别 1,理解隔离性 2,查看与设置隔离级别 3,读未提交(read uncommitted&a…...
项目实战-角色列表
抄上一次写过的代码: import React, { useState, useEffect } from "react"; import axios from axios; import { Button, Table, Modal } from antd; import { BarsOutlined, DeleteOutlined, ExclamationCircleOutlined } from ant-design/icons;const…...
fetch`的语法规则及常见用法
fetch() 是 JavaScript 用于发送 HTTP 请求的内置 API,功能强大,语法简洁。以下是 fetch 的语法规则及常见用法。 1. fetch 基本语法 fetch(url, options).then(response > response.json()) // 解析 JSON 响应体.then(data > console.log(data))…...
如何排查java程序的宕机和oom?如何解决宕机和oom?
排查oom 用jmap生成我们的堆空间的快照Heap Dump(堆转储文件),来分析我们的内存占用 用可视化工具,例如java中的jhat分析Heap Dump文件 ,它分析完会通过一个浏览器打开一个可视化页面展示分析结果 根据oom的类型来调…...
26_ajax
目录 了解 接口 前后端交互 一、安装服务器环境 nodejs ajax发起请求 渲染响应结果 get方式传递参数 post方式传递参数 封装ajax_上 封装ajax下 了解 清楚前后端交互就可以写一些后端代码了。小项目 现在写项目开发的时候都是前后端分离 之前都没有前端这个东西&a…...
代理模式(Proxy Pattern)实现与对比
代理模式(Proxy Pattern)实现与对比 1. 虚拟代理(Virtual Proxy) 定义:延迟加载对象,避免资源浪费。 适用场景:大文件或资源的加载(如图片、数据库连接)。 代码示例 /…...
MySQL - 数据库基础操作
SQL语句 结构化查询语言(Structured Query Language),在关系型数据库上执行数据操作、数据检索以及数据维护的标准语言。 分类 DDL 数据定义语言(Data Definition Language),定义对数据库对象(库、表、列、索引)的操作。 DML 数据操作语言(Data Manip…...
Spring Boot热部署插件
在实际开发中,我们修改某些代码或页面都需要重启应用后才能生效,如果每次都手动重启,会降低了开发效率;热部署是指当我们修改代码后,服务能自动重启加载新修改的内容,这样大大提高了我们开发的效率…...
pip install cryptacular卡住,卡在downloading阶段
笔者安装pip install cryptacular卡在downloading阶段,但不知道为何 Collecting cryptacularCreated temporary directory: /tmp/pip-unpack-qfbl8f08http://10.170.22.41:8082 "GET http://repo.huaweicloud.com/repository/pypi/packages/42/69/34d478310d6…...
AI大模型从0到1记录学习 day09
第 8 章 面向对象之类和对象 8.1 面向过程和面向对象 面向过程编程(Procedural Programming)和面向对象编程(OOP)是两种不同的编程范式,它们在软件开发中都有广泛的应用。 Python是一种混合型的语言,既支持…...
【FW】ADB指令分类速查清单
1. 设备管理 指令核心作用adb devices列出已连接设备adb reboot重启设备adb reboot bootloader进入Bootloader模式adb reboot recovery进入Recovery模式adb root获取Root权限(需设备支持)adb remount挂载系统分区为可读写 2. 应用管理 指令核心作用adb…...
Kafka中的消息是如何存储的?
大家好,我是锋哥。今天分享关于【Kafka中的消息是如何存储的?】面试题。希望对大家有帮助; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Kafka 中,消息是通过 日志(Log) 的方式进行存储的。…...
Altium Designer——同时更改多个元素的属性(名称、网络标签、字符串标识)
右键要更改的其中一个对象,选择查找相似… 进入到筛选界面,就是选择你要多选的对象的共同特点(名字、大小等等),我这里要更改的是网络标签,所以我选择Text设置为一样。 点击应用就是应用该筛选调节&#…...
