当前位置: 首页 > article >正文

RAG - 五大文档切分策略深度解析

文章目录

  • 切分策略
    • 1. 固定大小分割(Fixed-Size Chunking)
    • 2. 滑动窗口分割(Sliding Window Chunking)
    • 3. 自然语言单元分割(Sentence/Paragraph Segmentation)
    • 4. 语义感知分割(Semantic-Aware Segmentation)
    • 5. 结构化分割(Hierarchical/Structural Segmentation)
  • 应用场景举例
    • 一、固定大小切分:舆情监控的基石策略
    • 二、语义切分:医疗知识库的救星
    • 三、结构感知切分:法律合同解析的黄金标准
    • 四、LLM智能切分:科研论文处理的新范式
    • 五、混合策略:电商场景的终极解决方案
    • 企业级选型指南
    • 演进路线建议
  • 选择策略的建议

在这里插入图片描述

在RAG(检索增强生成)系统中,文本切分策略对检索效果和生成质量至关重要。我们来看下RAG五大核心切分策略及其特点


切分策略

1. 固定大小分割(Fixed-Size Chunking)

  • 方法:将文本按预设的固定长度(如字符数、词数或Token数)均匀分割。

  • 优点:实现简单,计算效率高,适合处理大批量文本。

  • 缺点:可能截断语义完整的句子或段落,导致上下文丢失。

  • 应用场景:通用文档处理,对速度要求高于语义完整性的场景。


2. 滑动窗口分割(Sliding Window Chunking)

  • 方法:允许相邻块之间部分重叠(如后一块包含前一块末尾的若干句子),减少信息断裂。
  • 优点:缓解上下文不连贯问题,提升检索相关性。
  • 缺点:增加计算和存储开销,可能引入冗余信息。
  • 应用场景:长文本处理(如科研论文、技术文档),需保留连续上下文的场景。

3. 自然语言单元分割(Sentence/Paragraph Segmentation)

  • 方法:基于自然语言结构(如句子、段落或章节)切分文本,依赖标点符号或换行符。
  • 优点:保持语义完整性,符合人类阅读习惯。
  • 缺点:对格式不规范或结构松散的文本效果较差。
  • 应用场景:结构清晰的文本(如新闻文章、书籍章节)。

4. 语义感知分割(Semantic-Aware Segmentation)

  • 方法:利用嵌入模型(如BERT、Sentence-BERT)计算句子相似度,在语义变化处切分。
  • 优点:动态识别语义边界,适应复杂文本。
  • 缺点:计算成本高,依赖模型性能。
  • 应用场景:多主题混合或领域专业性强的内容(如法律合同、医学报告)。

5. 结构化分割(Hierarchical/Structural Segmentation)

  • 方法:依据文档结构(如标题、列表、表格)切分,结合元数据(如Markdown标题层级)。
  • 优点:保留逻辑结构,增强检索的精准性。
  • 缺点:依赖文档格式标准化,需预处理解析工具。
  • 应用场景:格式规范的文档(如API文档、技术手册)。

应用场景举例


一、固定大小切分:舆情监控的基石策略

技术实现:以512个token为基本单元,设置15%重叠区域的滑动窗口
典型案例

  • 今日头条舆情系统采用动态分块算法,对突发新闻进行实时处理。通过设置"紧急事件防护栏",当检测到关键词(如"地震"、“疫情”)时自动切换至256token细粒度切分,使灾害预警响应速度提升60%
  • Stack Overflow论坛分析平台采用Markdown代码块保护机制,确保python\nprint("Hello")\n等代码片段不被截断,技术问答匹配准确率提升至89%

优化技巧

  1. 使用SentencePiece分词器预判token边界
  2. 对数学公式等特殊内容启用LaTeX语法感知
  3. 通过正则表达式自动修复被截断的医学术语(如"冠状动脉[被截断]“→"冠状动脉粥样硬化”)

二、语义切分:医疗知识库的救星

技术实现:基于Sentence-BERT计算相邻段落相似度,阈值设为0.25
突破性案例

  • 平安好医生AI问诊系统在解析《内科学手册》时,通过动态合并相关段落,完整保留"临床表现→实验室检查→鉴别诊断"的医学逻辑链。测试显示,在胸痛鉴别诊断场景中,生成建议的临床符合率从58%提升至94%
  • 中国法律智能库采用语义分块+法律实体识别,在处理《民法典》第1260条时,精准保持"不可抗力"条款的完整性,相关案例检索F1值达91.2%

算法创新

def semantic_split(text):chunks = []buffer = []for para in text.split("\n"):if buffer and cosine_sim(embed(buffer[-1]), embed(para)) < 0.25:chunks.append("\n".join(buffer))buffer = [para]else:buffer.append(para)return chunks

三、结构感知切分:法律合同解析的黄金标准

技术实现:基于XPath解析PDF目录树,结合递归切分
标杆案例

  • 金杜律师事务所的"合同审查AI"系统,在解析并购协议时:
    1. 按"鉴于条款→交割条件→赔偿条款"划分章节
    2. 对超过2000字的"陈述与保证"条款进行二次切分
      使关键条款召回率从67%飙升至98%,人工复核时间减少73%
  • 广联达BIM设计文档处理平台,通过识别"建筑→结构→机电"专业标签,实现技术规范精准检索,图纸修改建议采纳率提升41%

四、LLM智能切分:科研论文处理的新范式

技术实现:使用GPT-4生成分块指令,成本降低方案:

请将以下论文按【研究背景、方法创新、实验结果、局限讨论】四部分切分,用XML标签包裹。若某部分超过500字,添加<subchunk>子块。

创新应用

  • 中国知网推出的"ResearchDigest"系统,在解析Nature论文时:
    1. 自动提取Figure 3对应的实验描述
    2. 将"方法"部分拆分为"材料制备→表征测试→模拟计算"
      使跨论文综述生成效率提升3倍,被国家自然科学基金委采用
  • 药明康德药物研发平台,通过切分"化合物结构→活性数据→毒性分析",使分子相似性检索准确率突破92%

五、混合策略:电商场景的终极解决方案

技术架构

  1. 粗切分:按1000字符分割商品描述
  2. 精处理:Qwen-72B提取"材质成分→适用场景→保养说明"
  3. 知识融合:Neo4j链接商品参数与用户评论

阿里云实战数据

  • 家电类目检索响应时间从2.1s降至0.7s
  • "羽绒服含绒量"等关键属性召回率达96%
  • 通过关联"用户问:洗衣机噪音大"与"评论:脱水时震动明显",生成建议采纳率提升65%

企业级选型指南

典型组合方案

  1. 金融研报解析:结构切分(章节)→LLM切分(财报表格)→语义合并
  2. 社交舆情分析:固定切分(实时流)→语义聚类(话题演化)
  3. 设备手册处理:OCR分栏→结构切分(故障代码)→Q&A对提取

演进路线建议

  1. 初创验证期:采用固定切分+重叠窗口,快速验证核心场景(1-2周)
  2. 垂直深耕期:引入语义切分+领域词典,提升专业场景准确率(如法律术语库)
  3. 平台化阶段:构建多路召回架构,支持结构/语义/LLM切分的动态路由

哈啰出行实践启示:在智能客服升级中,通过混合策略使骑行保险条款解析准确率从40%提升至83%,关键在於建立分块质量评估体系:

  • 人工标注500组问答对作为测试集
  • 定义【信息完整性】【边界合理性】等评估维度
  • 采用SWARMS优化分块参数组合

选择策略的建议

文档类型推荐策略典型场景
非结构化文本语义切分 + 滑动窗口社交媒体分析
专业领域文档结构感知 + 递归切分法律条款检索
多模态内容LLM切分 + 模式特定分块研报图表解析
实时性要求高固定切分 + 动态防护栏舆情监控系统
  • 平衡效率与质量:固定大小或滑动窗口适合快速处理,语义分割适合高精度需求。
  • 结合混合策略:例如先按结构分大块,再对每块进行语义分割。
  • 动态调整:根据下游任务反馈优化切分参数(如块大小、重叠比例)。

文档切分是RAG系统的"地基工程",需要根据数据特征、业务场景、计算预算进行动态调整。建议企业建立分块策略矩阵,持续通过A/B测试优化方案,真正释放大模型的知识处理潜能。通过灵活应用这些策略,可显著提升RAG系统的检索效果和生成内容的准确性。

在这里插入图片描述

相关文章:

RAG - 五大文档切分策略深度解析

文章目录 切分策略1. 固定大小分割&#xff08;Fixed-Size Chunking&#xff09;2. 滑动窗口分割&#xff08;Sliding Window Chunking&#xff09;3. 自然语言单元分割&#xff08;Sentence/Paragraph Segmentation&#xff09;4. 语义感知分割&#xff08;Semantic-Aware Seg…...

keil中文注释出现乱码怎么解决

keil中文注释出现乱码怎么解决 在keil–edit–configuration中encoding改为chinese-GB2312...

论文阅读笔记——ReconDreamer

ReconDreamer 论文 在 DriveDreamer4D 的基础上&#xff0c;通过渐进式数据更新&#xff0c;解决大范围机动&#xff08;多车道连续变道、紧急避障&#xff09;的问题。同时 DriveDreamer4D生成轨迹后直接渲染&#xff0c;而 ReconDreamer 会实时通过 DriveRestorer 检测渲染结…...

鸿蒙harmonyOS:笔记 正则表达式

从给出的文本中&#xff0c;按照既定的相关规则&#xff0c;匹配出符合的数据&#xff0c;其中的规则就是正则表达式&#xff0c;使用正则表达式&#xff0c;可以使得我们用简洁的代码就能实现一定复杂的逻辑&#xff0c;比如判断一个邮箱账号是否符合正常的邮箱账号&#xff0…...

计算机网络——传输层(TCP)

传输层 在计算机网络中&#xff0c;传输层是将数据向上向下传输的一个重要的层面&#xff0c;其中传输层中有两个协议&#xff0c;TCP&#xff0c;UDP 这两个协议。 TCP 话不多说&#xff0c;我们直接来看协议报头。 源/目的端口号&#xff1a;表示数据从哪个进程来&#xff0…...

英伟达与通用汽车深化合作,澳特证券am broker助力科技投资

在近期的GTC大会上&#xff0c;英伟达CEO黄仁勋宣布英伟达将与通用汽车深化合作&#xff0c;共同推进AI技术在自动驾驶和智能工厂的应用。此次合作标志着自动驾驶汽车时代的加速到来&#xff0c;同时也展示了英伟达在AI技术领域的最新进展。      合作内容包括&#xff1a;…...

Visual Studio 2022静态库与动态库创建及使用完全指南

在C开发中&#xff0c;库&#xff08;Library&#xff09;是代码复用的重要方式。本教程将详细介绍如何在Visual Studio 2022中创建和使用静态库&#xff08;.lib&#xff09;和动态库&#xff08;.dll&#xff09;&#xff0c;每种库类型都会有完整的创建步骤和实际示例。 第…...

C++中常见符合RAII思想的设计有哪些

文章目录 **一、标准库中的 RAII 类**1. **智能指针**2. **文件操作类**3. **锁管理类**4. **容器类**5. **线程管理** **二、自定义 RAII 类的常见场景**1. **数据库连接**2. **图形资源管理&#xff08;如 OpenGL 纹理&#xff09;**3. **网络套接字**4. **事务处理**5. **临…...

CUDA Memory Fence 函数的功能与硬件实现细节

CUDA Memory Fence 函数的功能与硬件实现细节 Memory Fence 的基本功能 CUDA中的memory fence函数用于控制内存操作的可见性顺序&#xff0c;确保在fence之前的内存操作对特定范围内的线程可见。主要功能包括&#xff1a; 排序内存操作&#xff1a;确保fence之前的内存操作在…...

CSS学习笔记5——渐变属性+盒子模型阶段案例

目录 通俗易懂的解释 渐变的类型 1、线性渐变 渐变过程 2、径向渐变 如何理解CSS的径向渐变&#xff0c;以及其渐变属性 通俗易懂的解释 渐变属性 1. 形状&#xff08;Shape&#xff09; 2. 大小&#xff08;Size&#xff09; 3. 颜色停靠点&#xff08;Color Sto…...

[Java微服务架构]4_服务通信之客户端负载均衡

欢迎来到啾啾的博客&#x1f431;&#xff0c;一个致力于构建完善的Java程序员知识体系的博客&#x1f4da;&#xff0c;记录学习的点滴&#xff0c;分享工作的思考、实用的技巧&#xff0c;偶尔分享一些杂谈&#x1f4ac;。 欢迎评论交流&#xff0c;感谢您的阅读&#x1f604…...

基于SpringBoot实现的高校实验室管理平台功能四

一、前言介绍&#xff1a; 1.1 项目摘要 随着信息技术的飞速发展&#xff0c;高校实验室的管理逐渐趋向于信息化、智能化。传统的实验室管理方式存在效率低下、资源浪费等问题&#xff0c;因此&#xff0c;利用现代技术手段对实验室进行高效管理显得尤为重要。 高校实验室作为…...

吴恩达深度学习复盘(1)神经网络与深度学习的发展

一、神经网络的起源与生物学动机 灵感来源 神经网络的最初动机源于对生物大脑的模仿。20 世纪 50 年代&#xff0c;科学家试图通过软件模拟神经元的工作机制&#xff08;如树突接收信号、轴突传递信号&#xff09;&#xff0c;构建类似人类大脑的信息处理系统。 生物神经元的简…...

用Python实现资本资产定价模型(CAPM)

使用 Python 计算资本资产定价模型&#xff08;CAPM&#xff09;并获取贝塔系数&#xff08;β&#xff09;。 步骤 1&#xff1a;导入必要的库 import pandas as pd import yfinance as yf import statsmodels.api as sm import matplotlib.pyplot as plt 步骤 2&#xff1…...

Linux进程管理之子进程的创建(fork函数)、子进程与线程的区别、fork函数的简单使用例子、子进程的典型应用场景、父进程等待子进程结束后自己再结束

收尾 进程终止&#xff1a;子进程通过exit()或_exit()终止&#xff0c;父进程通过wait()或waitpid()等待子进程终止&#xff0c;并获取其退出状态。&#xff1f;其实可以考虑在另一篇博文中来写 fork函数讲解 fork函数概述 fork() 是 Linux 中用于创建新进程的系统调用。当…...

妙用《甄嬛传》中的选妃来记忆概率论中的乘法公式

强烈推荐最近在看的不错的B站概率论课程 《概率统计》正课&#xff0c;零废话&#xff0c;超精讲&#xff01;【孔祥仁】 《概率统计》正课&#xff0c;零废话&#xff0c;超精讲&#xff01;【孔祥仁】_哔哩哔哩_bilibili 其中概率论中的乘法公式&#xff0c;老师用了《甄嬛传…...

虚幻基础:UI

文章目录 控件蓝图可以装载其他控件蓝图可以安装其他蓝图接口 填充&#xff1a;相对于父组件填充水平框尺寸—填充—0.5&#xff1a;改变填充的尺寸填充—0.5&#xff1a;改变与父组件的距离 锚点&#xff1a;相对于父组件的控件坐标系原点&#xff0c;屏幕比例改变时&#xff…...

【MySQL篇】事务管理,事务的特性及深入理解隔离级别

目录 一&#xff0c;什么是事务 二&#xff0c;事务的版本支持 三&#xff0c;事务的提交方式 四&#xff0c;事务常见操作方式 五&#xff0c;隔离级别 1&#xff0c;理解隔离性 2&#xff0c;查看与设置隔离级别 3&#xff0c;读未提交&#xff08;read uncommitted&a…...

项目实战-角色列表

抄上一次写过的代码&#xff1a; import React, { useState, useEffect } from "react"; import axios from axios; import { Button, Table, Modal } from antd; import { BarsOutlined, DeleteOutlined, ExclamationCircleOutlined } from ant-design/icons;const…...

fetch`的语法规则及常见用法

fetch() 是 JavaScript 用于发送 HTTP 请求的内置 API&#xff0c;功能强大&#xff0c;语法简洁。以下是 fetch 的语法规则及常见用法。 1. fetch 基本语法 fetch(url, options).then(response > response.json()) // 解析 JSON 响应体.then(data > console.log(data))…...

如何排查java程序的宕机和oom?如何解决宕机和oom?

排查oom 用jmap生成我们的堆空间的快照Heap Dump&#xff08;堆转储文件&#xff09;&#xff0c;来分析我们的内存占用 用可视化工具&#xff0c;例如java中的jhat分析Heap Dump文件 &#xff0c;它分析完会通过一个浏览器打开一个可视化页面展示分析结果 根据oom的类型来调…...

26_ajax

目录 了解 接口 前后端交互 一、安装服务器环境 nodejs ajax发起请求 渲染响应结果 get方式传递参数 post方式传递参数 封装ajax_上 封装ajax下 了解 清楚前后端交互就可以写一些后端代码了。小项目 现在写项目开发的时候都是前后端分离 之前都没有前端这个东西&a…...

代理模式(Proxy Pattern)实现与对比

代理模式&#xff08;Proxy Pattern&#xff09;实现与对比 1. 虚拟代理&#xff08;Virtual Proxy&#xff09; 定义&#xff1a;延迟加载对象&#xff0c;避免资源浪费。 适用场景&#xff1a;大文件或资源的加载&#xff08;如图片、数据库连接&#xff09;。 代码示例 /…...

MySQL - 数据库基础操作

SQL语句 结构化查询语言(Structured Query Language)&#xff0c;在关系型数据库上执行数据操作、数据检索以及数据维护的标准语言。 分类 DDL 数据定义语言(Data Definition Language)&#xff0c;定义对数据库对象(库、表、列、索引)的操作。 DML 数据操作语言(Data Manip…...

​​​​​​Spring Boot热部署插件

在实际开发中&#xff0c;我们修改某些代码或页面都需要重启应用后才能生效&#xff0c;如果每次都手动重启&#xff0c;会降低了开发效率&#xff1b;热部署是指当我们修改代码后&#xff0c;服务能自动重启加载新修改的内容&#xff0c;这样大大提高了我们开发的效率&#xf…...

pip install cryptacular卡住,卡在downloading阶段

笔者安装pip install cryptacular卡在downloading阶段&#xff0c;但不知道为何 Collecting cryptacularCreated temporary directory: /tmp/pip-unpack-qfbl8f08http://10.170.22.41:8082 "GET http://repo.huaweicloud.com/repository/pypi/packages/42/69/34d478310d6…...

AI大模型从0到1记录学习 day09

第 8 章 面向对象之类和对象 8.1 面向过程和面向对象 面向过程编程&#xff08;Procedural Programming&#xff09;和面向对象编程&#xff08;OOP&#xff09;是两种不同的编程范式&#xff0c;它们在软件开发中都有广泛的应用。 Python是一种混合型的语言&#xff0c;既支持…...

【FW】ADB指令分类速查清单

1. 设备管理 指令核心作用adb devices列出已连接设备adb reboot重启设备adb reboot bootloader进入Bootloader模式adb reboot recovery进入Recovery模式adb root获取Root权限&#xff08;需设备支持&#xff09;adb remount挂载系统分区为可读写 2. 应用管理 指令核心作用adb…...

Kafka中的消息是如何存储的?

大家好&#xff0c;我是锋哥。今天分享关于【Kafka中的消息是如何存储的&#xff1f;】面试题。希望对大家有帮助&#xff1b; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 Kafka 中&#xff0c;消息是通过 日志&#xff08;Log&#xff09; 的方式进行存储的。…...

Altium Designer——同时更改多个元素的属性(名称、网络标签、字符串标识)

右键要更改的其中一个对象&#xff0c;选择查找相似… 进入到筛选界面&#xff0c;就是选择你要多选的对象的共同特点&#xff08;名字、大小等等&#xff09;&#xff0c;我这里要更改的是网络标签&#xff0c;所以我选择Text设置为一样。 点击应用就是应用该筛选调节&#…...