当前位置: 首页 > article >正文

大模型---RAG中的数据处理

目录一.输入侧1.纯文本TXT/Markdown2.HTML/网页3.Word/PPT4.Email5.可选中文本PDF6.扫描PDF/扫描件/文档图片7.图片/图表/截图/流程图8.文档中的表格9.CSV/XLSX10.音频11.视频12.混合文档二.输出侧1.输出侧结构化最常见的四种实现方式2.常见的修正策略3.总体流程一.输入侧把原始文档转换成系统内部可用的结构化表示。RAG在chunk前,需要把原始文档转成干净、结构化、可切块的文本和元数据。元数据是指文本“来自哪里、属于什么、在什么位置”的信息,例如,文件名,文件类型,页码,章节标题等等,元数据很关键,它决定了后面能不能做来源追踪,过滤检索,章节限定,页码引用等等。那么具体怎么转?1.纯文本TXT/Markdown这类处理最简单,具体流程如下:直接读取文件内容--识别标题、段落、列表、代码块--补充元数据,比如文件名、路径、更新时间、语言--按标题层级或段落做结构化chunking--建立向量索引或者混合索引2.HTML/网页HTML/网页最大的问题不是“读不到”,而是噪声很多:导航栏、脚注、广告、模板区块、JS 注入内容。所以需要先用规则解析,通过预先定义的规则识别并移除那些不属于正文的“噪音”元素,比如导航栏、侧边栏、页脚、版权声明等等。具体流程如下:抓取HTML或页面正文--用 DOM/parser 抽出正文区域--做boilerplate removal,去掉导航、页脚、广告、模板块--保留标题层级、正文、列表、表格、图片的alt文本、链接文本补充URL、抓取时间、站点栏目等metadata--再按标题/段落做 chunking--建索引3.Word/PPT这类格式通常自带结构:标题、正文、列表、幻灯片页、备注区。Tika 能统一抽取 PPT、XLS、PDF 等大量格式的文本和 metadata;Unstructured也支持 doc/docx/ppt/pptx/epub。Tika是一个开源分析工具包,能够从各种不同格式的文件中提取干净文本和元数据。Unstructured是一个专为大型语言模型(LLM)和检索增强生成(RAG)系统设计的开源数据处理工具。其能够将杂乱无章的原始文档,高效地转化为AI能够精准理解和检索的“AI就绪”(AI-Ready)数据。具体流程如下:用parser读取文档--抽取标题、段落、列表、页/幻灯片边界、备注--对嵌入图片和表格分流给图片/表格子管线(子管线是相对于主管线(Main Pipeline)而言的,指在一个大的数据处理流程中,专门用于处理某一种特定类型数据或任务的独立处理分支)--补充文件名、页号、幻灯片号、章节等metadata--统一成元素级JSON--结构化 chunking--建索引4.Email对于邮件,Tika和Unstructured也能处理:Unstructured支持解析 .eml 和 .msg 格式,能够把邮件中的主题、发件人、时间、正文、附件等结构化地提取出来。Tika 同样擅长统一抽取不同文件类型的文本和元数据(包括邮件),不管什么格式,都能输出一致的文本 + 元数据。具体流程如下:解析邮件头:From、To、Cc、Subject、Date--提取正文--识别quoted history,把历史回复链和当前正文区分开--附件递归进入文档处理流水线--线程去重,确保同一封邮件,即使它出现在不同文件夹、不同时间点的导入批次中,只被存储一次,防止数据库中产生重复记录--以“主题+当前正文+关键 metadata”建索引5.可选中文本PDF对于可选中文本PDF,也就是由办公软件、排版软件等直接生成的数字 PDF,里面的文字是可选中的,而不是扫描图片,最常用的处理方式是直接用文本抽取工具,不需要OCR(光学字符识别,图像转文字),用OCR反而会额外引入错误和成本。具体流程如下:读取PDF--按页抽文本--尽可能保留标题、页码、段落边界--检测页面里的表格、图片区域,分别分流

相关文章:

大模型---RAG中的数据处理

目录 一.输入侧 1.纯文本TXT/Markdown 2.HTML/网页 3.Word/PPT 4.Email 5.可选中文本PDF 6.扫描PDF/扫描件/文档图片 7.图片/图表/截图/流程图 8.文档中的表格 9.CSV/XLSX 10.音频 11.视频 12.混合文档 二.输出侧 1.输出侧结构化最常见的四种实现方式 2.常见的…...

从零到一:在Vitis平台上构建ZYNQ PS-SPI Flash驱动

1. 环境准备与硬件连接 在开始构建ZYNQ PS-SPI Flash驱动之前,我们需要准备好开发环境和硬件平台。我推荐使用Xilinx官方提供的Vitis 2022.1版本,这个版本对ZYNQ系列的支持比较稳定。硬件方面,你需要一块带有SPI Flash的ZYNQ开发板&#xff0…...

告别复杂配置!OFA图像描述镜像实测:Supervisor自动管理,Web界面直接上手

告别复杂配置!OFA图像描述镜像实测:Supervisor自动管理,Web界面直接上手 1. 为什么选择这个镜像? 在AI模型部署的世界里,配置环境往往是最大的拦路虎。传统部署方式需要: 安装Python环境解决依赖冲突手动…...

nli-distilroberta-base实战案例:客服对话意图一致性校验系统构建

nli-distilroberta-base实战案例:客服对话意图一致性校验系统构建 1. 项目背景与价值 在客服对话场景中,经常出现前后回答不一致的问题。比如客户询问"产品是否支持7天无理由退货",客服先回答"支持",过一会…...

Windows 11下Intel Realsense D435i深度相机Python开发环境搭建与实战

1. 深度相机入门:认识你的Intel Realsense D435i 第一次接触深度相机时,我和很多人一样被它酷炫的3D感知能力吸引。Intel Realsense D435i作为消费级深度相机的代表,它的实际表现远超我的预期。这款设备看起来像个普通摄像头,但内…...

春联生成模型-中文-base应用案例:家庭布置、店铺营销、内容创作全搞定

春联生成模型-中文-base应用案例:家庭布置、店铺营销、内容创作全搞定 1. 春联生成模型能为你做什么? 春节贴春联是中国传统文化的重要组成部分,一副好的春联既要讲究对仗工整,又要蕴含美好寓意。但对于大多数人来说&#xff0c…...

终极指南:如何用Bloxstrap重新定义你的Roblox游戏启动体验

终极指南:如何用Bloxstrap重新定义你的Roblox游戏启动体验 【免费下载链接】bloxstrap An alternative bootstrapper for Roblox with a bunch of extra features. 项目地址: https://gitcode.com/GitHub_Trending/bl/bloxstrap Bloxstrap是一款功能强大的第…...

Flux.1-Dev深海幻境助力学术研究:为论文生成假设验证过程的可视化图表

Flux.1-Dev深海幻境助力学术研究:为论文生成假设验证过程的可视化图表 1. 引言 写论文最头疼的环节是什么?对很多理工科的研究者来说,可能不是实验,也不是数据分析,而是如何把脑子里那个复杂的理论模型或验证过程&am…...

3大核心功能:告别网盘下载限速的终极解决方案

3大核心功能:告别网盘下载限速的终极解决方案 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / 中国移动云盘 / 天翼云盘 / 迅…...

SmallThinker-3B-Preview多轮对话效果实测:技术方案讨论与迭代

SmallThinker-3B-Preview多轮对话效果实测:一次关于高并发秒杀系统的技术方案迭代 最近在测试一些轻量级的对话模型,想看看它们在处理复杂技术问题时的实际表现。我手头正好有一个叫SmallThinker-3B-Preview的模型,虽然参数规模不大&#xf…...

Arduino IDE 2.0终极指南:10个现代嵌入式开发的革命性功能

Arduino IDE 2.0终极指南:10个现代嵌入式开发的革命性功能 【免费下载链接】arduino-ide Arduino IDE 2.x 项目地址: https://gitcode.com/gh_mirrors/ar/arduino-ide Arduino IDE 2.0作为一款开源嵌入式开发环境,带来了众多革命性的功能&#xf…...

Qwen3-14B成本效益分析:RTX 4090D月租成本 vs A100 80G部署性价比对比

Qwen3-14B成本效益分析:RTX 4090D月租成本 vs A100 80G部署性价比对比 1. 引言:大模型私有部署的成本挑战 在人工智能技术快速发展的今天,企业面临一个关键决策:如何在有限的预算内实现大语言模型的高效部署。Qwen3-14B作为通义…...

GEO服务商验证标准,如何知道GEO生成式引擎服务商靠谱?

GEO服务商验证标准验证GEO服务商是否可靠,核心在于其能否将AI推荐结果转化为可直观查看、可自主验证的数据,无透明监测机制的优化服务均属于盲盒式优化。一、数据监测能力服务商需具备实时数据展示能力,无法提供实时数据的可直接排除。快速搜…...

SeqGPT-560M多任务学习框架解析

SeqGPT-560M多任务学习框架解析 1. 引言 你有没有遇到过这样的情况:需要从一段文字中找出人名地名,又要判断这段话是正面还是负面情绪,还想知道它属于哪个分类?传统做法可能需要部署多个模型,每个专门处理一种任务&a…...

圣女司幼幽-造相Z-Turbo在无障碍服务中的潜力:为视障用户提供角色形象语音化描述生成

圣女司幼幽-造相Z-Turbo在无障碍服务中的潜力:为视障用户提供角色形象语音化描述生成 1. 引言:当AI绘画遇见无障碍服务 想象一下,一位视障朋友正在听一部有声小说,故事里描绘了一位名叫“圣女司幼幽”的角色,她身着墨…...

MDCSwipeToChoose快速入门:5步创建你的第一个滑动卡片应用

MDCSwipeToChoose快速入门:5步创建你的第一个滑动卡片应用 【免费下载链接】MDCSwipeToChoose Swipe to "like" or "dislike" any view, just like Tinder.app. Build a flashcard app, a photo viewer, and more, in minutes, not hours! 项…...

MedGemma 1.5快速上手:无需专业背景,搭建个人医学知识库

MedGemma 1.5快速上手:无需专业背景,搭建个人医学知识库 1. 为什么你需要一个本地医学助手? 想象一下这个场景:你或者家人拿到一份体检报告,上面有几个指标旁边标着小小的箭头,旁边是你看不懂的医学术语。…...

LangChain 源码剖析-消息类详解(Messages)

LangChain 源码剖析-消息类详解(Messages) 消息是包含以下内容的对象: 角色(Role)-标识消息类型(例如系统、用户) 内容(Content)-表示消息的实际内容(如文本、图像、音频、文档等) 元数据(Metadata)-可选字段,如响应信息、消息ID和令牌使用情况 LangChain提供了一种标…...

BERT中文模型实战指南:从零开始搭建智能文本分类系统

BERT中文模型实战指南:从零开始搭建智能文本分类系统 1. 项目概述与准备工作 1.1 BERT模型简介 BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的预训练语言模型,它通过双向Transformer架…...

Acunetix WVS 13实战:如何高效扫描企业网站漏洞并生成专业报告

Acunetix WVS 13企业级漏洞扫描实战:从策略优化到报告生成 在数字化转型浪潮中,企业网站作为对外展示和业务交互的核心窗口,其安全性直接关系到企业声誉和用户信任。一次成功的渗透测试可能发现数十个潜在漏洞,但如何系统化地识别…...

iStore:OpenWRT软件中心终极安装与使用完整指南

iStore:OpenWRT软件中心终极安装与使用完整指南 【免费下载链接】istore 一个 Openwrt 标准的软件中心,纯脚本实现,只依赖Openwrt标准组件。支持其它固件开发者集成到自己的固件里面。更方便入门用户搜索安装插件。The iStore is a app store…...

RedTeam_BlueTeam_HW蓝队视角:如何构建坚不可摧的安全防线

RedTeam_BlueTeam_HW蓝队视角:如何构建坚不可摧的安全防线 【免费下载链接】RedTeam_BlueTeam_HW 红蓝对抗以及护网相关工具和资料,内存shellcode(csmsf)和内存马查杀工具 项目地址: https://gitcode.com/gh_mirrors/re/RedTeam…...

从零到爬取:在Linux服务器(CentOS 7)上用Anaconda部署你的第一个Scrapy爬虫

从零到爬取:在Linux服务器(CentOS 7)上用Anaconda部署你的第一个Scrapy爬虫 当你第一次通过SSH连接到一台全新的CentOS 7服务器时,面对那个闪烁的光标,可能会感到一丝茫然。不同于Windows的图形界面,Linux服…...

开源大模型新选择:Qwen3-4B-Instruct-2507多场景应用入门必看

开源大模型新选择:Qwen3-4B-Instruct-2507多场景应用入门必看 1. 引言:为什么你需要关注这个新模型? 如果你正在寻找一个既强大又轻量、部署简单且功能全面的开源大模型,那么Qwen3-4B-Instruct-2507绝对值得你花时间了解。 在开…...

北京中建协认证中心:中国建筑业企业数字化研究报告 2026

这份《中国建筑业企业数字化研究报告(2025)》核心是以 “企业数字化 项目全生命周期数字化” 双主线为框架,系统梳理建筑业数字化转型的现状、路径、场景、风险与政策建议,核心总结如下:一、核心定位与双主线逻辑行业…...

深入circe核心组件:Encoder、Decoder与Codec的完整解析

深入circe核心组件:Encoder、Decoder与Codec的完整解析 【免费下载链接】circe Yet another JSON library for Scala 项目地址: https://gitcode.com/gh_mirrors/ci/circe circe 是 Scala 生态中一款强大的 JSON 处理库,它通过类型安全的方式实现…...

PETRV2-BEV模型在网络安全领域的异常行为检测应用

PETRV2-BEV模型在网络安全领域的异常行为检测应用 随着数字化进程的加速,网络安全监控面临着前所未有的挑战。传统的2D监控方式难以有效识别复杂场景中的异常行为模式,而3D感知技术的出现为这一领域带来了新的解决方案。 1. 网络安全监控的现实挑战 在现…...

Step3-VL-10B-Base在软件测试中的应用:自动化生成测试用例与UI验证

Step3-VL-10B-Base在软件测试中的应用:自动化生成测试用例与UI验证 1. 引言 你有没有过这样的经历?面对一份几十页的软件需求文档,要从中梳理出成百上千个测试点,光是想想就让人头疼。或者,在每次版本更新后&#xf…...

Magma智能运维:基于Prometheus的监控告警优化

Magma智能运维:基于Prometheus的监控告警优化 1. 监控系统面临的挑战 现代分布式系统的监控一直是个头疼的问题。随着微服务架构的普及,服务数量呈指数级增长,传统的监控方式已经力不从心。运维团队经常面临这样的困境:明明设置…...

NYXImagesKit保存功能完全指南:支持5种格式的图片保存和相册管理

NYXImagesKit保存功能完全指南:支持5种格式的图片保存和相册管理 【免费下载链接】NYXImagesKit A set of efficient categories for UIImage class. It allows filtering, resizing, masking, rotating, enhancing... and more. 项目地址: https://gitcode.com/g…...