RAG优化:python从零实现Proposition Chunking[命题分块]让 RAG不再“断章取义”,从此“言之有物”!
🧠 向所有学习者致敬!
“学习不是装满一桶水,而是点燃一把火。” —— 叶芝
我的博客主页: https://lizheng.blog.csdn.net
🌐 欢迎点击加入AI人工智能社区!
🚀 让我们一起努力,共创AI未来! 🚀
大家好,本篇要聊的是一个让 RAG不再“断章取义”的神奇技术——命题分块(Proposition Chunking)from Dense X Retrieval: What Retrieval Granularity Should We Use?。
你有没有遇到过这样的情况:你问RAG 一个问题,它给你回答了一大段话,结果你发现它只抓住了你问题的“皮毛”,甚至完全跑偏了?比如你问:“AI 的伦理问题有哪些?”它却回答:“AI 的发展历史可以追溯到 1956 年……”(喂,谁问你历史了!)
这就是传统分块方法的“锅”——它只会机械地把文本切成一块一块,完全不管这些块是不是有意义。而我们的命题分块,就像是一个“文本拆解大师”,它能把文档拆成一个个原子化的事实,让 RAG 不再“断章取义”,从此“言之有物”!
想象一下,RAG 现在不仅能回答“AI 的伦理问题有哪些?”,还能精准地告诉你:“AI 的伦理问题包括数据偏见、隐私泄露、算法透明度……”——是不是瞬间感觉 AI 变得靠谱多了?
文章目录
- 🧠 向所有学习者致敬!
- 🌐 欢迎[点击加入AI人工智能社区](https://bbs.csdn.net/forums/b8786ecbbd20451bbd20268ed52c0aad?joinKey=bngoppzm57nz-0m89lk4op0-1-315248b33aafff0ea7b)!
- 三大法宝
- 1. **精准检索:不再“断章取义”**
- 2. **更小的粒度:让检索更灵活**
- 3. **过滤低质量信息:让回答更靠谱**
- 4. **更高效的问答系统**
- 5. **更好的用户体验**
- 动手python实现
- 环境设置
- 从 PDF 文件中提取文本
- 对提取的文本进行分块
- 设置 OpenAI API 客户端
- 简单的向量存储实现
- 创建嵌入
- 命题生成
- 命题质量检查
- 完整的命题处理管
相关文章:
RAG优化:python从零实现Proposition Chunking[命题分块]让 RAG不再“断章取义”,从此“言之有物”!
🧠 向所有学习者致敬! “学习不是装满一桶水,而是点燃一把火。” —— 叶芝 我的博客主页: https://lizheng.blog.csdn.net 🌐 欢迎点击加入AI人工智能社区! 🚀 让我们一起努力,共创AI未来! 🚀 大家好,本篇要聊的是一个让 RAG不再“断章取义”的神奇技术——命…...
丝杆,同步带,链条选型(我要自学网)
这里的选型可以70%的正确率,正确率不高,但是选型速度会比较快。 1.丝杆选型 后面还有一堆计算公式,最终得出的结果是导程25,轴径25mm的丝杆。 丝杆选择长度时,还要注意细长比,长度/直径 一般为30到50。 2…...
【YOLO系列】基于YOLOv8的无人机野生动物检测
基于YOLOv8的无人机野生动物检测 1.前言 在野生动物保护、生态研究和环境监测领域,及时、准确地检测和识别野生动物对于保护生物多样性、预防人类与野生动物的冲突以及制定科学的保护策略至关重要。传统的野生动物监测方法通常依赖于地面巡逻、固定摄像头或无线传…...
一文详细讲解Python(详细版一篇学会Python基础和网络安全)
引言 在当今数字化时代,Python 作为一种简洁高效且功能强大的编程语言,广泛应用于各个领域,从数据科学、人工智能到网络安全等,都能看到 Python 的身影。而网络安全作为保障信息系统和数据安全的关键领域,其重要性不言…...
NFS 重传次数速率监控
这张图展示的是 NFS 重传次数速率监控,具体解释如下: 1. 指标含义 监控指标 node_nfs_rpc_retransmissions_total 统计 NFS(网络文件系统)通信中 RPC(远程过程调用)的重传次数,rate(node_nfs_…...
【Java】Hibernate的一级缓存
Session是有一个缓存, 又叫Hibernate的一级缓存 session缓存是由一系列的Java集合构成的。当一个对象被加入到Session缓存中,这个对象的引用就加入到了java的集合中,以后即使应用程序中的引用变量不再引用该对象,只要Session缓存不被清空&…...
学习笔记--(6)
import numpy as np import matplotlib.pyplot as plt from scipy.special import erfc# 设置参数 rho 0.7798 z0 4.25 # 确保使用大写 Z0,与定义一致def calculate_tau(z, z_prime, rho, s_values):return np.log(rho * z * z_prime * s_values / 2)# 定义 chi_…...
【QT5 网络编程示例】TCP 通信
文章目录 TCP 通信 TCP 通信 QT主要通过QTcpSocket 和 QTcpServer两个类实现服务器和客户端的TCP 通信。 QTcpSocket 是 Qt 提供的套接字类,看用于建立、管理和操作 TCP 连接。 常用方法 connectToHost(host, port):连接到指定服务器。disconnectFro…...
JWT在线解密/JWT在线解码 - 加菲工具
JWT在线解密/JWT在线解码 首先进入加菲工具 选择 “JWT 在线解密/解码” https://www.orcc.top 或者直接进入JWT 在线解密/解码 https://www.orcc.top/tools/jwt 进入功能页面 使用 输入对应的jwt内容,点击解码按钮即可...
【Linux】用户向硬件寄存器写入值过程理解
思考一下,当我们咋用户态向寄存器写入一个值,这个过程是怎么样的呢?以下是应用程序通过标准库函数(如 write()、ioctl() 或 mmap())向硬件寄存器写入值的详细过程,从用户空间到内核再到硬件的完整流程&…...
【Easylive】convertVideo2Ts 和 union 方法解析
【Easylive】项目常见问题解答(自用&持续更新中…) 汇总版 这两个方法是 transferVideoFile 中用于视频文件处理的核心辅助方法,下面我将结合它们在 transferVideoFile 中的使用场景进行详细解释。 1. convertVideo2Ts 方法解析 方法签…...
飞桨PP系列新成员PP-DocLayout开源,版面检测加速大模型数据构建,超百页文档图像一秒搞定
背景介绍 文档版面区域检测技术通过精准识别并定位文档中的标题、文本块、表格等元素及其空间布局关系,为后续文本分析构建结构化上下文,是文档图像智能处理流程的核心前置环节。随着大语言模型、文档多模态及RAG(检索增强生成)等…...
Java 锁机制详解:用“厕所门”和“防盗门”轻松理解多线程同步
Java 锁机制详解:用“厕所门”和“防盗门”轻松理解多线程同步 目录 锁的作用synchronized 关键字ReentrantLockReadWriteLockStampedLock避免死锁的诀窍总结与对比 锁的作用 生活中的例子:公共厕所一次只能进一人,门上的“有人/无人”标志…...
关于修改 vue Element admin、若依, 等后台管理系统模板的一些全局样式问题:
关于修改 vue Element admin、若依, 等后台管理系统模板的一些全局样式问题: 1、修改左侧菜单和顶部(菜单)的背景色、把背景色改为炫酷的背景图。 1)上传图片 src/assets/images/menu-icon.png、 src/assets/images/…...
并发多线程八股
并发多线程 1.Java里面的线程和操作系统的线程一样吗?2.Java的线程安全在三个方面体现:3.保证数据一致性的方案4.线程创建的方式1)Thread类2)Runnable接口3)Callable接口和FutureTask4)线程池(e…...
飞速(FS)HPC无损组网:驱动AI高性能计算网络转型升级
案例亮点 部署低功耗、高密度飞速(FS)以太网交换机,紧凑机身设计节省70%机房空间,冗余电源和智能风扇确保系统高可用性,有效优化散热和降低能耗。 支持25G/40G/100G多速率自适应交换架构,构建超低时延企业…...
Nest.js学习路径
作为前端开发工程师,系统学习Nest.js可以从以下步骤入手,结合其模块化架构、依赖注入和TypeScript特性,逐步掌握核心功能。以下是结合多个资源的综合学习路径: 1. 环境搭建与项目初始化 安装CLI工具 使用Nest.js官方CLI快速生成项…...
git 常用操作整理
一.git 的概念 Git 是一个分布式版本控制系统,用于跟踪文件的更改历史,帮助开发者管理代码的版本。以下是关于 Git 的一些基本概念: 1. 仓库(Repository) - **本地仓库**:在你的计算机上存储的项目文件及…...
JAVA数据库增删改查
格式 Main.java(测试类) package com.example;import com.example.dao.UserDao; import com.example.model.User;public class Main {public static void main(String[] args) {UserDao userDao new UserDao();// 测试添加用户System.out.println(" 添加用户 ");Us…...
上海某海外视频平台Android高级工程师视频一面
问的问题比较细,有很多小细节在里面,平时真不一定会注意到,做一个备忘: 1.Object类里面有哪些方法? Object 类是 Java 中所有类的根类,它定义了一些基本方法,供所有类继承和重写1. 常用方法 1…...
前后端数据序列化:从数组到字符串的旅程(附优化指南)
🌐 前后端数据序列化:从数组到字符串的旅程(附优化指南) 📜 背景:为何需要序列化? 在前后端分离架构中,复杂数据类型(如数组、对象)的传输常需序列化为字符…...
idea报错:程序包不存在
这里的程序包是我们项目里自己写的,idea却报错不存在。 解决方法: 参考这位大佬的方法,OK。...
【TVM教程】使用 TVMC Micro 执行微模型
Apache TVM是一个深度的深度学习编译框架,适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →https://tvm.hyper.ai/ 作者:Andrew Reusch, Mehrdad Hessar 本教程介绍如何用 C runtime 自动调优模型。 安装 microTVM Python 依赖项…...
spring boot 整合redis
1.在pom文件中添加spring-boot-starter-data-redis依赖启动器 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </dependency> 2.编写三个实体类 RedisHash("p…...
进程间信号
进程间信号 信号的认识信号的产生进程对信号的处理机制普通信号的处理机制实时信号的处理机制 信号集操作函数信号的捕捉 信号的认识 信号的概念: 信号是一种软件中断,它用于通知进程一个异步事件的发生。 这些事件可能来自系统内部(如硬…...
2011-2019年各省地方财政国债还本付息支出数据
2011-2019年各省地方财政国债还本付息支出数据 1、时间:2007-2019年 2、来源:国家统计局、统计年鉴 3、指标:行政区划代码、地区、年份、地方财政粮油物资储备管理等事务 4、范围:31省 5、指标说明:地方财政的国债…...
2025华为软件精英挑战赛2600w思路分享
这里写自定义目录标题 得分展示对象定义请求价值计算时间同步删除操作完整思路 得分展示 对象定义 // 将一个磁盘划分为多个基于标签聚合的区块 class Block{ public:int tag 0; // 区块标签int start_pos;int end_pos;int id;int use_size 0;int v;// 为区块确定范围Bloc…...
WEB安全-CTF中的PHP反序列化漏洞
什么是序列化? 简单来说序列化是将数组或对象转换成字符串的过程,这样的好处是利于对象存储与传输,在PHP中,序列化函数是serialize(),反序列化是unserialize() 无类序列化 无类序列化顾名思义就是不包含class的序列…...
【论文阅读】Co2l: Contrastive continual learning
原文链接:[2106.14413] Co$^2$L: Contrastive Continual Learning 阅读本文前,需要对持续学习的基本概念以及面临的问题有大致了解,可参考综述: Wang L, Zhang X, Su H, et al. A comprehensive survey of continual learning: …...
OpenMCU(五):STM32F103时钟树初始化分析
概述 本文主要描述了STM32F103初始化过程系统时钟的初始化,主要描述了系统时钟的初始化,AHB总线时钟,APB总线时钟等的初始化。 硬件板卡3d图 时钟树 STM32F103的时钟树,如下所示: 时钟源选择 从STM32F103的时钟树框图,我们可以…...
