大模型主流 RAG 框架TOP10
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。
针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。
总结链接如下:《大模型面试宝典》(2024版) 正式发布!
今天,我们来看看2个问题,一个是回顾下主流 RAG 框架TOP10及一个有趣的soda RAG小工具,另一个为防止恶意检索污染攻击的RAG方案RobustRAG思路,供大家参考。
会有一些思路,供大家一起参考。
问题1:主流RAG框架TOP10及一个有趣的soda RAG小工具
最近 RAG 的轮子越来越多,我们先后已经出现了多个RAG框架,例如langchain, llamaindex,langraph,qanything, ragflow等,
例如通过github可以找到如下排序,top10框架:
Rank1、LangChain(86k stars):https://github.com/langchain-ai/langchain/,当之无愧的霸主,范围很全面,但代码
Rank2、Quivr(33.4k stars):https://github.com/StanGirard/quivr
Rank3、LlamaIndex(32.1k stars):https://github.com/run-llama/llama_index/
Rank4、Dify(31.2k stars):https://github.com/langgenius/dify
Rank5、Langchain-Chatchat(28.5k stars):https://github.com/chatchat-space/Langchain-Chatchat
Rank6、QAnything(9.7k stars):https://github.com/netease-youdao/QAnything,特点是加入rerank,后期更新也加入了文档理解;
Rank7、danswer(9.5k stars):https://github.com/danswer-ai/danswer
Rank8、RAGFlow(8.3k stars):https://github.com/infiniflow/ragflow,特点是前期处理文档理解;
Rank9、langchain4j(3.5k stars):https://github.com/langchain4j/langchain4j
Rank10、Verba(4.3k stars):https://github.com/weaviate/Verba
最近有个新的框架,SODA: Search, Organize, Discovery Anything(https://github.com/Liuziyu77/Soda/),有点儿意思,根据其介绍。其支持网络检索、文本检索(本地数据库)、图像检索(本地数据库)。
其中在文本检索阶段,采用两阶段检索过程,第一阶段从数据库中检索信息,第二阶段对检索到的文本进行重新排序,其实标准的重排。
例如文本检索,其通过构建本地文本数据库并从中检索信息,通过修改上传的文件的路径,其中文件包括TXT, DOCX, PDF等文件格式。
又如图像检索结果,构建本地图像数据库并从中检索图像,其中核心在于图像embedding的生成,该项目中使用使用CLIP-B/32作为图像编码器。
又如网络检索结果,其核心在于利用各种搜索引擎的API来根据用户输入检索相关信息,包括google、Serper、Bing等不同的API
问题2:为防止恶意检索污染攻击的RAG方案RobustRAG思路
这个有点意思,《Certifiably Robust RAG against Retrieval Corruption》(https://arxiv.org/abs/2405.15556),其出发点在于,由于依赖外部知识库的检索结果,RAG模型容易受到Retrieval Corruption Attacks,也就是恶意的检索污染攻击,攻击方可以通过在检索结果中注入虚假或误导性的文本,操纵模型的输出,产生错误甚至有害的内容,从而影响RAG模型的可靠性和实用性,并带来难以预料的负面影响。
如下所示,检索到的三个段落中有一个被破坏,Vanilla RAG将所有段落串联起来作为LLM输入;其响应被恶意段落劫持。
不同的是,RobustRAG会隔离每个段落,这样三个隔离回复中只有一个被破坏。然后,RobustRAG会安全地汇总非结构化文本回复,以获得稳健的输出。
因此,其思想很简单,就是"先隔离后聚合"(Isolate-then-Aggregate)策略。具体而言,该框架包含以下两个关键步骤:
一个是隔离回复,对于检索到的每一段文本,先独立地获取LLM的回复,而不是将所有文本拼接在一起作为输入,以限制恶意文本对其他回复的影响。
一个是安全聚合,设计基于关键词和解码的方案,如下两个代码逻辑,以安全的方式聚合这些独立的回复,生成最终的输出,以实现即使存在少量恶意回复,也能从正常回复中提取关键信息,得出可靠的结果。
其中,关键词聚合方案思路如下:
1、提取关键词,对每个独立的LLM回复进行关键词提取。使用启发式规则,例如保留名词、形容词、数字等信息量大的词,形成关键词集合;
2、聚合关键词,统计不同回复中关键词的出现频率。出现频率高的关键词更有可能携带正确和相关的信息。过滤掉出现频率低于阈值的关键词;
3、生成最终回复:使用筛选后的高频关键词,再次提示LLM生成最终的回复。关键词集合以一定的顺序(如字母序)排列,作为额外的上下文信息输入到LLM中。
解码聚合算法的思路如下:
1、独立解码,对每个检索到的文本,RobustRAG独立地进行解码操作。在每个解码步骤,得到LLM预测下一个词的概率分布向量;
2、聚合概率向量,将不同文本解码得到的概率向量进行聚合,具体使用元素级平均,得到一个新的概率分布;
3、生成回复,根据聚合的概率分布,预测下一个词。重复这一过程,直到生成完整的回复文本。在预测置信度较低时,适当参考无检索结果时LLM的预测,以保证回复的流畅性。
总结
本文主要讲了2个问题,一个是回顾下主流RAG框架TOP10及一个有趣的soda RAG小工具,另一个为防止恶意检索污染攻击的RAG方案RobustRAG思路。
其中关于主流框架方面,当前有很多,但不需要哪个都做,还是需要选一个就行。另外,RobustRAG在真实场景下用不太到,但单纯从思想上来看,是很有趣的。
技术交流群
前沿技术资讯、算法交流、求职内推、算法竞赛、面试交流(校招、社招、实习)等、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
我们建了算法岗技术与面试交流群, 想要大模型技术交流、了解最新面试动态的、需要源码&资料、提升技术的同学,可以直接加微信号:mlc2040。加的时候备注一下:研究方向 +学校/公司+CSDN,即可。然后就可以拉你进群了。
方式①、微信搜索公众号:机器学习社区,后台回复:交流
方式②、添加微信号:mlc2040,备注:交流
面试精选
-
一文搞懂 Transformer
-
一文搞懂 Attention(注意力)机制
-
一文搞懂 Self-Attention 和 Multi-Head Attention
-
一文搞懂 BERT(基于Transformer的双向编码器)
-
一文搞懂 GPT(Generative Pre-trained Transformer)
-
一文搞懂 Embedding(嵌入)
-
一文搞懂 Encoder-Decoder(编码器-解码器)
-
一文搞懂大模型的 Prompt Engineering(提示工程)
-
一文搞懂 Fine-tuning(大模型微调)
-
一文搞懂 LangChain
-
一文搞懂 LangChain 的 Retrieval 模块
-
一文搞懂 LangChain 的智能体 Agents 模块
-
一文搞懂 LangChain 的链 Chains 模块
参考文献
1、https://arxiv.org/abs/2405.15556
2、https://github.com/Liuziyu77/Soda/
相关文章:

大模型主流 RAG 框架TOP10
节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。 针对大模型技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。 总结链接…...

第八次javaweb作业
我们小组课程设计的题目是:超市管理系统,我认领的模块是:商品信息管理 controller package com.example.supermarker.controller;import com.example.supermarker.pojo.MerchInfo; import com.example.supermarker.pojo.PageBean; import c…...

js积累四 (读json文件)
function ReadRadioJson() {var url "../radio.json" //json文件url,本地的就写本地的位置,如果是服务器的就写服务器的路径var request new XMLHttpRequest();request.open("get", url, false); //设置请求方法与路径request.sen…...

关于我转生从零开始学C++这件事:升级Lv.25
❀❀❀ 文章由不准备秃的大伟原创 ❀❀❀ ♪♪♪ 若有转载,请联系博主哦~ ♪♪♪ ❤❤❤ 致力学好编程的宝藏博主,代码兴国!❤❤❤ OK了老铁们,又是一个周末,大伟又来继续给大家更新我们的C的内容了。那么根据上一篇博…...

mysql中text,longtext,mediumtext区别
文章目录 一.概览二、字节限制不同三、I/O 不同四、行迁移不同 一.概览 在 MySQL 中,text、mediumtext 和 longtext 都是用来存储大量文本数据的数据类型。 TEXT:TEXT 数据类型可以用来存储最大长度为 65,535(2^16-1)个字符的文本数据。如果存储的数据…...

IP协议说明
文章目录 前言一、IP协议的简介二、IP数据报1.IP 数据报结构2.IP 数据报的分片解析3.IP 数据报的分片重装 三、IP 数据报的输出四、IP 数据报的输入 前言 IP 指网际互连协议, Internet Protocol 的缩写,是 TCP/IP 体系中的网络层协议。设计 IP 的目的是…...

第13章 层次式架构设计理论与实践
层次式架构的核心思想是将系统组成为一种层次结构,每一层为上层服务,并作为下层客户。其实不管是分层还是其他的架构都是为了解耦,更好的复用,只要秉承着这种思想去理解一切都迎刃而解了。 13.1 层次上体系结构概述 回顾一下软件…...

FreeRtos进阶——消息队列的操作逻辑
消息队列(queue) 在不同的任务之间,如果我们需要互相之间通信,使用全局变量进行通信,是一种不安全的通信的方式。为保证线程安全,我们需要引入消息队列的通信方式。 粗暴的消息队列 为保证线程的安全&am…...

WordPress搭建流程
1. 简介 WordPress 是一个 PHP 编写的网站制作平台。WordPress 本身免费,并且拥有众多的主题可以使用,适合用于搭建个人博客、公司官网、独立站等。 2. 环境准备 2.1 WordPress 下载 WordPress 可以在 Worpress中文官网 下载(如果后续要将后台调成中文的话,一定要从中文…...

数据集004:跌倒检测数据集 (含数据集下载链接)
数据集简介: 该数据集为跌倒检测数据集,属于imageclassify任务,分为fall和nofall两大类,累计共1000张图片,均为人工标注 xml格式,可用于yolo训练。 数据集链接:跌倒检测数据集(1000…...

苹果与OpenAI合作在即:iOS 18中的ChatGPT引发期待与担忧
每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…...

Android 逆向学习【2】——APK基本结构
APK安装在安卓机器上的,相当于就是windows的exe文件 APK实际上是个压缩包 只要是压缩的东西 .jar也是压缩包 里面是.class(java编译后的一些东西) APK是Android Package的缩写,即Android安装包。而apk文件其实就是一个压缩包,我们可以将apk文件的后…...

你对仲裁裁决不服怎么办?我教你四个狠招!
你对仲裁裁决不服怎么办?我教你四个狠招! 这个标题是什么意思呢?也就是说,当你(或用人单位)向劳动仲裁委提出仲裁申请后,但劳动仲裁结果没有维护你的权益,或者你不满意,…...

绿色智能:低代码开发在AI机器学习中的深度应用与实践案例
随着科技的飞速进步,软件开发的方式也在不断演变。其中,低代码开发作为一种新兴的编程方式,以其高效、便捷的特性受到了广泛关注。同时,AI机器学习技术的发展也为软件开发带来了新的可能。本文将简要介绍低代码开发的概念…...

《NoSQL数据库技术与应用》 文档存储数据库MongoDB
搜索 《NoSQL数据库技术与应用》 教学设计 课程名称:NoSQL数据库技术与应用 授课年级: 20xx年级 授课学期: 20xx学年第一学期 教师姓名: 某某老师 2020年5月6日 课题 名称 第2章 文档存储数据库MongoDB 计划学时 4 课时 内容 分…...

设置AXI主寄存器切片和AXI数据FIFO
设置AXI主寄存器切片和AXI数据FIFO 打开MHS文件,并为每个AXI主机设置启用寄存器切片/启用数据FIFO。到 确定正确的设置,使用下表中的信息搜索MHS。 进行搜索时,将<intf_name>替换为相关的BUS_INTERFACE名称。 例如,BUS_INTE…...

Golang协程和通道
文章目录 协程(goroutine)基本介绍GMP模型协程间共享变量 通道(channel)基本介绍channel的定义方式channel的读写channel的关闭channel的遍历方式只读/只写channelchannel最佳案例select语句 协程(goroutine࿰…...

Enable Full Line suggestions 启用全行建议
开启后效果如下: 直接提示可能要输入的参数...

Java 文件操作和输入输出流
在 Java 编程中,文件操作和输入输出流是非常常见和重要的任务,它们允许你读取和写入文件、处理数据流等。 文件操作概述 文件操作是指对文件进行创建、读取、写入、删除等操作的过程。在 Java 中,文件操作通常涉及到使用文件对象、输入输出…...

MyBatis中的Where标签:提升你的SQL查询效率
哈喽,大家好,我是木头左! 理解MyBatis的Where标签 MyBatis是一款优秀的持久层框架,它提供了许多强大的标签来帮助编写更优雅、高效的SQL语句。其中,<where>标签是使用频率极高的一个,它能够自动处理…...

Docker(三) 容器管理
1 容器管理概述 Docker 的容器管理可以通过 Docker CLI 命令行工具来完成。Docker 提供了丰富的命令,用于管理容器的创建、启动、停止、删除、暂停、恢复等操作。 以下是一些常用的 Docker 容器命令: 1、docker run:用于创建并启动一个容器。…...

自己动手写docker——Namespace
Linux Namespace linux Namespace用于隔离一系列的系统资源,例如pid,userid,netword等,借助于Linux Namespace,可以实现容器的基本隔离。 Namespce介绍 Namespace类型系统调用参数作用Mount NamespaceCLONE_NEWNS隔离…...

【前端学习笔记】HTML基础
HTML 一、HTML介绍1.HTML概念2.文档声明3.字符编码4. HTML标签5. HTML属性 二、标签1.meta标签2.语义标签3.布局标签4.列表5.超链接6.图片7.字符实体8.内联格式9.HTML 表格10.HTML 表单 三、HTML5新特性1. 本地存储2. Cookie3. 语义化标签4.多媒体元素5.表单增强6.Canvas7.SVG …...

JS Lab
如何用 JavaScript 在浏览器中弹窗如何在 JavaScript 中制作鼠标滑过按钮改变背景颜色如何在 JS 中点击按钮使数字增加如何在 JS 中循环打印多少次 HTML <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title…...

Vue:快速上手
一、简介 Vue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,帮助你高效地开发用户界面。无论是简单还是复杂的界面,…...

HTML并集,交集,子代,后代选择器
1,交集选择器 他们必须满足既是p又是.box的关系(直接连写,没有任何符号) p.box{color:red; } <div class"box"> 1 </div> <p class"box">2</p> <p>3</p> 2.并集选择器 将div,p,…...

关于pdfbox读取pdf
最近,想着将pdf的文件进行读取其内容,发现了一个比较好用的依赖pdfbox。目前使用这个依赖,进行实现一个简单实例,如果之后需要使用到更深的了解,会进行更新。这里提醒一下:jdk8尽量采用pdfbox3.x版本。 对…...

汽车电子零部件(14):TMS热管理系统
前言: TMS(thermal management system)热管理系统,这是新能源汽车诞生后随之而产生的一种新汽车零部件,一旦热管理失控会触发自燃,这种现象也是对EV来说是件头疼的事。汽车的热管理系统(TMS)是一个关键部件,有助于调节汽车电池组、车厢和其他车辆系统的温度。TMS的主要…...

代码模板,Cookie和Session
目录 代码模板 Cookie的基本使用 概念 Cookie的API public Cookie(String name, String value) 发送Cookie对象到客户端:使用response对象 创建Cookie对象并响应给浏览器 在服务器后端获取Cookie对象 Cookie[]cookiesrequset.getCookies(); Cookie的使用细…...

Nginx配置及优化
Nginx配置及优化 前言nginx.conf拆分理解上线 最近在配置Nginx的时候,偶尔一些细致的理论有些模糊,配置起来费了点功夫,今天来详细写一下我个人的理解,文章参考了一些官网和其他优秀博主的文章http://t.csdnimg.cn/GbID9。 前言 …...