使用 FAISS 进行高效相似性搜索:从文本检索到动态数据处理
-
在现代数据科学和人工智能应用中,处理大量高维数据并从中找到相似项是一个常见任务。无论是在推荐系统、搜索引擎,还是在自然语言处理应用中,如何高效地进行相似性搜索(Similarity Search)一直是一个挑战。为了解决这个问题,FAISS(Facebook AI Similarity Search)应运而生,成为了处理和检索高维数据的一个重要工具。
-
在本文中,我们将介绍FAISS的基本概念、如何使用它进行相似性搜索、以及如何处理动态数据的常见问题。
文章目录
- 什么是 FAISS?
- FAISS 的核心特点
- FAISS 的常见应用
- 如何使用 FAISS 进行相似性搜索?
- 步骤 1: 文本嵌入
- 步骤 2: 创建 FAISS 索引
- 步骤 3: 查询
- 示例代码(Python):
- 示例输出:
- 如何处理动态数据?
- 添加新数据
- 示例代码(添加新数据):
- 删除数据
- 动态数据管理
- 总结
什么是 FAISS?
FAISS(Facebook AI Similarity Search)是由Facebook AI Research团队开发的一个开源库,专门用于高效的相似性搜索和聚类任务。它的设计目标是处理大规模数据集和高维空间的向量检索,广泛应用于推荐系统、搜索引擎和自然语言处理等领域。
FAISS 的核心特点
- 高效性能:FAISS通过优化算法,使得对大规模数据集的相似性搜索变得快速且高效。
- 索引方法多样:支持多种索引方式,包括精确检索(Flat Index)和近似最近邻(ANN)方法。
- GPU 加速:支持GPU加速,能进一步提高查询速度,特别是在处理非常大规模的数据时。
- 易于扩展和灵活性:可以处理千万级别的向量,支持不同的距离度量(如L2距离、余弦相似度等)。
FAISS 的常见应用
- 推荐系统:根据用户的历史行为推荐相似的产品或内容。
- 搜索引擎:根据查询内容检索最相关的文档或图像。
- 自然语言处理:在NLP中使用嵌入向量查找与查询句子相似的句子或文档。
如何使用 FAISS 进行相似性搜索?
假设我们有一系列句子,并且想要根据一个查询句子找到最相关的内容。以下是使用 FAISS 进行文本相似性搜索的一个简单示例。
步骤 1: 文本嵌入
首先,我们需要将句子转化为向量(嵌入)。这可以通过使用如Sentence-Transformers等模型来完成。
步骤 2: 创建 FAISS 索引
将生成的嵌入向量添加到 FAISS 索引中。FAISS 会为我们创建一个数据结构,能够快速检索相似向量。
步骤 3: 查询
我们可以输入一个查询句子,FAISS 会返回最相似的句子,通常基于L2距离(欧几里得距离)或余弦相似度。
示例代码(Python):
from sentence_transformers import SentenceTransformer
import faiss
import numpy as np# Step 1: Prepare your data
sentences = ["The cat sat on the mat.","Dogs are great pets.","I love programming in Python.","The weather is sunny today.","I enjoy reading books about AI."
]
query = "What are some benefits of having a dog?"# Step 2: Convert sentences to embeddings
model = SentenceTransformer('all-MiniLM-L6-v2')
sentence_embeddings = model.encode(sentences)
query_embedding = model.encode([query])# Step 3: Set up FAISS index
dimension = sentence_embeddings.shape[1] # Dimensionality of embeddings
index = faiss.IndexFlatL2(dimension) # L2 distance metric
index.add(np.array(sentence_embeddings)) # Add sentence embeddings to the index# Step 4: Perform a search
k = 3 # Number of nearest neighbors to retrieve
distances, indices = index.search(np.array(query_embedding), k)# Step 5: Display the results
print("Query:", query)
print("\nMost relevant sentences:")
for i, idx in enumerate(indices[0]):print(f"{i+1}. {sentences[idx]} (Distance: {distances[0][i]:.4f})")
示例输出:
Copy code
Query: What are some benefits of having a dog?Most relevant sentences:
1. Dogs are great pets. (Distance: 0.3215)
2. The cat sat on the mat. (Distance: 0.5432)
3. I enjoy reading books about AI. (Distance: 0.7891)
如何处理动态数据?
- 在很多应用中,数据是动态变化的。例如,新的句子不断被添加,或者已有的句子被删除。在这种情况下,我们需要能够动态更新 FAISS 索引。
添加新数据
- FAISS 允许你不断地向现有索引添加新的向量,而不需要重新构建整个索引。这对于大规模数据集来说非常有用。
示例代码(添加新数据):
# Add a new sentence to the index
new_sentence = "I enjoy hiking in the mountains."
new_embedding = model.encode([new_sentence])# Add the new sentence to the index
index.add(np.array(new_embedding)) # Add embedding of new sentence# Add the sentence to the list
sentences.append(new_sentence)
删除数据
-
FAISS 本身对于删除数据的支持较为有限。对于简单的 IndexFlatL2 索引,删除数据项通常意味着需要重建整个索引。但在一些复杂的索引类型(如 IVF 或 PQ)中,FAISS 提供了 remove_ids() 方法来删除特定的向量。
-
如果删除频繁,重建索引是比较常见的做法:
# Rebuild the index after removing a sentence (for example, at index 1)
sentences_to_keep = [s for i, s in enumerate(sentences) if i != 1]
index = rebuild_index(sentences_to_keep)
动态数据管理
- 对于大规模或频繁变化的场景,可以考虑以下几种方法:
- 增量添加:通过 add() 方法,动态地向索引中添加新的向量。
- 定期重建索引:如果删除操作很频繁,或者数据量变化较大,定期重建索引会更高效。
- 使用更复杂的索引类型:如 IndexIVF(倒排文件索引)或 IndexPQ(产品量化索引),它们提供了更高效的更新和删除机制。
总结
- FAISS 是一个高效的工具,专门用于处理和检索高维嵌入向量,它能够帮助我们在海量数据中快速找到相似项。通过与嵌入模型(如 Sentence-BERT、BERT 等)结合使用,FAISS 可以大幅提升相似性搜索的性能。
- 对于动态数据,FAISS 也提供了灵活的更新和查询功能,虽然在频繁删除的场景下可能需要重建索引,但通过合理的使用方式,可以高效地处理大规模数据的检索任务。
相关文章:
使用 FAISS 进行高效相似性搜索:从文本检索到动态数据处理
在现代数据科学和人工智能应用中,处理大量高维数据并从中找到相似项是一个常见任务。无论是在推荐系统、搜索引擎,还是在自然语言处理应用中,如何高效地进行相似性搜索(Similarity Search)一直是一个挑战。为了解决这个…...
执行“go mod tidy”遇到“misbehavior”错误
执行“go mod tidy”报错下错误,执行“go clean -modcache”和删除“go env GOMODCACHE”指定目录均无效: SECURITY ERROR go.sum database server misbehavior detected!old database:go.sum database tree3397826xyyhzdyAOat5li/EXx/MK1gONQf3LAGqArh…...
深入详解人工智能机器学习:强化学习
目录 强化学习概述 强化学习的基本概念 定义 关键组件 强化学习过程 常用算法 应用示例 示例代码 代码解释 应用场景 强化学习核心概念和底层原理 核心概念 底层原理 总结 强化学习概述 强化学习(Reinforcement Learning, RL)是机器学习中的…...
力扣打卡11:合并区间(比较器内联,引用传参的优化)
链接:56. 合并区间 - 力扣(LeetCode) 这道题可以用贪心。 首先将intervals的left(intervals[i][0])排序。 然后拿出第一个区间,比较后面相邻的区间: 当前right<后left,表示下一…...
《 bilibili-起步级 用户模块接口文档 经验分享 ~》
bilibili - 用户模块接口文档 - 经验分享 ~ 数据库er关系图 : 迅速跳转链接 枚举码实体类 : 迅速跳转链接 使用apifox.json格式导入接口文档 步骤 登录Apifox。新建文件, 将代码粘贴到该文件, 并更改后缀为 .apifox.json进入项目,点击“导入”。选择“Apifox”格式…...
AES 与 SM4 加密算法:深度解析与对比
🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…...
启保停电路如何接到PLC
传感器:NPN :棕:正 蓝:负 黑:信号 1M——>24V PNP:1M——>0V...
HTTP multipart/form-data 请求
序言 最近在写项目的过程中有一个需求是利用 HTTP 协议传输图片和视频,经过查询方法相应的方法发现使用 multipart/form-data 的方式,这是最常见处理二进制文件的表单编码类型。 学习了一下午,现在总结一下使用的方法和相关的知识点&#x…...
配置服务器的免密登录
在服务器中配置别名和免密登录 如果没有生成过公钥和密钥 ssh-keygen然后就生成了公钥和密钥,下一步进入.ssh文件夹 cd .ssh/可以看到文件夹中会多出来三个文件 id_rsa:密钥id_rsa.pub:公钥known_hosts:A通过ssh首次连接到B&am…...
普通遥控电动遮阳雨棚怎么接入米家并用苹果手机Siri控制
环境: 遥控电动遮阳雨棚 无线射频拷贝器 米家APP 问题描述: 普通遥控电动遮阳雨棚怎么接入米家并用苹果手机Siri控制 解决方案: 1.先看看遥控器射频参数,有些在里面板子上,要拆开才能看到,我这是433的 2.到网店…...
两种不同简缩极化的六个方程
方程1 (3*A*(b - a*1i 1) - A*((c d*1i)*(f1 f2*1i)*1i - (c d*1i)^2))*(a - b*1i)*1i 3*A*(b - a*1i 1) 2*(A*(c f2 d*1i - f1*1i) A*(c d*1i - (a b*1i)*(c d*1i)*1i))*(c - d*1i) (A*(c f2 d*1i - f1*1i) A*(c d*1i - (a b*1i)*(c d*1i)*1i))*(f1 - f2…...
环形缓冲区(Ring Buffer):概念、功能、使用场景与实现
一、概念 环形缓冲区(Ring Buffer),又称循环缓冲区,是一种用于数据缓冲的数据结构。其核心思想是将缓冲区视为一个环形结构,当数据写入到缓冲区的末尾时,会自动回绕到缓冲区的开头继续写入,形成…...
大连理工大学数据结构2003年硕士入学试题
大连理工大学2003年硕士入学试题 数据结构部分(共75分) 一、回答下列问题(20分) 1.循环队列用数组A[0..m—1)存放其数据元素。设tail指向其实际的队尾,front指向其实际队首的前一个位置,则当前队列中的数据元素有多少个…...
Master EDI 项目需求分析
Master Electronics 通过其全球分销网络,支持多种采购需求,确保能够为客户提供可靠的元件供应链解决方案,同时为快速高效的与全球伙伴建立合作,Master 选择通过EDI来实现与交易伙伴间的数据传输。 EDI为交易伙伴之间建立了一个安…...
图海寻径——图相关算法的奇幻探索之旅
一、图的表示 1. 邻接矩阵 (Adjacency Matrix) #include <iostream> #include <vector> #include <queue> #include <limits>using namespace std;class GraphMatrix { private:int numVertices;vector<vector<int>> adjMatrix;const st…...
亚马逊云科技re:Invent:生成式AI与全球布局
作为全球云计算和人工智能领域一年一度的顶级盛宴,亚马逊云科技2024 re:Invent全球大会吸引了超过6万名现场观众以及40多万名线上参会者。而大会上生成式AI的相关话题和内容,也成为了所有观众关注的焦点。 大会期间,亚马逊云科技全球服务副总…...
Android 因为混淆文件配置,打release包提示running R8问题处理
一、报错信息 Missing classes detected while running R8. Please add the missing classes or apply additional keep rules that are generated in E:\workplace\xxxxxx\app\build\outputs\mapping\release\missing_rules.txt. Missing class org.mediakit.R$layout (refer…...
20241209给Ubuntu20.04系统的的交换分区增加为20GB的步骤
20241209给Ubuntu20.04系统的的交换分区增加为20GB的步骤 2024/12/9 21:10 缘起,编译中科创达的高通CM6125模块的Android10的时候,老报错。 编译环境可以编译荣品的RK3566的Android13/Buildroot。 以前荣品的RK3566的Android13的编译环境是可以编译通CM6…...
Centos7环境下nifi单机部署
Centos7环境下nifi单机部署 前言一、安装Nifi1.1 下载并解压1.2 修改配置文件 二、启动Nifi程序三、Nifi的简单使用3.1 文件移动3.2 本地文件传到HDFS 参考博客 前言 本以为在服务器上部署nifi很简单,跟着教程走就好,但是并没有成功,可能是因…...
如何通过轻易云实现金蝶云星空与旺店通数据集成
案例分享:柏为金蝶退料申请退料开单08.03 在企业的供应链管理中,数据的准确性和实时性至关重要。本文将重点介绍如何通过轻易云数据集成平台,将金蝶云星空的数据高效集成到旺店通旗舰奇门系统中,以实现柏为金蝶退料申请退料开单0…...
在软件开发中正确使用MySQL日期时间类型的深度解析
在日常软件开发场景中,时间信息的存储是底层且核心的需求。从金融交易的精确记账时间、用户操作的行为日志,到供应链系统的物流节点时间戳,时间数据的准确性直接决定业务逻辑的可靠性。MySQL作为主流关系型数据库,其日期时间类型的…...
利用ngx_stream_return_module构建简易 TCP/UDP 响应网关
一、模块概述 ngx_stream_return_module 提供了一个极简的指令: return <value>;在收到客户端连接后,立即将 <value> 写回并关闭连接。<value> 支持内嵌文本和内置变量(如 $time_iso8601、$remote_addr 等)&a…...
ESP32读取DHT11温湿度数据
芯片:ESP32 环境:Arduino 一、安装DHT11传感器库 红框的库,别安装错了 二、代码 注意,DATA口要连接在D15上 #include "DHT.h" // 包含DHT库#define DHTPIN 15 // 定义DHT11数据引脚连接到ESP32的GPIO15 #define D…...
苍穹外卖--缓存菜品
1.问题说明 用户端小程序展示的菜品数据都是通过查询数据库获得,如果用户端访问量比较大,数据库访问压力随之增大 2.实现思路 通过Redis来缓存菜品数据,减少数据库查询操作。 缓存逻辑分析: ①每个分类下的菜品保持一份缓存数据…...
selenium学习实战【Python爬虫】
selenium学习实战【Python爬虫】 文章目录 selenium学习实战【Python爬虫】一、声明二、学习目标三、安装依赖3.1 安装selenium库3.2 安装浏览器驱动3.2.1 查看Edge版本3.2.2 驱动安装 四、代码讲解4.1 配置浏览器4.2 加载更多4.3 寻找内容4.4 完整代码 五、报告文件爬取5.1 提…...
20个超级好用的 CSS 动画库
分享 20 个最佳 CSS 动画库。 它们中的大多数将生成纯 CSS 代码,而不需要任何外部库。 1.Animate.css 一个开箱即用型的跨浏览器动画库,可供你在项目中使用。 2.Magic Animations CSS3 一组简单的动画,可以包含在你的网页或应用项目中。 3.An…...
【Nginx】使用 Nginx+Lua 实现基于 IP 的访问频率限制
使用 NginxLua 实现基于 IP 的访问频率限制 在高并发场景下,限制某个 IP 的访问频率是非常重要的,可以有效防止恶意攻击或错误配置导致的服务宕机。以下是一个详细的实现方案,使用 Nginx 和 Lua 脚本结合 Redis 来实现基于 IP 的访问频率限制…...
解析奥地利 XARION激光超声检测系统:无膜光学麦克风 + 无耦合剂的技术协同优势及多元应用
在工业制造领域,无损检测(NDT)的精度与效率直接影响产品质量与生产安全。奥地利 XARION开发的激光超声精密检测系统,以非接触式光学麦克风技术为核心,打破传统检测瓶颈,为半导体、航空航天、汽车制造等行业提供了高灵敏…...
鸿蒙(HarmonyOS5)实现跳一跳小游戏
下面我将介绍如何使用鸿蒙的ArkUI框架,实现一个简单的跳一跳小游戏。 1. 项目结构 src/main/ets/ ├── MainAbility │ ├── pages │ │ ├── Index.ets // 主页面 │ │ └── GamePage.ets // 游戏页面 │ └── model │ …...
车载诊断架构 --- ZEVonUDS(J1979-3)简介第一篇
我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…...
