虹科干货 | 不是吧,Redis Enterprise也能当向量数据库来用?
什么是向量相似性搜索啊?
例如,你需要搜索一棵发财树的图片,如果用传统数据库来检索,你大概率会在茫茫树丛中错失心仪的发财树。但是,向量相似性搜索能用向量来表示所有树的特征,这样就能够通过计算向量之间的距离来判断树的相似度,美美发财啦!
听说Redis Enterprise也可以作为向量数据库来使用了?
是的!Redis VSS!可以存储向量、为它们建立索引并执行向量相似性搜索哦~
一、什么是向量数据库(vector database)?
向量数据库(vector database)是一种以向量或数据点的数学表示形式存储数据的数据库类型。 受益于自然语言处理和计算机视觉方面的进展,人工智能和机器学习使这种将非结构化数据转化为数字表示(向量)的方式成为可能,其能捕捉到数据的意义和背景。
向量相似性搜索(Vector Similarity Search, VSS),简称VSS,它是向量数据库的一个关键特征,是在向量数据库中寻找与给定查询向量相似的数据点的过程。 VSS 是一种高级搜索方法,用于衡量不同数据之间的相似性,虽然它适用于结构化数据,但在比较非结构化数据(例如图像、音频或长文本)的相似性时,VSS表现一样出色。常见的VSS用例包括推荐系统、图像和视频搜索、自然语言处理和异常情况检测等。例如,如果你建立一个推荐系统,你可以使用VSS来寻找(并推荐)与用户历史感兴趣产品相似的产品。
二、如何从图像或文本生成向量?
这正是 AI/ML 发挥作用的地方。
预训练机器学习模型的广泛应用使得将几乎任何类型的非结构化数据(图像、音频、长文本)转换为向量嵌入变得简单。例如,自然语言理解领域(Natural Language Understanding, NLU)的初创公司Hugging Face公开了数百个最先进的模型,用户可以免费访问,这些模型将原始文本数据转换为对应的向量表示。
在Hugging Face将原始文本数据转换为对应的向量表示
这些模型的巧妙之处在于,只有当两个句子的含义在语义上相似时,为两个句子生成的嵌入才会彼此 “接近”。
二维向量空间中向量嵌入的简化表示
在上图中,您可以了解句子的嵌入是如何表现出相关性的。如果您查看用与“手机”相关的句子生成的嵌入,您会注意到它们彼此“接近”(参见上图的左上部分)。更重要的是,这两个嵌入都明显远离用与“食品补充剂”产品相关的句子生成的嵌入(上图的右下部分)。嵌入之间的“距离”代表了它们的语义相似性,甚至有模型可以捕捉多种语言句子的语义相似性。
在计算机视觉领域,也有一个类似的东西:Torchvision,一个用于计算机视觉领域的 PyTorch 库,提供了许多预训练模型,可用于为给定图像生成向量表示。与 Hugging Face 模型类似,只有当图像在视觉上相似时,Torchvision 为两幅图像生成的嵌入才会彼此接近。
开发人员可以在他们的应用程序中使用这些免费提供的模型。
生成向量表示或嵌入只是第一步。您需要一个数据库来存储向量、为它们建立索引并执行向量相似性搜索。
三、使用Redis Enterprise作为向量数据库
向量相似性搜索的核心是存储、索引和查询向量数据的能力。这些是向量数据库所需的基本功能。
Redis Enterprise的 VSS 功能RediSearch 模块的一个新功能。它允许开发人员像在 Redis Hash中存储任何其他字段一样轻松地存储向量。它提供高级索引和搜索功能,使得在大型向量空间中可以进行低延迟搜索,通常涵盖分布在多台机器上的数万到数亿个向量。
Redis Enterprise中的向量相似性检索过程
Redis Enterprise的向量搜索功能
- 实时搜索性能
搜索和推荐系统必须运行得非常快,无论数据集合是分布在多个数据库节点上的数万个还是数亿个对象,Redis Enterprise 中的 VSS 功能可以保证低延迟搜索。
- 内置容错和弹性
为确保您的搜索应用程序永远不会停机,Redis Enterprise 使用无共享集群架构。它有应对各级别故障或灾难的的容灾能力,包括针对进程级别、单个节点和跨基础设施可用性区域的自动故障转移。为确保您的非结构化数据和向量永远不会丢失,Redis Enterprise 包括可调的持久化和灾难恢复机制。
- 降低架构和应用程序的复杂性
您的组织很可能已经在缓存方面受益于Redis Enterprise。与其启动另一个昂贵的单点解决方案,不如扩展您的数据库以在您的应用程序中利用 VSS。开发人员可以像在Redis Hash或JSON 对象中存储任何其他字段一样轻松地存储向量。
- 跨云和地域的灵活性
选择您的数据库应该运行在哪里。Redis Enterprise可以部署在任何地方,任何云平台、本地或多云或混合云架构都可以。
四、Redis VSS的用例
- 推荐系统
Redis Enterprise 帮助推荐引擎以低延迟向用户提供及时、相关的推荐。它可以帮助他们找到与其偏好一致的产品。
- 文献检索
Redis Enterprise 使用自然语言和语义搜索,可以更轻松地从大量文档中发现和检索信息。
- AI问答
Redis Enterprise利用语义搜索和生成 AI 工作流,帮助问答系统利用来自OpenAI和Cohere的流行模型在知识库中发现和检索信息。
五、Redis VSS的特征
- 向量索引算法
Redis Enterprise 使用索引数据结构来管理向量,以实现搜索速度和搜索质量的平衡,达到智能相似性搜索的效果。根据您的数据和用例,有两种流行的技术可选:FLAT(一种蛮力方法)和HNSW (一种更快的近似方法)。
- 向量搜索距离指标
Redis Enterprise 使用距离指标来衡量两个向量之间的相似性。有三个流行的用于计算两个向量“接近”或“相距”的程度,距离指标可供选择——欧几里得距离、向量内积和余弦相似度——。
- 强大的混合过滤
充分利用 Redis Enterprise 查询和搜索模块中提供的全套搜索功能。通过将向量相似度的强大功能与更传统的数字、文本和标签过滤器相结合来增强您的工作流程,将更多业务逻辑合并到查询中并简化客户端应用程序代码。
- 实时更新
实时搜索和推荐系统会生成大量不断变化的数据,如新图像、文本、产品或元数据。随着数据集的不断变化,Redis Enterprise可以无缝地对搜索索引执行更新、插入和删除操作,这减小了过时数据带来的影响。
- 向量范围查询
传统的向量搜索是通过找到“前K个”最相似的向量来完成向量搜索的。,除此之外,Redis Enterprise 还支持在预定义的相似性范围或阈值内查找相关内容,并提供更灵活的搜索体验。
六、客户评价
“有了 Redis VSS,我们可以为客户提供可靠且速度极快的向量搜索服务。与我们最初基于 Lucene 的实现相比,我们发现延迟减少了 80%。与这个值得信赖的品牌和团队合作,因此我们使用Redis Enterprise的过程不那么困难了,我们感到很开心。”
——Jacky Koh,CEO, Relevance AI
相关文章:

虹科干货 | 不是吧,Redis Enterprise也能当向量数据库来用?
什么是向量相似性搜索啊? 例如,你需要搜索一棵发财树的图片,如果用传统数据库来检索,你大概率会在茫茫树丛中错失心仪的发财树。但是,向量相似性搜索能用向量来表示所有树的特征,这样就能够通过计算向量之间…...

汽车驾驶 - 四梁六柱是什么
汽车的四梁六柱指的是车辆的两个前纵梁,两个后纵梁和ABC柱。虽然不像车辆上的发动机变速箱这些部件出镜率那么高,但这几个部位的重要作用可一点都不含糊。一辆车在碰撞时能够受力起到保护左右的就是四梁六柱,对我们汽车的安全性起到至关重要的…...

CI522 13.56MHZ电动车NFC测试资料
Ci522是一颗工作在13.56MHz频率下的非接触式读写芯片,支持读A卡(CI523支持读A/B卡),可做智能门锁、电动车NFC一键启动、玩具NFC开锁等应用。为部分要求低成本,PCB小体积的产品提供了可靠的选择。 Ci522与Si522/MFRC52…...

【微信小程序开发】一文学会使用CSS样式布局与美化
引言 在微信小程序开发中,CSS样式布局和美化是非常重要的一部分,它能够为小程序增添美感,提升用户体验。本文将介绍如何学习使用CSS进行样式布局和美化,同时给出代码示例,帮助开发者更好地掌握这一技巧。 一、CSS样式布…...

漏刻有时物联网环境态势感知大数据(设备列表、动态折线图)
物联网环境下的态势感知是指对物联网环境中的各种要素进行全面、实时、准确的监测、分析和预测,以实现网络态势的全面掌握和安全威胁的及时响应和处理。具体而言,态势感知以物联网环境为基础,利用各类传感器、数据采集设备和其他相关工具,对物联网设备、资产、数据流等进行…...

【力扣】单调栈:901. 股票价格跨度
【力扣】单调栈:901. 股票价格跨度 文章目录 【力扣】单调栈:901. 股票价格跨度1. 题目介绍2. 思路3. 解题代码参考 1. 题目介绍 设计一个算法收集某些股票的每日报价,并返回该股票当日价格的 跨度 。 当日股票价格的 跨度 被定义为股票价格…...
4_使用预训练模型 微调训练CIFAR10
使用预训练模型 微调训练CIFAR10 1. VGG 准备工作import torch from torch import nn import torchvision from torchvision import models from torchvision import datasets, transforms from datetime import datetime from tqdm import tqdm from torchsummary import sum…...

机器学习笔记(一)
1.线性回归模型 2. 损失函数 3.梯度下降算法 多元特征的线性回归 当有多个影响因素的时候,公式可以改写为: 当有多个影响因素的时候为了方便计算,可以使用 Numpy下面的点积方法, np.dot(w,x) 最后再加个b 就省略了很多书写步骤,这叫做矢量化 多元回归的梯度下降 左边是一…...
学习在原地打转的原因与解决 如何步步为营 一日千里快速进步 考研工程计算 1万小时=416.666666667 天
学习在原地打转的原因可能有很多。以下是一些常见的原因: 缺乏明确的目标:如果没有明确的学习目标,人们往往会感到迷失和困惑。没有一个明确的方向,就很难做出有针对性的努力,从而导致学习进展缓慢。 学习方法不当&a…...

194、SpringBoot --- 下载和安装 Erlang 、 RabbitMQ
本节要点: 一些命令: 小黑窗输入: rabbitmq-plugins enable rabbitmq_management 启动控制台插件 rabbitmq-server 启动rabbitMQ服务器 管理员启动小黑窗: rabbitmq-service install 添加rabbitMQ为本地服务 启动浏览器访问 htt…...

机器学习7:pytorch的逻辑回归
一、说明 逻辑回归模型是处理分类问题的最常见机器学习模型之一。二项式逻辑回归只是逻辑回归模型的一种类型。它指的是两个变量的分类,其中概率用于确定二元结果,因此“二项式”中的“bi”。结果为真或假 — 0 或 1。 二项式逻辑回归的一个例子是预测人…...
Java应用程序中如何实现FTP功能 | 代码示例和教程
原为地址:https://www.toymoban.com/diary/java/363.html 在Java应用程序中实现FTP功能需要使用FTPClient类和相关方法。下面是实现三个主要功能的示例代码: 1)显示FTP服务器上的文件: void ftpList_actionPerformed(ActionEv…...
kotlin:list的for循环
代码: var list { "a", "b", "c" } for (i in list.indices) {print("app"i""list[i]) }...

asp.net电影院选座系统VS开发sqlserver数据库web结构c#编程Microsoft Visual Studio
一、源码特点 asp.net电影院选座系统 是一套完善的web设计管理系统,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为vs2010,数据库为sqlserver2008,使用c#语言开发 asp.net电影院选座系统1 二、功能介…...

CSS鼠标指针表
(机翻)搬运自:cursor - CSS: Cascading Style Sheets | MDN (mozilla.org) 类型Keyword演示注释全局autoUA将基于当前上下文来确定要显示的光标。例如,相当于悬停文本时的文本。default 依赖于平台的默认光标。通常是箭头。none不会渲染光标。链接&状态contex…...

树的基本概念及二叉树
目录 一、树的基本概念 (1)树的结点 (2)度 (3)结点层次 (4)树的高度 树的特点: 二、二叉树 (1)满二叉树 (2)完…...

BUUCTF Basic 解题记录--BUU XXE COURSE
1、XXE漏洞 初步学习,可参考链接: 一篇文章带你深入理解漏洞之 XXE 漏洞 - 先知社区 2、了解了XXE漏洞,用burpsuite获取到的url转发给repeater,修改XML的信息,引入外部实体漏洞,修改发送内容,…...
kotlin:LogKit
看到别人的一个代码,觉得有点意思,就复制过来。 package robatimport android.util.Log import java.util.*object LogKit {private val MIN_STACK_OFFSET 3var defaultTag "LogKit"private val lineSeparator System.getProperty("l…...

yolo_tracking中osnet不支持.pth格式,而model_zoo中仅有.pth
yolo_traking-7.0中REID模块用到了osnet,track.py中模型文件不支持.pth,而model_zoo中仅有.pth,改动代码太麻烦了,网上查到的.pth文件转化为.pt文件都需要读取网络架构,不太可能实现。 读取osnet_x0_25_msmt17.pth发现…...

Tailwind CSS浅析与实操
Tailwind CSS 一、Tailwind CSS简介 What is Tailwind CSS Tailwind CSS| TailwindCSS中文文档 | TailwindCSS中文网官方解释:只需书写 HTML 代码,无需书写 CSS,即可快速构建美观的网站。本质上是一个工具集,包含了大量类似 fle…...

【Oracle APEX开发小技巧12】
有如下需求: 有一个问题反馈页面,要实现在apex页面展示能直观看到反馈时间超过7天未处理的数据,方便管理员及时处理反馈。 我的方法:直接将逻辑写在SQL中,这样可以直接在页面展示 完整代码: SELECTSF.FE…...

【WiFi帧结构】
文章目录 帧结构MAC头部管理帧 帧结构 Wi-Fi的帧分为三部分组成:MAC头部frame bodyFCS,其中MAC是固定格式的,frame body是可变长度。 MAC头部有frame control,duration,address1,address2,addre…...

练习(含atoi的模拟实现,自定义类型等练习)
一、结构体大小的计算及位段 (结构体大小计算及位段 详解请看:自定义类型:结构体进阶-CSDN博客) 1.在32位系统环境,编译选项为4字节对齐,那么sizeof(A)和sizeof(B)是多少? #pragma pack(4)st…...
在HarmonyOS ArkTS ArkUI-X 5.0及以上版本中,手势开发全攻略:
在 HarmonyOS 应用开发中,手势交互是连接用户与设备的核心纽带。ArkTS 框架提供了丰富的手势处理能力,既支持点击、长按、拖拽等基础单一手势的精细控制,也能通过多种绑定策略解决父子组件的手势竞争问题。本文将结合官方开发文档,…...

视频字幕质量评估的大规模细粒度基准
大家读完觉得有帮助记得关注和点赞!!! 摘要 视频字幕在文本到视频生成任务中起着至关重要的作用,因为它们的质量直接影响所生成视频的语义连贯性和视觉保真度。尽管大型视觉-语言模型(VLMs)在字幕生成方面…...
AI编程--插件对比分析:CodeRider、GitHub Copilot及其他
AI编程插件对比分析:CodeRider、GitHub Copilot及其他 随着人工智能技术的快速发展,AI编程插件已成为提升开发者生产力的重要工具。CodeRider和GitHub Copilot作为市场上的领先者,分别以其独特的特性和生态系统吸引了大量开发者。本文将从功…...
人工智能--安全大模型训练计划:基于Fine-tuning + LLM Agent
安全大模型训练计划:基于Fine-tuning LLM Agent 1. 构建高质量安全数据集 目标:为安全大模型创建高质量、去偏、符合伦理的训练数据集,涵盖安全相关任务(如有害内容检测、隐私保护、道德推理等)。 1.1 数据收集 描…...

【Linux】自动化构建-Make/Makefile
前言 上文我们讲到了Linux中的编译器gcc/g 【Linux】编译器gcc/g及其库的详细介绍-CSDN博客 本来我们将一个对于编译来说很重要的工具:make/makfile 1.背景 在一个工程中源文件不计其数,其按类型、功能、模块分别放在若干个目录中,mak…...

使用SSE解决获取状态不一致问题
使用SSE解决获取状态不一致问题 1. 问题描述2. SSE介绍2.1 SSE 的工作原理2.2 SSE 的事件格式规范2.3 SSE与其他技术对比2.4 SSE 的优缺点 3. 实战代码 1. 问题描述 目前做的一个功能是上传多个文件,这个上传文件是整体功能的一部分,文件在上传的过程中…...

快速排序算法改进:随机快排-荷兰国旗划分详解
随机快速排序-荷兰国旗划分算法详解 一、基础知识回顾1.1 快速排序简介1.2 荷兰国旗问题 二、随机快排 - 荷兰国旗划分原理2.1 随机化枢轴选择2.2 荷兰国旗划分过程2.3 结合随机快排与荷兰国旗划分 三、代码实现3.1 Python实现3.2 Java实现3.3 C实现 四、性能分析4.1 时间复杂度…...