Redis Search系列 - 第一讲 创建索引
目录
- 一、引言
- 二、全文检索基本概念
- 三、创建索引
一、引言
Redis Search 是 Redis 的一个模块,用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询,并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性:
- 全文搜索:支持对文本字段进行全文搜索,包括分词、词干提取和高亮显示等功能。
- 多字段索引:可以对多个字段进行索引,包括文本、数值、地理位置等。
- 排序和分页:支持对搜索结果进行排序和分页,方便处理大数据量的查询结果。
- 聚合查询:支持对数据进行聚合操作,如分组、计数、求和等。
- 高性能:利用 Redis 的内存存储特性,提供高性能的搜索和索引功能。
二、全文检索基本概念
在全文检索(full-text search)中,以下术语是关键概念:
-
Index:索引是一个数据结构,用于快速查找包含特定词的文档。它通常是一个倒排索引(inverted index),其中存储了每个词及其在文档中的位置。
-
Document:文档是索引中的基本单位。它可以是任何形式的文本数据,如网页、文章、电子邮件等。在索引中,每个文档都有一个唯一的标识符。
-
Field:字段是文档中的一个部分或属性。例如,一个文档可能有标题字段、正文字段、作者字段等。字段可以单独索引和搜索。
-
Token:词元是从文本中提取的最小单位,通常是单词或词组。词元化(tokenization)是将文本分割成词元的过程。
-
Term:术语是索引中的一个条目,表示一个唯一的词元。术语是词元的规范化形式,通常经过词干提取(stemming,比如复数变单数、动词过去式变回原形)和小写转换。
-
Stop Word:停用词是指在索引和搜索过程中被忽略的常见词,如 “the”、“is”、“and” 等。停用词通常对搜索结果的相关性没有显著影响,因此被过滤掉以减少索引大小和提高搜索效率。

三、创建索引
创建索引后,Redis Stack会自动索引存储在数据库中的任何现有的、修改的或新创建的JSON文档。
- 对于现有文档,索引在后台异步运行,因此文档可用可能需要一段时间。
- 修改已有的文档和新创建的文档是同步索引的,因此在添加或修改命令完成时,文档将可用。
创建索引FT.CREATE命令语法:
FT.CREATE index [ON HASH | JSON] [PREFIX count prefix [prefix ...]] [FILTER {filter}][LANGUAGE default_lang] [LANGUAGE_FIELD lang_attribute] [SCORE default_score] [SCORE_FIELD score_attribute] [PAYLOAD_FIELD payload_attribute] [MAXTEXTFIELDS] [TEMPORARY seconds] [NOOFFSETS] [NOHL] [NOFIELDS] [NOFREQS] [STOPWORDS count [stopword ...]] [SKIPINITIALSCAN]SCHEMA field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] [NOINDEX] [ field_name [AS alias] TEXT | TAG | NUMERIC | GEO | VECTOR | GEOSHAPE [ SORTABLE [UNF]] [NOINDEX] ...]
FT.CREATE命令参数说明:
| 索引参数 | 说明 |
|---|---|
| index | 要创建的索引名称。如果该索引已存在,则返回错误回复(错误)“Index already exists”。 |
| SCHEMA | 在 SCHEMA关键字之后,声明要索引的字段: field_name [AS alias] field_name:对于HASH则哈希中的字段名称,对于 JSON则为JSON Path表达式 alias:定义field的别名,可使用此功能将复杂的 JSONPath 表达式与更易记住(且更易输入)的名称关联 |
| ON {data_type} | HASH (默认) 或JSON,即支持索引的Redis数据类型, 若值为JSON则需要安装 RedisJSON模块 |
| PREFIX {count} {prefix} | 需要被索引的key前缀,支持设置多个前缀,支持通配符*,默认*(表示全部) |
| FILTER {filter} | filter过滤表达式,如使用@__key表示新增或修改(just added/changed)的key,TODO A field can be used to set field name by passing ‘FILTER @indexName==“myindexname”’. |
| LANGUAGE {default_lang} | 文档索引的默认语言,默认值为:english, 可选值:[arabic, armenian, danish, dutch, english, finnish, french, german, hungarian, italian, norwegian, portuguese, romanian, russian, serbian, spanish, swedish, tamil, turkish, yiddish, chinese] |
| LANGUAGE_FIELD {lang_attribute} | 设置文档中的某个field表示具体的LANGUAGE |
| SCORE {default_score} | 文档的默认分值score,默认值:1.0 |
| SCORE_FIELD {score_attribute} | 设置文档中的某个field表示具体的SCORE,此field的值范围为:[0.0, 1.0],如不设置默认为1 |
| PAYLOAD_FIELD {payload_attribute} | 设置文档的某个属性用于存储文档的二进制安全负载字符串,可在查询时由自定义评分函数或重新返回给客户端。TODO is document attribute that you use as a binary safe payload string to the document that can be evaluated at query time by a custom scoring function or retrieved to the client. |
| MAXTEXTFIELDS | 强制Redis Search索引编码超过32个文本属性,这允许您使用FT.ALTER添加其他属性(超过32个)。为了提高效率,如果索引的文本属性少于32个,Redi Search会对索引进行不同的编码 |
| NOOFFSETS | 不存储文档的term偏移量,可以节省内存,但不允许精确搜索或高亮显示, 使用此选项则意味着NOHL |
| TEMPORARY {seconds} | 临时索引,设置超过n秒 - 未被搜索或新增 - 即删除该索引及其关联的数据 注: 普通索引删除(FT.DROPINDEX)时并不删除数据,需使用DD标志才可级联删除 |
| NOHL | 不支持高亮highlighting,可以节约存储和内存, 使用此选项则意味着NOOFFSETS |
| NOFIELDS | 不存储每个term的属性位,可以节省内存,但不允许按特定属性进行过滤 |
| NOFREQS | 避免在索引中保存term频率,可以节省内存,但不允许基于文档中给定term的频率进行排序 |
| STOPWORDS {count} | 使用自定义停词(stop word)列表设置索引,在索引和搜索时忽略这些词。{count} 是停用词的数量,后面是长度正好为 {count} 的停词参数列表。 如果未设置,FT.CREATE 将使用默认的停词列表。 如果 {count} 设置为 0,则索引没有停用词。 |
| SKIPINITIALSCAN | 创建索引时忽略扫描及索引已有数据 |
注意事项
- 属性数量限制:RediSearch 支持每个模式最多 1024 个属性,其中最多 128 个可以是 TEXT 属性。在 32 位构建中,最多 64 个属性可以是 TEXT 属性。属性越多,索引越大,因为每增加 8 个属性,每个索引记录需要额外一个字节进行编码。如果不需要按文本属性进行过滤,可以始终使用 NOFIELDS 选项,不将属性信息编码到索引中,以节省空间。这仍然允许按数值和地理属性进行过滤。
- 在集群数据库中运行:在集群数据库中有多个索引时,需要确保要索引的文档与索引位于同一分片上。可以通过按索引名称标记文档来实现这一点,例如:
- HSET doc:1{idx}
- FT.CREATE idx … PREFIX 1 doc: …
- 当在集群数据库中运行Redi搜索时,您可以使用RSCoordinator跨分片跨索引。在这种情况下,上述规定不适用。
在SCHEMA中field支持的类型:
| Field类型 | 说明 |
|---|---|
| TEXT | 允许全文(full-text)检索(会被分词、倒排索引) |
| TAG | 由逗号分隔的多标签文本,允许精准匹配(exact-match),如分类、主键、标签等的精确匹配 |
| NUMERIC | 数字范围检索 |
| GEO | 地址位置(Point),格式:经度,纬度,允许圆周范围检索 |
| VECTOR | 向量(多值数组)相似度检索,需要dialect 2及以上(introduced in RediSearch v2.4) , 关于VECTOR的详细说明可参见:Vectors |
| GEOSHAPE | 允许多边形(polygon)检索,需使用WKT格式:POLYGON((x1 y1, x2 y2, …) , 支持的坐标系:
|
在SCHEMA中field支持的参数说明:
| 参数 | 说明 |
|---|---|
| SORTABLE | NUMERIC、TAG、TEXT 或 GEO 属性可以有一个可选的 SORTABLE 参数。 当用户按此属性的值排序结果时,结果可用的延迟非常低。 请注意,这会增加内存开销,因此请考虑不要在大型文本属性上声明它。 可以在没有 SORTABLE 选项的情况下对属性进行排序,但延迟不如使用 SORTABLE 时好。 |
| UNF | 默认情况下,对于哈希(不适用于 JSON),SORTABLE 会对索引值进行规范化(字符设置为小写,去除变音符号)。使用未规范化形式(UNF)时,可以禁用规范化并保留值的原始形式。 对于 JSON,UNF 在 SORTABLE 时是隐式的(禁用规范化)。 |
| NOSTEM | 索引值时禁用词干提取(stemming)。这对于诸如专有名称之类的内容可能是理想的。 |
| NOINDEX | 设置属性不被索引, 修改NOINDEX属性不会导致文档的完全重新索引。 有NOINDEX 且 没有 SORTABLE,则属性将被索引忽略。 |
| PHONETIC {matcher} | 将文本属性声明为 PHONETIC 将在搜索中默认执行语音匹配。强制性的 {matcher} 参数指定使用的语音算法和语言。支持以下匹配器: dm:en - 英语的双重音码 dm:fr - 法语的双重音码 dm:pt - 葡萄牙语的双重音码 dm:es - 西班牙语的双重音码 有关更多信息,请参见:Phonetic matching |
| WEIGHT {weight} | 适用于 TEXT 属性,声明在计算结果准确性时此属性的重要性。这是一个乘数因子,如果未指定,则默认为 1。 |
| SEPARATOR {sep} | 适用于 TAG 属性,指示属性中包含的文本如何拆分为单个标签。默认值为,且参数值必须是单个字符。 |
| CASESENSITIVE | 适用于TAG 属性,保留标签的原始字母大小写。如果未指定,则字符将转换为小写。 |
| WITHSUFFIXTRIE | 对于 TEXT 和 TAG 属性,保留一个包含所有匹配后缀的术语的后缀字典树。 它用于优化包含(foo)和后缀(*foo)查询。否则,将对字典树进行暴力搜索。 如果某些字段存在后缀字典树,则检索时会忽略其他字段 |
| INDEXEMPTY | 对于 TEXT 和 TAG 属性,在 v2.10 中引入, 允许您索引和搜索 空字符串。默认情况下,空字符串不会被索引, 更多使用说明参见:Index missing or empty values |
| INDEXMISSING | 对于所有字段类型,在 v2.10 中引入, 允许您搜索 缺失值,即不包含特定字段的文档。注意: 字段为空值与文档缺少值之间的区别。 默认情况下,缺失值不会被索, 更多使用说明参见:Index missing or empty values |
FT.CREATE命令示例:
# 创建JSON索引
FT.CREATE itemIdx ON JSON PREFIX 1 item:
SCHEMA $.name AS name TEXT $.description as description TEXT $.price AS price NUMERIC $.colors.* AS colors TAG $.location AS loc GEO
相关文章:
Redis Search系列 - 第一讲 创建索引
目录 一、引言二、全文检索基本概念三、创建索引 一、引言 Redis Search 是 Redis 的一个模块,用于提供全文搜索和二级索引功能。它允许在 Redis 数据库中执行复杂的搜索查询,并支持多种数据类型和查询操作。以下是 Redis Search 的一些关键特性&#x…...
bat 重置 Navicat 试用
bat 脚本文件 echo off set dnInfo set dn2ShellFolder set rpHKEY_CURRENT_USER\Software\Classes\CLSID :: reg delete HKEY_CURRENT_USER\Software\PremiumSoft\NavicatPremium\Registration14XCS /f %针对<strong><font color"#FF0000">navicat<…...
【真题笔记】09-12年系统架构设计师要点总结
【真题笔记】09-12年系统架构设计师要点总结 41 视图DSSA(特定领域架构)集成系统数据库管理设计模式操作符运算符综合布线备份数据库集成工作流技术软件质量保证需求管理需求开发结构化方法企业战略数据模型事务数据库主题数据库系统设计原型开发静态分析…...
Node + HTML搭建自己的ChatGPT [基础版]
文章目录 明明外面的ChatGPT产品那么多了,为什么要在本地搭建自己的ChatGPT呢?整体架构流程1. 获取APIKey1.1 常见的AI模型1.2 为什么选DeepSeek1.3 怎么获取DeepSeek的APIKey1.3.1 注册并登录DeepSeek开放平台1.3.2 选择API keys1.3.3 创建API key1.3.4…...
关于小程序审核需要提交订单列表页面path的修改办法
小程序又又又又又搞事情啦~~~ 从12月31号起,所有有订单生成逻辑的小程序在审核过程中,必须要填写订单列表页面的path才可以进行审核 在代码层面上会有一些小的改动,下面就告诉大家怎么去修改吧。 第一步…...
使用 Nginx 在同一端口部署两个前端项目并配置子路径
在现代 Web 开发中,我们经常需要在同一台服务器上部署多个前端项目。这不仅可以节省资源,还可以简化管理。本文将指导你如何使用Nginx在同一端口上部署两个前端项目,并通过配置子路径来区分它们。 环境准备 首先,我们需要准备两…...
怎么选择独立站SEO效果好的wordpress模板
选择独立站SEO效果好的WordPress模板需要考虑多个因素,包括模板的代码质量、加载速度、SEO友好性以及与SEO插件的兼容性。以下是一些具体的建议: 1. 代码简洁:选择代码简洁的WordPress主题,因为干净的代码不仅使网站更加安全可靠…...
深度学习速通系列:超长法律文件隐私过滤(基于预训练模型Bert)
法律文件隐私过滤 网上使用bert的中文模型进行命名识别教程少的可怜,摸索了一周的时间,硬是把法律文书的人名全部识别出来了,目前可以达到98.9999%(开玩笑的,不过准确率保守估计是有90%以上).注意:这个法律文书目前只是针对裁决书,其他还没测试过,可支持超长文本识别 github仓…...
【数据结构与算法】之队列详解
队列(Queue)是一种重要的线性数据结构,遵循先进先出、后进后出的原则。本文将更详细地介绍队列的概念、特点、Java 实现以及应用场景。 模运算小复习: a % b 的值总是小于b 5 % 4 1 5 % 2 1 1 % 5 1 4 % 5 4 1. 队列…...
python最新h5st4.9.1调用源码(2025-10-25)
废话不多说,直接上源码,需要技术支持的私。 一、调用js方法: # -*- coding: utf-8 -*- """ -------------------------------------------------Author: byc6352File: jdh5st.pyTime: 2024/10/25 08:03Technical Support:by…...
微软投资比特币:将总资产1%投资于BTC?股东投票决定最终结果!
随着比特币及其他加密货币在全球金融市场中的影响力不断增加,科技巨头微软(Microsoft)也开始考虑是否在其资产负债表上纳入比特币。根据近期提交给美国证券交易委员会(SEC)的文件,微软将在2024年12月10日举…...
vue中标签的ref和id的用法和区别优缺点
Vue 3 中 ref 和 id 的用法详解:区别、优缺点及使用场景 在 Vue 3 开发中,我们经常需要获取 DOM 元素或组件实例来进行交互。Vue 提供了 ref 和原生 HTML 属性 id 来实现这种操作。虽然 ref 和 id 都能标识并操作元素,但它们的使用方式、优缺…...
Python基础知识-文件篇
Python 的文件操作是指与文件进行交互的各种技术和方法,包括读取、写入、关闭文件等。以下是对 Python 文件操作的详细介绍: 打开文件 要进行文件操作,首先需要打开文件。Python 提供了内置的 open() 函数。 file open(example.txt, r) …...
MacOS 环境下 VSCode 的 C++ 环境搭建
MacOS 环境下 VSCode 的 C 环境搭建 编译器安装 编译器可以选择 Clang 或者 GCC,在 MacOS 上 Clang 的安装更为简单一些。 Clang(推荐) 打开终端输入命令, clang -v 查看是否已经安装。 如果已经安装,会输出类似于如下的信息࿱…...
WPF样式
WPF(Windows Presentation Foundation)是微软推出的一种用于构建Windows应用程序的UI框架。它提供了一套丰富的控件、图形和动画功能,允许开发者创建具有丰富视觉效果的现代用户界面。WPF中的样式(Styles)是一种强大的…...
Vue Router 如何配置 404 页面?
在 Vue 项目中,如果你想配置一个 404 页面(即找不到页面提示),你需要通过 Vue Router 来设置。这通常通过将路由配置中的 *(通配符)指向一个 404 组件来实现。 // 定义路由部分 const routes [{path: /,c…...
【C++:智能指针】
什么是内存泄漏 内存泄漏是指因为疏忽或者错误造成程序对一部分不再使用的内存没有进行释放的情况,内存释放不是指内存在物理上的消失,而是应用程序分配某段内存时,因设计错误,失去了对该内存的控制,从而造成内存浪费 …...
onlyoffice docker启用jwt并生成jwt
一、说明 本文是docker教程,linux/win的安装版本也类似,只需要修改配置文件中的secrt就可以了【Configuring JWT for ONLYOFFICE Docs - ONLYOFFICE】 二、正文开始 docker启动时候如果不想使用jwt,加上参数-e JWT_ENABLEDfalse就可以了&…...
希尔贝壳受邀参加首届“数据标注产业大会暨供需对接会”
为推动数据标注产业高质量发展,促进数据标注基地快速形成面向产业的规模化服务能力。10月22日,由国家数据局数字科技和基础设施建设司指导的首届“数据标注产业大会暨供需对接会”在北京召开,希尔贝壳受邀参加。 大会旨在进一步推动数据标注…...
35.第二阶段x86游戏实战2-C++遍历技能
免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 本人写的内容纯属胡编乱造,全都是合成造假,仅仅只是为了娱乐,请不要…...
UR 协作机器人「三剑客」:精密轻量担当(UR7e)、全能协作主力(UR12e)、重型任务专家(UR15)
UR协作机器人正以其卓越性能在现代制造业自动化中扮演重要角色。UR7e、UR12e和UR15通过创新技术和精准设计满足了不同行业的多样化需求。其中,UR15以其速度、精度及人工智能准备能力成为自动化领域的重要突破。UR7e和UR12e则在负载规格和市场定位上不断优化…...
全面解析各类VPN技术:GRE、IPsec、L2TP、SSL与MPLS VPN对比
目录 引言 VPN技术概述 GRE VPN 3.1 GRE封装结构 3.2 GRE的应用场景 GRE over IPsec 4.1 GRE over IPsec封装结构 4.2 为什么使用GRE over IPsec? IPsec VPN 5.1 IPsec传输模式(Transport Mode) 5.2 IPsec隧道模式(Tunne…...
【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的“no matching...“系列算法协商失败问题
【SSH疑难排查】轻松解决新版OpenSSH连接旧服务器的"no matching..."系列算法协商失败问题 摘要: 近期,在使用较新版本的OpenSSH客户端连接老旧SSH服务器时,会遇到 "no matching key exchange method found", "n…...
Razor编程中@Html的方法使用大全
文章目录 1. 基础HTML辅助方法1.1 Html.ActionLink()1.2 Html.RouteLink()1.3 Html.Display() / Html.DisplayFor()1.4 Html.Editor() / Html.EditorFor()1.5 Html.Label() / Html.LabelFor()1.6 Html.TextBox() / Html.TextBoxFor() 2. 表单相关辅助方法2.1 Html.BeginForm() …...
NPOI操作EXCEL文件 ——CAD C# 二次开发
缺点:dll.版本容易加载错误。CAD加载插件时,没有加载所有类库。插件运行过程中用到某个类库,会从CAD的安装目录找,找不到就报错了。 【方案2】让CAD在加载过程中把类库加载到内存 【方案3】是发现缺少了哪个库,就用插件程序加载进…...
【p2p、分布式,区块链笔记 MESH】Bluetooth蓝牙通信 BLE Mesh协议的拓扑结构 定向转发机制
目录 节点的功能承载层(GATT/Adv)局限性: 拓扑关系定向转发机制定向转发意义 CG 节点的功能 节点的功能由节点支持的特性和功能决定。所有节点都能够发送和接收网格消息。节点还可以选择支持一个或多个附加功能,如 Configuration …...
「全栈技术解析」推客小程序系统开发:从架构设计到裂变增长的完整解决方案
在移动互联网营销竞争白热化的当下,推客小程序系统凭借其裂变传播、精准营销等特性,成为企业抢占市场的利器。本文将深度解析推客小程序系统开发的核心技术与实现路径,助力开发者打造具有市场竞争力的营销工具。 一、系统核心功能架构&…...
深度剖析 DeepSeek 开源模型部署与应用:策略、权衡与未来走向
在人工智能技术呈指数级发展的当下,大模型已然成为推动各行业变革的核心驱动力。DeepSeek 开源模型以其卓越的性能和灵活的开源特性,吸引了众多企业与开发者的目光。如何高效且合理地部署与运用 DeepSeek 模型,成为释放其巨大潜力的关键所在&…...
Android屏幕刷新率与FPS(Frames Per Second) 120hz
Android屏幕刷新率与FPS(Frames Per Second) 120hz 屏幕刷新率是屏幕每秒钟刷新显示内容的次数,单位是赫兹(Hz)。 60Hz 屏幕:每秒刷新 60 次,每次刷新间隔约 16.67ms 90Hz 屏幕:每秒刷新 90 次,…...
统计学(第8版)——统计抽样学习笔记(考试用)
一、统计抽样的核心内容与问题 研究内容 从总体中科学抽取样本的方法利用样本数据推断总体特征(均值、比率、总量)控制抽样误差与非抽样误差 解决的核心问题 在成本约束下,用少量样本准确推断总体特征量化估计结果的可靠性(置…...
