当前位置：首页 > news >正文

Redis系列---数据管理

news 2026/5/23 20:45:37

目录标题

数据类型
- String
- - 优点
  - 缺点
  - 底层结构
  - 使用场景
  - 实际使用
- List
- - 优点
  - 缺点
  - 底层结构
  - 使用场景
  - 实际使用
- Hash
- - 优点
  - 缺点
  - 底层结构
  - 使用场景
  - 实际使用
- Set
- - 优点
  - 缺点
  - 底层结构
  - 使用场景
  - 实际使用
- Zset
- - 优点
  - 缺点
  - 底层结构
  - 使用场景
  - 实际使用
- HyperLogLog
- - 优点
  - 缺点
  - 底层结构
  - 使用场景
  - 实际使用
- GEO
- - 优点
  - 缺点
  - 底层结构
  - 使用场景
  - 实际使用
- Stream
- - 简介
  - 使用场景
  - 实际使用
- BitMap
类型抉择
空间占用
数据特征
数据删除策略
- 定时删除
- 惰性删除
- 定期删除
数据淘汰策略

数据类型

redis中value的最大容量默认是 512M，各个数据类型初始容量如下：

String：512M
Set，ZSet，List，Hash：2^32 -1 个元素

总结：任何系统都是在内存和性能之间不断抉择，使用最少的内存提供可接受的反应速度。redis亦如此。

String

优点

简单直观，便捷存储单个元素/散列元素。提供字符串函数，append等

缺点

占用过多的键，内存占用量较大，同时用户信息内聚性比较差。难以管理

底层结构

简单动态字符串（simple dynamic string），字节数组+未用空间+已用空间，预分配空间，方便快速扩容及确定字段长度，牺牲空间换时间

使用场景

可以存储任意类型的数据，包括文本、数字等。

实际使用

热点用户个人信息
库存计数器
分布式锁
项目奖品策略
广告点击次数
验证码

List

优点

存储有序数据，支持从列表的两端进行元素的插入和删除操作。

缺点

数据耦合高，取内部元素相对耗时

底层结构

老版本是双向链表+压缩列表，双向链表即pre+value+next，压缩链表即分配一段连续内存，省掉pre和next的损耗，前者适合大量元素，后者适合少量元素；

新版本采用快速链表，是前两者的融合，pre+小型双向链表+next，即将长度较大的双向链表进行分段存储。

压缩列表ziplist （插入元素过多或字符串太大，就需要调用 realloc 扩展内存）
双向链表linkedlist （需附加指针prev 和 next，较浪费空间，加重内存的碎片化）

因为双向链表占用的内存比压缩列表要多，所以当创建新列表时，会优先考虑使用压缩列表，并且在有需要的时候才从压缩列表实现转换到双向链表实现。

压缩列表转化成双向链表条件有两个：

列表中某个字符串值超过 list_max_ziplist_value（默认64字节）
列表的元素个数超过 list_max_ziplist_entries（默认 512个）

使用场景

有序消息，或者固定容量数据。例如消息队列、最新消息排行

实际使用

消息队列虽然可以但不建议因为redis会丢消息，它是缓存不是持久存储，除非是不重要的消息；

广告展示，默认展示最新条数，设置长度固定的list，每次从顶端插入，从尾端剔除元素；
中奖名单，同样固定容量，顶端插入提出尾部元素。

Hash

优点

通过一个key对应多个字段和对应的值，适用于存储对象属性、配置信息等复杂数据结构。

缺点

数据占用空间过大时增删耗时旧，甚至引起reids卡顿

底层结构

压缩列表+hashtable，与list的压缩列表不同的是，它存储的不仅是feild+value交替存储；hashtable即java的hashmap，数组+链表。
渐进式扩容：新老hashtable交替执行，即旧数据慢慢同步至新hashtable中。

新建hash值时优先使用压缩列表实现，压缩列表使用更加紧凑的连续内存结构可以节省空间，其读写复杂度为O（n）；当数据量过大或者字段过多读写效率减低，此时会转化为hashtable，占用更多的内存，读写复杂度降低为O（1）。转化条件：

哈希类型元素个数大于hash-max-ziplist-entries配置（默认512个）
有字段值大于hash-max-ziplist-value配置（默认64字节）

使用场景

总是需要获取单一属性的值，数据既耦合又方便存取。

实际使用

地理位置信息对应关系
项目配置信息

Set

优点

无序集合，可以存储多个字符串元素，并提供高效的集合操作，如交集、并集、差集等。

缺点

大量数据会导致redis卡顿

底层结构

intset+hashTable；采用hashTable存储，只是value统一设置为null，为什么不用ziplist来节省空间是因为必须保证元素的唯一性。

inset可理解为数组，使用intset存储必须满足下面两个条件，否则使用hashtable，条件如下：

对象保存的所有元素都是整数值（int）
对象保存的元素数量不超过512个

使用场景

需要进行集合运算的数据。

例如文章标签管理-可根据多个标签聚合查询文章；
社交网络好友关系-将每个用户的好友列表存储在Redis的集合中，使用集合操作可以快速判断两个用户是否是好友，还可以进行好友推荐等功能。

实际使用

经销商的门店服务列表，业务员可以交叉负责经销商底下的门店，利用经销商和门店的归属关系可以去重聚合出经销商的门店列表；
策略集聚合，一个转盘会对应多个策略集，通过条件判断出新老用户概念，确定出需要聚合哪些的策略。

Zset

优点

存储多个字符串元素，并为每个元素关联一个分数，支持按照分数进行排序和范围查找。

缺点

内存开销：Zset是基于跳表和哈希表实现的，存储数据时，会占用比简单的集合或列表更多的内存。因此，在存储较大规模的数据时，内存开销可能会显著增加。
性能开销：在一些特定操作中，如按得分范围查询（ZRANGEBYSCORE）或根据排名进行范围查询（ZRANGE），操作的复杂度为O(log(N) + M)，其中N是集合的大小，而M是返回的小集合大小。这与其他类型的数据结构相比，可能在性能上有所逊色，尤其是在处理大数据量时。
数据排序：虽然Zset提供了自动排序功能，但在某些情况下（如频繁更新得分），这可能导致性能下降，尤其是在需要多次更新和读取的场景下。

底层结构

hashtable+skiplsit，hashtable存储k-score， skiplist中的每个node存储层级+value+score，插入时按照score排序。

当元素数量不多时，hashtable和SkipList的优势不明显，而且更耗内存。因此zset还会采用ZipList结构来节省内存。

查询效率和红黑树相当。

使用场景

需要排序的数据

实际使用

业务员的补货数量排名。

HyperLogLog

优点

在输入元素的数量或者体积非常非常大时，计算基数所需的空间总是固定的、并且是很小的。

缺点

HyperLogLog 只会根据输入元素来计算基数，而不会储存输入元素本身，所以 HyperLogLog 不能像集合那样，返回输入的各个元素。

底层结构

类似于java的set

使用场景

比如数据集 {1, 3, 5, 7, 5, 7, 8}，那么这个数据集的基数集为 {1, 3, 5 ,7, 8}, 基数(不重复元素)为5。基数估计就是在误差可接受的范围内，快速计算基数。

实际使用

需要用set的地方都可以使用

GEO

优点

进行坐标计算

缺点

相较于一些专门的地理空间数据库（如 PostGIS），Redis Geo 的地理空间索引功能较为基本，可能不适合需要复杂空间分析的应用。

底层结构

有序集合（Sorted Set）：Redis 使用有序集合来存储地理位置数据，每个地理位置由一个成员（通常是地点的名称或标识符）和对应的分值（经纬度信息）组成。分值是通过将经纬度转化为一个可以唯一标识该点的整数值。

使用场景

地理位置计算

实际使用

附近门店功能

Stream

简介

Stream 是 Redis 5.0 版本新增加的数据结构，主要用于消息队列（MQ，Message Queue），Redis 本身是有一个 Redis 发布订阅 (pub/sub) 来实现消息队列的功能。
但它有个缺点就是消息无法持久化，如果出现网络断开、Redis 宕机等，消息就会被丢弃。

使用场景

在处理可丢失的信息时可以采用该方式，但一定要配合兜底的定时任务，防止消息丢失后完全处理失败。

实际使用

入金后修改只读账号状态

BitMap

Bitmap数据类型可以看作是一种特殊的字符串，它所占用空间中的每一个bit都只能是0或1。Redis内部将每个字符（bit）作为一个元素来处理，因此我们可以在非常小的空间中存储大量的位信息。这使得Bitmap非常适合于存储和处理大规模的布尔型信息，如用户的在线状态、活跃用户、用户访问记录等。

统计消费者的参与情况，和业务员的工作情况。

类型抉择

多个集合操作（聚合操作）----用Set；
集合数据排序（排序操作） ---- 分页排序建议使用ZSet；
集合数据只有0、1两种状态（二值型数据）----------- 0/1状态数据建议使用Bitmap；
集合中不重复元素个数（基数统计）----如果数据量达到亿级的话建议使用HyperLogLog。

当然以上都是套话，任何抉择都一样，搞清楚自己的需求，对症下药即可，当你对各种数据类型的特性了解之后，自然就可以做出最正确的选择。何时何地何事都如此。

空间占用

以String类型计算，k是tc:jdb:/UZJXTIP0CTZ6L0 v是32010670；

2.4kw 5G
1ww 25G

总结起来就是 1个kv占用218B。而在计算机中，一个英文字母/整数通常占用1个字节（1 B）。这是因为在使用 ASCII 编码时，单个英文字母（无论是大写还是小写）或者整数都可以用一个字节表示。

所以redis的空间占用大概是字节数的7倍。

数据特征

Redis是一种内存级数据库，所有数据均存放在内存中，内存中的数据可以通过TTL指令获取其状态。TTL返回的值有三种情况：正数，-1，-2

正数：代表该数据在内存中还能存活的时间
-1：永久有效的数据
-2：已经过期的数据或被删除的数据或未定义的数据

redis中的过期时间是单独存储的，Hash结构，field是内存地址，value是过期时间，保存了所有key的过期描述，在最终进行过期处理的时候，对该空间的数据进行检测，当时间到期之后通过field找到内存该地址处的数据，然后进行相关操作。

在这里插入图片描述

数据删除策略

删除策略就是针对已过期数据的处理策略，已过期的数据是真的就立即删除了吗？其实并不是，redis有多种删除策略，在不同的场景下使用不同的删除方式会有不同效果。

不同的删除策略就是对内存占用与CPU占用之间的不同侧重。目前有三种删除策略：

定时删除：时间换空间，通过对cpu的无间断占用节约内存
惰性删除：空间换时间，通过对内存的占用节约cpu资源
定期删除：折中方案，花费少量cpu资源节约少量内存

定时删除

创建一个定时器，当key设置有过期时间，且过期时间到达时，由定时器任务立即执行对键的删除操作
在这里插入图片描述

惰性删除

数据到达过期时间，不做处理，等该数据被访问时进行过期判断。如果未过期，直接返回数据，如果已过期，先删除数据，再返回数据不存在
在这里插入图片描述

定期删除

定时删除和惰性删除这两种方案都是走的极端，那有没有折中方案？是的，redis还引入了一种定期删除策略，进行了空间和性能的折中处理

已知redis 会将每个设置了过期时间的 key 放入到一个独立的字典中，该方案是默认每秒进行十次过期扫描（100ms一次），过期扫描不会遍历过期字典中所有的 key，而是采用了一种简单的贪心策略。

从过期字典中随机 20 个 key；
删除这 20 个 key 中已经过期的 key；
如果过期的 key 比率超过 1/4，那就重复步骤 1；

目录标题

数据类型

String

优点

缺点

底层结构

使用场景

实际使用

List

优点

缺点

底层结构

使用场景

实际使用

Hash

优点

缺点

底层结构

使用场景

实际使用

Set

优点

缺点

底层结构

使用场景

实际使用

Zset

优点

缺点

底层结构

使用场景

实际使用

HyperLogLog

优点

缺点

底层结构

使用场景

实际使用

GEO

优点

缺点

底层结构

使用场景

实际使用

Stream

简介

使用场景

实际使用

BitMap

类型抉择

空间占用

数据特征

数据删除策略

定时删除

惰性删除

定期删除

数据淘汰策略

相关文章：