【系统设计】数据库压缩技术详解:从基础到实践(附Redis内存优化实战案例)
概述
在现代数据库系统中,压缩技术对于提高存储效率和加速查询性能至关重要。特别是在处理大规模数据时,压缩能够极大地减少存储空间,并优化查询性能。本文将总结几种常见的压缩方式,并通过详细的解释和示例清晰地展示每种压缩方法。此外,我们将结合Redis的实际问题,提供一个应用案例。
常见的压缩技术
1. 运行长度编码(Run-length Encoding, RLE)
运行长度编码通过记录重复值的次数来实现压缩,特别适用于数据中有大量连续重复值的情况。
示例数据
A, A, A, B, B, B, C, C, A, A
压缩后的表示
(A, 3), (B, 3), (C, 2), (A, 2)
详细解释
运行长度编码对连续相同的元素进行压缩,通过记录元素及其重复次数来节省存储空间。对于长序列的相同值非常有效,能够显著减少内存占用。
示例图
+-----+-----+-----+-----+-----+-----+
| A | A | A | B | B | B |
+-----+-----+-----+-----+-----+-----+
| RLE: (A,3) | RLE: (B,3) |
+-----+-----+-----+-----+-----+-----+
2. 字典编码(Dictionary Encoding)
字典编码通过为重复值创建一个字典,并用较小的标识符替代原始值。
示例数据
A, B, A, C, B, A
字典
A -> 1
B -> 2
C -> 3
压缩后的表示
1, 2, 1, 3, 2, 1
详细解释
字典编码对于重复值较多且基数较低的列压缩效果显著。通过用短标识符替换原始数据,可以大幅度节省存储空间。
示例图
Original:
+-----+-----+-----+-----+-----+-----+
| A | B | A | C | B | A |
+-----+-----+-----+-----+-----+-----+Dictionary:
+-----+-----+-----+
| A | B | C |
+-----+-----+-----+
| 1 | 2 | 3 |
+-----+-----+-----+Compressed:
+-----+-----+-----+-----+-----+-----+
| 1 | 2 | 1 | 3 | 2 | 1 |
+-----+-----+-----+-----+-----+-----+
3. 位图压缩(Bitmap Encoding)
位图压缩适用于基数较低的列(即列中的可能值较少),为每一个可能的值创建一个位图,标识每行是否具备该值。
示例数据
A, B, A, C, B, A
位图表示
A 位图: 1, 0, 1, 0, 0, 1
B 位图: 0, 1, 0, 0, 1, 0
C 位图: 0, 0, 0, 1, 0, 0
详细解释
位图压缩对于基数较低的列(如布尔列或状态列)非常有效,能够加速查询和布尔操作(如 AND
、OR
、NOT
)。
示例图
Original Column:
+-----+-----+-----+-----+-----+-----+
| A | B | A | C | B | A |
+-----+-----+-----+-----+-----+-----+Bitmaps:
A: 1, 0, 1, 0, 0, 1
B: 0, 1, 0, 0, 1, 0
C: 0, 0, 0, 1, 0, 0
4. 差值编码(Delta Encoding)
差值编码适用于数值型数据,特别是当数据具有递增或递减的趋势时。它通过存储相邻值之间的差值来压缩数据。
示例数据
100, 101, 103, 106, 110
压缩后的表示
100, +1, +2, +3, +4
详细解释
差值编码对于递增或递减的数值数据非常有效,可以极大地减少存储空间。它通过记录相邻数据的变化量而不是实际值来实现压缩。
示例图
Original:
+-----+-----+-----+-----+-----+
| 100 | 101 | 103 | 106 | 110 |
+-----+-----+-----+-----+-----+Delta Encoded:
+-----+----+----+----+----+
| 100 | +1 | +2 | +3 | +4 |
+-----+----+----+----+----+
5. 前缀压缩(Prefix Encoding)
前缀压缩主要用于字符串列,当多个字符串有相同的前缀时,可以将前缀提取出来,减少重复存储。
示例数据
apple, application, apply, banana, band, banner
压缩后的表示
apple, applic(ation), apply, ban(ana), ban(d), ban(ner)
详细解释
前缀压缩对于长字符串列,尤其是有共同前缀的字符串,压缩效果显著。通过提取和共享公共前缀,能够减少存储空间。
示例图
Original Strings:
+-------------+--------------+------+--------+------+--------+
| apple | application | apply| banana | band | banner |
+-------------+--------------+------+--------+------+--------+Compressed Representation:
+-------+--------------------+-------+
| Prefix| Suffixes | Result|
+-------+--------------------+-------+
| "app" | ["le", "lication", "ly"] -> "apple", "application", "apply"
| "ban" | ["ana", "d", "ner"] -> "banana", "band", "banner"
+-------+--------------------+-------+
Redis中的压缩应用:实例分析
使用Redis优化内存的实践案例
在本章中,我们将讨论Redis在实际使用中的一个典型问题,以及如何通过优化数据编码来解决 Redis 进程占用内存过大的问题。通过本章,你将了解到如何使用字典编码和Lua脚本来减少Redis的内存占用,提高系统的稳定性。
Redis 是一个开源的、基于内存存储的键值对数据库,支持多种数据结构,如字符串、哈希表、列表、集合和有序集合等。由于其高性能和多功能性,Redis 被广泛应用于缓存、会话管理和实时数据分析等场景。
Redis 的高性能部分归功于其将数据存储在内存中的设计。然而,正因为如此,如果数据量过大且没有做好内存管理,可能会引发系统内存不足(Out Of Memory, OOM)的情况,导致系统崩溃。
问题描述
在某个实际项目中,Redis 在运行一段时间后,系统发生了OOM(内存不足)错误。Linux 系统日志中显示,系统随机杀死了一个进程,这是典型的OOME(Out Of Memory Error)表现,最终导致整个系统崩溃。
通过深入分析,发现问题的主要原因是:
- Redis 进程占用过多内存。
- 在进行 DUMP 操作(即备份或持久化内存数据到硬盘)时,内存暴增,导致系统内存耗尽。
由于数据的存储格式较为复杂,且数据标识符长度较大,Redis 内存随着数据量的增加而迅速膨胀。
数据存储结构分析
-
原始数据格式(Key-Value 存储):
- 使用 Redis 的 Hash 结构,数据键的格式为:
{数据唯一标识}:{数据周期}
,对应的数据则存储在这个 Hash 中。
- 使用 Redis 的 Hash 结构,数据键的格式为:
-
数据关联关系:
- 使用 Redis 的 Set 结构,存储格式为:
Set {数据唯一标识}:{数据周期}
,其中值为{数据唯一标识}
。
- 使用 Redis 的 Set 结构,存储格式为:
-
数据索引:
- 使用 Redis 的 Set 结构,存储格式为:
Set {数据周期}
,其中值为当前周期所有的{数据唯一标识}
。
- 使用 Redis 的 Set 结构,存储格式为:
这些数据标识大约占据了 255 个字符,导致 Redis 内存占用过大,尤其在数据量较多时,内存使用快速增加。
解决方案
为了有效减少 Redis 内存占用,我们采用了 字典编码 和 前缀编码 进行优化,核心思路是通过将长字符串的标识符映射为唯一的数字来减少内存开销。
改进后的思路
-
将数据标识映射到唯一的数字标识:
- 我们将原本的
{数据唯一标识}
映射为一个数字 ID,这样可以大幅减少存储键的内存占用。
- 我们将原本的
-
使用 Lua 脚本保证唯一性和原子性:
- 为了保证不同进程访问相同的
{数据唯一标识}
能够得到相同的数字 ID,我们使用 Redis 的 Lua 脚本实现这一逻辑。 - 在 Lua 脚本中,如果
{数据唯一标识}
不存在,使用 Redis 的INCRBY
命令生成一个唯一的数字 ID;如果标识已存在,则直接返回对应的数字 ID。 - Lua 脚本在 Redis 中具有 原子性,确保操作是线程安全的,不会出现并发问题。
- 为了保证不同进程访问相同的
Lua 脚本实现
下面是用于处理数据标识映射的 Lua 脚本:
local key = KEYS[1] -- {数据唯一标识}
local exists = redis.call('EXISTS', key)if exists == 1 then-- 如果标识已存在,返回对应的数字 IDreturn redis.call('GET', key)
else-- 如果标识不存在,生成新的数字 IDlocal newId = redis.call('INCRBY', 'global_id', 1)redis.call('SET', key, newId)return newId
end
- 步骤说明:
KEYS[1]
是传入的{数据唯一标识}
。- 通过
EXISTS
检查该标识是否已经存在。 - 如果存在,直接使用
GET
返回对应的数字 ID。 - 如果不存在,则通过
INCRBY
生成新的 ID,并将标识与生成的 ID 关联存储。
优化结果
通过上述优化措施,原本平均每个数据标识占用的 255 个字符,通过映射为数字 ID,内存占用得到了显著的减少。以下是优化前后的对比:
- 优化前:每个
{数据唯一标识}
以字符串形式存储,平均长度为 255 字节。 - 优化后:每个
{数据唯一标识}
被映射为整数 ID,平均长度为 8 字节(假设使用 64 位整数)。
这种优化方式不仅减小了内存占用,还使得系统更加稳定,避免了OOM错误的发生,提升了系统的持久化性能。
本次优化展示了通过 字典编码 和 前缀编码 技术,结合 Redis 的 Lua 脚本,如何有效减少内存占用,解决 Redis 进程占用内存过大的问题。通过减少冗长数据标识的存储开销,我们成功避免了系统的OOM错误。
这种存储优化思路在处理大量数据存储时非常有效,特别是在内存有限的场景下,可以显著提高 Redis 的使用效率。
参考链接:
- Redis官方文档
- Lua脚本使用指南
你可以根据实际情况调整Redis的配置和数据存储结构,确保在高并发和大数据场景下的稳定性。
结论
数据压缩技术在现代数据库系统中扮演着重要角色。根据不同类型的列和数据分布特点,选择合适的压缩方式可以显著提高存储效率,并加速查询性能。了解这些压缩方式及其适用场景,将有助于数据库管理员和开发人员更好地优化数据库系统。通过本文的讲解,你应该能够理解并应用这些技术来优化Redis或其他数据库的内存使用。
相关文章:

【系统设计】数据库压缩技术详解:从基础到实践(附Redis内存优化实战案例)
概述 在现代数据库系统中,压缩技术对于提高存储效率和加速查询性能至关重要。特别是在处理大规模数据时,压缩能够极大地减少存储空间,并优化查询性能。本文将总结几种常见的压缩方式,并通过详细的解释和示例清晰地展示每种压缩方…...

基于SpringBoot的“乐校园二手书交易管理系统”的设计与实现(源码+数据库+文档+PPT)
基于SpringBoot的“乐校园二手书交易管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统首页界面图 用户注册界面图 二手…...

debian11安装最新rabbitmq
1、使用官网提供系统对应的安装脚本 安装 版本说明: Debian Buster代表Debian 10 Debian Bullseye代表Debian 11 Debian Bookworm代表Debian 12 Debian Trixie代表Debian 13 Debian Sid代表Debian unstable版本 2、新建脚本文件 vim rabbitMq.sh将脚本内容复制到…...

三十三、Python基础语法(面向对象其他语法-下)
一、属性划分 1.类属性 类属性:类属性就是类对象具有的属性,一般写法在类内部、方法的外部定义的变量,就是类属性,类属性在内存中只有一份。可以通过类名直接访问,也可通过实例访问。 class Circle:# 类属性,定义圆…...

简单又便宜的实现电脑远程开机唤醒方法
现有的远程开机方案 1)使用向日葵开机棒 缺点是比较贵一点,开机棒要一百多,而且查了评论发现挺多差评说不稳定,会有断联和无法唤醒的情况,而且设置也麻烦,还需要网卡支持WOL 2)使用远程开机卡 …...

Flutter鸿蒙next 状态管理框架对比分析
在 Flutter 开发中,状态管理是一个非常重要且关键的主题。Flutter 中的应用状态管理直接影响着应用的性能、可维护性和开发效率。随着 Flutter 生态的成熟,已经出现了许多不同的状态管理方案,各具特色,适用于不同的开发场景。本文…...

Vue Router进阶详解
导航守卫 若依框架登录鉴权详解(动态路由)_若依鉴权-CSDN博客 完整的导航解析流程 导航被触发: 当用户点击页面中的链接、使用编程式导航(如router.push或router.replace)或手动输入URL时,导航流程被触发。…...

进程的控制
进程 task_struct mm_struct(虚拟地址空间) 页表 代码和数据 。 新建进程先有管理系统,然后才有代码和数据。 fork()函数:子进程返回0,父进程返回的是子进程的pid - - - 方便父进程对子进程标识。 进程终止:释放代码和数据占…...

基于C语言实现的图书管理系统
使用Visual Studio 2022编译工具进行编写代码的。 项目源码直接奉上: book1.h头文件: #ifndef __BOOK1_H //预处理用于条件编译 避免头文件反复包含 #define __BOOK1_H#include<stdio.h> #include <string.h> #include<stdlib.h> #include<stdbool.h&g…...

删除 需要来自XXXX的权限才能对此文件夹进行更改 文件的解决办法
如果你也是: 如果你也有类似上面的问题,这篇文章算是你看对了,哦哟! 我的牙齿现在是怨灵的牙齿,可以啃下一头牛。 翻遍千山万水,咱们也是终于取到真经了家人们。 首先下一个everything好吗 甩一个官网链…...

ARM base instruction -- ccmp (immediate)
Conditional Compare (immediate) sets the value of the condition flags to the result of the comparison of a register value and an immediate value if the condition is TRUE, and an immediate value otherwise. 此指令一般出现在 cmp 指令之后,表示双重比…...

高德 阿里231滑块 分析
声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 有相关问题请第一时间头像私信联系我删…...

Unity 的 WebGL 构建中资源图片访问方式
在 Unity 的 WebGL 构建中,资源图片是可以打包在 工程内部 使用的,前提是这些资源被正确地包含在构建中,并且能够通过合适的方式加载和访问。不同于传统的本地文件访问,WebGL 需要通过 Asset Bundles、Addressables 或 Resources …...

WinForms 中使用 MVVM 模式构建应用:实现登录页面、页面导航及 SQLite 数据库连接完整框架搭建过程
前言 在传统的 WinForms 应用程序开发中,很多开发者使用事件驱动的设计模式,直接将业务逻辑编写在界面代码中。然而,随着应用程序的复杂性增加,单一的界面文件变得臃肿,难以测试和维护。借鉴 WPF 中 MVVM(…...

Chrome调试工具(查看CSS属性)
来说说这个Chrome调试工具吧,梦回gdb,但是它没有gdb难 打开浏览器 有两种方式可以直接打开Chrome调试工具 直接按F12 鼠标右键页面 --- 检查元素 什么mc玩家是鸣潮 标签页含义 🤒 elements查看标签结构(展示html文件&#…...

MQTT从入门到精通之MQTT入门
MQTT入门 1 MQTT概述 1.1 MQTT简介 MQTT(Message Queuing Telemetry Transport)由IBM于1999年开发的一种基于**"发布订阅模式"的轻量级的消息传输协议**! 发布订阅模式是一种传统的客户端-服务器架构的替代方案,因为…...

Hadoop生态系统主要包括哪些组件以及它们的作用
Hadoop生态系统是一个开源的大数据处理框架,它主要由一系列组件构成,每个组件都承担着不同的功能和作用。以下是Hadoop生态系统的主要组件及其作用的详细解释: HDFS(Hadoop Distributed File System) 作用:…...

OpenResty 1.27.1.1 已经正式发布
OpenResty 1.27.1.1 已经正式发布,这是一个基于 NGINX 和 LuaJIT 的 web 平台。以下是关于此次发布的一些重点信息和更新内容: 下载与安装 你可以在此处下载最新版本的 OpenResty。提供了便携式源代码分发、Win32/Win64 二进制分发以及为 Ubuntu、Debi…...

定高虚拟列表:让大数据渲染变得轻松
定高虚拟列表 基本认识 在数据如潮水般涌来的今天,如何高效地展示和管理这些数据成为了开发者们面临的一大挑战,传统的列表渲染方式在处理大量数据时,往往会导致页面卡顿、滚动不流畅等问题,严重影响用户体验(在页面…...

python request与grequests该如何选择
requests & grequests requests 和 grequests 是Python中用于发送HTTP请求的不同库。requests 是一个同步、阻塞式库,而 grequests 是基于 requests 封装的异步非阻塞库,它利用了 gevent 库提供的协程机制,能够并发发送多个请求。 选择…...

Unity3D UI 拖拽
Unity3D 实现 UI 元素拖拽功能。 UI 拖拽 通常画布上的 UI 元素都是固定位置的,我们可以通过实现拖拽接口,让 UI 元素可以被拖拽到其他位置。 拖拽接口 创建一个脚本 UIDrag.cs,在默认继承的 MonoBehaviour 后面,再继承三个接…...

介绍一下memcpy(c基础)
memcpy函数void *memcpy(void *dest, const void *src, size_t n); dest:指向目标内存区域的指针,即复制的目的地。src:指向源内存区域的指针,即要被复制的内容的来源。n:要复制的字节数 主要功能是将src所指向的内存…...

【网络面试篇】HTTP(2)(笔记)——http、https、http1.1、http2.0
目录 一、相关面试题 1. HTTP 与 HTTPS 有哪些区别? 2. HTTPS 的工作原理?(https 是怎么建立连接的) (1)ClientHello (2)SeverHello (3)客户端回应 &a…...

python-23-一篇文章帮你理解Python推导式
python-23-一篇文章帮你理解Python推导式 一.简介 在 Python 中,推导式(Comprehensions)是一个简洁的语法,用于通过某种可迭代对象快速生成新的对象(如列表、字典、集合等!来开始我们今天的日拱一卒&…...

WPF中如何简单的使用CommunityToolkit.Mvvm创建一个项目并进行 增删改查
目录 开始前准备的数据库dbblog如下: 第一步:创建项目后下载四个NuGet程序包 第二步:删除原本的MainWindow.XAML文件 并创建如下的目录结构 然后在View文件夹下面创建Login.XAML和Main.XAML 并且在App.XAML中将启动项改为Login.X…...

CesiumJS 案例 P15:检测标记、鼠标点击移动标记、鼠标拖动标记
CesiumJS CesiumJS API:https://cesium.com/learn/cesiumjs/ref-doc/index.html CesiumJS 是一个开源的 JavaScript 库,它用于在网页中创建和控制 3D 地球仪(地图) 一、检测标记 <!DOCTYPE html> <html lang"en&…...

Webserver(4.9)本地套接字的通信
目录 本地套接字 本地套接字 TCP\UDP实现不同主机、网络通信 本地套接字实现本地的进程间的通信,类似的,一般采用TCP的通信流程 生成套接字文件 #include<arpa/inet.h> #include<stdio.h> #include<stdlib.h> #include<unistd.h&…...

[IAA系列] Image Aesthetic Assessment
Preface 本文旨在记录个人结合AI工具对IAA这个领域的一些了解,主要是通过论文阅读的方式加深对领域的了解。有什么问题,欢迎在评论区提出并讨论。 什么是IAA Image Aesthetic Assessment(图像美学评估)是一种评估图像在视觉上的…...

基于springboot的高校科研管理系统(源码+调试+LW)
项目描述 临近学期结束,还是毕业设计,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据你想解决的问题,今天给…...

Flutter环境配置
配置环境变量 PUB_HOSTED_URLhttps://pub.flutter-io.cn FLUTTER_STORAGE_BASE_URLhttps://storage.flutter-io.cn 这个命令是用来配置 Flutter 的镜像源地址,主要是为了解决在中国大陆地区访问 Flutter 官方资源较慢的问题 具体的操作做如下: 右键点击"此…...