【系统设计】数据库压缩技术详解:从基础到实践(附Redis内存优化实战案例)
概述
在现代数据库系统中,压缩技术对于提高存储效率和加速查询性能至关重要。特别是在处理大规模数据时,压缩能够极大地减少存储空间,并优化查询性能。本文将总结几种常见的压缩方式,并通过详细的解释和示例清晰地展示每种压缩方法。此外,我们将结合Redis的实际问题,提供一个应用案例。
常见的压缩技术
1. 运行长度编码(Run-length Encoding, RLE)
运行长度编码通过记录重复值的次数来实现压缩,特别适用于数据中有大量连续重复值的情况。
示例数据
A, A, A, B, B, B, C, C, A, A
压缩后的表示
(A, 3), (B, 3), (C, 2), (A, 2)
详细解释
运行长度编码对连续相同的元素进行压缩,通过记录元素及其重复次数来节省存储空间。对于长序列的相同值非常有效,能够显著减少内存占用。
示例图
+-----+-----+-----+-----+-----+-----+
| A | A | A | B | B | B |
+-----+-----+-----+-----+-----+-----+
| RLE: (A,3) | RLE: (B,3) |
+-----+-----+-----+-----+-----+-----+
2. 字典编码(Dictionary Encoding)
字典编码通过为重复值创建一个字典,并用较小的标识符替代原始值。
示例数据
A, B, A, C, B, A
字典
A -> 1
B -> 2
C -> 3
压缩后的表示
1, 2, 1, 3, 2, 1
详细解释
字典编码对于重复值较多且基数较低的列压缩效果显著。通过用短标识符替换原始数据,可以大幅度节省存储空间。
示例图
Original:
+-----+-----+-----+-----+-----+-----+
| A | B | A | C | B | A |
+-----+-----+-----+-----+-----+-----+Dictionary:
+-----+-----+-----+
| A | B | C |
+-----+-----+-----+
| 1 | 2 | 3 |
+-----+-----+-----+Compressed:
+-----+-----+-----+-----+-----+-----+
| 1 | 2 | 1 | 3 | 2 | 1 |
+-----+-----+-----+-----+-----+-----+
3. 位图压缩(Bitmap Encoding)
位图压缩适用于基数较低的列(即列中的可能值较少),为每一个可能的值创建一个位图,标识每行是否具备该值。
示例数据
A, B, A, C, B, A
位图表示
A 位图: 1, 0, 1, 0, 0, 1
B 位图: 0, 1, 0, 0, 1, 0
C 位图: 0, 0, 0, 1, 0, 0
详细解释
位图压缩对于基数较低的列(如布尔列或状态列)非常有效,能够加速查询和布尔操作(如 AND、OR、NOT)。
示例图
Original Column:
+-----+-----+-----+-----+-----+-----+
| A | B | A | C | B | A |
+-----+-----+-----+-----+-----+-----+Bitmaps:
A: 1, 0, 1, 0, 0, 1
B: 0, 1, 0, 0, 1, 0
C: 0, 0, 0, 1, 0, 0
4. 差值编码(Delta Encoding)
差值编码适用于数值型数据,特别是当数据具有递增或递减的趋势时。它通过存储相邻值之间的差值来压缩数据。
示例数据
100, 101, 103, 106, 110
压缩后的表示
100, +1, +2, +3, +4
详细解释
差值编码对于递增或递减的数值数据非常有效,可以极大地减少存储空间。它通过记录相邻数据的变化量而不是实际值来实现压缩。
示例图
Original:
+-----+-----+-----+-----+-----+
| 100 | 101 | 103 | 106 | 110 |
+-----+-----+-----+-----+-----+Delta Encoded:
+-----+----+----+----+----+
| 100 | +1 | +2 | +3 | +4 |
+-----+----+----+----+----+
5. 前缀压缩(Prefix Encoding)
前缀压缩主要用于字符串列,当多个字符串有相同的前缀时,可以将前缀提取出来,减少重复存储。
示例数据
apple, application, apply, banana, band, banner
压缩后的表示
apple, applic(ation), apply, ban(ana), ban(d), ban(ner)
详细解释
前缀压缩对于长字符串列,尤其是有共同前缀的字符串,压缩效果显著。通过提取和共享公共前缀,能够减少存储空间。
示例图
Original Strings:
+-------------+--------------+------+--------+------+--------+
| apple | application | apply| banana | band | banner |
+-------------+--------------+------+--------+------+--------+Compressed Representation:
+-------+--------------------+-------+
| Prefix| Suffixes | Result|
+-------+--------------------+-------+
| "app" | ["le", "lication", "ly"] -> "apple", "application", "apply"
| "ban" | ["ana", "d", "ner"] -> "banana", "band", "banner"
+-------+--------------------+-------+
Redis中的压缩应用:实例分析
使用Redis优化内存的实践案例
在本章中,我们将讨论Redis在实际使用中的一个典型问题,以及如何通过优化数据编码来解决 Redis 进程占用内存过大的问题。通过本章,你将了解到如何使用字典编码和Lua脚本来减少Redis的内存占用,提高系统的稳定性。
Redis 是一个开源的、基于内存存储的键值对数据库,支持多种数据结构,如字符串、哈希表、列表、集合和有序集合等。由于其高性能和多功能性,Redis 被广泛应用于缓存、会话管理和实时数据分析等场景。
Redis 的高性能部分归功于其将数据存储在内存中的设计。然而,正因为如此,如果数据量过大且没有做好内存管理,可能会引发系统内存不足(Out Of Memory, OOM)的情况,导致系统崩溃。
问题描述
在某个实际项目中,Redis 在运行一段时间后,系统发生了OOM(内存不足)错误。Linux 系统日志中显示,系统随机杀死了一个进程,这是典型的OOME(Out Of Memory Error)表现,最终导致整个系统崩溃。
通过深入分析,发现问题的主要原因是:
- Redis 进程占用过多内存。
- 在进行 DUMP 操作(即备份或持久化内存数据到硬盘)时,内存暴增,导致系统内存耗尽。
由于数据的存储格式较为复杂,且数据标识符长度较大,Redis 内存随着数据量的增加而迅速膨胀。
数据存储结构分析
-
原始数据格式(Key-Value 存储):
- 使用 Redis 的 Hash 结构,数据键的格式为:
{数据唯一标识}:{数据周期},对应的数据则存储在这个 Hash 中。
- 使用 Redis 的 Hash 结构,数据键的格式为:
-
数据关联关系:
- 使用 Redis 的 Set 结构,存储格式为:
Set {数据唯一标识}:{数据周期},其中值为{数据唯一标识}。
- 使用 Redis 的 Set 结构,存储格式为:
-
数据索引:
- 使用 Redis 的 Set 结构,存储格式为:
Set {数据周期},其中值为当前周期所有的{数据唯一标识}。
- 使用 Redis 的 Set 结构,存储格式为:
这些数据标识大约占据了 255 个字符,导致 Redis 内存占用过大,尤其在数据量较多时,内存使用快速增加。
解决方案
为了有效减少 Redis 内存占用,我们采用了 字典编码 和 前缀编码 进行优化,核心思路是通过将长字符串的标识符映射为唯一的数字来减少内存开销。
改进后的思路
-
将数据标识映射到唯一的数字标识:
- 我们将原本的
{数据唯一标识}映射为一个数字 ID,这样可以大幅减少存储键的内存占用。
- 我们将原本的
-
使用 Lua 脚本保证唯一性和原子性:
- 为了保证不同进程访问相同的
{数据唯一标识}能够得到相同的数字 ID,我们使用 Redis 的 Lua 脚本实现这一逻辑。 - 在 Lua 脚本中,如果
{数据唯一标识}不存在,使用 Redis 的INCRBY命令生成一个唯一的数字 ID;如果标识已存在,则直接返回对应的数字 ID。 - Lua 脚本在 Redis 中具有 原子性,确保操作是线程安全的,不会出现并发问题。
- 为了保证不同进程访问相同的
Lua 脚本实现
下面是用于处理数据标识映射的 Lua 脚本:
local key = KEYS[1] -- {数据唯一标识}
local exists = redis.call('EXISTS', key)if exists == 1 then-- 如果标识已存在,返回对应的数字 IDreturn redis.call('GET', key)
else-- 如果标识不存在,生成新的数字 IDlocal newId = redis.call('INCRBY', 'global_id', 1)redis.call('SET', key, newId)return newId
end
- 步骤说明:
KEYS[1]是传入的{数据唯一标识}。- 通过
EXISTS检查该标识是否已经存在。 - 如果存在,直接使用
GET返回对应的数字 ID。 - 如果不存在,则通过
INCRBY生成新的 ID,并将标识与生成的 ID 关联存储。
优化结果
通过上述优化措施,原本平均每个数据标识占用的 255 个字符,通过映射为数字 ID,内存占用得到了显著的减少。以下是优化前后的对比:
- 优化前:每个
{数据唯一标识}以字符串形式存储,平均长度为 255 字节。 - 优化后:每个
{数据唯一标识}被映射为整数 ID,平均长度为 8 字节(假设使用 64 位整数)。
这种优化方式不仅减小了内存占用,还使得系统更加稳定,避免了OOM错误的发生,提升了系统的持久化性能。
本次优化展示了通过 字典编码 和 前缀编码 技术,结合 Redis 的 Lua 脚本,如何有效减少内存占用,解决 Redis 进程占用内存过大的问题。通过减少冗长数据标识的存储开销,我们成功避免了系统的OOM错误。
这种存储优化思路在处理大量数据存储时非常有效,特别是在内存有限的场景下,可以显著提高 Redis 的使用效率。
参考链接:
- Redis官方文档
- Lua脚本使用指南
你可以根据实际情况调整Redis的配置和数据存储结构,确保在高并发和大数据场景下的稳定性。
结论
数据压缩技术在现代数据库系统中扮演着重要角色。根据不同类型的列和数据分布特点,选择合适的压缩方式可以显著提高存储效率,并加速查询性能。了解这些压缩方式及其适用场景,将有助于数据库管理员和开发人员更好地优化数据库系统。通过本文的讲解,你应该能够理解并应用这些技术来优化Redis或其他数据库的内存使用。
相关文章:
【系统设计】数据库压缩技术详解:从基础到实践(附Redis内存优化实战案例)
概述 在现代数据库系统中,压缩技术对于提高存储效率和加速查询性能至关重要。特别是在处理大规模数据时,压缩能够极大地减少存储空间,并优化查询性能。本文将总结几种常见的压缩方式,并通过详细的解释和示例清晰地展示每种压缩方…...
基于SpringBoot的“乐校园二手书交易管理系统”的设计与实现(源码+数据库+文档+PPT)
基于SpringBoot的“乐校园二手书交易管理系统”的设计与实现(源码数据库文档PPT) 开发语言:Java 数据库:MySQL 技术:SpringBoot 工具:IDEA/Ecilpse、Navicat、Maven 系统展示 系统首页界面图 用户注册界面图 二手…...
debian11安装最新rabbitmq
1、使用官网提供系统对应的安装脚本 安装 版本说明: Debian Buster代表Debian 10 Debian Bullseye代表Debian 11 Debian Bookworm代表Debian 12 Debian Trixie代表Debian 13 Debian Sid代表Debian unstable版本 2、新建脚本文件 vim rabbitMq.sh将脚本内容复制到…...
三十三、Python基础语法(面向对象其他语法-下)
一、属性划分 1.类属性 类属性:类属性就是类对象具有的属性,一般写法在类内部、方法的外部定义的变量,就是类属性,类属性在内存中只有一份。可以通过类名直接访问,也可通过实例访问。 class Circle:# 类属性,定义圆…...
简单又便宜的实现电脑远程开机唤醒方法
现有的远程开机方案 1)使用向日葵开机棒 缺点是比较贵一点,开机棒要一百多,而且查了评论发现挺多差评说不稳定,会有断联和无法唤醒的情况,而且设置也麻烦,还需要网卡支持WOL 2)使用远程开机卡 …...
Flutter鸿蒙next 状态管理框架对比分析
在 Flutter 开发中,状态管理是一个非常重要且关键的主题。Flutter 中的应用状态管理直接影响着应用的性能、可维护性和开发效率。随着 Flutter 生态的成熟,已经出现了许多不同的状态管理方案,各具特色,适用于不同的开发场景。本文…...
Vue Router进阶详解
导航守卫 若依框架登录鉴权详解(动态路由)_若依鉴权-CSDN博客 完整的导航解析流程 导航被触发: 当用户点击页面中的链接、使用编程式导航(如router.push或router.replace)或手动输入URL时,导航流程被触发。…...
进程的控制
进程 task_struct mm_struct(虚拟地址空间) 页表 代码和数据 。 新建进程先有管理系统,然后才有代码和数据。 fork()函数:子进程返回0,父进程返回的是子进程的pid - - - 方便父进程对子进程标识。 进程终止:释放代码和数据占…...
基于C语言实现的图书管理系统
使用Visual Studio 2022编译工具进行编写代码的。 项目源码直接奉上: book1.h头文件: #ifndef __BOOK1_H //预处理用于条件编译 避免头文件反复包含 #define __BOOK1_H#include<stdio.h> #include <string.h> #include<stdlib.h> #include<stdbool.h&g…...
删除 需要来自XXXX的权限才能对此文件夹进行更改 文件的解决办法
如果你也是: 如果你也有类似上面的问题,这篇文章算是你看对了,哦哟! 我的牙齿现在是怨灵的牙齿,可以啃下一头牛。 翻遍千山万水,咱们也是终于取到真经了家人们。 首先下一个everything好吗 甩一个官网链…...
ARM base instruction -- ccmp (immediate)
Conditional Compare (immediate) sets the value of the condition flags to the result of the comparison of a register value and an immediate value if the condition is TRUE, and an immediate value otherwise. 此指令一般出现在 cmp 指令之后,表示双重比…...
高德 阿里231滑块 分析
声明: 本文章中所有内容仅供学习交流使用,不用于其他任何目的,抓包内容、敏感网址、数据接口等均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关! 有相关问题请第一时间头像私信联系我删…...
Unity 的 WebGL 构建中资源图片访问方式
在 Unity 的 WebGL 构建中,资源图片是可以打包在 工程内部 使用的,前提是这些资源被正确地包含在构建中,并且能够通过合适的方式加载和访问。不同于传统的本地文件访问,WebGL 需要通过 Asset Bundles、Addressables 或 Resources …...
WinForms 中使用 MVVM 模式构建应用:实现登录页面、页面导航及 SQLite 数据库连接完整框架搭建过程
前言 在传统的 WinForms 应用程序开发中,很多开发者使用事件驱动的设计模式,直接将业务逻辑编写在界面代码中。然而,随着应用程序的复杂性增加,单一的界面文件变得臃肿,难以测试和维护。借鉴 WPF 中 MVVM(…...
Chrome调试工具(查看CSS属性)
来说说这个Chrome调试工具吧,梦回gdb,但是它没有gdb难 打开浏览器 有两种方式可以直接打开Chrome调试工具 直接按F12 鼠标右键页面 --- 检查元素 什么mc玩家是鸣潮 标签页含义 🤒 elements查看标签结构(展示html文件&#…...
MQTT从入门到精通之MQTT入门
MQTT入门 1 MQTT概述 1.1 MQTT简介 MQTT(Message Queuing Telemetry Transport)由IBM于1999年开发的一种基于**"发布订阅模式"的轻量级的消息传输协议**! 发布订阅模式是一种传统的客户端-服务器架构的替代方案,因为…...
Hadoop生态系统主要包括哪些组件以及它们的作用
Hadoop生态系统是一个开源的大数据处理框架,它主要由一系列组件构成,每个组件都承担着不同的功能和作用。以下是Hadoop生态系统的主要组件及其作用的详细解释: HDFS(Hadoop Distributed File System) 作用:…...
OpenResty 1.27.1.1 已经正式发布
OpenResty 1.27.1.1 已经正式发布,这是一个基于 NGINX 和 LuaJIT 的 web 平台。以下是关于此次发布的一些重点信息和更新内容: 下载与安装 你可以在此处下载最新版本的 OpenResty。提供了便携式源代码分发、Win32/Win64 二进制分发以及为 Ubuntu、Debi…...
定高虚拟列表:让大数据渲染变得轻松
定高虚拟列表 基本认识 在数据如潮水般涌来的今天,如何高效地展示和管理这些数据成为了开发者们面临的一大挑战,传统的列表渲染方式在处理大量数据时,往往会导致页面卡顿、滚动不流畅等问题,严重影响用户体验(在页面…...
python request与grequests该如何选择
requests & grequests requests 和 grequests 是Python中用于发送HTTP请求的不同库。requests 是一个同步、阻塞式库,而 grequests 是基于 requests 封装的异步非阻塞库,它利用了 gevent 库提供的协程机制,能够并发发送多个请求。 选择…...
卡尔曼滤波在目标跟踪中的应用:原理、建模与工程调参实战
1. 项目概述:从“猜”到“算”的跟踪艺术在目标跟踪这个领域,无论是自动驾驶中预测前车的轨迹,还是无人机锁定移动的物体,亦或是视频监控里框住一个行走的人,我们核心要解决的都是一个问题:如何在充满噪声和…...
Sitara处理器PRU-ICSS架构解析:工业自动化信息传输系统设计实战
1. 项目概述:工业自动化中的信息传输挑战与Sitara方案在工业自动化领域,信息传输的实时性、可靠性与灵活性,直接决定了生产线的“智商”与“反应速度”。想象一下,一条高速运转的汽水装瓶线,如果无法在毫秒级内感知到原…...
边缘机器学习实战:模型量化、剪枝与TensorRT部署全解析
1. 项目概述:当机器学习遇见边缘“边缘计算”和“机器学习”这两个词,这几年在技术圈里都快被说烂了。但当你真正把一个训练好的模型,塞进一个算力有限、功耗敏感、网络时有时无的边缘设备里,让它去实时处理摄像头画面、分析传感器…...
CST仿真效率翻倍:手把手教你设置激励与优化器,搞定天线阵列参数优化
CST仿真效率翻倍:手把手教你设置激励与优化器,搞定天线阵列参数优化 天线阵列设计是射频工程师的日常挑战之一。当你在CST中完成基础建模后,真正的考验才刚刚开始——如何高效配置激励、选择合适的优化器,并快速获得准确的仿真结果…...
为什么顶级策展人不用Google搜文化新闻?Perplexity文化垂直搜索的5层语义增强架构(含可复用prompt工程模板)
更多请点击: https://kaifayun.com 第一章:为什么顶级策展人不用Google搜文化新闻? 顶级策展人并非排斥搜索引擎,而是早已构建起一套高度结构化、语义化、可验证的信息摄取系统——它绕过关键词匹配的偶然性,直击文化…...
别再焊错线了!51单片机+L298N驱动小车底盘,保姆级接线避坑指南
51单片机L298N驱动小车底盘:从零避坑到一次点亮 当你第一次把51单片机、L298N电机驱动模块、红外传感器和电源组装在一起时,是否曾被那些密密麻麻的杜邦线弄得晕头转向?每个初学者都可能经历过接错线导致芯片冒烟的惨痛教训。本文将用实战经验…...
3分钟掌握FlicFlac:高效音频格式转换工具完全指南
3分钟掌握FlicFlac:高效音频格式转换工具完全指南 【免费下载链接】FlicFlac Tiny portable audio converter for Windows (WAV FLAC MP3 OGG APE M4A AAC) 项目地址: https://gitcode.com/gh_mirrors/fl/FlicFlac 在数字音频处理领域,格式兼容性…...
Gitee项目管理为什么成为中国团队首选:本土化、安全合规与DevOps全链路的三重优势
作者:DevOps效能研究团队 资料依据:Gitee官方数据(2025年Q2)、《2025中国开发者生态报告》、中国信息通信研究院DevOps能力成熟度评估报告 适读对象:技术负责人、项目经理、研发总监、企业CTO、数字化转型决策者 核心结…...
别再死记硬背参数了!Halcon形状匹配(create_shape_model)核心参数保姆级解读
Halcon形状匹配核心参数深度解析:从原理到实战调参指南 在工业视觉检测领域,形状匹配技术一直是定位和识别的核心手段。Halcon作为行业领先的机器视觉软件,其create_shape_model和find_shape_model算子提供了强大的形状匹配能力。然而&#…...
MPh 开源项目教程
MPh 开源项目教程 【免费下载链接】MPh Pythonic scripting interface for Comsol Multiphysics 项目地址: https://gitcode.com/gh_mirrors/mp/MPh 项目介绍 MPh 是一个基于 Python 的强大开源项目,旨在简化数学物理问题的求解过程。它结合了符号计算的灵活…...
