算法基础——存储
引入
基础理论的进步,是推动技术实现重大突破,促使相关领域的技术达成跨越式发展的核心。
在发展日新月异的大数据领域,基础理论的核心无疑是算法。不管是技术设计,还是工程实践,都必须仰仗相关算法的支持,才能够真的落地应用。
下面我们就看看大数据相关领域有哪些核心的算法。
存储类算法
大数据存储相关的核心算法,主要是为了高效存储和管理海量数据,以及提升数据读写性能和存储利用率等。
以下我们来看看大数据领域最经典的存储类算法:
B树及其变种(B+树、B* 树)
原理:
- B树:是一种自平衡的多路搜索树,每个节点可以有多个子节点。它的所有叶子节点都在同一层,并且包含了所有的数据。
- B+树:是 B树的一种变种,它的非叶子节点只存储索引信息,所有的数据都存储在叶子节点中,叶子节点之间通过指针相连,形成一个有序链表,便于范围查询。(最通用)
- B*树:在 B+树的基础上,对节点的分裂规则进行了优化,提高了空间利用率。
应用场景:广泛应用于关系型数据库的索引结构,能够高效地支持点查询和范围查询。
优点:查询、插入和删除操作的时间复杂度都是 O (log n),性能稳定。
缺点:对于大规模数据的写入操作,可能会导致频繁的节点分裂和合并,影响性能。
B+树是一种平衡的、多叉的树形结构,能够支持O(logn)的插入和查询时间复杂度。B+树的整个结构是有序存储的,这使得B+树能够高效地支持范围查询;在空间放大维度,B+树能够达到70%的空间利用率。综上所述,B+树有较好的综合性能,在现代的诸多存储系统中,B+树索引很常见,例如关系数据库MySQL的默认存储引擎InnoDB。
在大数据领域是避免不了使用多线程与高并发场景的,所以需要对B+树索引进行并发控制。由于B+树的树形结构会不断动态调整,要实现一个正确的多线程B+树,存在着较大的设计挑战。
目前来说,实现B+树的并发,可以采用以下3种机制:
- 锁耦合
锁耦合机制是B+树中应用最为广泛的一种加锁方式。锁耦合机制就是一种节点级别的加锁方式,但是路径上的节点的锁会更早地释放,同时能保证线程安全。在锁耦合机制中,每个线程同时最多拥有两个节点的锁,分别为父节点和孩子节点。父节点的节点可以在孩子节点的锁获取之后释放,这样可以充分减少每个节点加锁和释放的临界区大小,从而最大化多线程性能。- 乐观锁机制
采用锁耦合机制,每个读/写线程仍然是互相阻塞的,而乐观锁机制则是为了减少写线程对读线程的阻塞,并进一步减少加锁的数量。内部节点除节点内部的锁字段之外,还额外维护一个写版本号。每当写线程对节点完成修改之后,先对写版本号完成自增操作,随后释放写锁。每当读线程访问一个节点的时候,首先记录节点版本号,在完成对节点的访问之后检测节点版本号是否发生变化,如果节点写版本号发生变化,读线程重做对该节点的访问,否则意味着节点访问过程中该节点并未发生写操作,因此读节点操作成功执行。- 无锁机制。
通过无锁的方式来操作B+树,提升随机读和范围查询的性能。它的核心的思想是把B+树的页(page)通过page id(PID)映射到map,map的[key,value]变成[PID,page value],把直接对page的修改,变成一个修改的操作记录,加入到“page value”。所以“page value”可能是一个“base page”,即page原始的内容,和一串对page修改形成的记录的链表,而在修改记录链表中加入一个修改记录节点可以很容易变成一个无锁的方式来实现。另外,对B+树的split和merge操作也通过类似的原理,把具体的操作细化成好几个原子操作,避免传统的加锁方式。
SkipList(跳表)
原理
- SkipList 是一种可以用来快速查找数据的数据结构,它基于有序链表,并通过在链表节点上增加多层索引来提高查找效率。在 SkipList 中,每个节点都可能有多个指针,这些指针指向不同层次的下一个节点,高层的指针可以跳过更多的节点,从而加快查找速度。
- 构建 SkipList 时,会按照一定的概率随机决定每个节点在不同层次出现的概率。例如,一个节点可能以 50% 的概率出现在第一层,以 25% 的概率出现在第二层,以 12.5% 的概率出现在第三层,以此类推。这样就形成了一个类似金字塔形状的多层结构,使得查找操作可以在对数时间内完成。
应用场景:由于 SkipList 在插入、删除和查找操作上都具有较高的效率,适合在内存中存储和操作大量的有序数据,能够快速地根据分数对元素进行排序和查找;在分布式哈希表(DHT)等分布式数据结构中,SkipList 可以用于实现节点之间的快速路由和数据查找。通过在不同节点上构建 SkipList 结构,可以高效地定位数据所在的节点,提高分布式系统的性能和可扩展性。
优点:SkipList 的插入、删除和查找操作的平均时间复杂度为 O (log n),与平衡树(如红黑树)等数据结构相当,但 SkipList 的实现相对简单,代码复杂度较低,易于理解和维护。而且 SkipList 支持动态扩展和收缩,能够方便地适应数据量的变化。
缺点:SkipList 的空间复杂度相对较高,因为每个节点可能包含多个指针,需要额外的空间来存储这些指针。此外,由于 SkipList 的节点层数是随机生成的,在极端情况下可能会出现查找性能下降的情况,但这种情况发生的概率较低。
跳跃表(SkipList)是一种能高效实现插入、删除、查找的内存数据结构,这些操作的期望复杂度都是O(logN)。与红黑树以及其他的二分查找树相比,跳跃表的优势在于实现简单,而且在并发场景下加锁粒度更小,从而可以实现更高的并发性。正因为这些优点,跳跃表广泛使用于KV数据库中,诸如Redis、LevelDB、HBase都把跳跃表作为一种维护有序数据集合的基础数据结构。
LSM树(Log-Structured Merge Tree)
原理:将数据的写入操作先记录在内存中(通常是一个有序的数据结构,如跳表),当内存中的数据达到一定阈值后,再批量地将数据写入磁盘,形成一个有序的数据文件(SSTable,Sorted String Table)。磁盘上的数据会按层级进行组织,不同层级的数据会定期进行合并操作,以减少数据冗余和提高查询效率。
应用场景:适用于写多读少的场景,如日志存储、时间序列数据存储等。
优点:写入性能高,能够快速处理大量的写入请求;
缺点:读取时可能需要合并多个 SSTable,读取性能相对较低,并且在合并过程中会产生一定的 I/O 开销。
2000年年初,Google发表了Bigtable的论文,论文中的创新点之一就是它所使用的文件组织方式,即LSM树。
算法的核心也是基于硬件特性来,才能真正的解决落地的问题。对于磁盘读写来说,顺序读写要远比随机读写快,LSM树通过将随机写转化为顺序写,消去随机的本地更新操作来提高写入性能,但查询(包括点查询和范围查询)性能会有一定程度的下降,因为一次查询操作可能要遍历磁盘中的许多个不同的SST文件。针对查询性能问题,在不同应用实现时会有一些优化,比如在HBase中设计了异步的compaction来降低文件个数,来提高读取性能。
LSM树本质上和B+树一样,是一种磁盘数据的索引结构。但和B+树不同的是,LSM树的索引对写入请求更友好。因为无论是何种写入请求,LSM树都会将写入操作处理为一次顺序写。
LSM树的索引一般由两部分组成,一部分是内存部分,一部分是磁盘部分。内存部分一般采用跳跃表来维护一个有序的KeyValue集合。磁盘部分一般由多个内部KeyValue有序的文件组成。
哈希算法(Hash Tables)
原理:通过哈希函数将键映射到一个固定大小的数组中,数组中的每个位置称为一个槽(Slot)。当插入、查找或删除数据时,先计算键的哈希值,然后根据哈希值找到对应的槽。如果发生哈希冲突(即不同的键映射到了同一个槽),可以采用开放寻址法、链地址法等方法来解决。
应用场景:适用于快速查找和插入的场景,如缓存系统、分布式哈希表(DHT)等。在分布式系统中,一致性哈希算法是一种常用的哈希算法,用于实现数据的均匀分布和节点的动态扩展。
优点:平均查找、插入和删除操作的时间复杂度为 O (1),性能高效;
缺点:哈希函数的设计比较关键,如果哈希函数设计不当,可能会导致哈希冲突频繁,影响性能。并且哈希表不支持范围查询。
哈希表是一种无序的数据结构,它提供了快速的插入操作和查找操作。
一个好的哈希表能够保证插入和查找的时间复杂度为O(1),即插入和查询性能与哈希表中的数据量无关。这种设计可以实现高效的写性能和查询性能,但是它牺牲了范围查询性能。
哈希表结构设计中最关键的问题是:
- 如何选择合适的哈希函数;
- 如何选择合适的哈希冲突处理机制。
常见的哈希冲突解决机制有四种:
- 链地址法。
在链地址法下,哈希表的每个桶由一个链表构成。链表中存储的是所有哈希值相同的键值对。因此在进行查询操作时,可以通过遍历该链表查询对应的键值对。- 线性探测法。
在线性探测法下,哈希表是一个连续的桶数组,对于任意一个哈希键,根据哈希函数定位到一个映射位置,插入和查找都基于该地址进行向后探测。当插入一个键值时,判断映射地址是否为空,如果该地址为空,则在映射地址插入键值对,否则向后探测直到找到空桶,并将该键值对放入该空桶。查询操作则从映射地址开始向后扫描所有键值对,直到找到待查询键值对或者遇到一个空桶。- 双选择法。
双选择法采用两个独立的哈希函数,对于每个键值对,都有两个可插入的桶。当执行插入的时候,根据两个哈希函数分别将哈希键映射到两个桶a和b中。根据桶a和桶b的填充度,选择填充度更低的桶插入键值对。同样,执行查询操作时,只需要遍历两个桶即可定位到查询键值。- 布谷鸟探测法。
布谷鸟探测法是双选择法的一种变种。它同样采用两个哈希函数。当执行键值对插入时,根据两个哈希函数分别将哈希键映射到两个桶a和b中。如果桶a和b存在空闲位置,则将键值对插入到空闲位置中;否则,随机挑选一个桶中的键值对,将其踢出该桶,并存入待插入键值对,被踢出的键值对则尝试插入到其对应的另一个桶中。采用不同哈希冲突解决方式,在查询性能、插入性能、哈希表填充度三个维度会有不同的表现,解决哈希冲突的方案也是没有“银弹”。
链地址法的插入性能更优,并且对于空间的占用是逐渐增长的;线性探测法的填充度可以做到最优,但是这是以牺牲查询和插入性能为前提的;在查询性能上,布谷鸟和双选择法会比其他方法更优。在实际的键值数据库中,不同的设计会采用不同的哈希函数和哈希冲突解决机制。Redis采用的就是链地址法,这使得Redis的空间占用更为缓慢,空间管理也更为灵活。
LRU(Least Recently Used)和 LFU(Least Frequently Used)缓存算法
原理:
- LRU:基于 “最近最少使用” 的原则,当缓存空间满时,优先淘汰最近最少使用的数据。通常使用双向链表和哈希表来实现,双向链表用于维护数据的访问顺序,哈希表用于快速查找数据。
- LFU:基于 “最不经常使用” 的原则,当缓存空间满时,优先淘汰使用频率最低的数据。可以使用多个链表和哈希表来实现,每个链表存储相同使用频率的数据。
应用场景:常用于缓存系统中,如数据库缓存、Web 服务器缓存等,以提高数据的访问速度。
优点:
- LRU:实现简单,能够较好地反映数据的访问局部性。
- LFU:能够更好地适应数据的使用频率。
缺点:
- LRU:对于某些特殊的访问模式,可能会导致性能下降。
- LFU:实现相对复杂,并且在数据访问模式发生变化时,需要一定的时间来调整。
总结
今天提到的都是存储相关最核心的算法,本文主要是抛砖引玉,后续在分享大数据相关组件底层实现原理时,有涉及到相关算法的时候,我们再深入看看。
相关文章:
算法基础——存储
引入 基础理论的进步,是推动技术实现重大突破,促使相关领域的技术达成跨越式发展的核心。 在发展日新月异的大数据领域,基础理论的核心无疑是算法。不管是技术设计,还是工程实践,都必须仰仗相关算法的支持࿰…...
动态规划 (环形)
在一个圆形操场的四周摆放着n堆石子,现要将石子有次序地合并成一堆。规定每次只能选相邻2堆石子合并成新的一堆,并将新的一堆石子数记为该次合并的得分。试设计一个算法,计算出将n堆石子合并成一堆的最小得分和最大得分。 输入格式: n表示n…...

信号模块--simulink操作
位置simulink/sourses 常用的模块 功能:常数模块,提供一个常数 数据设置可以是一维或多维 一维数据设置 多维数据设置(例三维数据设置) 方波脉冲模块 模块用于按固定间隔生成方波脉冲信号 振幅就是方波的幅度,0到…...

Streamlit入门
1、Streamlit是什么 Streamlit 是一个用于快速构建数据应用的开源 Python 库,由 Streamlit 公司开发并维护。它极大地简化了从数据脚本到交互式 Web 应用的转化过程,让开发者无需具备前端开发的专业知识,就能轻松创建出美观、实用的交互式应…...
列表(列表是什么)
你将学习列表是什么以及如何使用列表元素。列表让你能够在一个地方存储成组的信息,其中可以只包含几个元素,也可以包含数百万个元素。 列表是新手可直接使用的最强大的Python功能之一,它融合了众多重要的编程概念。 列表是什么 列表 由一系列…...

笔记本搭配显示器
笔记本:2022款拯救者Y9000P,显卡RTX3060,分辨率2560*1600,刷新率:165Hz,无DP1.4口 显示器:2024款R27Q,27存,分辨率2560*1600,刷新率:165Hz &…...

基于排队理论的物联网发布/订阅通信系统建模与优化
论文标题 英文标题:Queuing Theory-Based Modeling and Optimization of a Publish/Subscribe IoT Communication System 中文标题:基于排队理论的物联网发布/订阅通信系统建模与优化 作者信息 Franc Pouhela Anthony Kiggundu Hans D. Schotten …...

指针(C语言)从0到1掌握指针,为后续学习c++打下基础
目录 一,指针 二,内存地址和指针 1,什么是内存地址 2,指针在不同系统下所占内存 三,指针的声明和初始化以及类型 1,指针的声明 2,指针 的初始化 1, 初始化方式优点及适用场景 4,指针的声明初始化类型…...

实验八 JSP访问数据库
实验八 JSP访问数据库 目的: 1、熟悉JDBC的数据库访问模式。 2、掌握使用My SQL数据库的使用 实验要求: 1、通过JDBC访问mysql数据,实现增删改查功能的实现 2、要求提交实验报告,将代码和实验结果页面截图放入报告中 实验过程&a…...
Day31-【AI思考】-关键支点识别与战略聚焦框架
文章目录 关键支点识别与战略聚焦框架**第一步:支点目标四维定位法****第二步:支点验证里程碑设计****第三步:目标网络重构方案****第四步:动态监控仪表盘** 执行工具箱核心心法 关键支点识别与战略聚焦框架 让思想碎片重焕生机的…...
DeepSeek与其他大模型相比
DeepSeek与其他大模型相比 与GPT-4对比 性能方面 推理速度:DeepSeek在解决复杂的数学、物理和逻辑推理问题方面速度惊人,是ChatGPT的两倍。“幻觉”现象:在处理需要网络信息检索的任务时,DeepSeek的“幻觉”现象似乎比ChatGPT更少。创意任务:ChatGPT在创意性任务,如创作…...

在深度Linux (Deepin) 20中安装Nvidia驱动
文章创作不易,麻烦大家点赞关注收藏一键三连。 在Deepin上面跑Tensorflow, pytorch等人工智能框架不是一件容易的事情。特别是如果你要使用GPU,就得有nvidia的驱动。默认情况下Deepin系统自带的是nouveau开源驱动。这是没办法用tensorflow的。下面内容是…...
“LoRA技术中参数初始化策略:为何A参数采用正态分布而B参数初始化为0”
在LoRA(Low-Rank Adaptation)中,参数A和B的初始化策略是经过精心设计的,以确保模型训练的稳定性和有效性。具体来说,参数A通常被初始化为正态分布,而参数B则初始化为0。这样的设计有以下几个优点࿱…...

C语言初阶力扣刷题——349. 两个数组的交集【难度:简单】
1. 题目描述 力扣在线OJ题目 给定两个数组,编写一个函数来计算它们的交集。 示例: 输入:nums1 [1,2,2,1], nums2 [2,2] 输出:[2] 输入:nums1 [4,9,5], nums2 [9,4,9,8,4] 输出:[9,4] 2. 思路 直接暴力…...
理解动手学深度学习的自编包d2l
跟着李沐的《动手学深度学习-PyTorch版》入门Python编程和Pytorch框架,以前是重度Matlab用户,对于Python里的各种包很不习惯。特别是,本书还自己做了一个名为d2l包,有几个问题很是困惑。今天终于弄明白了,写在这里&…...
RK3568使用opencv(使用摄像头捕获图像数据显示)
文章目录 一、opencv相关的类1. **cv::VideoCapture**2. **cv::Mat**3. **cv::cvtColor**4. **QImage**5. **QPixmap**总结 二、代码实现 一、opencv相关的类 1. cv::VideoCapture cv::VideoCapture 是 OpenCV 中用于视频捕捉的类,常用于从摄像头、视频文件、或者…...

OpenEuler学习笔记(十六):搭建postgresql高可用数据库环境
以下是在OpenEuler系统上搭建PostgreSQL高可用数据环境的一般步骤,通常可以使用流复制(Streaming Replication)或基于Patroni等工具来实现高可用,以下以流复制为例: 安装PostgreSQL 配置软件源:可以使用O…...
数学平均数应用
给定一个长度为 n 的数组 a。在一次操作中,你可以从索引 2 到 n−1中选择一个索引i,然后执行以下两个操作之一: 将 a[i−1] 减少 1,同时将 a[i1] 增加 1。 将 a[i1] 减少 1,同时将 a[i−1] 增加 1。 在每次操作后&…...

元旦和春节取名的历史变迁
在中国漫长的历史长河中的春节,真要追溯起来也只有一百多年历史——是从晚清时期才逐渐出现在国人的生活里的,而且那时不叫“春节”而叫“元旦”。只不过随着历史的发展过程,“过年”这个名词也一直在演变,直至1949年最终才定下来…...
USB鼠标的数据格式
USB鼠标的数据格式由HID(Human Interface Device)协议定义,通常包含3个字节的标准数据,具体格式如下: 字节内容描述第1字节按键状态Bit 0: 左键按下(1)<br>Bit 1: 右键按下(1…...
变量 varablie 声明- Rust 变量 let mut 声明与 C/C++ 变量声明对比分析
一、变量声明设计:let 与 mut 的哲学解析 Rust 采用 let 声明变量并通过 mut 显式标记可变性,这种设计体现了语言的核心哲学。以下是深度解析: 1.1 设计理念剖析 安全优先原则:默认不可变强制开发者明确声明意图 let x 5; …...

Spark 之 入门讲解详细版(1)
1、简介 1.1 Spark简介 Spark是加州大学伯克利分校AMP实验室(Algorithms, Machines, and People Lab)开发通用内存并行计算框架。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处&…...

【OSG学习笔记】Day 18: 碰撞检测与物理交互
物理引擎(Physics Engine) 物理引擎 是一种通过计算机模拟物理规律(如力学、碰撞、重力、流体动力学等)的软件工具或库。 它的核心目标是在虚拟环境中逼真地模拟物体的运动和交互,广泛应用于 游戏开发、动画制作、虚…...

.Net框架,除了EF还有很多很多......
文章目录 1. 引言2. Dapper2.1 概述与设计原理2.2 核心功能与代码示例基本查询多映射查询存储过程调用 2.3 性能优化原理2.4 适用场景 3. NHibernate3.1 概述与架构设计3.2 映射配置示例Fluent映射XML映射 3.3 查询示例HQL查询Criteria APILINQ提供程序 3.4 高级特性3.5 适用场…...

CentOS下的分布式内存计算Spark环境部署
一、Spark 核心架构与应用场景 1.1 分布式计算引擎的核心优势 Spark 是基于内存的分布式计算框架,相比 MapReduce 具有以下核心优势: 内存计算:数据可常驻内存,迭代计算性能提升 10-100 倍(文档段落:3-79…...
vue3 字体颜色设置的多种方式
在Vue 3中设置字体颜色可以通过多种方式实现,这取决于你是想在组件内部直接设置,还是在CSS/SCSS/LESS等样式文件中定义。以下是几种常见的方法: 1. 内联样式 你可以直接在模板中使用style绑定来设置字体颜色。 <template><div :s…...
macOS多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用
文章目录 问题现象问题原因解决办法 问题现象 macOS启动台(Launchpad)多出来了:Google云端硬盘、YouTube、表格、幻灯片、Gmail、Google文档等应用。 问题原因 很明显,都是Google家的办公全家桶。这些应用并不是通过独立安装的…...

ESP32 I2S音频总线学习笔记(四): INMP441采集音频并实时播放
简介 前面两期文章我们介绍了I2S的读取和写入,一个是通过INMP441麦克风模块采集音频,一个是通过PCM5102A模块播放音频,那如果我们将两者结合起来,将麦克风采集到的音频通过PCM5102A播放,是不是就可以做一个扩音器了呢…...

Keil 中设置 STM32 Flash 和 RAM 地址详解
文章目录 Keil 中设置 STM32 Flash 和 RAM 地址详解一、Flash 和 RAM 配置界面(Target 选项卡)1. IROM1(用于配置 Flash)2. IRAM1(用于配置 RAM)二、链接器设置界面(Linker 选项卡)1. 勾选“Use Memory Layout from Target Dialog”2. 查看链接器参数(如果没有勾选上面…...

MySQL 8.0 OCP 英文题库解析(十三)
Oracle 为庆祝 MySQL 30 周年,截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始,将英文题库免费公布出来,并进行解析,帮助大家在一个月之内轻松通过OCP认证。 本期公布试题111~120 试题1…...