【C++】深入理解 unordered 容器、布隆过滤器与分布式一致性哈希
【C++】深入理解 unordered 容器、布隆过滤器与分布式一致性哈希
在日常开发中,无论是数据结构优化、缓存设计,还是分布式架构搭建,unordered_map
、布隆过滤器和一致性哈希都是绕不开的关键工具。它们高效、轻量,在性能与扩展性方面发挥着重要作用。本文将依次从这三者的原理、实现与应用场景进行讲解。
一、STL 中的 unordered_* 容器
C++ STL 提供了四种以 unordered_
为前缀的容器:unordered_map
、unordered_set
、unordered_multimap
和 unordered_multiset
,它们的底层实现均为哈希表(Hash Table)。
1. 原理简述
哈希表是一种通过哈希函数(Hash Function)将 key 映射为数组索引的位置来快速访问元素的数据结构。其主要特点是:
- 查询、插入、删除时间复杂度近似为 O(1)
- 使用负载因子衡量存储密度,过大时容易产生冲突
2. 哈希冲突处理
- 链表法:将冲突的元素以链表形式链接(如 Java 8 后用红黑树优化长链)
- 开放寻址法:在数组内探查空位进行插入,如线性探查、双重哈希等
3. 性能优化
合理选择 Hash 函数(如 MurmurHash、SipHash),可以提升散列质量,降低碰撞概率。例如有,murmurhash2是最常用的, SipHash 被用于 Redis 和 Rust 的 HashMap 实现中,cityhash 等,都具备强随机分布性
二、布隆过滤器(Bloom Filter)
布隆过滤器是一种概率型数据结构,用于判断某个元素“可能存在”或“一定不存在”。
1. 结构组成
- 一个长度为
m
的位图(bit array) k
个独立的哈希函数
2. 工作原理
- 插入:使用 k 个哈希函数将元素映射到 k 个位上,置为 1
- 查询:判断对应的 k 位是否全为 1,若是,则“可能存在”;若有 0,则“一定不存在”
3. 特性
- 高效:插入和查询的时间复杂度均为 O(k)
- 节省空间:不存储元素本身
- 存在误判(False Positive),但可以通过公式控制误差率
- 不支持删除:因为无法确认哪一个元素设置了某个位
4. 应用场景
- 缓存穿透拦截
- 防止爬虫重复访问
- 黑名单过滤(如垃圾邮件地址)
- 数据库查询预判,减少磁盘 IO
5. 参数设计公式
例如给定期望元素个数 n=4000
和假阳率 p=1e-9
:
-
最佳位图大小:
m = c e i l ( ( n ∗ l o g ( p ) ) / l o g ( 1 / p o w ( 2 , l o g ( 2 ) ) ) ) m=ceil((n∗log(p))/log(1/pow(2,log(2)))) m=ceil((n∗log(p))/log(1/pow(2,log(2))))
-
最佳哈希函数个数:
k = r o u n d ( ( m / n ) ∗ l o g ( 2 ) ) k=round((m/n)∗log(2)) k=round((m/n)∗log(2))
可使用在线工具辅助计算:https://hur.st/bloomfilter/
三、分布式一致性哈希(Consistent Hashing)
一致性哈希是解决分布式缓存或存储系统中节点变动导致大量数据迁移问题的经典算法。
1. 原理概述
- 将哈希空间组织成一个环(0 ~ 2³² - 1)
- 对每个服务器节点和数据 Key 分别进行哈希映射,落在环上的某点
- 顺时针查找第一个节点,即为该 Key 的存储节点
2. 优势
- 节点变动时,只影响相邻的数据
- 极大减少了数据迁移范围,提高系统稳定性
3. 均衡性优化 —— 虚拟节点
为避免节点分布不均导致的负载倾斜,使用虚拟节点策略:
- 每台服务器映射多个虚拟节点
- 例如:
hash(IP:PORT:编号)
映射出多个点 - 数据分布更均匀,提升系统负载均衡能力
新增节点操作:
- 在使用虚拟节点的一致性哈希系统中,新增一个节点时,需要为该节点生成多个虚拟节点(如 NodeX#0、NodeX#1 等),并将这些虚拟节点通过哈希函数映射到一致性哈希环上的多个位置,随后插入到已有的有序哈希环结构中。
- 每个新加入的虚拟节点将“接管”它在环上前一个虚拟节点与自身之间的哈希区间内的数据,也就是说,该区间原本由其他节点负责,现在需要将这些数据迁移至新节点。为了完成数据的迁移,系统需扫描这些哈希区间内的数据项,并将它们从原节点移动到新节点对应的实际服务器上。
4. 应用场景
- 分布式缓存系统(如 Redis Cluster)
- 数据库分库分表
- 负载均衡策略
总结
技术 | 核心结构 | 特点 | 典型应用 |
---|---|---|---|
unordered_* | 哈希表 | O(1) 访问,处理冲突 | STL 快速查找容器 |
布隆过滤器 | 位图 + 多个哈希函数 | 空间效率高,有误判 | 缓存穿透、爬虫去重、黑名单过滤 |
一致性哈希 | 环形哈希空间 | 数据迁移小,支持节点动态变化 | 分布式缓存、数据库路由 |
相关文章:
【C++】深入理解 unordered 容器、布隆过滤器与分布式一致性哈希
【C】深入理解 unordered 容器、布隆过滤器与分布式一致性哈希 在日常开发中,无论是数据结构优化、缓存设计,还是分布式架构搭建,unordered_map、布隆过滤器和一致性哈希都是绕不开的关键工具。它们高效、轻量,在性能与扩展性方面…...

YOLOv1:开启实时目标检测的新篇章
YOLOv1:开启实时目标检测的新篇章 在深度学习目标检测领域,YOLO(You Only Look Once)系列算法无疑占据着重要地位。其中,YOLOv1作为开山之作,以其独特的设计理念和高效的检测速度,为后续的目标…...
Spring Boot 整合 Redis 实战
一、整合准备:环境与依赖 1. 技术栈说明 Spring Boot 版本:3.1.2(兼容 Java 17) Redis 服务器:Redis 7.0(本地部署或 Docker 容器) Maven 依赖: <dependency><…...
Spring事务失效的全面剖析
文章目录 1. Spring事务基础1.1 什么是Spring事务1.2 Spring事务的实现原理1.3 `@Transactional`注解的主要属性1.4 使用Spring事务的简单示例2. Spring事务失效的常见场景及解决方案2.1 方法不是public的问题描述问题示例解决方案技术原理解释2.2 自调用问题(同一个类中的方法…...
Pytorch张量和损失函数
文章目录 张量张量类型张量例子使用概率分布创建张量正态分布创建张量 (torch.normal)正态分布创建张量示例标准正态分布创建张量标准正态分布创建张量示例均匀分布创建张量均匀分布创建张量示例 激活函数常见激活函数 损失函数(Pytorch API)L1范数损失函数均方误差损失函数交叉…...
消息~组件(群聊类型)ConcurrentHashMap发送
为什么选择ConcurrentHashMap? 在开发聊天应用时,我们需要存储和管理大量的聊天消息数据,这些数据会被多个线程频繁访问和修改。比如,当多个用户同时发送消息时,服务端需要同时处理这些消息的存储和查询。如果用普通的…...

FFmpeg多路节目流复用为一路包含多个节目的输出流
在音视频处理领域,将多个独立的节目流(如不同频道的音视频内容)合并为一个包含多个节目的输出流是常见需求。FFmpeg 作为功能强大的多媒体处理工具,提供了灵活的流复用能力,本文将通过具体案例解析如何使用 FFmpeg 实现…...

分子动力学模拟揭示点突变对 hCFTR NBD1结构域热稳定性的影响
囊性纤维化(CF) 作为一种严重的常染色体隐性遗传疾病,全球约有 10 万名患者深受其害。它会累及人体多个器官,如肺部、胰腺等,严重影响患者的生活质量和寿命。CF 的 “罪魁祸首” 是 CFTR 氯离子通道的突变,…...

关于SIS/DCS点检周期
在中国化工行业,近几年在设备维护上有个挺有意思的现象,即SIS和DCS这两个系统的点检周期问题,隔三差五就被管理层会议讨论,可以说是企业管理层关注的重要方向与关心要素。 与一般工业行业中设备运维不同,SIS与DCS的点…...
python-pyqt6框架工具开发总结
菜单栏 工具栏 状态栏 QTreeView 用于展示树形结构数据(模-视图框架),文件系统,组织结构 通常与QAbstractItemModel的子类(如QStandardItemModel或自动义模型) 展开/折叠 控制节点的显示状态,展开时显示子节点,折叠时隐藏子节点 s…...
Docker Volumes
Docker Volumes 是 Docker 提供的一种机制,用于持久化存储容器数据。与容器的生命周期不同,Volumes 可以独立存在,即使容器被删除,数据仍然保留。以下是关于 Docker Volumes 的详细说明: 1. 为什么需要 Volumes&#…...

【PmHub后端篇】PmHub中基于Redis加Lua脚本的计数器算法限流实现
1 限流的重要性 在高并发系统中,保护系统稳定运行的关键技术有缓存、降级和限流。 缓存通过在内存中存储常用数据,减少对数据库的访问,提升系统响应速度,如浏览器缓存、CDN缓存等多种应用层面。降级则是在系统压力过大或部分服务…...
FPGA实战项目2———多协议通信控制器
1. 多协议通信控制器模块 (multi_protocol_controller) 简要介绍 这是整个设计的顶层模块,承担着整合各个子模块的重要任务,是整个系统的核心枢纽。它负责协调 UART、SPI、I2C 等不同通信协议模块以及 DMA 模块的工作,同时处理不同时钟域之间的信号交互,确保各个模块能够…...

CST软件仿真案例——太阳能薄膜频谱吸收率
CST软件中的太阳能薄膜的功率吸收可用光频电磁波在介质材料中的损耗来计算。本案例计算非晶硅的功率吸收,然后考虑真实太阳频谱,计算有效吸收频谱。 用太阳能单元模板,时域求解器: 材料库提取四个材料,非晶硅…...
多线程进阶核心知识详解(通俗版)
Java多线程进阶详解 一、锁策略:如何高效管理资源竞争 在多线程环境中,锁是协调资源访问的核心机制。不同的锁策略适用于不同的场景,理解它们的差异能帮助优化程序性能。 1. 乐观锁 vs 悲观锁 悲观锁: 核心思想:假设…...
大模型中的KV Cache
1. KV Cache的定义与核心原理 KV Cache(Key-Value Cache)是一种在Transformer架构的大模型推理阶段使用的优化技术,通过缓存自注意力机制中的键(Key)和值(Value)矩阵,避免重复计算&…...
FHQ平衡树
FHQ平衡树 大致是这样的题目: 您需要动态地维护一个可重集合 M M M,并且提供以下操作: 向 M M M 中插入一个数 x x x。从 M M M 中删除一个数 x x x(若有多个相同的数,应只删除一个)。查询 M M M 中…...
力扣算法---总结篇
5.13 数组总结 数组是存放在连续内存空间上的相同类型数据的集合。 数组可以方便的通过下标索引的方式获取到下标对应的数据。 正是因为数组在内存空间的地址是连续的,所以我们在删除或者增添元素的时候,就难免要移动其他元素的地址。 数组的元素是不…...

ABAP+旧数据接管的会计年度未确定
导资产主数据时,报错旧数据接管的会计年度未确定 是因为程序里面使用了下列函数AISCO_CALCULATE_FIRST_DAY,输入公司代码,获取会计年度,这个数据是在后台表T093C表中取数的,通过SE16N可以看到后台表数据没有数…...
Java【10_1】用户注册登录(面向过程与面向对象)
测试题 1、基于文本界面实现登录注册的需求(要求可以满足多个用户的注册和登录) 通过工具去完成 公共类: public class User { private int id;//用户编号 private int username;//用户名 private int password;//密码 private String name;//真…...

养生:打造健康生活的全方位策略
在生活节奏不断加快的当下,养生已成为提升生活质量、维护身心平衡的重要方式。从饮食、运动到睡眠,再到心态调节,各个方面的养生之道共同构建起健康生活的坚实基础。以下为您详细介绍养生的关键要点,助您拥抱健康生活。 饮食养生…...

贪吃蛇游戏排行榜模块开发总结:从数据到视觉的实现
一、项目背景与成果概览 在完成贪吃蛇游戏核心玩法后,本次开发重点聚焦于排行榜系统的实现。该系统具备以下核心特性: 🌐 双数据源支持:本地存储(localStorage)与远程API自由切换 🕒 时间维度统计:日榜/周榜/月榜/全时段数据筛选 🎮 模式区分:闯关模式(关卡进度…...
pytorch 数据预处理和常用工具
文章目录 NumPyNumpy数据结构安装和使用NumPy Matplotlib的安装和导入安装和导入Matplotlib绘制基础图画折线图散点图柱状图图例 数据清洗据清洗的作用Pandas进行数据清洗Pandas数据结构Series 数据结构DataFrame数据结构 Pandas数据清洗常用代码 特征工程主成分分析线性判别分…...
如何界定合法收集数据?
首席数据官高鹏律师团队 在当今数字化时代,数据的价值日益凸显,而合法收集数据成为了企业、机构以及各类组织必须严守的关键准则。作为律师,深入理解并准确界定合法收集数据的范畴,对于保障各方权益、维护法律秩序至关重要。 一…...
企业对数据集成工具的需求及 ETL 工具工作原理详解
当下,数据已然成为企业运营发展过程中的关键生产要素,其重要性不言而喻。 海量的数据分散在企业的各类系统、平台以及不同的业务部门之中,企业要充分挖掘这些数据背后所蕴含的巨大价值,实现数据驱动的精准决策,数据集…...
内核深入学习3——分析ARM32和ARM64体系架构下的Linux内存区域示意图与页表的建立流程
内核深入学习3——ARM32/ARM64在Linux内核中的实现(2) 今天我们来讨论的是一个硬核的内容,也是一个老生常谈的话题——那就是分析ARM32和ARM64体系架构下的Linux内存区域示意图的内容。对于ARM64的部分,我们早就知道一个基本的…...
MapReduce基本介绍
核心思想 分而治之:将大规模的数据处理任务分解成多个可以并行处理的子任务,然后将这些子任务分配到不同的计算节点上进行处理,最后将各个子任务的处理结果合并起来,得到最终的结果。 工作流程 Map 阶段: 输入数据被…...

屏幕与触摸调试
本章配套视频介绍: 《28-屏幕与触摸设置》 【鲁班猫】28-屏幕与触摸设置_哔哩哔哩_bilibili LubanCat-RK3588系列板卡都支持mipi屏以及hdmi显示屏的显示。 19.1. 旋转触摸屏 参考文章 触摸校准 参考文章 旋转触摸方向 配置触摸旋转方向 1 2 # 1.查看触摸输入设备 xinput…...

使用 百度云大模型平台 做 【提示词优化】
1. 百度云大模型平台 百度智能云千帆大模型平台  平台功能:演示了阿里云大模型的百炼平台,该平台提供Prompt工程功能,支持在线创建和优化Prompt模板模板类型:平台提供多种预制模板,同时也支持用户自定义…...
C 语言_常见排序算法全解析
排序算法是计算机科学中的基础内容,本文将介绍 C 语言中几种常见的排序算法,包括实现代码、时间复杂度分析、适用场景和详细解析。 一、冒泡排序(Bubble Sort) 基本思想:重复遍历数组,比较相邻元素,将较大元素交换到右侧。 代码实现: void bubbleSort(int arr[], i…...