当前位置：首页 > news >正文

[算法]布隆过滤器

news 2025/12/30 22:30:06

布隆过滤器（Bloom Filter）是一种空间效率很高的概率型数据结构，它可以用来检测一个元素是否在一个集合中。它的特点是高效地插入和查询，但是有一定的误判率（False Positive）。误判率指的是错误地认为某个元素在集合中，但实际上它不在。布隆过滤器不支持删除操作。

布隆过滤器的原理

布隆过滤器由一个很长的二进制向量（数组）和一系列哈希函数组成。下面是它的工作原理：

初始化：创建一个m位的二进制数组，初始值全部为0。
添加元素：当向布隆过滤器添加一个元素时，使用多个不同的哈希函数基于该元素值计算多个索引位置，并将这些位置的值设为1。
查询元素：要判断一个元素是否在集合中，同样使用这些哈希函数计算索引，并检查对应的位是否为1。如果这些位中有任何一位不为1，则元素肯定不在集合中。如果这些位都为1，则元素可能在集合中。
误判率：由于哈希函数的碰撞，不同的元素可能会映射到相同的位置，导致误判。因此，布隆过滤器可能会错误地认为某个元素在集合中。

优缺点

优点：

空间效率和查询时间都远超一般的算法。
不存储元素本身，保护隐私。

缺点：

有一定的误判率。
不支持删除操作。

应用场景

布隆过滤器广泛应用于网络系统、分布式系统中，如：

缓存穿透：防止恶意请求穿透缓存直接访问数据库。
集合重复检测：例如，在大数据场景中，快速检测一个元素是否已经在集合中。
网络系统中的数据包检测：如检测一个数据包是否已经发送过。

实现和配置

在实现布隆过滤器时，需要考虑几个关键参数：

位数组大小（m）：越大，误判率越低。
哈希函数个数（k）：越多，误判率越低，但性能开销越大。
集合大小（n）：预计要插入的元素数量。

布隆过滤器的误判率可以通过以下公式估算：
$1 - e^{-kn/m})^k$
在实际应用中，根据预期的元素数量和可接受的误判率来选择合适的m和k值。

代码示例

下面是一个使用Go语言实现的布隆过滤器的简单示例。这个例子使用了github.com/willf/bloom库，它是一个流行的Go语言布隆过滤器库。
首先，你需要安装这个库。可以通过以下命令安装：

go get github.com/willf/bloom

然后，你可以使用以下代码创建和操作布隆过滤器：

package main
import ("fmt""github.com/willf/bloom"
)
func main() {// 创建一个布隆过滤器，预计插入1000个元素，误判率设为1%filter := bloom.New(1000, 5) // 这里第二个参数是哈希函数的个数// 添加元素filter.Add([]byte("hello"))filter.Add([]byte("world"))// 检查元素是否在集合中containsHello := filter.Test([]byte("hello"))containsFoo := filter.Test([]byte("foo"))fmt.Println("Contains 'hello'?", containsHello) // 输出：Contains 'hello'? truefmt.Println("Contains 'foo'?", containsFoo)     // 输出：Contains 'foo'? false// 注意：布隆过滤器有一定的误判率，因此containsFoo有可能错误地返回true
}

在这个示例中，我们首先创建了一个布隆过滤器，预计插入1000个元素，并设置了5个哈希函数。然后，我们添加了两个元素：“hello” 和 “world”。之后，我们检查了这两个元素是否在过滤器中，以及一个未添加的元素 “foo”。
布隆过滤器的Test方法用于检查一个元素是否可能存在于集合中。由于布隆过滤器的特性，它可能会返回误判（False Positive），即错误地认为一个元素存在于集合中。但只要返回false，就可以确定该元素不在集合中。

总结

布隆过滤器是一种高效的数据结构，它能够以极小的空间代价快速判断一个元素是否可能存在于一个集合中。在Redis中，通过Redisson这样的客户端库可以方便地使用布隆过滤器。在防止缓存穿透、提高查询效率等方面，布隆过滤器有着广泛的应用。
在使用布隆过滤器时，需要根据实际情况合理配置预期插入数量和错误比率，以达到既定的性能和准确性要求。同时，布隆过滤器的局限性在于它不支持删除操作，且存在一定的误判率。因此，在设计系统时，需要根据业务场景权衡是否使用布隆过滤器，以及如何处理可能出现的误判情况。

[算法]布隆过滤器

布隆过滤器的原理

优缺点

优点：

缺点：

应用场景

实现和配置

代码示例

总结

相关文章：

[算法]布隆过滤器

基于云效 Windows 构建环境和 Nuget 制品仓库进行 .Net 应用开发

Backend - C# asp .net core

【合作原创】使用Termux搭建可以使用的生产力环境（九）

使用Supervisor在Ubuntu中实现后台自启动服务

AIDD-人工智能药物设计-人工智能驱动的罕见病药物发现

安卓硬件加速hwui

TDv2：一种用于离线数学表达式识别的新型树形结构解码器

Golang学习笔记_23——error补充

邯郸地标美食导游平台的设计与实现

滑动窗口限流算法：基于Redis有序集合的实现与优化

Angular 最新版本和 Vue 对比完整指南

DAY39|动态规划Part07|LeetCode:198.打家劫舍、213.打家劫舍II、337.打家劫舍III

MYSQL----------------sql 优化

深度学习中的正则化方法

前端报告 2024：全新数据，深度解析未来趋势

计算机网络之---子网划分与IP地址

计算机网络（31）运输层协议概念

代码随想录算法训练营day28

建立时间和保持时间

Linux 文件类型，目录与路径，文件与目录管理

shell脚本--常见案例

mongodb源码分析session执行handleRequest命令find过程

Mybatis逆向工程，动态创建实体类、条件扩展类、Mapper接口、Mapper.xml映射文件

数据链路层的主要功能是什么

如何为服务器生成TLS证书

【决胜公务员考试】求职OMG——见面课测验1

在鸿蒙HarmonyOS 5中使用DevEco Studio实现录音机应用

用docker来安装部署freeswitch记录

第 86 场周赛：矩阵中的幻方、钥匙和房间、将数组拆分成斐波那契序列、猜猜这个单词