当前位置: 首页 > news >正文

在SpringBoot项目中利用Redission实现布隆过滤器(布隆过滤器的应用场景、布隆过滤器误判的情况、与位图相关的操作)

文章目录

  • 1. 布隆过滤器的应用场景
  • 2. 在SpringBoot项目利用Redission实现布隆过滤器
  • 3. 布隆过滤器误判的情况
  • 4. 与位图相关的操作
  • 5. 可能遇到的问题(Redission是如何记录布隆过滤器的配置参数的)
    • 5.1 问题产生的原因
    • 5.2 解决方案
      • 5.2.1 方案一:删除Redis中与布隆过滤器相关的key
      • 5.2.2 方案二:创建一个新的布隆过滤器

对 Redission 不了解的同学,可以参考我的另一篇博文: 在SpringBoot项目中使用Redission实现分布式锁(什么是Redission、为什么要使用分布式锁、分布式锁的应用场景、Redission的读锁和写锁、可重入锁的原理

至于什么是布隆过滤器,可以参考我的另一篇博文:Redis缓存面试三兄弟:缓存穿透、缓存雪崩、缓存击穿 的 1.3.3 方案三:使用布隆过滤器 部分

1. 布隆过滤器的应用场景

布隆过滤器(Bloom Filter)是一种空间效率极高的概率数据结构,用于测试一个元素是否属于集合

布隆过滤器可能会产生误报(一个元素不属于集合,但布隆过滤器判断元素属于该集合),但绝不会漏报(一个元素属于集合,但布隆过滤器判断元素不属于该集合)


布隆过滤器适用于以下一些应用场景:

  1. 网络爬虫:避免爬取已经访问过的URL,减少重复工作
  2. 防止缓存穿透:在缓存系统中,使用布隆过滤器检查请求的数据是否可能存在,以避免对不存在的数据进行数据库查询
  3. 数据库索引:用于快速判断一个记录是否存在于数据库中,减少不必要的磁盘I/O操作
  4. 邮件系统:过滤垃圾邮件,通过布隆过滤器快速判断一个邮件地址是否在垃圾邮件发送者列表中
  5. 网络安全:用于检测和防御DDoS攻击,通过布隆过滤器识别和过滤恶意流量
  6. 分布式系统:在分布式环境中,布隆过滤器可以用来检查数据是否已经被处理,以避免重复处理
  7. 文件系统:在文件检索系统中,快速判断一个文件是否存在于文件系统中,减少文件系统的访问次数
  8. 大数据集去重:在处理大规模数据集时,使用布隆过滤器进行高效去重
  9. 网络服务:检查客户端请求的内容是否已经被服务器处理过,从而避免重复处理

布隆过滤器的优点在于它的空间效率和查询速度,布隆过滤器在处理大量数据时非常有用

2. 在SpringBoot项目利用Redission实现布隆过滤器

如果不知道如何在 SpringBoot 项目项目中接入 Redission,可以参考我的另一篇博文:在SpringBoot项目中使用Redission实现分布式锁(什么是Redission、为什么要使用分布式锁、分布式锁的应用场景、Redission的读锁和写锁、可重入锁的原理)


编写一个测试类,测试布隆过滤器的过滤效果

import org.junit.jupiter.api.Test;
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;@SpringBootTest
public class BloomFilterTests {@Autowiredprivate RedissonClient redissionClient;@Testpublic void testBooleanFilter() {try {String filterName = "myBloomFilter";long expectedInsertions = 100000L; // 预期元素数量double falseProbability = 0.01; // 容错率,也就是误报率// 创建布隆过滤器,参数分别为:过滤器名称,预期元素数量,误差率RBloomFilter<Object> bloomFilter = redissionClient.getBloomFilter(filterName);bloomFilter.tryInit(expectedInsertions, falseProbability);// 添加元素for (int i = 1; i <= 50; i++) {bloomFilter.add(String.format("element%02d", i));}// 检查元素是否存在System.out.println("bloomFilter.contains(\"element01\") = " + bloomFilter.contains("element01"));System.out.println("bloomFilter.contains(\"element51\") = " + bloomFilter.contains("element51"));} finally {// 关闭 Redission 客户端redissionClient.shutdown();}}}

输出结果如下

在这里插入图片描述

3. 布隆过滤器误判的情况

我们将预期元素数量改为 5 个,再次对布隆过滤器进行测试

import org.junit.jupiter.api.Test;
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.boot.test.context.SpringBootTest;@SpringBootTest
public class BloomFilterTests {@Autowiredprivate RedissonClient redissionClient;@Testpublic void testBooleanFilter() {try {String filterName = "myBloomFilter";long expectedInsertions = 5L; // 预期元素数量double falseProbability = 0.01; // 容错率,也就是误报率// 创建布隆过滤器,参数分别为:过滤器名称,预期元素数量,误差率RBloomFilter<Object> bloomFilter = redissionClient.getBloomFilter(filterName);bloomFilter.tryInit(expectedInsertions, falseProbability);// 添加元素for (int i = 1; i <= 50; i++) {bloomFilter.add(String.format("element%02d", i));}// 检查元素是否存在System.out.println("bloomFilter.contains(\"element01\") = " + bloomFilter.contains("element01"));System.out.println("bloomFilter.contains(\"element51\") = " + bloomFilter.contains("element51"));} finally {// 关闭 Redission 客户端redissionClient.shutdown();}}}

运行结果如下

在这里插入图片描述

可以看到,布隆过滤器出现了误判的情况(element51 不在集合中,但布隆过滤器判断 element51 在集合中)


我们查看布隆过滤器的配置(布隆过滤器中各个参数的含义可参考本文的 布隆过滤器中各个参数的含义 章节)

在这里插入图片描述

可以发现,布隆过滤器底层的位图的大小为 47,布隆过滤器在处理每个元素时要应用的哈希函数的数量为 7,也就是说,每个元素会映射到位图的 7 个位置上

我们往布隆过滤器中插入了 50 个元素,每个元素映射到位图的 7 个位置上,非常容易发生哈希冲突的情况,从而导致布隆过滤器误判


我们删除布隆过滤器后,重写运行测试代码,查看位图中 1 的数量

在这里插入图片描述

redissionClient.getBitSet(filterName).cardinality()

在这里插入图片描述

可以发现,位图的大小为 47,位图中 1 的数量也是 47,也就是说,位图中所有位置都是 1,也就意味着此时布隆过滤器已经完全失去了过滤作用

所以说,在初始化布隆过滤器时,我们需要十分注意 预期元素数量误判率 参数,否则布隆过滤器的过滤效果将会大打折扣,甚至失效

4. 与位图相关的操作

Redission 提供的 RBloomFilter 类用于布隆过滤,而 RBitSet类 用于常规的位图操作

使用 RBitSet 类可以对各种位图进行各种操作,如设置位、清除位、检查位的状态等

在这里插入图片描述

@Test
public void testBitmap() {try {String filterName = "myBloomFilter";RBitSet bitSet = redissionClient.getBitSet(filterName);bitSet.set(0, true); // 设置第0位为1bitSet.set(1, false); // 设置第1位为0bitSet.clear(0); // 清除第0位boolean isSet = bitSet.get(0); // 检查第0位是否为1System.out.println("isSet = " + isSet);long count = bitSet.cardinality(); // 返回位图中1的数量System.out.println("count = " + count);} finally {// 关闭 Redission 客户端redissionClient.shutdown();}
}

5. 可能遇到的问题(Redission是如何记录布隆过滤器的配置参数的)

在这里插入图片描述

org.redisson.client.RedisException: ERR Error running script (call to f_a7ac8cff901d5cafb8de37987dfbe1fc11f00eb4): @user_script:1: user_script:1: Bloom filter config has been changed . channel: [id: 0xe1fd1f6a, L:/127.0.0.1:3098 - R:127.0.0.1/127.0.0.1:6379] command: (EVAL), promise: java.util.concurrent.CompletableFuture@52a215fa[Not completed, 1 dependents], params: [local size = redis.call(‘hget’, KEYS[1], ‘size’);local hashIterations = redis.call(‘hget’, KEYS[1], ‘hashIterations’);assert(size == ARGV[1] and hashIterations == ARGV[2], ‘Bloom filter config has been changed’)local k = 0;local c = 0;for i = 4, #ARGV, 1 do local r = redis.call(‘setbit’, KEYS[2], ARGV[i], 1); if r == 0 then k = k + 1;end; if ((i - 4) + 1) % ARGV[3] == 0 then if k > 0 then c = c + 1;end; k = 0; end; end; return c;, 2, {myBloomFilter}:config, myBloomFilter, 47, 7, 7, 6, 14, 20, …]


5.1 问题产生的原因

之所以会报错,是因为布隆过滤器的配置参数被篡改了

那布隆过滤器的配置参数存放在哪里呢,当然是存在 Redis 里面,Redis 中会有一个与布隆过滤器配置参数相关的 key,这个 key 使用的是 Hash 结构

在这里插入图片描述

在这里插入图片描述

各个参数的含义:

  1. size:布隆过滤器位图的大小
  2. hashIterations:布隆过滤器在处理每个元素时要应用的哈希函数的数量
  3. falseProbability:布隆过滤器的误报率,即错误地判断一个元素存在于集合中的概率
  4. expectedInsertions:预期将要插入布隆过滤器的元素数量

5.2 解决方案

5.2.1 方案一:删除Redis中与布隆过滤器相关的key

直接删除 Redis 中与布隆过滤器相关的 key,下次再操作布隆过滤器时会重新创建布隆过滤器

在这里插入图片描述

5.2.2 方案二:创建一个新的布隆过滤器

直接更改布隆过滤器的名字,创建一个新的布隆过滤器

在这里插入图片描述

相关文章:

在SpringBoot项目中利用Redission实现布隆过滤器(布隆过滤器的应用场景、布隆过滤器误判的情况、与位图相关的操作)

文章目录 1. 布隆过滤器的应用场景2. 在SpringBoot项目利用Redission实现布隆过滤器3. 布隆过滤器误判的情况4. 与位图相关的操作5. 可能遇到的问题&#xff08;Redission是如何记录布隆过滤器的配置参数的&#xff09;5.1 问题产生的原因5.2 解决方案5.2.1 方案一&#xff1a;…...

【prefect】python任务调度工具 Prefect | 可视化任务工具 | Python自动化的终极武器 | 高效数据管道管理

一、产品介绍 1、官方 Github https://github.com/PrefectHQ/prefect 2、官方文档 https://docs.prefect.io/3.0/get-started/index 3、Pgsql说明 正确的python链接pgsql如下&#xff1a; import psycopg2 from sqlalchemy import create_enginedef connect_with_psycopg2(…...

蓝禾,汤臣倍健,三七互娱,得物,顺丰,快手,游卡,oppo,康冠科技,途游游戏,埃科光电25秋招内推

蓝禾&#xff0c;汤臣倍健&#xff0c;三七互娱&#xff0c;得物&#xff0c;顺丰&#xff0c;快手&#xff0c;游卡&#xff0c;oppo&#xff0c;康冠科技&#xff0c;途游游戏&#xff0c;埃科光电25秋招内推 ①蓝禾 【岗位】国内/国际电商运营&#xff0c;设计&#xff0c…...

【面向对象】设计模式分类

java中设计模式共23种&#xff0c;根据使用场景可分为创建型模式、结构型模式、行为型模式。 创建型&#xff1a; 如何创建对象。 单例模式&#xff1a;保证一个类在一个程序中只能创建一个对象。例如windows任务管理器窗口只需要创建一个。单例模式只创建一个对象&#xff0…...

花朵识别系统Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练

一、介绍 花朵识别系统。本系统采用Python作为主要编程语言&#xff0c;基于TensorFlow搭建ResNet50卷积神经网络算法模型&#xff0c;并基于前期收集到的5种常见的花朵数据集&#xff08;向日葵、玫瑰、蒲公英、郁金香、菊花&#xff09;进行处理后进行模型训练&#xff0c;最…...

中泰免签,准备去泰国旅游了吗?《泰语翻译通》app支持文本翻译和语音识别翻译,解放双手对着说话就能翻译。

泰国是很多中国游客的热门选择&#xff0c;现在去泰国旅游更方便了&#xff0c;因为泰国对中国免签了。如果你打算去泰国&#xff0c;那么下载一个好用的泰语翻译软件是很有必要的。 简单好用的翻译工具 《泰语翻译通》App就是为泰国旅游设计的&#xff0c;它翻译准确&#x…...

C++/Qt 集成 AutoHotkey

C/Qt 集成 AutoHotkey 前言AutoHotkey 介绍 方案一&#xff1a;子进程启动编写AutoHotkey脚本准备 AutoHotkey 运行环境编写 C/Qt 代码 方案二&#xff1a;显式动态链接方案探索编译动态链接库集成到C工程关于AutoHotkeyDll.dll中的函数原型 总结 前言 上一篇介绍了AutoHotkey…...

OpenMV学习第一步安装IDE_2024.09.20

用360浏览器访问星瞳科技官网&#xff0c;一直提示访问不了。后面换了IE浏览器就可以访问。第一个坑。...

RK3568平台(基础篇)万用表的使用

一.万用表的通断判断 万用表两个笔头的插法:黑笔头是插在COM的孔里面,红色笔头可以插在其他的三个孔里面,20A和mA分别用来测电流,另外一个孔可以用来测其他(电压 电阻)。 以下这个三角符号(像wifi一样的)可以用来测通断: 使用万用表的红笔和黑笔进行短接,这时候两端…...

more、less 命令:阅读文本

一、命令简介 ​more​ 和 less​ 都是用于查看文本文件内容的命令&#xff0c;但它们在显示方式和功能上有一些区别。 简单的说 less​ 是 more​ 的升级版&#xff1a;增加了搜索、跳转等功能。所以优先使用 less​&#xff0c;可以不用 more ​了。 ‍ 二、命令参数 基…...

【笔记】1.3 塑性变形

一、塑性变形的方式 DDWs&#xff08;Dislocation-Dipole Walls&#xff0c;位错偶极墙&#xff09;&#xff1a;指由两个位错构成的结构&#xff0c;它们以一种特定的方式排列在一起&#xff0c;形成一个稳定的结构单元。 DTs&#xff08;Dislocation Tangles&#xff0c;位错…...

Java集合(三)

目录 Java集合&#xff08;三&#xff09; Java双列集合体系介绍 HashMap类 HashMap类介绍 HashMap类常用方法 HashMap类元素遍历 LinkedHashMap类 LinkedHashMap类介绍 LinkedHashMap类常用方法 LinkedHashMap类元素遍历 Map接口自定义类型去重的方式 Set接口和Ma…...

python:给1个整数,你怎么判断是否等于2的幂次方?

最近在csdn上刷到一个比较简单的题目&#xff0c;题目要求不使用循环和递归来实现检查1个整数是否等于2的幂次方&#xff0c;题目如下&#xff1a; 题目的答案如下&#xff1a; def isPowerofTwo(n):z bin(n)[2:]print(bin(n))if z[0] ! 1:return Falsefor i in z[1:]:if i !…...

Centos7安装gitlab-ce(rpm安装方式)

本章教程&#xff0c;主要介绍如何在Centos7安装gitlab-ce。 一、安装基础环境 安装gitlab-ce之前&#xff0c;我们需要安装一下jdk版本。 sudo yum install java-11-openjdk-devel二、下载安装包 这里我们下载的是rpm包。更多gitlab-ce版本可以在这里查看&#xff1a;https://…...

Flutter 获取手机连接的Wifi信息

测试版本 Flutter&#xff1a;3.7.6Dart:2.19.3 network_info_plus: 4.0.1 前言 我在做设备配网的时候&#xff0c;需要选择配网的WiFi。用下拉选择框展示WiFi列表。现在有个需求&#xff1a;默认展示的设备为手机连接的wifi。要实现这个需求只要能够获取到手机连接的wifi信息…...

誉龙视音频 Third/TimeSyn 远程命令执行复现

0x01 漏洞描述&#xff1a; 誉龙公司定位为系统级的移动视音频记录解决方案提供商&#xff0c;凭借其深厚的行业经验&#xff0c;坚持自主研发&#xff0c;匠心打造记录仪领域行业生态&#xff0c;提供开放式的记录仪APK、GB28181 SDK、国网B协议、管理平台软件OEM。誉龙视音频…...

ATMEGA328P芯片引脚介绍

1.AVCC AVCC是ATmega328P芯片的模拟电源引脚。 AVCC引脚的定义 模拟电源引脚&#xff1a;AVCC&#xff08;Analog Voltage Common&#xff09;是ATmega328P微控制器中的模拟电源引脚&#xff0c;用于为模拟电路部分提供稳定的电源。功能描述&#xff1a;AVCC通常连接到一个干…...

现代前端构建工具对比:Vue CLI、Webpack 和 Vite

一、引言&#x1f31f; 在现代前端开发中&#xff0c;选择合适的构建工具对于提高项目的效率和可维护性至关重要。&#x1f6e0;️ Vue CLI、&#x1f4e6; Webpack 和 &#x1f680; Vite 是目前最流行的三个构建工具&#xff0c;它们各自具有独特的优势和适用场景。本文将深…...

代码随想录算法训练营第三九天| 198.打家劫舍 213.打家劫舍II 337.打家劫舍 III

今日任务 198.打家劫舍 213.打家劫舍II 337.打家劫舍 III 198.打家劫舍 题目链接&#xff1a; . - 力扣&#xff08;LeetCode&#xff09; class Solution {public int rob(int[] nums) {int[] dp new int[nums.length];if (nums.length 1) return nums[0];if (nums.lengt…...

阿里云AI基础设施全面升级,模型算力利用率提升超20%

来源首席数智官 9月20日&#xff0c;2024云栖大会现场&#xff0c;阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化&#xff0c;阿里云打造出一套稳定和高效的AI基础设施&#xff0c;连续训练有效时长大于99%&#xff0c;模型算力利用率提升20%以上。 “AI…...

网络编程(Modbus进阶)

思维导图 Modbus RTU&#xff08;先学一点理论&#xff09; 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议&#xff0c;由 Modicon 公司&#xff08;现施耐德电气&#xff09;于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…...

Python爬虫实战:研究feedparser库相关技术

1. 引言 1.1 研究背景与意义 在当今信息爆炸的时代,互联网上存在着海量的信息资源。RSS(Really Simple Syndication)作为一种标准化的信息聚合技术,被广泛用于网站内容的发布和订阅。通过 RSS,用户可以方便地获取网站更新的内容,而无需频繁访问各个网站。 然而,互联网…...

测试markdown--肇兴

day1&#xff1a; 1、去程&#xff1a;7:04 --11:32高铁 高铁右转上售票大厅2楼&#xff0c;穿过候车厅下一楼&#xff0c;上大巴车 &#xffe5;10/人 **2、到达&#xff1a;**12点多到达寨子&#xff0c;买门票&#xff0c;美团/抖音&#xff1a;&#xffe5;78人 3、中饭&a…...

Python实现prophet 理论及参数优化

文章目录 Prophet理论及模型参数介绍Python代码完整实现prophet 添加外部数据进行模型优化 之前初步学习prophet的时候&#xff0c;写过一篇简单实现&#xff0c;后期随着对该模型的深入研究&#xff0c;本次记录涉及到prophet 的公式以及参数调优&#xff0c;从公式可以更直观…...

如何将联系人从 iPhone 转移到 Android

从 iPhone 换到 Android 手机时&#xff0c;你可能需要保留重要的数据&#xff0c;例如通讯录。好在&#xff0c;将通讯录从 iPhone 转移到 Android 手机非常简单&#xff0c;你可以从本文中学习 6 种可靠的方法&#xff0c;确保随时保持连接&#xff0c;不错过任何信息。 第 1…...

12.找到字符串中所有字母异位词

&#x1f9e0; 题目解析 题目描述&#xff1a; 给定两个字符串 s 和 p&#xff0c;找出 s 中所有 p 的字母异位词的起始索引。 返回的答案以数组形式表示。 字母异位词定义&#xff1a; 若两个字符串包含的字符种类和出现次数完全相同&#xff0c;顺序无所谓&#xff0c;则互为…...

回溯算法学习

一、电话号码的字母组合 import java.util.ArrayList; import java.util.List;import javax.management.loading.PrivateClassLoader;public class letterCombinations {private static final String[] KEYPAD {"", //0"", //1"abc", //2"…...

Java数值运算常见陷阱与规避方法

整数除法中的舍入问题 问题现象 当开发者预期进行浮点除法却误用整数除法时,会出现小数部分被截断的情况。典型错误模式如下: void process(int value) {double half = value / 2; // 整数除法导致截断// 使用half变量 }此时...

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的----NTFS源代码分析--重要

根目录0xa0属性对应的Ntfs!_SCB中的FileObject是什么时候被建立的 第一部分&#xff1a; 0: kd> g Breakpoint 9 hit Ntfs!ReadIndexBuffer: f7173886 55 push ebp 0: kd> kc # 00 Ntfs!ReadIndexBuffer 01 Ntfs!FindFirstIndexEntry 02 Ntfs!NtfsUpda…...

通过MicroSip配置自己的freeswitch服务器进行调试记录

之前用docker安装的freeswitch的&#xff0c;启动是正常的&#xff0c; 但用下面的Microsip连接不上 主要原因有可能一下几个 1、通过下面命令可以看 [rootlocalhost default]# docker exec -it freeswitch fs_cli -x "sofia status profile internal"Name …...