使用Redission来实现布隆过滤器
简述布隆过滤器
布隆过滤器是一种概率型数据结构,它可以用来判断一个元素是否在一个集合中。我们当时使用的是Redisson实现的布隆过滤器。它的底层原理是,先初始化一个比较大的数组,里面存放的是二进制0或1。一开始都是0,当一个key来了之后,经过3次hash计算,模数组长度找到数据的下标,然后把数组中原来的0改为1。这样,三个数组的位置就能标明一个key的存在。当需要判断一个元素是否存在时,通过相同的哈希函数计算出该元素在位数组上的位置,如果这些位置上的值都为1,则认为该元素可能存在;如果任何一个位置上的值为0,则该元素一定不存在。在缓存穿透的场景中,我们可以将数据库中存在的数据对应的key存入布隆过滤器,当查询一个key时,先通过布隆过滤器判断该key是否存在,如果不存在,直接返回,避免查询数据库。
为什么会产生误判
误判的产生是由于多个不同的元素可能通过哈希函数映射到位数组的相同位置。这种情况称为哈希冲突。由于布隆过滤器使用多个哈希函数,一个元素的每个哈希值都对应位数组中的一个位置,这意味着不同元素的哈希值可能会重叠。
例如,如果两个不同的元素通过哈希函数计算后都映射到位数组的同一个位置,并且这个位置最初是0,那么当第一个元素被添加到布隆过滤器时,该位置会被设置为1。当第二个元素被检查时,由于该位置已经是1,布隆过滤器可能会错误地认为第二个元素也存在于集合中,即使它实际上并不存在。
减少误判的方法
-
增加位数组的大小:更大的位数组可以减少哈希冲突的概率,从而降低误判率。
-
增加哈希函数的数量:更多的哈希函数可以更均匀地分布元素到位数组中,但也会增加计算成本。
-
选择合适的哈希函数:好的哈希函数可以减少冲突的概率。
布隆过滤器怎么更新和删除内容,有实现的思路吗?
布隆过滤器是一种只支持添加元素,理论上不支持删除元素的数据结构,因为它使用多个哈希函数将元素映射到位数组的多个位置,删除一个元素可能会影响其他元素的检查结果。不过,有一些方法可以间接实现删除操作或者更新布隆过滤器的内容。
1. 重新创建布隆过滤器
最简单直接的方法是重新创建一个布隆过滤器,将需要保留的元素重新添加进去。这种方法成本较高,因为它需要重新计算所有保留元素的哈希值并更新位数组。
2. 使用计数器(Counting Bloom Filter)
计数布隆过滤器(Counting Bloom Filter)是布隆过滤器的一种变体,它使用计数数组代替位数组,每个位置存储一个计数值而不是简单的0或1。这样,删除元素时可以将对应位置的计数值减1,而不是直接置为0。这种方法可以支持删除操作,但增加了存储空间和计算复杂度。
使用Redission来实现布隆过滤器的步骤
1. 添加Redission依赖
<dependency><groupId>org.redisson</groupId><artifactId>redisson</artifactId><version>3.15.6</version> <!-- 请检查最新版本 -->
</dependency>
2. 配置Redission
在应用启动时,配置Redisson客户端以连接到Redis服务器:
import org.redisson.Redisson;
import org.redisson.api.RedissonClient;
import org.redisson.config.Config;public class RedissonConfig {public static RedissonClient create() {Config config = new Config();config.useSingleServer().setAddress("redis://127.0.0.1:6379"); // Redis服务器地址return Redisson.create(config);}
}
3. 使用Redisson创建和使用布隆过滤器
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;public class BloomFilterExample {private static final RedissonClient redisson = RedissonConfig.create();public static void main(String[] args) {// 创建布隆过滤器,预计元素数量为1000,误判率为0.03RBloomFilter<String> bloomFilter = redisson.getBloomFilter("myBloomFilter");bloomFilter.tryInit(1000, 0.03);// 添加元素到布隆过滤器bloomFilter.add("key1");bloomFilter.add("key2");// 检查元素是否存在于布隆过滤器boolean exists1 = bloomFilter.contains("key1"); // 应该返回trueboolean exists2 = bloomFilter.contains("key2"); // 应该返回trueboolean exists3 = bloomFilter.contains("key3"); // 可能返回false或true(误判)System.out.println("key1 exists: " + exists1);System.out.println("key2 exists: " + exists2);System.out.println("key3 exists: " + exists3);}
}
4. 处理缓存穿透
在缓存穿透的场景中,使用布隆过滤器来避免不必要的数据库查询
import org.redisson.api.RBloomFilter;
import org.redisson.api.RedissonClient;public class CacheService {// 获取Redisson客户端实例,确保已经配置好Redissonprivate static final RedissonClient redisson = RedissonConfig.create();// 使用Redisson创建布隆过滤器,名称为"myBloomFilter"private static final RBloomFilter<String> bloomFilter = redisson.getBloomFilter("myBloomFilter");/*** 获取数据的方法。* 先通过布隆过滤器检查key是否存在,如果不存在则直接返回null。* 如果存在,从数据库查询数据,并在查询到数据后将key添加到布隆过滤器中。* @param key 要查询的key* @return 查询到的数据,如果不存在则返回null*/public String getData(String key) {// 检查布隆过滤器,如果key不存在,则直接返回nullif (!bloomFilter.contains(key)) {return null;}// 从数据库查询数据String data = queryDatabase(key);// 如果查询到数据,且该key尚未在布隆过滤器中,则添加到布隆过滤器if (data != null && !bloomFilter.contains(key)) {bloomFilter.add(key);}return data;}/*** 模拟从数据库查询数据的方法。* 实际应用中,这里应该是数据库查询逻辑。* @param key 要查询的key* @return 查询到的数据*/private String queryDatabase(String key) {// 这里模拟数据库查询,实际应用中应替换为数据库查询逻辑// 假设数据库中存在key对应的数据return "some data for " + key;}
}
相关文章:
使用Redission来实现布隆过滤器
简述布隆过滤器 布隆过滤器是一种概率型数据结构,它可以用来判断一个元素是否在一个集合中。我们当时使用的是Redisson实现的布隆过滤器。它的底层原理是,先初始化一个比较大的数组,里面存放的是二进制0或1。一开始都是0,当一个k…...
为 Windows 和 Ubuntu 中设定代理服务器的详细方法
有时下载大模型总是下载不出来,要配置代理才行 一、Windows代理设置 ① 系统全局代理设置 打开【设置】→【网络和Internet】→【代理】。 在【手动设置代理】下,打开开关,输入: 地址:10.10.10.215 端口:…...

Feign异步模式丢失上下文问题
Feign异步模式丢失上下文问题 问题描述 当我们使用异步对我们代码进行操作优化时,代码中使用了RequestContextHolder去获取上下文的数据,当我们执行原来可以执行的业务时发现报了空指针异常或数据为空,这是为什么呢? 原理解释 …...
OpenCV阈值处理完全指南:从基础到高级应用
引言 阈值处理是图像处理中最基础、最常用的技术之一,它能够将灰度图像转换为二值图像,为后续的图像分析和处理奠定基础。本文将全面介绍OpenCV中的各种阈值处理方法,包括原理讲解、代码实现和实际应用场景。 一、什么是阈值处理࿱…...

【AWS入门】Amazon SageMaker简介
【AWS入门】Amazon SageMaker简介 [AWS Essentials] Brief Introduction to Amazon SageMaker By JacksonML 机器学习(Machine Learning,简称ML) 是当代流行的计算机科学分支技术。通常,人们在本地部署搭建环境,以满足机器学习的要求。 AWS…...
ArcGIS Pro 3.4 二次开发 - 内容
环境:ArcGIS Pro SDK 3.4 .NET 8 文章目录 内容1 工程1.1 创建一个空工程1.2 使用指定名称创建新工程1.3 使用Pro的默认设置创建新工程1.4 使用自定义模板文件创建新工程1.5 使用 ArcGIS Pro 提供的模板创建工程1.6 打开现有工程1.7 获取当前工程1.8 获取当前工程的…...
如何在 MongoDB 中设计文档结构?与关系型数据库的表结构设计有何不同?
在 MongoDB 中设计文档结构是一个核心且重要的环节,它直接影响应用的性能、可扩展性和可维护性。 MongoDB 文档结构设计原则与方法 MongoDB 的核心思想是数据如何被应用访问,就如何存储它。 嵌入 (Embedding / Denormalization) vs. 引用 (Referencing…...

MYSQL 故障排查与生产环境优化
目录 一.前置知识点 1. 案例需求 (1)mysql 常见故障解决 (2)mysql 性能优化 2.案例实施思路 (1)单库常见故障分析 (2)主从常见故障分析 (3)从几个不同…...

解决使用@JsonFormat(pattern = “yyyy-MM-dd HH:mm:ss“, timezone = “GMT+8“)时区转换无效的问题
前言 对于一些时间的字段,我们从数据库查询出来通常需要转换后返回给前端展示,前端需要的格式一般为yyyy-MM-dd HH:mm:ss,可以通过JsonFormat注解来作转换和时区转换。 问题场景 原因 LocalDateTime类本身不带时区信息所以转换无效 解决办…...

计算机网络概要
⽹络相关基础知识 协议 两设备之间使⽤光电信号传输信息数据 要想传递不同信息 那么⼆者ᳵ就需要约定好的数据格式 层 封装 继承 多态是计算机的性质 它们⽀持了软硬件分层的实现 同层协议可以ᳵ接通信 同层协议ᳵ不直接通信 是各⾃调⽤下层提供的结构能⼒完成通信 分层…...

Word压缩解决方案
Word压缩解决方案:基于图片压缩的 .docx 优化实践 📌 背景 在日常科研写作或项目文档整理中,Word 文档(.docx)往往因为插入大量高清图表、扫描图像、公式图等导致文件体积过大,或者毕业学位论文查重要求上…...
Spring Boot开发—— 整合Lucene构建轻量级毫秒级响应的全文检索引擎
文章目录 一、为什么选择 Lucene?轻量级搜索的底层密码二、核心原理:Lucene 的倒排索引2.1 倒排索引:速度之源2.2 段合并优化策略三、Spring Boot集成Lucene实战3.1 依赖配置3.2 实体与索引设计3.3 核心索引服务(含异常处理)3.4 使用示例(测试类)四、高级优化技巧4.1 索…...

TDengine 2025年产品路线图
TDengine OSS 之 2025 年年度路线图如下表所示。 季度功能2025Q1 虚拟表查询能力:REGEXP、GREATEST、LEAST、CAST 函数支持判断表达式、单行选择函数的其他列值、INTERP 支持插值时间范围存储能力:支持将查询结果写入超级表、超级表支持 KEEP 参数、STM…...
vue3中element-plus修改el-tooltip的宽度
注意选中的样式是 :deep(.el-popper .is-dark){max-width:30% !important; } 也有可能不需要后面的 .is-dark,看情况而定,总之不是.el-tooltip 修改el-tooltip的显示高度参考:前端字数太多使用el-table设置show-overflow-tooltip显示不下&a…...

Ubuntu服务器部署多语言项目(Node.js/Python)方式实践
Ubuntu服务器部署多语言项目(Node.js/Python)方式实践 服务器脚本运行方式命令行直接执行nohup后台执行进程 Screen概述安装基本操作命令启动 Screen退出当前会话(不终止进程)查看所有会话重连会话关闭会话 常用快捷键典型使用场景…...

计算机网络 - 2.基础协议
1.TCP协议 1.TCP(Transmission Control Protocol):传输控制协议2.TCP协议是一种面向连接的、可靠的、 基于字节流的传输层通信协议 1.面向连接:两个使用TCP协议的应用(通常一个客户和一个服务器)在彼此交换数据包之前必须先建立一个TCP连接2.可靠的 1.数据传输之前都要建立…...
Kafka消息路由分区机制深度解析:架构设计与实现原理
一、消息路由系统的核心架构哲学 1.1 分布式系统的三元悖论 在分布式消息系统的设计过程中,架构师需要平衡三个核心诉求:数据一致性、系统可用性和分区容忍性。Kafka的分区路由机制本质上是对CAP定理的实践解: 一致性维度:通过…...
机器学习中采样哪些事
在机器学习中采样主要分为两种,过采样(Oversample)和欠采样(Undersample)。过采样就是通过增加少数类样本的数量来平衡数据集。而欠采样就是通过减少多数类样本的数量来平衡数据集。 通常在进行采样中以下是几种常用的方法: 1. 随机采样 随…...

初识css,css语法怎样学好css以及常见问题与避坑
一、CSS 是什么? CSS(Cascading Style Sheets)是一种用于描述网页文档(HTML 或 XML)呈现样式的语言。它负责控制网页元素的视觉表现,如颜色、字体、布局等,使内容与展示分离。 二、CSS 语法结构…...
MySQL如何快速删除数据库中所有表数据
首先运行下面指令生成TRUNCATE TABLE语句 -- 生成的TRUNCATE TABLE语句 SELECT CONCAT(TRUNCATE TABLE , table_name, ;) FROM information_schema.tables WHERE table_schema axe_elder; 再运行下面指令禁用外键关联检查 -- 禁用外键检查 SET FOREIGN_KEY_CHECKS 0; 运…...
计算机视觉与深度学习 | Python实现ARIMA-LSTM时间序列预测(完整源码和数据)
ARIMA-LSTM混合模型 1. 环境准备2. 数据生成(示例数据)3. 数据预处理4. ARIMA建模5. LSTM残差建模6. 混合预测7. 结果可视化完整代码说明1. **数据生成**2. **ARIMA建模**3. **LSTM残差建模**4. **混合预测**5. **性能评估**参数调优建议扩展方向典型输出以下是使用Python实现…...

Axure疑难杂症:垂直菜单展开与收回(4大核心问题与专家级解决方案)
亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢!如有帮助请订阅专栏! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题:垂直菜单展开与收回 主要内容:超长菜单实现、展开与收回bug解释、Axure9版本限制等问题解…...

vue2.0 组件生命周期
个人简介 👨💻个人主页: 魔术师 📖学习方向: 主攻前端方向,正逐渐往全栈发展 🚴个人状态: 研发工程师,现效力于政务服务网事业 🇨🇳人生格言&…...
从零开始创建一个 Next.js 项目并实现一个 TodoList 示例
Next.js 是一个基于 React 的服务端渲染框架,它提供了很多开箱即用的功能,如自动路由、API 路由、静态生成、增量静态再生等。本文将带你一步步创建一个 Next.js 项目,并实现一个简单的 TodoList 功能。 效果地址 🧱 安装 Next.j…...

在Linux服务器上部署Jupyter Notebook并实现ssh无密码远程访问
Jupyter notebook版本7.4.2(这个版本AI提示我Jupyter7(底层是 jupyter_server 2.x) 服务器开启服务 安装Jupyter notebook 7.4.2成功后,终端输入 jupyter notebook --generate-config 这将在 ~/.jupyter/ 目录下生成 jupyter_…...

GPU 超级节点:AWS Trainium2 UltraServer
目录 文章目录 目录时间线Inferentia1Trainium1Inferentia2Trainium2Trainium2 ServerTrainium2 UltraServerTrainium2 UltraClustersTrainium3AWS GPU 实例矩阵与竞品分析SuperNode RackTrn2 ServerTrn2U Server ScaleUp 网络PCIe Gen5:CPU-Trainium2 ScaleUpNeuro…...
代码随想录算法训练营Day37 | 完全背包基础理论 518. 零钱兑换II 377. 组合总和Ⅳ 57. 爬楼梯(第八期模拟笔试)
完全背包基础理论 不放物品i:背包容量为j,里面不放物品i的最大价值是dp[i - 1][j]。 放物品i:背包空出物品i的容量后,背包容量为j - weight[i],dp[i][j - weight[i]] 为背包容量为j - weight[i]且不放物品i的最大价值…...

git仓库中.git 文件很大,怎么清理掉一部分
查询 .git 文件大小,在 git-bash 里执行(后面有些命令不能执行,也请在 git-bash 里执行) windows11 安装好后右键没有 git bash 命令-CSDN博客 du -sh .git // 592m .git 操作前最好先备份一份,避免推送到远程时出错…...

MySQL安装实战指南:Mac、Windows与Docker全平台详解
MySQL作为世界上最流行的开源关系型数据库,是每位开发者必须掌握的基础技能。本指南将手把手带你完成三大平台的MySQL安装,从下载到配置,每个步骤都配有详细说明和截图,特别适合新手学习。 一、Mac系统安装MySQL 1.1 通过Homebre…...

Rocky Linux 远程服务器画面GUI传输到本地显示教程——Xming
Rocky Linux 远程服务器画面GUI传输到本地显示教程——Xming 下载Xming安装Xming安装Xming字体Xming的使用设置测试 Xming可以提供GUI环境,在Linux服务器上执行GUI应用时,可通过Xming在Windows上执行GUI操作。 下载Xming 下载链接:https://…...