当前位置: 首页 > news >正文

高阶数据结构----布隆过滤器和位图

(一)位图

  位图是用来存放某种状态的,因为一个bit上只能存0和1所以一般只有两种状态的情况下适合用位图,所以非常适合判断数据在或者不在,而且位图十分节省空间,很适合于海量数据,且容易存储,数据无重复的场景(因为位图是天然去重的)

 那我们来看一下他是如何节省空间的

我们看这个例子,如果我们不使用位图,一共10个整型数据,需要消耗40个字节,但是如果使用位图,我们就只需要3个字节就可以判断这个数字是否存在

注:10亿字节1个g

(二)位图的实现及作用

public class bitmap {public byte[] elem;public int usedSize;public bitmap() {elem=new byte[1];}//初始化位图长度public bitmap(int n) {elem=new byte[(n/8)+1];}public void setElem(int val){//找到插入第几个byte中   val/8if (val<0)throw new IndexOutOfBoundsException();int arrIndex=val/8;//找到插入到byte的第几个bit中 val%8int bitIndex=val%8;elem[arrIndex] |= (1<<bitIndex); //这里用| 之前为1的就一直为1,当前我要插入的一定会修改为1usedSize++;  //这里其实不一定正确,因为如果本身就存在这个元素,那么我们不应该++}public boolean get(int val){//找到插入第几个byte中   val/8if (val<0)throw new IndexOutOfBoundsException();int arrIndex=val/8;//找到插入到byte的第几个bit中 val%8int bitIndex=val%8;if((elem[arrIndex] & 1<<bitIndex)!=0){   //这里是用& 把其余所有位都变成0,如果当前我要找的存在就不为0return true;}return false;}public void delete(int val){//找到删除第几个byte中   val/8if (val<0)throw new IndexOutOfBoundsException();int arrIndex=val/8;//找到删除到byte的第几个bit中 val%8int bitIndex=val%8;elem[arrIndex] &=~(1<<bitIndex);usedSize--;}
}

我们之后来看一下我们的set delete和get方法中的不同点

我们发现只有对bit位的处理是不同的,找位置的代码都是一样的,所以我们就来看对bit位的处理

首先是set方法,我们是用了 | 只要有1就为1 这样是为了确保在我们添加元素的时候不影响其他bit位上的元素,如果我们变成& 就会这样

我们发现下标为5的元素被修改为0了,这显然是不对的,如果是异或那就更不对了

然后我们来看get 我们用了 & 只有都为1的时候才为1,其他都是0,也就是说我们想找这个元素,且他存在的时候才为1,其他都为0,如果使用 | 我们就无法判断了

最后一个我们看delete 我们先取反然后再& ,这样能够保证只有这一位是0,其他位全为1,如果其他位本身不存在那么1&0还是0,如果存在1&1为1还是存在,而我们要删除的位,无论如何都为0,这里可能要问,为什么不能使用异或,异或有一个情况会发生错误,如果我们删除的位置本身不存在为0,那么就会导致0^1为1,反倒存在了,所以不可以用^

 我们可以使用我们的位图进行排序

 public static void main(String[] args) {int[] array = {1,3,2,13,10,3,14,18,3};final bitmap bitSet = new bitmap(18);for (int tmp:array) {bitSet.setElem(tmp);}for (int i = 0; i < bitSet.elem.length; i++) {for (int j = 0; j < 8; j++) {if((bitSet.elem[i] & (1 << j) ) != 0 ) {System.out.println(i*8+j);}}}}

其实位图我们Java也给我们实现过了

但是他的底层是long类型的数组 而我们是byte类型的

那我们来总结一下位图的应用

1.快速查找某个数据(适合处理整数)是否在集合中

2.排序+去重

3.求两个集合的交集,并集

(三)布隆过滤器

  我们上面说的位图,适合存储整数,如果是对象,那我们要存到那一个byte位?所以我们就出现了布隆过滤器

  布隆过滤器是哈希和位图思想的结合

之前我们有一篇博客讲了布隆过滤器解决缓存穿透的问题 我们说布隆过滤器用于一些可以存在误判率的场景下,因为布隆过滤器是通过多个哈希函数多次将数据给存放到位图上

像这样

但是因为我们在多次插入后可能会出现这种场景

我们发现不同数据hash后可能会落到同一个格子,但是还好这个还有一位不同,更极端点的例子

一个数据多次hash,都落到了1位置上,这样就会判断它存在,但是它实际上是不存在的,此时就会出现误判

 所以布隆过滤器对于结果来说,存在不一定存在,不存在一定不存在

布隆过滤器的优缺点:

优点:

1.增加和查询元素的时间复杂度为O(1)

2.布隆过滤器不存元素本身,所以适合要保密的场景

3.布隆过滤器由于使用了位图,很节省空间

4.数据量很大时,布隆过滤器可以表示全集(也就是能表示更多的元素)

5.适用相同hash函数的布隆过滤器可以进行交,并,差运算

缺点:

1.存在一定误判率

2.不能获取元素本身(hash不可逆)

3.一般不能删除元素(因为多个元素可能hash到一个位置上)

4.这样删除会存在计数回绕问题

总结下布隆过滤器:适合一些非整数的数据,通过hash+位图的思想,查找的时间复杂度和hash函数个数有关但都是常数,也不会太大,存储的不是信息本身只能判断数据是否存在,但是有误判率

(四)海量数据面试题

1.给定100亿个整数,设计找到值出现一次的整数

解法一:哈希切割

  我们把这100亿个整数哈希到不同小文件中,这样相同的数字是会在一起的,然后遍历每个小文件,记录只出现一次的整数到另一个文件中,这样就能判断那个数字只出现一次

解法二:位图

 我们把这100亿个整数放到两个位图中

我们适用二进制计数的方式,这样只出现一次的整数就是0 1,然后我们遍历整个位图就可以得到了。

 当然也可以只用一个位图,那就是两个bit位存一个数据

这样我们需要/4和%4找位置了

2.给定两个文件分别有100亿个整数,但是我们只有1g内存,如何找到两个文件交集

解法一:哈希切割

我们依然将两个文件分别hash成多个小文件,这样相同的数据大概率在同一个文件中,然后我们求这两个文件的交集放到另一个文件中

解法二:位图

我们将第一个文件的数据放到位图中,然后遍历第二个文件,如果在位图中存在了,那么就是两个文件的交集

3.给两个文件,分别有100亿个query,我们只有1g内存,如何找两个文件交集?给出精确算法和近似算法

 注意我们这题是query,那就说明不是整数,那就不适合用位图,但是我们可以适用布隆过滤器

解法一:哈希切割(精确算法)

我们依然将两个文件分别hash成多个小文件,这样相同的数据大概率在同一个文件中,然后我们求这两个文件的交集放到另一个文件中(跟上面一样)

解法二:近似算法

把第一个文件的query映射到布隆过滤器中,然后读第二个文件,把每个query都放到布隆过滤器查找(有误判率)所以是近似算法

那我们来总结一下:哈希切割是比较通用的方法,通过hash函数把相同的数据都放到一个文件中,然后进行判断和处理

位图适合整型数据的处理,而布隆过滤器是适合允许有一定误报率的处理

相关文章:

高阶数据结构----布隆过滤器和位图

&#xff08;一&#xff09;位图 位图是用来存放某种状态的&#xff0c;因为一个bit上只能存0和1所以一般只有两种状态的情况下适合用位图&#xff0c;所以非常适合判断数据在或者不在&#xff0c;而且位图十分节省空间&#xff0c;很适合于海量数据&#xff0c;且容易存储&…...

VScode使用密钥进行ssh连接服务器方法

如何正常连接ssh的方式可以看我原来那篇文章&#xff1a;Windows上使用VSCode连接远程服务器ssh 1.连接 点击ssh加号&#xff0c;然后关键点在第2步的书写上 2.命令 2的位置写命令&#xff1a; ssh -i "C:\Users\userName\.ssh\id_rsa" usernameIP -p 端口号 端…...

艾体宝产品丨加速开发:Redis 首款 VS Code 扩展上线!

Redis 宣布推出其首款专为 VS Code 设计的 Redis 扩展。这一扩展将 Redis 功能直接整合进您的集成开发环境&#xff08;IDE&#xff09;&#xff0c;旨在简化您的工作流程&#xff0c;提升工作效率。 我们一直致力于构建强大的开发者生态系统&#xff0c;并在您工作的每一步提…...

应用架构模式

设计模式 设计模式是指根据通用需求来设计解决方案的模板或蓝图&#xff0c;使用设计模式能够更加有效地解决设计过程中的常见问题。设计模式针对不同的问题域有不同的内涵&#xff0c;主要涉及业务、架构、程序设计等问题域&#xff0c;本文主要讨论架构设计模式。 业务设计模…...

注入少量可学习的向量参数: 注入适配器IA3

注入少量可学习的向量参数: 注入适配器IA3 简介:IA3通过学习向量来对激活层加权进行缩放,从而获得更强的性能,同时仅引入相对少量的新参数。它的诞生背景是为了改进LoRA,与LoRA不同的是,IA3直接处理学习向量,而不是学习低秩权重矩阵,这使得可训练参数的数量更少,并且原…...

【C++】B2076 球弹跳高度的计算

博客主页&#xff1a; [小ᶻ☡꙳ᵃⁱᵍᶜ꙳] 本文专栏: C 文章目录 &#x1f4af;前言&#x1f4af;题目描述输入格式输出格式输入输出示例 &#x1f4af;两种代码实现及其对比我的代码实现代码分析优点与不足 老师的代码实现代码分析优点与不足 &#x1f4af;两种实现的对…...

【Python】selenium结合js模拟鼠标点击、拦截弹窗、鼠标悬停方法汇总(使用 execute_script 执行点击的方法)

我们在写selenium获取网络信息的时候&#xff0c;有时候我们会受到对方浏览器的监控&#xff0c;对方通过分析用户行为模式&#xff0c;如点击、滚动、停留时间等&#xff0c;网站可以识别出异常行为&#xff0c;进而对Selenium爬虫进行限制。 这里我们可以加入JavaScript的使…...

CatBoost算法详解与PyTorch实现

CatBoost算法详解与PyTorch实现 目录 CatBoost算法详解与PyTorch实现@[TOC](目录)1. CatBoost算法概述1.1 梯度提升树(GBDT)1.2 CatBoost的优势2. CatBoost的核心技术2.1 类别特征处理2.2 对称树结构2.3 有序提升技术2.4 正则化技术3. PyTorch实现CatBoost3.1 环境准备3.2 Py…...

“TypeScript版:数据结构与算法-初识算法“

引言 在算法与编程的广阔世界里&#xff0c;总有一些作品以其独特的魅力和卓越的设计脱颖而出&#xff0c;成为我们学习和研究的典范。今天&#xff0c;我非常荣幸地向大家分享一个令人印象深刻的算法——Hello算法。 Hello算法不仅展现了作者深厚的编程功底&#xff0c;更以…...

mysql中递归的使用 WITH RECURSIVE

MySQL递归查询的基本语法和用法 MySQL 8.0及以上版本支持使用WITH RECURSIVE来进行递归查询。WITH RECURSIVE定义了一个递归的公用表表达式&#xff08;CTE&#xff09;&#xff0c;它包含两个部分&#xff1a;递归的基础部分&#xff08;非递归部分&#xff09;和递归部分。 …...

点击取消按钮,console出来数据更改了,页面视图没有更新

点击取消按钮&#xff0c;console出来数据更改了&#xff0c;页面视图没有更新 前言 实现效果&#xff1a;点击取消按钮&#xff0c;页面视图全部为空&#xff0c; 遇到的问题&#xff1a; 点击取消按钮&#xff0c;console出来数据更改了&#xff0c;SchemaJson 都是默认值啦…...

web框架在什么程度上受限 ?

Web框架提供了开发网站和Web应用的基础结构和工具&#xff0c;但它们也有一些限制。了解这些限制有助于选择合适的框架或决定何时可能需要寻找或开发替代方案。 1、问题背景 提问者计划构建一个 RESTful web 服务&#xff0c;该服务将只使用 JSON/XML 接口&#xff0c;不包含 …...

实践:事件循环

实践&#xff1a;事件循环 代码示例 console.log(1); setTimeout(() > console.log(2), 0); Promise.resolve(3).then(res > console.log(res)); console.log(4);上述的代码的输出结果是什么 1和4肯定优先输出&#xff0c;因为他们会立即方式堆栈的执行上下文中执行&am…...

C++ 设计模式:建造者模式(Builder Pattern)

链接&#xff1a;C 设计模式 链接&#xff1a;C 设计模式 - 工厂方法 链接&#xff1a;C 设计模式 - 抽象工厂 链接&#xff1a;C 设计模式 - 原型模式 建造者模式&#xff08;Builder Pattern&#xff09;是一种创建型设计模式&#xff0c;它允许你分步骤创建复杂对象。与其他…...

SQL偏移类窗口函数—— LAG()、LEAD()用法详解

SQL偏移类窗口函数&#xff1a;LAG() 和 LEAD() 用法详解 在 SQL 中&#xff0c;偏移类窗口函数 LAG() 和 LEAD() 用于访问当前行的前几行或后几行的值。 1. LAG() 函数 LAG() 函数返回当前行的前几行的数据。 LAG(Expression, OffSetValue, DefaultVar) OVER (PARTITION BY …...

基于Pytorch和yolov8n手搓安全帽目标检测的全过程

一.背景 还是之前的主题&#xff0c;使用开源软件为公司搭建安全管理平台&#xff0c;从视觉模型识别安全帽开始。主要参考学习了开源项目 https://github.com/jomarkow/Safety-Helmet-Detection&#xff0c;我是从运行、训练、标注倒过来学习的。由于工作原因&#xff0c;抽空…...

[CTF/网络安全] 攻防世界 upload1 解题详析

姿势 在txt中写入一句话木马<?php eval($_POST[qiu]);?> 回显如下&#xff1a; 查看源代码&#xff1a; Array.prototype.contains function (obj) { var i this.length; while (i--) { if (this[i] obj) { return true; } } return false; } function …...

03-其他

我们学校的教授们都还是很温柔&#xff0c;很有趣的&#xff0c;所以只要大家好好发挥&#xff0c;拿到90没问题的。 你以后打算研究什么&#xff1f; 你研究生的打算是什么&#xff1f;你计算机的前沿技术了解多少&#xff1f;&#xff08;这个问题我真没了解过。。拉了&…...

EasyExcel自定义动态下拉框(附加业务对象转换功能)

全文直接复制粘贴即可&#xff0c;测试无误 一、注解类 1、ExcelSelected.java 设置下拉框 Documented Target({ElementType.FIELD})//用此注解用在属性上。 Retention(RetentionPolicy.RUNTIME)//注解不仅被保存到class文件中&#xff0c;jvm加载class文件之后&#xff0c…...

2025.1.2

练习&#xff1a; 1> 创建一个工人信息库&#xff0c;包含工号&#xff08;主键&#xff09;、姓名、年龄、薪资。 2> 添加三条工人信息&#xff08;可以完整信息&#xff0c;也可以非完整信息&#xff09; 3> 修改某一个工人的薪资&#xff08;确定的一个&#xf…...

重庆大学软件工程复试怎么准备?

重大软件复试相对来说不算刁钻&#xff0c;关键是对自己的竞赛和项目足够了解&#xff0c;能应对老师的提问。专业课范围广&#xff0c;英文文献看个人水平&#xff0c;难度不算大&#xff0c;整体只要表现得得体从容&#xff0c;以及充分的准备&#xff0c;老师不会为难你。 …...

Ant Design Pro搭建react项目

1、使用pro-cli 来快速的初始化脚手架&#xff0c;先全局安装 npm i ant-design/pro-cli -g pro create myapp 2、选择模板类型 pro 是基础模板&#xff0c;只提供了框架运行的基本内容&#xff0c;complete 包含所有区块&#xff0c;不太适合当基础模板来进行二次开发。&a…...

mysql连接时报错1130-Host ‘hostname‘ is not allowed to connect to this MySQL server

不在mysql服务器上通过ip连接服务提示1130错误怎么回事呢。这个错误是因为在数据库服务器中的mysql数据库中的user的表中没有权限。 解决方案 查询mysql库的user表指定账户的连接方式 SELECT user, host FROM mysql.user;修改指定账户的host连接方式 update mysql.user se…...

办公 三之 Excel 数据限定录入与格式变换

开始-----条件格式------管理规则 IF($A4"永久",1,0) //如果A4包含永久&#xff0c;条件格式如下&#xff1a; OR($D5<60,$E5<60,$F5<60) 求取任意科目不及格数据 AND($D5<60,$E5<60,$F5<60) 若所有科目都不及格 显示为红色 IF($H4<EDATE…...

Ubuntu执行sudo apt-get update失败的解决方法

Ubuntu版本&#xff1a;24.04.1 报错信息&#xff1a; Clearsigned file isnt valid, got NOSPLIT (does the network require authentication?) 如果你在执行以上命令的时候也出现了上面这样的错误提示&#xff0c;先检查一下是不是网络问题&#xff0c;如果确定不是&…...

torch.nn.functional的用法

文章目录 介绍激活函数示例 损失函数示例 卷积操作示例 池化示例 归一化操作示例 Dropout示例 torch.nn.functional 与 torch.nn 的区别 介绍 torch.nn.functional 是 PyTorch 中的一个模块&#xff0c;提供了许多函数式的神经网络操作&#xff0c;包括激活函数、损失函数、卷…...

最新常见的图数据库对比,选型,架构,性能对比

图数据库排名 地址&#xff1a;https://db-engines.com/en/ranking/graphdbms 知识图谱查询语言 SPARQL、Cypher、Gremlin、PGQL 和 G-CORE 语法 / 语义 / 特性 SPARQL Cypher Gremlin PGQL G-CORE 图模式匹配查询 语法 CGP CGP CGP(无可选)1 CGP CGP 语义 子…...

UE5材质节点Camera Vector/Reflection Vector

Camera Vector相机向量&#xff0c;输出像素到相机的方向&#xff0c;结果归一化 会随着相机移动而改变 Reflection Vector 反射向量&#xff0c;物体表面法线反射到相机的方向&#xff0c;x和y和camera vector相反 配合hdr使用...

NextCloud服务安装与配置教程

NextCloud服务安装与配置教程 什么是 NextCloud: Nextcloud 是一款开源的私有云存储和协作平台,允许用户在自己的服务器上托管数据并管理团队协作。它可以作为一个功能丰富、安全可靠的替代方案,与商业云服务(如 Google Drive、Dropbox)相比提供更多控制和隐私保护。简单来…...

详解GPT-信息抽取任务 (GPT-3 FAMILY LARGE LANGUAGE MODELS)

GPT-3 FAMILY LARGE LANGUAGE MODELS Information Extraction 自然语言处理信息提取任务&#xff08;NLP-IE&#xff09;&#xff1a;从非结构化文本数据中提取结构化数据&#xff0c;例如提取实体、关系和事件 [164]。将非结构化文本数据转换为结构化数据可以实现高效的数据处…...