当前位置：首页 > news >正文

实习记录--（海量数据如何判重？）--每天都要保持学习状态和专注的状态啊！！！---你的未来值得你去奋斗

news 2026/5/19 18:41:39

海量数据如何判重？

判断一个值是否存在？解决方法：

1.使用哈希表：
可以将数据进行哈希操作，将数据存储在相应的桶中。
查询时，根据哈希值定位到对应的桶，然后在桶内进行查找。这种方法的时间复杂度为 O(1)，但需要额外的存储空间来存储哈希表。如果桶中存在数据，则说明此值已存在，否则说明未存在。

2.使用布隆过滤器：
布隆过滤器是一种概率型数据结构，用于判断一个元素是否在集合中。它利用多个哈希函数映射数据到一个位数组，并将对应位置置为 1。
查询时，只需要对待查询的数据进行哈希，并判断对应的位是否都为 1。如果都为 1，则该数据可能存在；如果有一个位不为 1，则该数据一定不存在。布隆过滤器的查询时间复杂度为 O(k)，其中 k 为哈希函数的个数。

相同点和不同点

相同点：
它们都存在误判的情况。
例如，使用哈希表时，不同元素的哈希值可能相同，所以这样就产生误判了；
而布隆过滤器的特征是，当布隆过滤器说，某个数据存在时，这个数据可能不存在；当布隆过滤器说，某个数据不存在时，那么这个数据一定不存在

不同点：
存储机制：
哈希表使用一个数组来存储键值对，通过哈希函数将键映射到数组的索引位置，然后将值存储在对应的位置上。
布隆过滤器则使用一个位数组（或位向量），通过多个哈希函数将元素映射到位数组的多个位上。

查询操作：
哈希表在进行查询时，通过计算哈希值来定位键值对的存储位置，然后直接获取对应的值。查询时间复杂度通常为 O(1)。
布隆过滤器在进行查询时，也通过多个哈希函数计算多个位，然后判断对应的位是否都为 1 来确定元素是否存在。查询时间复杂度为 O(k)，其中 k 为哈希函数的个数。

内存占用：
哈希表需要根据数据规模来动态调整数组的大小，以保证存储效率。
布隆过滤器在预先设置位数组的大小后，不会随数据规模的增加而增长。因此布隆过滤器更适用于海量数据。

结论：
哈希表和布隆过滤器都能实现判重，但它们都会存在误判的情况，但布隆过滤器存储占用的空间更小，更适合海量数据的判重。

布隆过滤器实现原理：

布隆过滤器的实现：主要依靠的是它数据结构中的一个位数组，每次存储键值的时候，不是直接把数据存储在数据结构中，因为这样太占空间了，它是利用几个不同的无偏哈希函数，把此元素的 hash 值均匀的存储在位数组中，也就是说，每次添加时会通过几个无偏哈希函数算出它的位置，把这些位置设置成 1 就完成了添加操作。
当进行元素判断时，查询此元素的几个哈希位置上的值是否为 1，如果全部为 1，则表示此值存在，如果有一个值为 0，则表示不存在。因为此位置是通过 hash 计算得来的，所以即使这个位置是 1，并不能确定是那个元素把它标识为 1 的，因此布隆过滤器查询此值存在时，此值不一定存在，但查询此值不存在时，此值一定不存在。

并且当位数组存储值比较稀疏的时候，查询的准确率越高，而当位数组存储的值越来越多时，误差也会增大。
位数组和 key 之间的关系，如下图
在这里插入图片描述

如何实现布隆过滤器？

1.通过程序实现（内存级别方案）：使用 Google Guava 库实现布隆过滤器。
2.通过中间件实现（支持数据持久化）：使用 Redis 4.0 之后提供的布隆过滤插件来实现，它的好处是支持持久化，数据不会丢失。

一、什么是Guava
1）Guava库是一个适合很多Java项目的通用工具库
2）Guava工具库中包含了：集合Collection、并发Concurrency、原语Primitive、反射Reflection、比较Comparison、I/O操作、哈希Hash、网络Networking、字符串String、数学函数Math、缓存Caching、内存中的发布/订阅……以及各种级别的数据类型
3）需要JDK 6以上版本

使用 Google Guava 库实现布隆过滤器总共分为以下两步：

引入 Guava 依赖
使用 Guava API 操作布隆过滤器
① 引入 Guava 依赖

<dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId>
</dependency>

② 使用 Guava API

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;public class BloomFilterExample {public static void main(String[] args) {// 创建一个布隆过滤器，设置期望插入的数据量为10000，期望的误判率为0.01BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.unencodedCharsFunnel(), 10000, 0.01);// 向布隆过滤器中插入数据bloomFilter.put("data1");bloomFilter.put("data2");bloomFilter.put("data3");// 查询元素是否存在于布隆过滤器中System.out.println(bloomFilter.mightContain("data1")); // trueSystem.out.println(bloomFilter.mightContain("data4")); // false}
}

在上述示例中，我们通过 BloomFilter.create() 方法创建一个布隆过滤器，指定了元素序列化方式、期望插入的数据量和期望的误判率。然后，我们可以使用 put() 方法向布隆过滤器中插入数据，使用 mightContain() 方法来判断元素是否存在于布隆过滤器中。

实习记录--（海量数据如何判重？）--每天都要保持学习状态和专注的状态啊！！！---你的未来值得你去奋斗

海量数据如何判重？

相同点和不同点

布隆过滤器实现原理：

相关文章：

实习记录--（海量数据如何判重？）--每天都要保持学习状态和专注的状态啊！！！---你的未来值得你去奋斗

【MATLAB源码-第67期】基于麻雀搜索算法(SSA)的无人机三维地图路径规划，输出最短路径和适应度曲线。

Promise的并发控制 - 从普通并发池到动态并发池

Java类加载机制（类加载器，双亲委派模型，热部署示例）

【C语言初学者周冲刺计划】3.2将一个数组中的值逆序重新存放

【C++心愿便利店】No.11---C++之string语法指南

OpenCV检测圆（Python版本）

轻量封装WebGPU渲染系统示例＜15＞- DrawInstance批量绘制(源码)

E: 仓库 “http://cn.archive.ubuntu.com/ubuntu kinetic Release” 没有 Release 文件。

【VR开发】【Unity】【VRTK】3-VR项目设置

git log 用法

Linux学习---有关监控系统zabbix的感悟

apollo云实验：定速巡航场景仿真调试

基于RK3568的新能源储能能量管理系统ems

dockerfile避坑笔记（VMWare下使用Ubuntu在Ubuntu20.04基础镜像下docker打包多个go项目）

Qt 使用QtXlsx操作Excel表

canal+es+kibana+springboot

【力扣】面试经典150题——双指针

6-8 最宽层次结点数分数 10

Linux学习第28天：Platform设备驱动开发（二）：专注与分散

探索中医数字化：基于深度学习的舌苔检测项目推荐

医疗设备晶振精度：从ppm偏差到诊断治疗安全的关键影响

Perplexity实时新闻查询效率翻倍：从API调用到结果过滤的7个隐藏技巧

LLMs 的新前沿：挑战、解决方案与工具

基于Next.js与Shadcn/ui的现代Web仪表盘开发实战指南

Wireshark 和 tcpdump 到底怎么选？一线排障中抓包工具的适用场景、边界与判断标准

Win11家庭版隐藏功能解锁：除了gpedit.msc，这些高级设置你也能用了

3步快速上手Univer：从零构建企业级办公套件的完整指南

用STM32G431RBT6复刻一个简易示波器+信号发生器：蓝桥杯嵌入式外设综合应用实战

单片机代码优化实战：从数据类型到算法与数据结构的效率提升