当前位置: 首页 > news >正文

布隆过滤器(简单介绍)

布隆过滤器(Bloom Filter) 是一种高效的概率型数据结构,用于快速判断一个元素是否可能存在于某个集合中。它的核心特点是空间效率极高,但存在一定的误判率(可能误报存在,但不会漏报)


核心原理

  1. 位数组(Bit Array):布隆过滤器基于一个长度为 m 的二进制位数组(初始全为0)。

  2. 多个哈希函数(Hash Functions):使用 k 个独立的哈希函数,每个函数将输入元素映射到位数组的某个位置。

操作流程

  • 添加元素:对元素依次用 k 个哈希函数计算得到 k 个位置,将这些位置的值设为1。

  • 查询元素:用同样的 k 个哈希函数计算位置,若所有位置的值均为1,则认为元素可能存在;否则一定不存在


核心特点

  1. 空间效率极高:相比传统数据结构(如哈希表),占用内存极小。

  2. 查询速度快:插入和查询的时间复杂度均为 O(k)(与数据规模无关)。

  3. 允许误判

    • 假阳性(False Positive):可能误判不存在的元素为存在。

    • 绝无假阴性(False Negative):存在的元素一定不会被漏判。

  4. 不可删除元素:直接删除会导致其他元素的哈希位被误清除(但可通过改进方案如计数布隆过滤器解决)。


核心用途

  1. 快速去重

    • 网络爬虫:标记已爬取的URL,避免重复抓取。

    • 分布式系统:判断数据是否已处理,减少重复操作。

  2. 缓存穿透防护

    • 在查询数据库前,先用布隆过滤器过滤不存在的请求,避免无效查询压垮数据库。

  3. 垃圾邮件过滤

    • 快速判断邮件地址或内容是否属于垃圾邮件库。

  4. 数据库优化

    • 在NoSQL数据库(如Cassandra)中加速查询。

  5. 区块链与分布式存储

    • 比特币轻节点用布隆过滤器验证交易是否存在。


误判率控制

误判率与以下因素相关:

  • 位数组长度(m)m 越大,误判率越低。

  • 哈希函数数量(k):通常取 k ≈ (m/n) * ln2n 是元素数量)。

  • 元素数量(n):元素越多,误判率越高。


举个实际例子

假设一个网站有10亿用户,需快速判断某用户名是否已被注册:

  • 传统哈希表:需要存储所有用户名,占用大量内存。

  • 布隆过滤器:仅需约1GB内存,即可在极短时间内判断用户名是否可能被注册(即使有1%的误判率,也能通过二次数据库查询确认)。


总结

布隆过滤器是空间与时间效率的极致权衡工具,适用于容忍一定误判但对速度和资源敏感的场景。如果你需要100%准确的判断,它并不合适;但若追求低成本的高效预判,它是绝佳选择。

相关文章:

布隆过滤器(简单介绍)

布隆过滤器(Bloom Filter) 是一种高效的概率型数据结构,用于快速判断一个元素是否可能存在于某个集合中。它的核心特点是空间效率极高,但存在一定的误判率(可能误报存在,但不会漏报)。 核心原理…...

C++ 利器:inline 与 nullptr

探秘 C 利器:inline 与 nullptr 引言 在 C 的浩瀚海洋中,有着许多实用且强大的特性,它们如同夜空中闪烁的繁星,照亮了开发者前行的道路。今天,我们要深入探索其中两颗耀眼的星星:inline 关键字和 nullptr …...

给一个单体项目加装Feign

1.导入pom坐标 <dependency><groupId>org.springframework.cloud</groupId><artifactId>spring-cloud-starter-openfeign</artifactId><version>4.1.2</version> </dependency> 2.主函数注解 EnableFeignClients public cl…...

可以使用Deepseek R1模型的平台集锦

最近Deepseek掀起了AI浪潮&#xff0c;就在今天百度文心一言和ChatGPT宣布要在近期实施免费开放&#xff0c;日渐减少的用户。Deepseek这么火爆&#xff0c;其官网却一直遭受攻击&#xff0c;访问速度很慢。自己本地部署&#xff0c;又负担不起硬件费用&#xff0c;相比之下&am…...

“探索1688平台:高效获取店铺商品信息的实用指南“

在电商领域&#xff0c;获取店铺所有商品信息对于商家进行数据分析、库存管理、竞品分析等方面具有重要意义。1688平台作为中国领先的B2B电商平台&#xff0c;提供了丰富的API接口供开发者使用&#xff0c;其中就包括获取店铺所有商品信息的接口。本文将详细介绍如何使用该接口…...

在fedora41中安装钉钉dingtalk_7.6.25.4122001_amd64

在Fedora-Workstation-Live-x86_64-41-1.4中安装钉钉dingtalk_7.6.25.4122001_amd64.deb 到官网下载钉钉Linux客户端com.alibabainc.dingtalk_7.6.25.4122001_amd64.deb https://page.dingtalk.com/wow/z/dingtalk/simple/ddhomedownload#/ 一、直接使用dpkg命令安装deb包报错…...

数据结构:图论入门

图论起源于欧拉对哥尼斯堡七桥问题的解决. 他构建的图模型将陆地用点来表示, 桥梁则用线表示, 如此一来, 该问题便转化为在图中能否不重复地遍历每条边的问题. 图论的应用 地图着色 在地图着色问题中, 我们用顶点代表国家, 将相邻国家之间用边相连. 这样, 问题就转化为用最少…...

有限状态系统的抽象定义及CEGAR分析解析理论篇

文章目录 一、有限状态系统的抽象定义及相关阐述1、有限状态系统定义2、 有限状态系统间的抽象关系&#xff08;Abstract&#xff09;2.1 基于函数的抽象定义2.2 基于等价关系的抽象定义 二、 基于上面的定义出发&#xff0c;提出的思考1. 为什么我们想要/需要进行抽象2. 抽象是…...

Apache Hive用PySpark统计指定表中各字段的空值、空字符串或零值比例

from pyspark.sql import SparkSession from pyspark.sql.functions import col, coalesce, trim, when, lit, sum from pyspark.sql.types import StringType, NumericType# 初始化SparkSession spark SparkSession.builder \.appName("Hive Data Quality Analysis"…...

高校元宇宙实训室解决方案:以技术驱动教育,用数字人链接未来

在AIGC技术的浪潮下&#xff0c;AI数字人正成为数字营销、文化传播等领域的核心工具。为助力高校培养适应未来需求的新型人才&#xff0c;广州虚拟动力推出高校元宇宙实训室解决方案&#xff0c;通过动作捕捉设备与虚拟数字人技术&#xff0c;构建沉浸式教学场景&#xff0c;赋…...

提升编程效率,体验智能编程助手—豆包MarsCode一键Apply功能测评

提升编程效率&#xff0c;体验智能编程助手—豆包MarsCode一键Apply功能测评 &#x1f31f; 嗨&#xff0c;我是LucianaiB&#xff01; &#x1f30d; 总有人间一两风&#xff0c;填我十万八千梦。 &#x1f680; 路漫漫其修远兮&#xff0c;吾将上下而求索。 目录 引言豆包…...

【前端开发】query参数和params参数的区别

在Web开发中&#xff0c;query参数&#xff08;URL查询参数&#xff09;和params参数&#xff08;路由参数&#xff09;是两种不同的URL传参方式&#xff0c;它们的核心区别如下&#xff1a; 一、 位置不同 query参数params参数位置URL中?之后&#xff0c;用&连接多个参数…...

推荐系统召回算法

推荐系统召回算法 召回算法UserCFItemCFSwing矩阵分解 召回算法 基于协同过滤的召回算法主要是应用在推荐环节的早期阶段&#xff0c;大致可以分为基于用户、基于物品的。两者各有优劣&#xff0c;优点是具有较好的可解释性&#xff0c;缺点是对于稀疏的交互矩阵&#xff0c;效…...

Python基础(上)

1. 基础语法 1.1 环境安装 Python版本: 推荐使用Python 3.6.6及以上开发工具: PyCharm 1.2 基本语法 输出: print("Hello World")​ 注释: 单行注释: # 注释内容​&#xff08;快捷键 Ctrl/​&#xff09; 多行注释: 使用三引号 注释内容​ 注意&#xff1a;不推…...

【DuodooBMS】给PDF附件加“受控”水印的完整Python实现

给PDF附件加“受控”水印的完整Python实现 功能需求 在实际工作中&#xff0c;许多文件需要添加水印以标识其状态&#xff0c;例如“受控”“机密”等。对于PDF文件&#xff0c;添加水印不仅可以增强文件的可识别性&#xff0c;还可以防止未经授权的使用。本代码的功能需求是…...

【虚幻引擎UE】UE4.23到UE5.5的核心功能变化

简单总结从UE4.23到UE5.5&#xff0c;虚幻引擎的重大变化&#xff1a; 1. WebGL/HTML5 平台支持和像素流 UE4.23-UE4.25&#xff1a;移除官方HTML5支持&#xff0c;改为社区插件维护。 但通过第三方插件&#xff08;如WebAssemblyWebGPU&#xff09;可在浏览器运行部分项目。U…...

阿里云《AI 剧本生成与动画创作》解决方案技术评测

引言 随着人工智能技术的发展&#xff0c;越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案&#xff0c;利用函数计算 FC 构建 Web 服务&#xff0c;结合百炼模型服务和 ComfyUI 工具&#xff0c;实现了从故事剧本撰写、插图设计、声…...

commons-io 包 IOUtils、FileUtils、FilenameUtils

1. IOUtils void IOUtils.closeQuietly(Closeable... closeables) 无条件关闭流。int IOUtils.copy(InputStream inputStream, OutputStream outputStream) 将字节从InputStream复制到OutputStream&#xff0c;返回复制的长度&#xff0c;流最大不能超过2G&#xff0c;默认缓冲…...

JavaScript 加密技术全面指南

一、加密技术概述 在现代 Web 开发中&#xff0c;加密技术在保护用户数据和确保信息安全方面发挥着至关重要的作用。本文将带您了解 JavaScript 加密技术的基本概念、分类及其在实际应用中的场景。 加密的基本概念 加密是一种将明文数据转换为密文的技术&#xff0c;以保护数…...

【笔记】deep-seek wechat项目

1、安装ollama ollama官网 2、ollama上部署deepseek ollama官网下载deepseek模型&#xff08;我下了1.5B&#xff09; 3、配置python 国内镜像源 pip config set global.index-url https://mirrors.aliyun.com/pypi/simple/ 安装依赖包 pip install wxauto pip instal…...

Taotoken模型广场如何帮助开发者快速选型,对比主流模型特性

&#x1f680; 告别海外账号与网络限制&#xff01;稳定直连全球优质大模型&#xff0c;限时半价接入中。 &#x1f449; 点击领取海量免费额度 Taotoken模型广场如何帮助开发者快速选型&#xff0c;对比主流模型特性 对于需要接入大模型能力的开发者而言&#xff0c;面对市场…...

APK安装器完整指南:在Windows上轻松安装安卓应用的终极方案

APK安装器完整指南&#xff1a;在Windows上轻松安装安卓应用的终极方案 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否想在Windows电脑上直接运行手机应用&…...

LabVIEW数字IO编程避坑指南:单点采样、连续采样到底怎么选?NI-MAX测试面板帮你验证

LabVIEW数字IO编程实战&#xff1a;采样模式选择与NI-MAX验证全攻略 在工业自动化测试领域&#xff0c;LabVIEW的数字IO模块是最基础也最常用的功能之一。许多工程师在初次接触数字IO编程时&#xff0c;往往会被各种采样模式搞得晕头转向——单点采样、N采样、连续采样&#xf…...

终极抢票指南:如何用DamaiHelper轻松获取演唱会门票

终极抢票指南&#xff1a;如何用DamaiHelper轻松获取演唱会门票 【免费下载链接】damaihelper 支持大麦网&#xff0c;淘票票、缤玩岛等多个平台&#xff0c;演唱会演出抢票脚本 项目地址: https://gitcode.com/gh_mirrors/dam/damaihelper 你是否曾为抢不到心仪演唱会门…...

大模型对话的端到端加密与隐私计算实战:基于CipherChat与TEE的架构解析

1. 项目概述&#xff1a;当大模型对话遇上“密码学”的硬核保护最近在折腾大语言模型&#xff08;LLM&#xff09;应用落地的朋友&#xff0c;估计都绕不开一个核心痛点&#xff1a;安全与隐私。无论是企业内部的知识库问答&#xff0c;还是面向用户的个性化AI助手&#xff0c;…...

FreeRTOS CPU使用率统计的坑:为什么你的数据跑了1小时就不准了?

FreeRTOS CPU使用率统计的陷阱与高精度优化方案 当你在嵌入式系统中集成FreeRTOS的CPU使用率统计功能时&#xff0c;可能会遇到一个令人困惑的现象&#xff1a;系统运行约1小时后&#xff0c;统计数值突然出现明显偏差。这不是你的代码出了问题&#xff0c;而是隐藏在32位变量和…...

OpenClaw快速上手:从第一次对话到第一个自动化任务

OpenClaw快速上手&#xff1a;从第一次对话到第一个自动化任务 版本说明&#xff1a;本文基于OpenClaw 2026.3.2版本编写。该版本经过充分验证&#xff0c;稳定可靠&#xff0c;且预装了49个内置技能&#xff0c;本文的演示将主要依赖这些技能。 在OpenClaw的官方教程中&#x…...

手把手教你用C8051F330自制BLheli电调:从测绘XP-12A到暴力测试70涵道

从零构建BLheli电调&#xff1a;C8051F330硬件逆向与70涵道暴力测试全指南 当你拆开一台现成的航模电调&#xff0c;看到里面密密麻麻的元件时&#xff0c;是否想过自己也能从头打造一个&#xff1f;本文将带你深入电调硬件设计的核心&#xff0c;从测绘商业电调XP-12A开始&…...

EDA工具链互操作性:从概念到实践,破解芯片设计数据孤岛

1. 互操作性&#xff1a;一个被误解的工程圣杯 在半导体和电子设计自动化&#xff08;EDA&#xff09;这个行当里干了十几年&#xff0c;我听到“互操作性”这个词的频率&#xff0c;可能比听到“摩尔定律”还要高。每次行业巨头们坐下来&#xff0c;宣布要共同制定一个新标准时…...

品牌AI印相失效90%源于这7个参数误设,可口可乐级商业输出必须校准的4项色彩/构图硬指标

更多请点击&#xff1a; https://intelliparadigm.com 第一章&#xff1a;Midjourney Coca Cola印相失效的底层归因诊断 Midjourney v6 及后续版本中&#xff0c;针对品牌标识&#xff08;如 Coca-Cola 经典红白波浪字体与动态弧线&#xff09;的“印相”&#xff08;prompt i…...