当前位置: 首页 > article >正文

10亿条URL的黑名单,如何快速判断一个新请求的URL是否在黑名单内?

在日常开发中你是否遇到过这样的场景有一个包含10亿条URL的黑名单如何快速判断一个新请求的URL是否在黑名单内同时避免占用几十GB的内存在我们学习缓存三剑客时关于缓存穿透我们常用的解决方案之一是什么这些问题的核心都是对海量数据的存在性判断我们不需要获取数据本身只需要知道“在”或“不在”而布隆过滤器Bloom Filter就能很好地解决这个问题。一、布隆过滤器是什么是一种空间高效的概率型数据结构核心作用是快速判断一个元素是否存在于一个集合中。布隆过滤器主要由两部分组成一部分是初始值都为 0 的位图数组一部分是N 个哈希函数。布隆过滤器不存储数据本身只存储数据的哈希标记。当我们往数据库中写数据时顺便在布隆过滤器中做个标记这样下次查数据时只要查布隆过滤器查的数据没有标记的话那说明数据库里也没有。那既然这么说了查布隆过滤器一定很快吧确实很快。查询布隆过滤器的时间复杂度O(k)k是哈希函数个数通常是个位数效率很高。二、布隆过滤器是怎么工作的布隆过滤器的底层结构很简单只有两个核心组件一个固定长度的位图数组(初始值都为0)一组独立的哈希函数所有逻辑都围绕这两个组件展开。接下来举个例子假设我有一个布隆过滤器数组初始长度为8哈希函数个数为3当我们插入元素“bloom”时步骤如下将“bloom”传入3个哈希函数得到3个不同的哈希值然后再把这 3 个哈希值对 8 取模将得到的结果在数组中的相应位置置1比如取模得到135 那就135位置1 总共0-7这样一通操作之后以后当我们要查询bloom是否在数据库中时只需要通过布隆过滤器查第135位置是否全为1必须全为1才可能行只要有一个0都说明“bloom”不在数据库中。那为什么是可能行呢因为不同的数经计算得到的哈希值对8取模结果可能是一样的可能存在哈希冲突。那这样明明数据库中没有这个数我却算出了它1,3,5位也是1这就判断错误了。三、使用布隆过滤器解决缓存穿透这里就回到了开头的缓存三剑客中的缓存穿透了。发生缓存穿透原因是因为用户请求一个不存在的数据此数据在缓存和数据库中都不存在。这是我们可以用布隆过滤器存储所有已存在的key请求过来时先查布隆过滤器如果返回“绝对不存在”那就直接返回空结果不访问缓存和数据库。如果返回“可能存在”再查缓存和数据库。这样就能拦截99%以上的无效请求保护数据库。四、布隆过滤器的其它应用1. 海量数据去重比如爬虫去重爬取网页时需要记录已爬取的URL避免重复抓取。如果用哈希表存储1亿条URL会占用几十GB内存而用布隆过滤器仅需几十MB内存就能搞定完美解决空间瓶颈。类似场景还有邮件黑名单去重、用户ID去重、日志去重等。2. 数据库索引优化HBase、LevelDB、RocksDB等数据库引擎会用布隆过滤器判断目标键是否存在于某个SSTable文件中避免不必要的磁盘IO操作提升查询性能——如果布隆过滤器判断键不存在就无需读取磁盘文件直接返回空结果。3. 分布式系统中的数据校验比如分布式缓存中判断一个key是否在其他节点的缓存中区块链轻节点中判断某个交易是否可能包含在区块中减少数据同步的开销。五、总结布隆过滤器的本质是“用极小的空间成本换取极高的查询效率同时接受轻微的误判”。它不适合所有场景但在海量数据的存在性判断中是无可替代的工具。如果觉得这篇博客对你有帮助欢迎点赞~收藏~评论~

相关文章:

10亿条URL的黑名单,如何快速判断一个新请求的URL是否在黑名单内?

在日常开发中,你是否遇到过这样的场景:有一个包含10亿条URL的黑名单,如何快速判断一个新请求的URL是否在黑名单内,同时避免占用几十GB的内存?在我们学习缓存三剑客时,关于缓存穿透,我们常用的解…...

工程化AI编程:claude-code-blueprint项目实战与最佳实践

1. 项目概述与核心价值最近在GitHub上看到一个挺有意思的项目,叫“claude-code-blueprint”,作者是lethilu4796。乍一看这个标题,你可能会觉得这又是一个普通的代码生成工具或者AI辅助编程的脚本。但当我深入研究了它的源码和使用方式后&…...

算法札记——5.14

今天记录一道有难度的链表题——148. 排序链表 - 力扣(LeetCode) 题目要求是让我们对一个链表进行排序,首先可以想到的最简单的思路就是,将所有的节点存储到一个数组,然后数组以node->val排序,最后遍历数…...

MGO空间管理面板正式开源:一款为新手而生的极简PHP面板

MGO空间管理面板正式开源:一款为新手而生的极简PHP面板 BSD 3‑Clause 协议发布,单文件开箱即用 写在前面 独立开发者圈子里流传着一句话:新手建站最大的门槛不是写代码,而是管理网站。FTP 上传、文件权限、空间监控、安全防护……...

Docker容器化机械臂控制:OpenClaw项目环境部署与实战

1. 项目概述:当机械臂遇上Docker最近在折腾一个挺有意思的项目,叫openclaw-in-docker。光看名字,很多朋友可能就猜到了,这是一个把开源机械臂控制项目OpenClaw给容器化的工程。简单来说,就是把原本可能需要在特定系统、…...

C++面向对象编程实验:从封装到多态的实战训练与工程化实践

1. 项目概述与核心价值最近在整理硬盘,翻出来一个老项目——Ayat-Gamal/Cpp_OOP_Labs。这名字一看,就是当年学C面向对象编程(OOP)时,为了应付课程实验或者自己练习攒下来的代码仓库。这类项目在GitHub上成千上万&#…...

人工神经网络知识点讲解

人工神经网络知识点讲解 知识导图 人工神经网络 ├── 基础认知 │ ├── 神经网络的核心概念 │ ├── 神经元的工作机制 │ └── 网络的层级结构 ├── 激活函数 │ ├── 激活函数的作用 │ ├── 常见激活函数:sigmoid/tanh/ReLU/Softmax │ …...

基于MCP协议的AI智能体安全扫描器:架构、部署与实战指南

1. 项目概述:一个为AI智能体设计的“安全门卫”最近在折腾AI智能体(Agent)的落地应用,发现一个挺普遍但容易被忽视的问题:当你的智能体开始联网、调用工具、处理外部数据时,它接收到的信息就像从四面八方涌…...

基于MCP协议构建微信通知服务:解耦业务与通知逻辑的实践

1. 项目概述:一个面向开发者的轻量级通知集成工具最近在折腾一个自动化脚本,需要把运行结果实时推送到手机上,但又不想把各种IM的SDK耦合进代码里,太臃肿了。相信很多做后端服务、运维监控或者自动化脚本的朋友都遇到过类似的需求…...

基于MCP协议构建TikTok趋势分析服务器:架构设计与实战指南

1. 项目概述与核心价值最近在折腾一个挺有意思的项目,叫trendsmcp/tiktok-trends-mcp。乍一看这个名字,你可能觉得这又是一个抓取TikTok数据的工具,市面上这类工具确实不少。但深入用下来,我发现它的定位和设计思路非常独特&#…...

开源集成利器OpenClaw:深度连接Bitrix24与外部系统的PHP解决方案

1. 项目概述:一个为Bitrix24量身定制的开源集成利器如果你正在使用Bitrix24,并且对它的某些功能限制感到束手束脚,或者你厌倦了在不同系统间手动搬运数据的繁琐,那么你很可能已经意识到,一个强大的集成工具是多么必要。…...

Llama 3专用JavaScript分词器:原理、API与实战指南

1. 项目概述:一个为Llama 3量身定制的JavaScript分词器 如果你正在Web端或Node.js环境中折腾大语言模型,特别是Meta家的Llama 3系列,那么处理文本的第一步——分词(Tokenization)——很可能就是你遇到的第一个拦路虎。…...

WorkBuddy清理Claw历史会话指南

🔧 WorkBuddy 清理Claw历史会话指南「有些在Claw上用来做测试的对话一直存在,界面没有删除按钮,就算把文件夹删了,历史记录也还是在,强迫症都犯了!!!」—— 来自一位真实网友的吐槽如…...

基于检索增强生成(RAG)构建专属代码生成器:从原理到工程实践

1. 项目概述:一个为开发者赋能的代码生成与知识管理工具在软件开发的世界里,我们每天都在与代码、文档和碎片化的知识打交道。你有没有遇到过这样的场景:面对一个似曾相识的业务逻辑,却记不清上次是怎么实现的;或者需要…...

从零实现MD5算法:C语言详解与工程实践指南

1. 从零开始:为什么我们需要自己实现MD5?在信息安全领域,MD5(Message-Digest Algorithm 5)是一个绕不开的名字。尽管它早已被证明存在碰撞漏洞,不再适用于高安全级别的数字签名或证书场景,但它在…...

深入解析JavaScript光标增强库:原理、实战与性能优化

1. 项目概述:一个被低估的JavaScript光标增强库 在Web前端开发中,我们常常会忽略一个看似微小却直接影响用户体验的细节——光标。无论是文本编辑器、代码IDE,还是富文本应用,光标的样式、行为和状态反馈,都直接关系到…...

权限组(PerGroup)设计:超越RBAC的精细化权限管理核心

1. 从“组”到“权限组”:一个被忽视的系统管理基石在系统管理和软件开发中,我们经常听到“用户组”(Group)这个概念。无论是Linux系统上的/etc/group文件,还是Windows的本地用户和组管理,亦或是各类应用后…...

别再只用AddModuleScore了!用irGSEA包一站式搞定单细胞基因集富集分析与8种可视化

单细胞基因集富集分析进阶指南:告别AddModuleScore,拥抱irGSEA的全能解决方案 在单细胞转录组数据分析中,基因集富集分析(Gene Set Enrichment Analysis, GSEA)是揭示细胞状态和功能特征的关键步骤。然而,许…...

WechatDecrypt终极指南:4步快速解密微信加密数据库的技术原理与实战

WechatDecrypt终极指南:4步快速解密微信加密数据库的技术原理与实战 【免费下载链接】WechatDecrypt 微信消息解密工具 项目地址: https://gitcode.com/gh_mirrors/we/WechatDecrypt 在数字隐私保护日益重要的今天,微信作为全球最大的即时通讯工具…...

K8s 日志治理:EFK 集群进阶配置 + 日志分片、归档、清理自动化方案

K8s 日志治理:EFK 集群进阶配置 + 日志分片、归档、清理自动化方案 前言:在Kubernetes(以下简称K8s)集群运维中,日志是问题排查、性能监控、合规审计的核心依据。EFK(Elasticsearch + Fluentd/Fluent Bit + Kibana)作为K8s日志收集与分析的主流架构,基础部署仅能满足“…...

容器存储进阶:PersistentVolume(PV)_PVC 底层原理 + 动态供应踩坑 + 数据备份恢复实战

容器存储进阶:PersistentVolume(PV)/PVC 底层原理 + 动态供应踩坑 + 数据备份恢复实战 前言:在Kubernetes容器集群中,PersistentVolume(PV)与PersistentVolumeClaim(PVC)是实现容器持久化存储的核心组件,但生产环境中,多数运维人员往往卡在基础配置层面,而忽略了动…...

Python协程与异步模式进阶

Python协程与异步模式进阶 一、协程的本质 协程是可以暂停和恢复执行的函数。Python中协程经历了三代演进: - 基于生成器的协程(Python 2.5,已废弃) - yield from协程(Python 3.3) - async/await原生协程…...

终极指南:无需Office软件,3秒预览Word、Excel、PPT文件

终极指南:无需Office软件,3秒预览Word、Excel、PPT文件 【免费下载链接】QuickLook.Plugin.OfficeViewer Word, Excel, and PowerPoint plugin for QuickLook. 项目地址: https://gitcode.com/gh_mirrors/qu/QuickLook.Plugin.OfficeViewer 还在为…...

ArcMap打开别人发来的mxd文件,图层全是红叉?别慌,5分钟教你修复数据源链接

ArcMap打开mxd文件图层全是红叉?5步急救与3种预防方案 收到同事发来的ArcMap项目文件,满屏红色感叹号像交通信号灯一样刺眼——这是GIS从业者最熟悉的"心跳加速时刻"。这种数据源断裂问题每年困扰着全球超过60%的ArcMap用户,尤其在…...

如何破解Wallpaper Engine资源文件:终极RePKG工具指南

如何破解Wallpaper Engine资源文件:终极RePKG工具指南 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 想要修改Wallpaper Engine动态壁纸却打不开PKG资源包?…...

CubeMX默认配置的坑:STM32 LPUART的ORE溢出错误如何彻底解决(从寄存器到HAL库的避坑指南)

STM32 LPUART的ORE溢出错误:从硬件机制到HAL库的深度解决方案 当你在深夜调试STM32的LPUART接口时,突然发现串口"神秘"地停止了响应——这种场景对于经验丰富的嵌入式工程师来说并不陌生。问题的根源往往指向那个容易被忽视的Overrun Error&am…...

从零构建XV-15倾转旋翼机:X-Plane飞行模拟与模型调校实战

1. 认识XV-15与倾转旋翼机 XV-15是美国贝尔直升机公司在1970年代研发的实验性倾转旋翼机,它完美结合了直升机的垂直起降能力和固定翼飞机的高速巡航特性。这种独特的飞行器通过旋转发动机舱实现旋翼倾转,在起飞时像直升机一样垂直升空,达到一…...

【DeepSeek大模型Azure部署黄金方案】:20年架构师亲授5大避坑指南与性能调优实战

更多请点击: https://intelliparadigm.com 第一章:DeepSeek大模型Azure部署黄金方案全景概览 在 Azure 上高效部署 DeepSeek 系列大模型(如 DeepSeek-V2、DeepSeek-Coder)需兼顾性能、成本与可运维性。微软 Azure 提供了从 GPU 实…...

别再让‘01’和‘470.00’坑了你:Python int()类型转换的深度避坑指南

Python类型转换避坑指南:从ValueError到健壮代码的进阶之路 在数据处理和清洗过程中,类型转换是最基础却又最容易出错的环节之一。特别是当面对非标准格式的数字字符串时,即使是经验丰富的开发者也会偶尔掉入int()函数的陷阱。本文将深入剖析…...

Mediapipe手势识别踩坑实录:解决Python 3.10+和OpenCV版本兼容性问题

Mediapipe手势识别实战:Python高版本环境兼容性全指南 当你在Python 3.10或更高版本中尝试运行Mediapipe手势识别项目时,可能会遇到各种令人沮丧的错误。从模块导入失败到函数弃用警告,再到依赖冲突,这些问题往往让开发者陷入无休…...