向爬虫而生---Redis 基石篇6 <拓展HyperLogLog>
前言:
继续之前的
向爬虫而生---Redis 基石篇5 <拓展Zset>-CSDN博客
一些比较基础的redis类型在初中级阶段用着没有毛病,但是到了大数据时代,慢慢一些更高级的场景,就需要把这几个类型搬出来了!
正文:
概念:
当我们需要对一个大型数据集进行去重计数时,传统的集合或者基数计数方法可能会面临内存消耗较大的问题。这时,Redis的HyperLogLog(HLL)数据结构就可以派上用场了。
HyperLogLog是一种基数估计算法,它可以通过占用固定的内存空间来估计一个集合中不重复元素的数量,而无需存储实际的元素。它的特点是具有较小的内存占用和高度的近似精度。
下面是一些关键概念和特性:
基础原理:
HyperLogLog使用随机哈希函数将输入元素映射到一个固定长度的二进制字符串。这些二进制字符串被组织为一个位图,其中每个位被用于存储零或一。通过统计位图中置为一的位的数量,就可以估计不重复元素的数量。
精度和误差:
HyperLogLog可以提供高度的近似精度,一般误差在0.81%以内(官方给的数据,其实可以忽略)。在正常情况下,随着不重复元素数量增加,误差会保持在相对稳定的范围内。
容量和内存占用:
HyperLogLog的固定内存占用仅取决于预先设定的精度和要统计的元素数量。这意味着,无论原始集合大小如何,都能以相对较小的内存占用进行近似计数---大约12KB。
数据合并:
HyperLogLog提供了数据合并的功能,即多个HLL数据结构可以合并为一个,而不会对计数结果产生明显的影响。
Redis命令:
在Redis中,可以使用以下命令进行HyperLogLog操作:PFADD、PFCOUNT、PFMERGE等。通过这些命令,可以添加元素、获取近似计数以及合并HLL数据结构。
Redis中提供了以下命令用于操作HyperLogLog数据结构:
1.PFADD key element [element ...]:
将一个或多个元素添加到给定的HyperLogLog数据结构中。
2.PFCOUNT key [key ...]:
估计给定HyperLogLog数据结构中的不重复元素数量。
3.PFMERGE destkey sourcekey [sourcekey ...]:
将多个HyperLogLog数据结构合并到一个目标HyperLogLog中。
4.PFDEBUG subcommand [arguments ...]:
调试命令,用于在Redis服务器端打开或关闭HyperLogLog的内部低级别调试。
(这些命令可以通过执行REDIS-cli命令行工具或者在编程语言中使用Redis客户端库来进行操作。)
PS:HyperLogLog命令的返回值通常是一个近似的基数计数结果,而不是实际元素的列表或详细信息。这是因为HyperLogLog是一种基数估计算法,它通过占用固定的内存空间来估计不重复元素的数量,而不存储实际的元素。
例子说明:
当我们需要统计网站的独立访客数量时,HyperLogLog可以提供一种高效的方法。
假设有一个在线论坛,我们想要统计每天访问论坛的独立用户数量(就是他独立的识别地址)。
首先,我们可以使用HyperLogLog数据结构来进行统计。我们可以在Redis中创建一个新的HyperLogLog结构,并使用PFADD命令将每个访问者的唯一标识添加到HyperLogLog中。
例如,当一个用户访问论坛时,我们会执行以下命令:
PFADD daily_visitors 1001
这将把用户的唯一标识(这里使用1001作为示例---实际一般会是ip地址或者别的例如个人识别信息之类)添加到名为daily_visitors的HyperLogLog中。
在每次用户访问时,我们都可以执行相同的命令来将唯一标识添加到HyperLogLog中。
接下来,我们可以使用PFCOUNT命令来获取近似的独立访客数量:
PFCOUNT daily_visitors
这将返回一个大致的独立访客数量,而无需存储每个访问者的唯一标识。
另外,如果我们需要合并不同时间段的独立访客数量,可以使用PFMERGE命令。例如,假设我们想要合并今天和昨天的独立访客数量:
PFMERGE combined_visitors daily_visitors_today daily_visitors_yesterday
这会将今天和昨天的独立访客数量合并到名为combined_visitors的HyperLogLog中。
应用到scrapy:
当使用HyperLogLog进行URL去重时,可以使用URL的哈希值作为唯一标识。
import hashlib
import redis
import scrapy
from scrapy.exceptions import CloseSpider# 创建Redis连接
redis_client = redis.Redis()class MySpider(scrapy.Spider):name = 'my_spider'def start_requests(self):urls = ['http://www.example.com/page1','http://www.example.com/page2','http://www.example.com/page1', # 重复的URL]for url in urls:url_hash = self.get_url_hash(url)if redis_client.sadd('url_hashes', url_hash) == 1:yield scrapy.Request(url, callback=self.parse)else:self.logger.info('URL already crawled: %s', url)def parse(self, response):# 处理返回的网页数据# ...def get_url_hash(self, url):# 计算URL的哈希值作为唯一标识url_hash = hashlib.sha1(url.encode()).hexdigest()return url_hash
在这个示例中,我们创建了一个名为MySpider的Spider类。在start_requests方法中,我们定义了一些示例URL,并使用get_url_hash方法计算URL的哈希值作为唯一标识。然后,我们使用Redis的sadd命令将唯一标识添加到名为url_hashes的HyperLogLog中。如果sadd命令返回1(表示添加成功),则说明这是一个新的URL,我们使用Scrapy的Request对象加入爬取队列;否则,我们将其标记为已经爬取过的重复URL。
在parse方法中,我们处理返回的网页数据。
需要确保已经正确安装和配置了Redis,并确保Redis服务器正在运行。你可以根据实际情况修改Redis的连接参数,例如设置密码、指定IP地址等。
---------->案例,请勿当真,只是演示!!!
总结:
通过HyperLogLog,我们可以高效地估计一个大型数据集中不重复元素的数量,比如统计每天访问论坛的独立用户数量。它通过占用固定的内存空间,提供高度的近似精度,使得计数操作更加高效和可扩展。
相关文章:
向爬虫而生---Redis 基石篇6 <拓展HyperLogLog>
前言: 继续之前的 向爬虫而生---Redis 基石篇5 <拓展Zset>-CSDN博客 一些比较基础的redis类型在初中级阶段用着没有毛病,但是到了大数据时代,慢慢一些更高级的场景,就需要把这几个类型搬出来了! 正文: 概念: 当我们需要对一个大型数据集进行去重计…...
JavaScript中的this
在实际应用中,了解 this 的行为是非常重要的,特别是在编写库或框架时,或者当你需要在回调函数中访问特定的上下文时,通常推荐使用箭头函数或者其他方法来确保 this 的正确指向。 在ES6中,this 的值取决于它是如何被调用…...
宝塔php站点设置伪静态规则 访问 a.com 时候跳转到 a.com/b.html
要在宝塔 PHP 站点中设置伪静态规则,实现访问a.com时跳转到a.com/b.html,可以按照以下步骤进行操作: 打开宝塔面板并登录到你的服务器管理界面。进入网站设置页面,找到你要设置伪静态规则的 PHP 站点。在站点设置中,找…...
git介绍4.2
git(版本控制工具) 一、git 介绍 1、git是目前世界上最先进的分布式版本控制系统,可以有效,高速的处理从小到大的项目版本管理。 2、git是linux torvalds 为了帮助管理linux内核开发二开发的一个开放源码的版本控制软件。 3、git作用:更好…...
【深入了解设计模式】组合设计模式
组合设计模式 组合模式是一种结构型设计模式,它允许你将对象组合成树状结构来表现“整体-部分”关系。组合模式使得客户端可以统一对待单个对象和组合对象,从而使得代码更加灵活和易于扩展。 概述 对于这个图片肯定会非常熟悉,上图我们可…...
4.Java---方法+重载
方法 方法的调用是需要开辟内存的,方法调用结束内存就被销毁了. 下面将介绍一个经典的错误标准的0分的示意! 我们日常中写交换两个数字的代码的时候都会用如下的方法进行描述: 你是不是觉得自己写的特别对!终于可以独立写一个小小的函数了? 下面运行一下看看结果 哦莫!怎么…...
蓝桥杯Java B组历年真题(2013年-2021年)
一、2013年真题 1、世纪末的星期 使用日期类判断就行,这里使用LocalDate,也可以使用Calendar类 答案 2099 使用LocalDate import java.time.LocalDate; import java.time.format.DateTimeFormatter; // 1:无需package // 2: 类名必须Main, 不可修改p…...
C++笔记(五)--- 虚函数(virtual)
目录 虚函数介绍 虚函数、覆盖和重载区别 虚函数介绍 C的虚函数是多态性的表现 1.构造函数不能为虚函数2.子类继承时虚函数仍为虚函数3.虚函数类外实现时,不需要加virtual4.有虚函数的类,析构函数一定要写成虚函数(否则可能会造成内存泄漏&…...
编写加密程序,加密规则为:将所有字母转化为该字母后的第三个字母,即A->D、B->E
编写加密程序,加密规则为:将所有字母转化为该字母后的第三个字母,即A->D、B->E、C->F、…、Y->B、Z->C。小写字母同上,其他字符不做转化。输入任意字符串,输出加密后的结果。 例如:输入&qu…...
【笔记】:更方便的将一个List中的数据传入另一个List中,避免多重循环
这里是 simpleInfoList 集合,记为集合A(传值对象) List<CourseSimpleInfoDTO> simpleInfoList courseClient.getSimpleInfoList(courseIds);if(simpleInfoListnull){throw new BizIllegalException("当前课程不存在!");}这…...
Cisco Secure ACS 5.8.0.32 安装 + Crack 教程
Cisco Secure ACS 5.8.0.32 安装 Crack 教程 前言系统环境开始安装 开始破解导入授权文件 前言 在ESXi 6.7 上经历过无数次的安装尝试 测试了各种兼容版本都没有安装成功,记最后一次安装成功的过程. 系统环境 服务器 : Dell R720xd CPU : E5-2620 v2 系统 : ESXi 6.7…...
项目准备March
Nginx主要用来作为Http服务器,要实现Tomcat的负载均衡,就可以通过Nginx来实现。 正向代理代理的是客户端,反向代理代理的是服务端。SpringBoot采用约定优于配置的思想,简化Spring项目的配置开发。 前端请求其实并未直接发送到后…...
集智书童 | YOLO+混合注意力机制 | YOLOv5再加4.3%才可以做对手,Transformer混合设计依旧可以卷
本文来源公众号“集智书童”,侵权删,干货满满。YOLOv5重出江湖! 原文链接:https://mp.weixin.qq.com/s/vb7HsA0fKDgRc3uC8Z-2yw 在工业生产过程中,由于低效率、不统一的评估、高成本以及缺乏实时数据,传统…...
Codeforces Round 894 (Div. 3)----->C. Flower City Fence
题目总思路: 要判断是否对称,只需要判断两个放法得到的图形是否相同(竖着放,横着放),这两个放法有个很重要的特性:就是数组中大于1的个数,就是横着放时,第一竖排的高度。…...
CryoEM - CryoAI: Amortized Inference of Poses 工程源码复现
欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/136384544 Paper: CryoAI: Amortized Inference of Poses for Ab Initio Reconstruction of 3D Molecular Volumes from Real Cryo-EM Images CryoAI: 基于摊…...
项目预备知识
导入两个头文件 #include <graphics.h> // 引入 EasyX 的图形库头文件 #include <conio.h> // 引入 conio.h 以使用 getch() 窗口创建函数:小黑屏 initgraph(640, 480, SHOWCONSOLE); closegraph(); //关闭一个窗口 设置背景颜色:这…...
redis实战笔记汇总
文章目录 1 NoSQL入门概述1.1 能干嘛?1.2 传统RDBMS VS NOSQL1.3 NoSQL数据库的四大分类1.4 分布式数据库CAP原理 BASE原则1.5 分布式集群简介1.6 淘宝商品信息的存储方案 2 Redis入门概述2.1 是什么?2.2 能干嘛?2.3 怎么玩?核心…...
elment-ui table表格排序后 清除排序箭头/恢复默认排序 的高亮样式
问题描述: 1.默认排序是按照名称升序排列(图一) 2.在选择了筛选项以及其他排序方式之后,箭头高亮是这样的(图二) 3.当我点击清空按钮后,类型清空了,并且传给后端的排序方式是名称/升…...
MySQL数据库基本操作(二)
查询语句 1. 排序查询* 语法:order by 子句* order by 排序字段1 排序方式1 , 排序字段2 排序方式2... * 排序方式:* ASC:升序,默认的。* DESC:降序。 * 注意:* 如果有多个排序条件&#…...
Unity(第十部)时间函数和文件函数
时间函数 using System.Collections; using System.Collections.Generic; using UnityEngine;public class game : MonoBehaviour {// Start is called before the first frame updatefloat timer 0;void Start(){//游戏开始到现在所花的时间Debug.Log(Time.time);//时间缩放值…...
【力扣数据库知识手册笔记】索引
索引 索引的优缺点 优点1. 通过创建唯一性索引,可以保证数据库表中每一行数据的唯一性。2. 可以加快数据的检索速度(创建索引的主要原因)。3. 可以加速表和表之间的连接,实现数据的参考完整性。4. 可以在查询过程中,…...
云启出海,智联未来|阿里云网络「企业出海」系列客户沙龙上海站圆满落地
借阿里云中企出海大会的东风,以**「云启出海,智联未来|打造安全可靠的出海云网络引擎」为主题的阿里云企业出海客户沙龙云网络&安全专场于5.28日下午在上海顺利举办,现场吸引了来自携程、小红书、米哈游、哔哩哔哩、波克城市、…...
定时器任务——若依源码分析
分析util包下面的工具类schedule utils: ScheduleUtils 是若依中用于与 Quartz 框架交互的工具类,封装了定时任务的 创建、更新、暂停、删除等核心逻辑。 createScheduleJob createScheduleJob 用于将任务注册到 Quartz,先构建任务的 JobD…...
渲染学进阶内容——模型
最近在写模组的时候发现渲染器里面离不开模型的定义,在渲染的第二篇文章中简单的讲解了一下关于模型部分的内容,其实不管是方块还是方块实体,都离不开模型的内容 🧱 一、CubeListBuilder 功能解析 CubeListBuilder 是 Minecraft Java 版模型系统的核心构建器,用于动态创…...
令牌桶 滑动窗口->限流 分布式信号量->限并发的原理 lua脚本分析介绍
文章目录 前言限流限制并发的实际理解限流令牌桶代码实现结果分析令牌桶lua的模拟实现原理总结: 滑动窗口代码实现结果分析lua脚本原理解析 限并发分布式信号量代码实现结果分析lua脚本实现原理 双注解去实现限流 并发结果分析: 实际业务去理解体会统一注…...
GC1808高性能24位立体声音频ADC芯片解析
1. 芯片概述 GC1808是一款24位立体声音频模数转换器(ADC),支持8kHz~96kHz采样率,集成Δ-Σ调制器、数字抗混叠滤波器和高通滤波器,适用于高保真音频采集场景。 2. 核心特性 高精度:24位分辨率,…...
MinIO Docker 部署:仅开放一个端口
MinIO Docker 部署:仅开放一个端口 在实际的服务器部署中,出于安全和管理的考虑,我们可能只能开放一个端口。MinIO 是一个高性能的对象存储服务,支持 Docker 部署,但默认情况下它需要两个端口:一个是 API 端口(用于存储和访问数据),另一个是控制台端口(用于管理界面…...
Web后端基础(基础知识)
BS架构:Browser/Server,浏览器/服务器架构模式。客户端只需要浏览器,应用程序的逻辑和数据都存储在服务端。 优点:维护方便缺点:体验一般 CS架构:Client/Server,客户端/服务器架构模式。需要单独…...
Golang——7、包与接口详解
包与接口详解 1、Golang包详解1.1、Golang中包的定义和介绍1.2、Golang包管理工具go mod1.3、Golang中自定义包1.4、Golang中使用第三包1.5、init函数 2、接口详解2.1、接口的定义2.2、空接口2.3、类型断言2.4、结构体值接收者和指针接收者实现接口的区别2.5、一个结构体实现多…...
如何应对敏捷转型中的团队阻力
应对敏捷转型中的团队阻力需要明确沟通敏捷转型目的、提升团队参与感、提供充分的培训与支持、逐步推进敏捷实践、建立清晰的奖励和反馈机制。其中,明确沟通敏捷转型目的尤为关键,团队成员只有清晰理解转型背后的原因和利益,才能降低对变化的…...
