当前位置: 首页 > news >正文

向爬虫而生---Redis 基石篇6 <拓展HyperLogLog>

前言:

继续之前的

向爬虫而生---Redis 基石篇5 <拓展Zset>-CSDN博客

一些比较基础的redis类型在初中级阶段用着没有毛病,但是到了大数据时代,慢慢一些更高级的场景,就需要把这几个类型搬出来了!

正文:

概念:

当我们需要对一个大型数据集进行去重计数时,传统的集合或者基数计数方法可能会面临内存消耗较大的问题。这时,Redis的HyperLogLog(HLL)数据结构就可以派上用场了。

HyperLogLog是一种基数估计算法,它可以通过占用固定的内存空间来估计一个集合中不重复元素的数量,而无需存储实际的元素。它的特点是具有较小的内存占用和高度的近似精度

下面是一些关键概念和特性

基础原理:

HyperLogLog使用随机哈希函数将输入元素映射到一个固定长度的二进制字符串。这些二进制字符串被组织为一个位图,其中每个位被用于存储零或一。通过统计位图中置为一的位的数量,就可以估计不重复元素的数量。

精度和误差:

HyperLogLog可以提供高度的近似精度,一般误差在0.81%以内(官方给的数据,其实可以忽略)。在正常情况下,随着不重复元素数量增加,误差会保持在相对稳定的范围内。

容量和内存占用:

HyperLogLog的固定内存占用仅取决于预先设定的精度和要统计的元素数量。这意味着,无论原始集合大小如何,都能以相对较小的内存占用进行近似计数---大约12KB

数据合并

HyperLogLog提供了数据合并的功能,即多个HLL数据结构可以合并为一个,而不会对计数结果产生明显的影响。

Redis命令:

在Redis中,可以使用以下命令进行HyperLogLog操作:PFADD、PFCOUNT、PFMERGE等。通过这些命令,可以添加元素、获取近似计数以及合并HLL数据结构。

Redis中提供了以下命令用于操作HyperLogLog数据结构:

1.PFADD key element [element ...]

将一个或多个元素添加到给定的HyperLogLog数据结构中。

2.PFCOUNT key [key ...]

估计给定HyperLogLog数据结构中的不重复元素数量。

3.PFMERGE destkey sourcekey [sourcekey ...]

将多个HyperLogLog数据结构合并到一个目标HyperLogLog中。

4.PFDEBUG subcommand [arguments ...]

调试命令,用于在Redis服务器端打开或关闭HyperLogLog的内部低级别调试。

(这些命令可以通过执行REDIS-cli命令行工具或者在编程语言中使用Redis客户端库来进行操作。)

PS:HyperLogLog命令的返回值通常是一个近似的基数计数结果,而不是实际元素的列表或详细信息。这是因为HyperLogLog是一种基数估计算法,它通过占用固定的内存空间来估计不重复元素的数量,而不存储实际的元素。

例子说明:

当我们需要统计网站的独立访客数量时,HyperLogLog可以提供一种高效的方法。

假设有一个在线论坛,我们想要统计每天访问论坛的独立用户数量(就是他独立的识别地址)

首先,我们可以使用HyperLogLog数据结构来进行统计。我们可以在Redis中创建一个新的HyperLogLog结构,并使用PFADD命令将每个访问者的唯一标识添加到HyperLogLog中。

例如,当一个用户访问论坛时,我们会执行以下命令:

PFADD daily_visitors 1001

这将把用户的唯一标识(这里使用1001作为示例---实际一般会是ip地址或者别的例如个人识别信息之类)添加到名为daily_visitors的HyperLogLog中。

在每次用户访问时,我们都可以执行相同的命令来将唯一标识添加到HyperLogLog中。

接下来,我们可以使用PFCOUNT命令来获取近似的独立访客数量:

PFCOUNT daily_visitors

这将返回一个大致的独立访客数量,而无需存储每个访问者的唯一标识。

另外,如果我们需要合并不同时间段的独立访客数量,可以使用PFMERGE命令。例如,假设我们想要合并今天和昨天的独立访客数量:

PFMERGE combined_visitors daily_visitors_today daily_visitors_yesterday

这会将今天和昨天的独立访客数量合并到名为combined_visitors的HyperLogLog中。

应用到scrapy:

当使用HyperLogLog进行URL去重时,可以使用URL的哈希值作为唯一标识。

import hashlib
import redis
import scrapy
from scrapy.exceptions import CloseSpider# 创建Redis连接
redis_client = redis.Redis()class MySpider(scrapy.Spider):name = 'my_spider'def start_requests(self):urls = ['http://www.example.com/page1','http://www.example.com/page2','http://www.example.com/page1',  # 重复的URL]for url in urls:url_hash = self.get_url_hash(url)if redis_client.sadd('url_hashes', url_hash) == 1:yield scrapy.Request(url, callback=self.parse)else:self.logger.info('URL already crawled: %s', url)def parse(self, response):# 处理返回的网页数据# ...def get_url_hash(self, url):# 计算URL的哈希值作为唯一标识url_hash = hashlib.sha1(url.encode()).hexdigest()return url_hash

在这个示例中,我们创建了一个名为MySpider的Spider类。在start_requests方法中,我们定义了一些示例URL,并使用get_url_hash方法计算URL的哈希值作为唯一标识。然后,我们使用Redis的sadd命令将唯一标识添加到名为url_hashes的HyperLogLog中。如果sadd命令返回1(表示添加成功),则说明这是一个新的URL,我们使用Scrapy的Request对象加入爬取队列;否则,我们将其标记为已经爬取过的重复URL。

parse方法中,我们处理返回的网页数据。

需要确保已经正确安装和配置了Redis,并确保Redis服务器正在运行。你可以根据实际情况修改Redis的连接参数,例如设置密码、指定IP地址等。

---------->案例,请勿当真,只是演示!!!

总结:

通过HyperLogLog,我们可以高效地估计一个大型数据集中不重复元素的数量,比如统计每天访问论坛的独立用户数量。它通过占用固定的内存空间,提供高度的近似精度,使得计数操作更加高效和可扩展。

相关文章:

向爬虫而生---Redis 基石篇6 <拓展HyperLogLog>

前言: 继续之前的 向爬虫而生---Redis 基石篇5 <拓展Zset>-CSDN博客 一些比较基础的redis类型在初中级阶段用着没有毛病,但是到了大数据时代,慢慢一些更高级的场景,就需要把这几个类型搬出来了! 正文: 概念: 当我们需要对一个大型数据集进行去重计…...

JavaScript中的this

在实际应用中,了解 this 的行为是非常重要的,特别是在编写库或框架时,或者当你需要在回调函数中访问特定的上下文时,通常推荐使用箭头函数或者其他方法来确保 this 的正确指向。 在ES6中,this 的值取决于它是如何被调用…...

宝塔php站点设置伪静态规则 访问 a.com 时候跳转到 a.com/b.html

要在宝塔 PHP 站点中设置伪静态规则,实现访问a.com时跳转到a.com/b.html,可以按照以下步骤进行操作: 打开宝塔面板并登录到你的服务器管理界面。进入网站设置页面,找到你要设置伪静态规则的 PHP 站点。在站点设置中,找…...

git介绍4.2

git(版本控制工具) 一、git 介绍 1、git是目前世界上最先进的分布式版本控制系统,可以有效,高速的处理从小到大的项目版本管理。 2、git是linux torvalds 为了帮助管理linux内核开发二开发的一个开放源码的版本控制软件。 3、git作用:更好…...

【深入了解设计模式】组合设计模式

组合设计模式 组合模式是一种结构型设计模式,它允许你将对象组合成树状结构来表现“整体-部分”关系。组合模式使得客户端可以统一对待单个对象和组合对象,从而使得代码更加灵活和易于扩展。 概述 ​ 对于这个图片肯定会非常熟悉,上图我们可…...

4.Java---方法+重载

方法 方法的调用是需要开辟内存的,方法调用结束内存就被销毁了. 下面将介绍一个经典的错误标准的0分的示意! 我们日常中写交换两个数字的代码的时候都会用如下的方法进行描述: 你是不是觉得自己写的特别对!终于可以独立写一个小小的函数了? 下面运行一下看看结果 哦莫!怎么…...

蓝桥杯Java B组历年真题(2013年-2021年)

一、2013年真题 1、世纪末的星期 使用日期类判断就行,这里使用LocalDate,也可以使用Calendar类 答案 2099 使用LocalDate import java.time.LocalDate; import java.time.format.DateTimeFormatter; // 1:无需package // 2: 类名必须Main, 不可修改p…...

C++笔记(五)--- 虚函数(virtual)

目录 虚函数介绍 虚函数、覆盖和重载区别 虚函数介绍 C的虚函数是多态性的表现 1.构造函数不能为虚函数2.子类继承时虚函数仍为虚函数3.虚函数类外实现时,不需要加virtual4.有虚函数的类,析构函数一定要写成虚函数(否则可能会造成内存泄漏&…...

编写加密程序,加密规则为:将所有字母转化为该字母后的第三个字母,即A->D、B->E

编写加密程序,加密规则为:将所有字母转化为该字母后的第三个字母,即A->D、B->E、C->F、…、Y->B、Z->C。小写字母同上,其他字符不做转化。输入任意字符串,输出加密后的结果。 例如:输入&qu…...

【笔记】:更方便的将一个List中的数据传入另一个List中,避免多重循环

这里是 simpleInfoList 集合&#xff0c;记为集合A&#xff08;传值对象&#xff09; List<CourseSimpleInfoDTO> simpleInfoList courseClient.getSimpleInfoList(courseIds);if(simpleInfoListnull){throw new BizIllegalException("当前课程不存在!");}这…...

Cisco Secure ACS 5.8.0.32 安装 + Crack 教程

Cisco Secure ACS 5.8.0.32 安装 Crack 教程 前言系统环境开始安装 开始破解导入授权文件 前言 在ESXi 6.7 上经历过无数次的安装尝试 测试了各种兼容版本都没有安装成功,记最后一次安装成功的过程. 系统环境 服务器 : Dell R720xd CPU : E5-2620 v2 系统 : ESXi 6.7…...

项目准备March

Nginx主要用来作为Http服务器&#xff0c;要实现Tomcat的负载均衡&#xff0c;就可以通过Nginx来实现。 正向代理代理的是客户端&#xff0c;反向代理代理的是服务端。SpringBoot采用约定优于配置的思想&#xff0c;简化Spring项目的配置开发。 前端请求其实并未直接发送到后…...

集智书童 | YOLO+混合注意力机制 | YOLOv5再加4.3%才可以做对手,Transformer混合设计依旧可以卷

本文来源公众号“集智书童”&#xff0c;侵权删&#xff0c;干货满满。YOLOv5重出江湖&#xff01; 原文链接&#xff1a;https://mp.weixin.qq.com/s/vb7HsA0fKDgRc3uC8Z-2yw 在工业生产过程中&#xff0c;由于低效率、不统一的评估、高成本以及缺乏实时数据&#xff0c;传统…...

Codeforces Round 894 (Div. 3)----->C. Flower City Fence

题目总思路&#xff1a; 要判断是否对称&#xff0c;只需要判断两个放法得到的图形是否相同&#xff08;竖着放&#xff0c;横着放&#xff09;&#xff0c;这两个放法有个很重要的特性&#xff1a;就是数组中大于1的个数&#xff0c;就是横着放时&#xff0c;第一竖排的高度。…...

CryoEM - CryoAI: Amortized Inference of Poses 工程源码复现

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://blog.csdn.net/caroline_wendy/article/details/136384544 Paper: CryoAI: Amortized Inference of Poses for Ab Initio Reconstruction of 3D Molecular Volumes from Real Cryo-EM Images CryoAI: 基于摊…...

项目预备知识

导入两个头文件 #include <graphics.h> // 引入 EasyX 的图形库头文件 #include <conio.h> // 引入 conio.h 以使用 getch() 窗口创建函数&#xff1a;小黑屏 initgraph(640, 480, SHOWCONSOLE); closegraph(); //关闭一个窗口 设置背景颜色&#xff1a;这…...

redis实战笔记汇总

文章目录 1 NoSQL入门概述1.1 能干嘛&#xff1f;1.2 传统RDBMS VS NOSQL1.3 NoSQL数据库的四大分类1.4 分布式数据库CAP原理 BASE原则1.5 分布式集群简介1.6 淘宝商品信息的存储方案 2 Redis入门概述2.1 是什么&#xff1f;2.2 能干嘛&#xff1f;2.3 怎么玩&#xff1f;核心…...

elment-ui table表格排序后 清除排序箭头/恢复默认排序 的高亮样式

问题描述&#xff1a; 1.默认排序是按照名称升序排列&#xff08;图一&#xff09; 2.在选择了筛选项以及其他排序方式之后&#xff0c;箭头高亮是这样的&#xff08;图二&#xff09; 3.当我点击清空按钮后&#xff0c;类型清空了&#xff0c;并且传给后端的排序方式是名称/升…...

MySQL数据库基本操作(二)

查询语句 1. 排序查询* 语法&#xff1a;order by 子句* order by 排序字段1 排序方式1 &#xff0c; 排序字段2 排序方式2... ​* 排序方式&#xff1a;* ASC&#xff1a;升序&#xff0c;默认的。* DESC&#xff1a;降序。 ​* 注意&#xff1a;* 如果有多个排序条件&#…...

Unity(第十部)时间函数和文件函数

时间函数 using System.Collections; using System.Collections.Generic; using UnityEngine;public class game : MonoBehaviour {// Start is called before the first frame updatefloat timer 0;void Start(){//游戏开始到现在所花的时间Debug.Log(Time.time);//时间缩放值…...

shell脚本--常见案例

1、自动备份文件或目录 2、批量重命名文件 3、查找并删除指定名称的文件&#xff1a; 4、批量删除文件 5、查找并替换文件内容 6、批量创建文件 7、创建文件夹并移动文件 8、在文件夹中查找文件...

NLP学习路线图(二十三):长短期记忆网络(LSTM)

在自然语言处理(NLP)领域,我们时刻面临着处理序列数据的核心挑战。无论是理解句子的结构、分析文本的情感,还是实现语言的翻译,都需要模型能够捕捉词语之间依时序产生的复杂依赖关系。传统的神经网络结构在处理这种序列依赖时显得力不从心,而循环神经网络(RNN) 曾被视为…...

MySQL中【正则表达式】用法

MySQL 中正则表达式通过 REGEXP 或 RLIKE 操作符实现&#xff08;两者等价&#xff09;&#xff0c;用于在 WHERE 子句中进行复杂的字符串模式匹配。以下是核心用法和示例&#xff1a; 一、基础语法 SELECT column_name FROM table_name WHERE column_name REGEXP pattern; …...

select、poll、epoll 与 Reactor 模式

在高并发网络编程领域&#xff0c;高效处理大量连接和 I/O 事件是系统性能的关键。select、poll、epoll 作为 I/O 多路复用技术的代表&#xff0c;以及基于它们实现的 Reactor 模式&#xff0c;为开发者提供了强大的工具。本文将深入探讨这些技术的底层原理、优缺点。​ 一、I…...

基于matlab策略迭代和值迭代法的动态规划

经典的基于策略迭代和值迭代法的动态规划matlab代码&#xff0c;实现机器人的最优运输 Dynamic-Programming-master/Environment.pdf , 104724 Dynamic-Programming-master/README.md , 506 Dynamic-Programming-master/generalizedPolicyIteration.m , 1970 Dynamic-Programm…...

html css js网页制作成品——HTML+CSS榴莲商城网页设计(4页)附源码

目录 一、&#x1f468;‍&#x1f393;网站题目 二、✍️网站描述 三、&#x1f4da;网站介绍 四、&#x1f310;网站效果 五、&#x1fa93; 代码实现 &#x1f9f1;HTML 六、&#x1f947; 如何让学习不再盲目 七、&#x1f381;更多干货 一、&#x1f468;‍&#x1f…...

九天毕昇深度学习平台 | 如何安装库?

pip install 库名 -i https://pypi.tuna.tsinghua.edu.cn/simple --user 举个例子&#xff1a; 报错 ModuleNotFoundError: No module named torch 那么我需要安装 torch pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple --user pip install 库名&#x…...

安宝特方案丨船舶智造的“AR+AI+作业标准化管理解决方案”(装配)

船舶制造装配管理现状&#xff1a;装配工作依赖人工经验&#xff0c;装配工人凭借长期实践积累的操作技巧完成零部件组装。企业通常制定了装配作业指导书&#xff0c;但在实际执行中&#xff0c;工人对指导书的理解和遵循程度参差不齐。 船舶装配过程中的挑战与需求 挑战 (1…...

MySQL 知识小结(一)

一、my.cnf配置详解 我们知道安装MySQL有两种方式来安装咱们的MySQL数据库&#xff0c;分别是二进制安装编译数据库或者使用三方yum来进行安装,第三方yum的安装相对于二进制压缩包的安装更快捷&#xff0c;但是文件存放起来数据比较冗余&#xff0c;用二进制能够更好管理咱们M…...

【从零学习JVM|第三篇】类的生命周期(高频面试题)

前言&#xff1a; 在Java编程中&#xff0c;类的生命周期是指类从被加载到内存中开始&#xff0c;到被卸载出内存为止的整个过程。了解类的生命周期对于理解Java程序的运行机制以及性能优化非常重要。本文会深入探寻类的生命周期&#xff0c;让读者对此有深刻印象。 目录 ​…...